-
让搜索跨越语言的鸿沟——谈跨语言信息检索技术
跨语言信息检索,是信息检索领域中的一个研究课题。近10几年来,由于互联网的飞速发展,这方面的研究受到了学术界的广泛重视。将这项技术应用于搜索,可以帮助我们查找到更多的有用信息,例如外语相关页面、多语言页面以及语言无关的资源(如图片)等等。这些信息可以大大丰富搜索的结果,满足用户多样的需求。在跨语言信息检索的研究中,有一些研究成果已经趋于成熟,达到可以应用的状态。事实上,Yahoo和Google在5…...- 塵風
- 0
- 0
- 587
-
A标签属性rel=”ugc”介绍
rel="ugc"是由Google在2019年引进的新链接属性。于此同时还引进了rel="sponsored"。这两个属性通常是作用于SEO,来帮助搜索引擎了解链接的性质。 对应解析(作用) rel="ugc" UGC代表用户生成的内容,建议将ugc属性值用于用户生成的内容内的链接,例如评论和论坛帖子。 rel =”sponsored” …...- 塵風
- 0
- 0
- 568
-
搜索引擎中的粒度问题
一.前言 传统的搜索引擎的定义,是指一种对于指定的查询(Query),能够返回与之相关的文档集合(Documents)的系统。而百度将这个定义更加丰富化,即搜索引擎能够帮助人们更方便的找到所求。这里的“所求”,比“文档”更加宽泛和丰富,比如一个关于天气的查询,直接返回一个天气预报的窗口,而非一篇关于天气的文档;再如一个关于小游戏的查询,直接返回这个小游戏的Flash页面而非简单的介绍性的文字。 百…...- 塵風
- 0
- 0
- 549
-
Robots Meta标签
什么是Robots meta标签 Robots.txt文件主要是限制整个站点或者目录的搜索引擎访问情况,而Robots Meta标签则主要是针对一个个具体的页面。 关于robots.txt文件的详解介绍,可以点击这里了解:robots协议文件作用以及写法详解。 和其他的 META标签(如使用的语言、页面的描述、关键词等)一样,Robots Meta标签也是放在页面中,专门用来告诉搜索引擎ROBOT…...- 塵風
- 0
- 0
- 545
-
Nofollow标签是什么意思?属性、作用和写法?
nofollow 是HTML页面中a标签的属性值。这个标签的意义是告诉搜索引擎"不要追踪此网页上的链接或不要追踪此特定链接"。 nofollow是HTML页面中a标签的属性值。它的出现为网站管理员提供了一种方式,即告诉搜索引擎"不要追踪此网页上的链接"或"不要追踪此特定链接"。这个标签的意义是告诉搜索引擎这个链接不是经过作者信任的,所以这…...- 塵風
- 0
- 0
- 518
-
为什么很多企业做不好SEO?
为什么很多企业做不好SEO?这里说的:“很多企业”,主要指的就是对少数或者几个关键词有针对性的优化需求,然后委托第三方进行优化的。 遇到有不少朋友都做过SEO,或者说是找网络公司做过SEO吧,但是效果往往都是挺差强人意的。 一:遇到一些竞争相对来说比较大的词往往比较难上去。 二:或者说上去了也没有多少效果。 这其中的原因肯定是多方面的因素的,而不是绝对的,不过下面就根据这几个点,说下我比较常遇到的…...- 塵風
- 0
- 0
- 512
-
浅析视频搜索中的清晰度识别过程
一、综述 随着互联网视频越来越多,人们迫切希望能够快速地从众多的视频中精准定位到一些高质量的视频。视频清晰度是评价视频质量的一个重要指标,特别是对于影视剧和动漫类视频来说,高清晰的视频能大大提升用户的体验。所以如何判断视频清晰度,识别出高清晰的视频对于用户和搜索引擎来说是非常有价值的。 和大多数评价机制一样,视频清晰度分为相对清晰度和绝对清晰度。相对清晰度可以理解为视频之间的清晰度排序,而…...- 塵風
- 0
- 0
- 506
-
Boosting算法简介
一、Boosting算法的发展历史 Boosting算法是一种把若干个分类器整合为一个分类器的方法,在boosting算法产生之前,还出现过两种比较重要的将多个分类器整合为一个分类器的方法,即boostrapping方法和bagging方法。我们先简要介绍一下bootstrapping方法和bagging方法。 1)bootstrapping方法的主要过程 主要步骤: i)重复地从…...- 塵風
- 0
- 0
- 488
-
相似度计算常用方法综述
引言 相似度计算用于衡量对象之间的相似程度,在数据挖掘、自然语言处理中是一个基础性计算。其中的关键技术主要是两个部分,对象的特征表示,特征集合之间的相似关系。在信息检索、网页判重、推荐系统等,都涉及到对象之间或者对象和对象集合的相似性的计算。而针对不同的应用场景,受限于数据规模、时空开销等的限制,相似度计算方法的选择又会有所…...- 塵風
- 0
- 0
- 473
-
如何根据http请求信息区分访问用户的国家、语言信息
是不是见到google,facebook等大型专业网站的拥有不同的语言站群,可以不同语言间切换很给力?而我们只能羡慕嫉妒恨呢? 今天要介绍的就是如何识别不同国家,只需要简单几步,就能识别出来自不同国家的请求,使你的web应用更有国际范。 国家识别主要用到的是http header中的host,Accept-Language,cookie以及请求的url,ip等。 下面先温习下http header…...- 塵風
- 0
- 0
- 462
-
做SEO注册域名应该怎样选?
做SEO应该注册怎样的域名? 我们先来说域名的后缀 首先是后缀,域名后缀我们通常建议选择常见后缀: 目前com最优先选择,没有之一。(域名交易市场来说,com也是最值钱的,同样的名称,com后缀的域名可能价值很高,其他后缀(包括其他常见后缀,可能价值就很低了)。 其次选择:cn、net、org、cc、com.cn org域名目前国内无法备案,所以新站点个人认为org域名目前做国内SEO请慎选(目前…...- 塵風
- 0
- 0
- 441
-
网站备案对SEO的影响
理论上来说,备案不备案的都是不会有影响的。 但是实际上国内政策或者各方面特殊原因还是建议备案会让站点的收录比较友好。我这边实测,手上有的不备案的新站点,甚至几个月首页都不收录,IP和域名都没问题) 并且网上之前还有其他信息传出: 之前有搜狗搜索部门辞职的工程师内部消息传出,工信部疑似要求所有搜索引擎,对未备案的网站人为降低抓取率。 根据搜狗的工程师透露,提到新站收录难的三个原因: 第一、域名后缀因…...- 塵風
- 0
- 0
- 438
-
“分布式哈希”和“一致性哈希”的概念与算法实现
分布式哈希和一致性哈希是分布式存储和p2p网络中说的比较多的两个概念了。介绍的论文很多,这里做一个入门性质的介绍。 分布式哈希(DHT) 两个key point:每个节点只维护一部分路由;每个节点只存储一部分数据。从而实现整个网络中的寻址和存储。DHT只是一个概念,提出了这样一种网络模型。并且说明它是对分布式存储很有好处的。但具体怎么实现,并不是DHT的范畴。 一致性哈希: DHT的一…...- 塵風
- 0
- 0
- 419
-
SEO技巧:外链发布自动增长小技巧
外链对于SEO的角度来说,重要程度不言而喻。早些年还有:“外链为皇,内容为王”的说法,虽然现在随着搜索引擎算法的升级,外链对排名的权重占比已经不是那么明显了,但是外链的作用依然很大。 下面我们进入主题:两个外链自动增长小技巧 一:利用采集站 在SEO圈子,采集是司空见惯的事情,很多人都会选择优秀作者的网站和公众号去采集内容然后发布到自己的网站。 那么我们就可以利用这些采集站来为我们增加外链。 如果…...- 塵風
- 0
- 0
- 419
-
搜索背后的奥秘–浅谈语义主题计算
摘要: 两篇文档是否相关往往不只决定于字面上的词语重复,还取决于文字背后的语义关联。对语义关联的挖掘,可以让我们的搜索更加智能化。本文着重介绍了一个语义挖掘的利器:主题模型。主题模型是对文字隐含主题进行建模的方法。它克服了传统信息检索中文档相似度计算方法的缺点,并且能够在海量互联网数据中自动寻找出文字间的语义主题。近些年来各大互联网公司都开始了这方面的探索和尝试。就让我们看一下究竟吧。 关键词:主…...- 塵風
- 0
- 0
- 400
-
搜索引擎如何实现用户图片检索的需求满足
一、什么是需求满足 1.1 什么是需求满足 用户来搜索“章鱼 保罗”,就文本相关性而言,搜索引擎只要返回和“章鱼 保罗”内容相关的结果就可以了,这样用户是否满意呢? 用户甲:听说章鱼帝挂了,来看看最新结果,怎么全是8月份的,往后翻页中… 用户乙:今天同事们在讨论章鱼哥挂了,章鱼哥是啥?我又out了,来搜索一下章鱼帝生平事迹是啥,怎么全是最新的结果,没有章鱼哥的介绍啊,变换个query看看 …...- 塵風
- 0
- 0
- 396
-
索引页链接补全机制的一种方法
背景 Spider位于搜索引擎数据流的最上游,负责将互联网上的资源采集到本地,提供给后续检索使用,是搜索引擎的最主要数据来源之一。spider系统的目标就是发现并抓取互联网中一切有价值的网页,为达到这个目标,首先就是发现有价值网页的链接,当前spider有多种链接发现机制来尽量快而全的发现资源链接,本文主要描述其中一种针对特定索引页的链接补全机制,并给出对这种特定类型的索引页面的建议处理规范用于优…...- 塵風
- 0
- 0
- 376