-
智能算法在站点质量评级体系中的应用
互联网的迅速发展,海量Web数据的扑面而来,给搜索引擎技术带来了严峻的挑战,但同时也带来了新的机遇。从网页抓取的角度来看,同一站点往往包含质量相似的资源,对一个优质网站进行爬取,往往可以找到更多的优质资源。因此,我们希望对网站的质量进行评级,来反映资源的质量水平,从而影响spider的调度和收录。在以往的实践中,大体思路是根据人工调研出的经验构造出规则和阈值。发现问题后逐个打补丁、调阈值,来适应变…...- 塵風
- 0
- 0
- 341
-
搜索引擎中的粒度问题
一.前言 传统的搜索引擎的定义,是指一种对于指定的查询(Query),能够返回与之相关的文档集合(Documents)的系统。而百度将这个定义更加丰富化,即搜索引擎能够帮助人们更方便的找到所求。这里的“所求”,比“文档”更加宽泛和丰富,比如一个关于天气的查询,直接返回一个天气预报的窗口,而非一篇关于天气的文档;再如一个关于小游戏的查询,直接返回这个小游戏的Flash页面而非简单的介绍性的文字。 百…...- 塵風
- 0
- 0
- 549
-
Boosting算法简介
一、Boosting算法的发展历史 Boosting算法是一种把若干个分类器整合为一个分类器的方法,在boosting算法产生之前,还出现过两种比较重要的将多个分类器整合为一个分类器的方法,即boostrapping方法和bagging方法。我们先简要介绍一下bootstrapping方法和bagging方法。 1)bootstrapping方法的主要过程 主要步骤: i)重复地从…...- 塵風
- 0
- 0
- 486
-
地图检索 – 与众不同
前言: 半年前,和师弟在一起吃饭时,他忽然抬头,很好奇地问我:“为什么有了百度的大检索,百度地图还要自己做检索呢?”这个问题也一直伴随着我,后来有幸转入检索方向,不断摸索,也才有了这篇文章。 正文: 地图检索,顾名思义,是在地图里的检索。它与大检索大同小异,虽然在切词粒度、专名识别、拉链归并和rank等很多细节上与大检索有一定差异,然而真正让他与众不同、独具风采的,是地图领域所特有的空间位置信息。…...- 塵風
- 0
- 0
- 281
-
相似度计算常用方法综述
引言 相似度计算用于衡量对象之间的相似程度,在数据挖掘、自然语言处理中是一个基础性计算。其中的关键技术主要是两个部分,对象的特征表示,特征集合之间的相似关系。在信息检索、网页判重、推荐系统等,都涉及到对象之间或者对象和对象集合的相似性的计算。而针对不同的应用场景,受限于数据规模、时空开销等的限制,相似度计算方法的选择又会有所…...- 塵風
- 0
- 0
- 473
-
如何根据http请求信息区分访问用户的国家、语言信息
是不是见到google,facebook等大型专业网站的拥有不同的语言站群,可以不同语言间切换很给力?而我们只能羡慕嫉妒恨呢? 今天要介绍的就是如何识别不同国家,只需要简单几步,就能识别出来自不同国家的请求,使你的web应用更有国际范。 国家识别主要用到的是http header中的host,Accept-Language,cookie以及请求的url,ip等。 下面先温习下http header…...- 塵風
- 0
- 0
- 462
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!