-
智能算法在站点质量评级体系中的应用
互联网的迅速发展,海量Web数据的扑面而来,给搜索引擎技术带来了严峻的挑战,但同时也带来了新的机遇。从网页抓取的角度来看,同一站点往往包含质量相似的资源,对一个优质网站进行爬取,往往可以找到更多的优质资源。因此,我们希望对网站的质量进行评级,来反映资源的质量水平,从而影响spider的调度和收录。在以往的实践中,大体思路是根据人工调研出的经验构造出规则和阈值。发现问题后逐个打补丁、调阈值,来适应变…...
塵風- 0
- 0
- 735
-
搜索引擎如何实现用户图片检索的需求满足
一、什么是需求满足 1.1 什么是需求满足 用户来搜索“章鱼 保罗”,就文本相关性而言,搜索引擎只要返回和“章鱼 保罗”内容相关的结果就可以了,这样用户是否满意呢? 用户甲:听说章鱼帝挂了,来看看最新结果,怎么全是8月份的,往后翻页中… 用户乙:今天同事们在讨论章鱼哥挂了,章鱼哥是啥?我又out了,来搜索一下章鱼帝生平事迹是啥,怎么全是最新的结果,没有章鱼哥的介绍啊,变换个query看看 …...
塵風- 0
- 0
- 578
-
调研分享:Flipboard的使用特点和页面信息抽取机制
Flipboard是什么? 封面 封面 标榜为“社会化杂志”,是ipad上的app应用,可以订阅twitter和facebook上的人、群组和话题,可以订阅flipboard(后面简称flip)指定的杂志类别,也可以订阅高质量的媒体站点,通过这些渠道,用户可以获得包括新闻、图片、视频、博客、微博等形式的数据,通过触屏点击进行预览、翻屏等操作,操作简单,内容组织图文并茂,类似于传统的杂志。 内容…...
塵風- 0
- 0
- 1.1k
-
百度搜索引擎网页质量白皮书
内容来源:百度资源资源平台 原文地址:百度搜索引擎网页质量白皮书_搜索学堂_百度搜索资源平台 原文发布日期:2019-09-18 网页质量是一个网页满足用户需求能力的衡量,是搜索引擎确定结果排序的重要依据。在网页资源内容与用户需求有相关性的基础上,内容是否完整、页面是否美观、对用户是否友好、来源是否权威专业等因素,共同决定着网页质量的高低。 对于搜索引擎来说,给用户呈现的网页质量直接影响了最终的搜…...
塵風- 0
- 0
- 1.3k
-
以求医为例谈搜索引擎排序算法的基础原理
我们向搜索引擎提交一个查询,搜索引擎会从先到后列出大量的结果,这些结果排序的标准是什么呢?这个看似简单的问题,却是信息检索专家们研究的核心难题之一。 为了说明这个问题,我们来研究一个比搜索引擎更加古老的话题:求医。比如,如果我牙疼,应该去看怎样的医生呢?假设我只有三种选择: A医生,既治眼病,又治胃病;B医生,既治牙病,又治胃病,还治眼病;C医生,专治牙病。 A医生肯定不在考虑之列。B医生和C医生…...
塵風- 0
- 0
- 587
-
如何根据http请求信息区分访问用户的国家、语言信息
是不是见到google,facebook等大型专业网站的拥有不同的语言站群,可以不同语言间切换很给力?而我们只能羡慕嫉妒恨呢? 今天要介绍的就是如何识别不同国家,只需要简单几步,就能识别出来自不同国家的请求,使你的web应用更有国际范。 国家识别主要用到的是http header中的host,Accept-Language,cookie以及请求的url,ip等。 下面先温习下http header…...
塵風- 0
- 0
- 851






