- 
                基于hash计算的多层实验流量切分的实现1. 背景介绍 站点新功能或者是站内新策略开发完毕之后,在全流量上线之前要评估新功能或者新策略的优劣,常用的评估方法是A-B测试,做法是在全量中抽样出两份小流量,分别走新策略分支和旧策略分支,通过对比这两份流量下的各指标的差异,我们可以评估出…... 塵風 塵風
- 0
- 0
- 717
 
- 
                搜索引擎中的粒度问题一.前言 传统的搜索引擎的定义,是指一种对于指定的查询(Query),能够返回与之相关的文档集合(Documents)的系统。而百度将这个定义更加丰富化,即搜索引擎能够帮助人们更方便的找到所求。这里的“所求”,比“文档”更加宽泛和丰富,比如一个关于天气的查询,直接返回一个天气预报的窗口,而非一篇关于天气的文档;再如一个关于小游戏的查询,直接返回这个小游戏的Flash页面而非简单的介绍性的文字。 百…... 塵風 塵風
- 0
- 0
- 850
 
- 
                Boosting算法简介一、Boosting算法的发展历史 Boosting算法是一种把若干个分类器整合为一个分类器的方法,在boosting算法产生之前,还出现过两种比较重要的将多个分类器整合为一个分类器的方法,即boostrapping方法和bagging方法。我们先简要介绍一下bootstrapping方法和bagging方法。 1)bootstrapping方法的主要过程 主要步骤: i)重复地从…... 塵風 塵風
- 0
- 0
- 672
 
- 
                相似度计算常用方法综述引言 相似度计算用于衡量对象之间的相似程度,在数据挖掘、自然语言处理中是一个基础性计算。其中的关键技术主要是两个部分,对象的特征表示,特征集合之间的相似关系。在信息检索、网页判重、推荐系统等,都涉及到对象之间或者对象和对象集合的相似性的计算。而针对不同的应用场景,受限于数据规模、时空开销等的限制,相似度计算方法的选择又会有所…... 塵風 塵風
- 0
- 0
- 955
 
- 
                搜索背后的奥秘–浅谈语义主题计算摘要: 两篇文档是否相关往往不只决定于字面上的词语重复,还取决于文字背后的语义关联。对语义关联的挖掘,可以让我们的搜索更加智能化。本文着重介绍了一个语义挖掘的利器:主题模型。主题模型是对文字隐含主题进行建模的方法。它克服了传统信息检索中文档相似度计算方法的缺点,并且能够在海量互联网数据中自动寻找出文字间的语义主题。近些年来各大互联网公司都开始了这方面的探索和尝试。就让我们看一下究竟吧。 关键词:主…... 塵風 塵風
- 0
- 0
- 674
 
 分类描述:
                                    
                                                    
                            百度搜索研发部官方原介绍:百度搜索研发部官方博客(http://www.baidu-tech.com)由百度搜索研发部创建并维护。我们希望通过网络社区与关注搜索引擎及相关产品的技术人员交流互动,分享百度工程师研究的方向和取得的成果。
注:后貌似在2013年底关停。故而我在互联网中收集整理出部分和搜索引擎相关的内容转发出来,供大家查看。
这些内容对我们了解搜索引擎应该是极具价值的,尤其是当年(那时候我还没接触SEO呢),不过毕竟是时间很长的文章了,现在部分内容在百度资源平台的一些文档中也有提及。




