全部标签

百度搜索研发部

分类描述：

百度搜索研发部官方原介绍：百度搜索研发部官方博客（http://www.baidu-tech.com）由百度搜索研发部创建并维护。我们希望通过网络社区与关注搜索引擎及相关产品的技术人员交流互动，分享百度工程师研究的方向和取得的成果。

注：后貌似在2013年底关停。故而我在互联网中收集整理出部分和搜索引擎相关的内容转发出来，供大家查看。

这些内容对我们了解搜索引擎应该是极具价值的，尤其是当年(那时候我还没接触SEO呢)，不过毕竟是时间很长的文章了，现在部分内容在百度资源平台的一些文档中也有提及。

最新随机最多浏览最多喜欢最多评论

分类：
SEO教程 SEO基础 SEO技巧 SEO服务 SEO话题 SEO资讯 SEO课程 SEO赚钱 SEO问答 HTML和SEO Python与SEO WordPress与SEO 百度官方内容百度搜索研发部百度搜索资源平台

百度搜索研发部百度官方内容

“分布式哈希”和“一致性哈希”的概念与算法实现

分布式哈希和一致性哈希是分布式存储和p2p网络中说的比较多的两个概念了。介绍的论文很多，这里做一个入门性质的介绍。　　分布式哈希(DHT)　　两个key point：每个节点只维护一部分路由；每个节点只存储一部分数据。从而实现整个网络中的寻址和存储。DHT只是一个概念，提出了这样一种网络模型。并且说明它是对分布式存储很有好处的。但具体怎么实现，并不是DHT的范畴。　　一致性哈希：　　DHT的一…...
- 塵風
- 22年6月3日
- 0
- 0
- 649
百度搜索研发部百度官方内容

索引页链接补全机制的一种方法

背景 Spider位于搜索引擎数据流的最上游，负责将互联网上的资源采集到本地，提供给后续检索使用，是搜索引擎的最主要数据来源之一。spider系统的目标就是发现并抓取互联网中一切有价值的网页，为达到这个目标，首先就是发现有价值网页的链接，当前spider有多种链接发现机制来尽量快而全的发现资源链接，本文主要描述其中一种针对特定索引页的链接补全机制，并给出对这种特定类型的索引页面的建议处理规范用于优…...
- 塵風
- 22年6月26日
- 0
- 0
- 732
百度搜索研发部百度官方内容

以求医为例谈搜索引擎排序算法的基础原理

我们向搜索引擎提交一个查询，搜索引擎会从先到后列出大量的结果，这些结果排序的标准是什么呢？这个看似简单的问题，却是信息检索专家们研究的核心难题之一。为了说明这个问题，我们来研究一个比搜索引擎更加古老的话题：求医。比如，如果我牙疼，应该去看怎样的医生呢？假设我只有三种选择： A医生，既治眼病，又治胃病；B医生，既治牙病，又治胃病，还治眼病；C医生，专治牙病。 A医生肯定不在考虑之列。B医生和C医生…...
- 塵風
- 22年5月25日
- 0
- 0
- 587
百度搜索研发部百度官方内容

语音搜索的基础-语音识别

一直在想，假如有一天我们生活中的机器人像在很多科幻电影里面看到的那样，能够理解人类的语言，并能完成与人类的自然对话，是多爽的事情。语音的研究一直在试图解决这个问题。例如，语音到文字，即通常所说的语音识别，就试图将语音转换为文字，然后交给计算机进行后续的理解；而文字到语音，即语音合成，则试图将文字转换为声音，让人类可以听到。也许通过全世界语音界的科研和工程人员的努力，在不久的将来，我们真的可以和机器…...
- 塵風
- 22年6月3日
- 0
- 0
- 490
百度搜索研发部百度官方内容

JavaScript解析：让搜索引擎看到更真实的网页

长期以来，站长们选择使用JavaScript来实现网页的动态行为，这样做的原因是多种多样的，如加快页面的响应速度、降低网站流量、隐藏链接或者嵌入广告等。由于早期的搜索引擎没有相应的处理能力，导致在索引这类网页上往往出现问题，可能无法收录有价值的资源，也可能出现作弊。引入JavaScript解析的目的，正是为了解决上述两方面的问题，其结果也就是使搜索引擎可以更为清晰的了解用户实际打开该网页时看到的…...
- 塵風
- 22年6月26日
- 0
- 0
- 654
百度搜索研发部百度官方内容

搜索背后的奥秘–浅谈语义主题计算

摘要: 两篇文档是否相关往往不只决定于字面上的词语重复，还取决于文字背后的语义关联。对语义关联的挖掘，可以让我们的搜索更加智能化。本文着重介绍了一个语义挖掘的利器:主题模型。主题模型是对文字隐含主题进行建模的方法。它克服了传统信息检索中文档相似度计算方法的缺点，并且能够在海量互联网数据中自动寻找出文字间的语义主题。近些年来各大互联网公司都开始了这方面的探索和尝试。就让我们看一下究竟吧。关键词:主…...
- 塵風
- 22年5月25日
- 0
- 0
- 745
百度搜索研发部百度官方内容

调研分享：Flipboard的使用特点和页面信息抽取机制

Flipboard是什么？封面封面　　标榜为“社会化杂志”，是ipad上的app应用，可以订阅twitter和facebook上的人、群组和话题，可以订阅flipboard（后面简称flip）指定的杂志类别，也可以订阅高质量的媒体站点，通过这些渠道，用户可以获得包括新闻、图片、视频、博客、微博等形式的数据，通过触屏点击进行预览、翻屏等操作，操作简单，内容组织图文并茂，类似于传统的杂志。内容…...
- 塵風
- 22年6月4日
- 0
- 0
- 1.1k

TOP1

谷歌浏览器(Google Chrome)各版本以及历史版本下载
23年8月22日
TOP2

Python爬虫报错：(Caused by SSLError(SSLEOFError(8, ‘EOF occurred in violation of protocol (_ssl.c:1129)’)))解决
22年6月26日
TOP3

命令（CMD）终端的清屏/清空命令/快捷键
22年8月21日
下/卸载鲁大师后浏览器主页被篡改为360导航的解决方法
22年12月11日
Windows10系统电脑日历添加节假日信息
22年7月30日
python错误: Object of type * is not JSON serializable解决
22年12月10日

网站日志分析工具推荐
22年1月12日
网站备案注销备案及注意事项
23年2月23日
杨绛 – 少年贪玩，青年迷恋爱情，壮年汲汲于成名成家，暮年自安于自欺欺人。人寿几何，顽铁能炼成的精金，能有多少?但不同程度的锻炼，必有不同程度的成绩;不同程度的纵欲放肆，必积下不同程度的顽劣。
21年11月16日
CloudFlare免费cdn教程
21年12月6日
WordPress批量修改文章分类
23年10月28日
WordPress重新生成缩略图插件推荐：Regenerate Thumbnails
24年1月4日

❯

解锁会员权限

个人中心

购物车

优惠劵

今日签到

有新私信私信列表

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

查看所有

我的优惠劵

_￥_优惠劵

使用时效：无法使用

使用时效：
之前

使用时效：永久有效

优惠劵ID：
×

限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]

所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×

删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部

{{userData.name}}已认证

百度搜索研发部

“分布式哈希”和“一致性哈希”的概念与算法实现

索引页链接补全机制的一种方法

以求医为例谈搜索引擎排序算法的基础原理

语音搜索的基础-语音识别

JavaScript解析：让搜索引擎看到更真实的网页

搜索背后的奥秘–浅谈语义主题计算

调研分享：Flipboard的使用特点和页面信息抽取机制

谷歌浏览器(Google Chrome)各版本以及历史版本下载

Python爬虫报错：(Caused by SSLError(SSLEOFError(8, ‘EOF occurred in violation of protocol (_ssl.c:1129)’)))解决

命令（CMD）终端的清屏/清空命令/快捷键

下/卸载鲁大师后浏览器主页被篡改为360导航的解决方法

Windows10系统电脑日历添加节假日信息

python错误: Object of type * is not JSON serializable解决

网站日志分析工具推荐

网站备案注销备案及注意事项

杨绛 – 少年贪玩，青年迷恋爱情，壮年汲汲于成名成家，暮年自安于自欺欺人。人寿几何，顽铁能炼成的精金，能有多少?但不同程度的锻炼，必有不同程度的成绩;不同程度的纵欲放肆，必积下不同程度的顽劣。

CloudFlare免费cdn教程

WordPress批量修改文章分类

WordPress重新生成缩略图插件推荐：Regenerate Thumbnails