全部标签

百度搜索研发部

分类描述：

百度搜索研发部官方原介绍：百度搜索研发部官方博客（http://www.baidu-tech.com）由百度搜索研发部创建并维护。我们希望通过网络社区与关注搜索引擎及相关产品的技术人员交流互动，分享百度工程师研究的方向和取得的成果。

注：后貌似在2013年底关停。故而我在互联网中收集整理出部分和搜索引擎相关的内容转发出来，供大家查看。

这些内容对我们了解搜索引擎应该是极具价值的，尤其是当年(那时候我还没接触SEO呢)，不过毕竟是时间很长的文章了，现在部分内容在百度资源平台的一些文档中也有提及。

最新随机最多浏览最多喜欢最多评论

分类：
SEO教程 SEO基础 SEO技巧 SEO服务 SEO话题 SEO资讯 SEO课程 SEO赚钱 SEO问答 HTML和SEO Python与SEO WordPress与SEO 百度官方内容百度搜索研发部百度搜索资源平台

百度搜索研发部百度官方内容

智能算法在站点质量评级体系中的应用

互联网的迅速发展，海量Web数据的扑面而来，给搜索引擎技术带来了严峻的挑战，但同时也带来了新的机遇。从网页抓取的角度来看，同一站点往往包含质量相似的资源，对一个优质网站进行爬取，往往可以找到更多的优质资源。因此，我们希望对网站的质量进行评级，来反映资源的质量水平，从而影响spider的调度和收录。在以往的实践中，大体思路是根据人工调研出的经验构造出规则和阈值。发现问题后逐个打补丁、调阈值，来适应变…...
- 塵風
- 22年6月28日
- 0
- 0
- 835
百度搜索研发部百度官方内容

一种基于flex的可视化多层流量切分界面的实现

1. 背景介绍策略开发人员在完成策略之后，在全流量上线之前要评估新的策略的优劣，常用的评估方法是A-B测试，做法是在全流量中抽样出两份小流量，分别走新策略分支和旧策略分支，通过对比这两份流量下的各指标的差异，我们可以评估出新策略的优劣，进而…...
- 塵風
- 22年6月28日
- 0
- 0
- 918
百度搜索研发部百度官方内容

浅谈网页搜索排序中的投票模型

前些天读了一本《选举的困境》，其中有一章，从美国的选举制度说起，介绍美国选举制度的不足，然后针对其不足，提出种种改善，然而每种改善都有其各自的问题，其中的变化很有趣。先说美国选举制度，美国的总统选举是一种“赢者通吃”的方式，每个州根据其人口多少，有几十或几百的“州票”，州里的人对总统候选人进行选举，在某个州获得票最多的那个候选人，获得这个州所有的“州票”，然…...
- 塵風
- 22年6月28日
- 0
- 0
- 682
百度搜索研发部百度官方内容

让搜索跨越语言的鸿沟——谈跨语言信息检索技术

跨语言信息检索，是信息检索领域中的一个研究课题。近10几年来，由于互联网的飞速发展，这方面的研究受到了学术界的广泛重视。将这项技术应用于搜索，可以帮助我们查找到更多的有用信息，例如外语相关页面、多语言页面以及语言无关的资源(如图片)等等。这些信息可以大大丰富搜索的结果，满足用户多样的需求。在跨语言信息检索的研究中，有一些研究成果已经趋于成熟，达到可以应用的状态。事实上，Yahoo和Google在5…...
- 塵風
- 22年6月28日
- 0
- 0
- 1k
百度搜索研发部百度官方内容

JavaScript解析：让搜索引擎看到更真实的网页

长期以来，站长们选择使用JavaScript来实现网页的动态行为，这样做的原因是多种多样的，如加快页面的响应速度、降低网站流量、隐藏链接或者嵌入广告等。由于早期的搜索引擎没有相应的处理能力，导致在索引这类网页上往往出现问题，可能无法收录有价值的资源，也可能出现作弊。引入JavaScript解析的目的，正是为了解决上述两方面的问题，其结果也就是使搜索引擎可以更为清晰的了解用户实际打开该网页时看到的…...
- 塵風
- 22年6月26日
- 0
- 0
- 783
百度搜索研发部百度官方内容

索引页链接补全机制的一种方法

背景 Spider位于搜索引擎数据流的最上游，负责将互联网上的资源采集到本地，提供给后续检索使用，是搜索引擎的最主要数据来源之一。spider系统的目标就是发现并抓取互联网中一切有价值的网页，为达到这个目标，首先就是发现有价值网页的链接，当前spider有多种链接发现机制来尽量快而全的发现资源链接，本文主要描述其中一种针对特定索引页的链接补全机制，并给出对这种特定类型的索引页面的建议处理规范用于优…...
- 塵風
- 22年6月26日
- 0
- 0
- 882
百度搜索研发部百度官方内容

若无云，岂有风——词语语义相似度计算简介

诸多事物都要受到其周边事物的影响，进而改变自身的形态，甚至确立自己的存在——云动，方知风的存在。反映在人的眼中，则是云赋予了风的含义：若无云，岂有风？ 0. 动机武林高手经常从山川之间顿悟，并由山川之形变化出上乘武艺。风云之间的飘渺互动，实则也为实打实的科学、工程实践提供了指引。风是客观存在的，而只有籍由云，我们才能观察到它。在技术领域的日常工作中，诸如此类的例子数不胜数。而在自然语言语义的研究…...
- 塵風
- 22年6月25日
- 0
- 0
- 985
百度搜索研发部百度官方内容

如何根据http请求信息区分访问用户的国家、语言信息

是不是见到google，facebook等大型专业网站的拥有不同的语言站群，可以不同语言间切换很给力？而我们只能羡慕嫉妒恨呢？今天要介绍的就是如何识别不同国家，只需要简单几步，就能识别出来自不同国家的请求，使你的web应用更有国际范。国家识别主要用到的是http header中的host，Accept-Language，cookie以及请求的url，ip等。下面先温习下http header…...
- 塵風
- 22年6月19日
- 0
- 0
- 1k
百度搜索研发部百度官方内容

地图检索 – 与众不同

前言：半年前，和师弟在一起吃饭时，他忽然抬头，很好奇地问我：“为什么有了百度的大检索，百度地图还要自己做检索呢？”这个问题也一直伴随着我，后来有幸转入检索方向，不断摸索，也才有了这篇文章。正文：地图检索，顾名思义，是在地图里的检索。它与大检索大同小异，虽然在切词粒度、专名识别、拉链归并和rank等很多细节上与大检索有一定差异，然而真正让他与众不同、独具风采的，是地图领域所特有的空间位置信息。…...
- 塵風
- 22年6月18日
- 0
- 0
- 550
百度搜索研发部百度官方内容

视频站收录浅析

随着网速的不断提高，人们通过互联网观看视频的需求正越来越大。互联网上的视频站和视频资源也在不断增加，人们经常需要借助搜索引擎来查找自己需要的视频。对视频资源的索引也相应地成为了搜索引擎的一个基本功能。而要提供对视频资源的良好索引需要首先做到对视频站点的足够好的收录。本文将对视频站的收录进行简单探讨。一、简述视频检索系统一种数据流图如下图所示。主要包括网页的抓取、网页上信息的抽取以及建立起索引…...
- 塵風
- 22年6月18日
- 0
- 0
- 702
百度搜索研发部百度官方内容

得用户者得天下

子曾经曰过，“得用户者得天下”！，搜索引擎的使命是帮助用户更便捷的获取信息，找到所求。所以，要做一个好的搜索引擎，至少需要做好三件事情，即理解用户意图、理解资源，以及做好这两者的匹配。通过传统的文本分析技术，比如TF-IDF、BM25等，可以很容易地把这些事情做到70分，但再往下做就越来越难。这时候，有聪明人发现，除了基本的文本之外，超链信息能够帮助我们更好的理解和匹配资源，于是就有了超链分析和…...
- 塵風
- 22年6月14日
- 0
- 0
- 795
百度搜索研发部百度官方内容

日志分析方法概述

日志在计算机系统中是一个非常广泛的概念，任何程序都有可能输出日志：操作系统内核、各种应用服务器等等。日志的内容、规模和用途也各不相同，很难一概而论。本文讨论的日志处理方法中的日志，仅指Web日志。其实并没有精确的定义，可能包括但不限于各种前端Web服务器——apache、lighttpd、tomcat等产生的用户访问日志，以及各种Web应用程序自己输出的日志。在Web日志中，每条日志通常代表着…...
- 塵風
- 22年6月7日
- 0
- 0
- 942
百度搜索研发部百度官方内容

搜索引擎如何实现用户图片检索的需求满足

一、什么是需求满足 1.1 什么是需求满足　　用户来搜索“章鱼保罗”，就文本相关性而言，搜索引擎只要返回和“章鱼保罗”内容相关的结果就可以了，这样用户是否满意呢？　　用户甲：听说章鱼帝挂了，来看看最新结果，怎么全是8月份的，往后翻页中…　　用户乙：今天同事们在讨论章鱼哥挂了，章鱼哥是啥？我又out了，来搜索一下章鱼帝生平事迹是啥，怎么全是最新的结果，没有章鱼哥的介绍啊，变换个query看看　…...
- 塵風
- 22年6月6日
- 0
- 0
- 704
百度搜索研发部百度官方内容

浅析视频搜索中的清晰度识别过程

一、综述　　随着互联网视频越来越多，人们迫切希望能够快速地从众多的视频中精准定位到一些高质量的视频。视频清晰度是评价视频质量的一个重要指标，特别是对于影视剧和动漫类视频来说，高清晰的视频能大大提升用户的体验。所以如何判断视频清晰度，识别出高清晰的视频对于用户和搜索引擎来说是非常有价值的。　　和大多数评价机制一样，视频清晰度分为相对清晰度和绝对清晰度。相对清晰度可以理解为视频之间的清晰度排序，而…...
- 塵風
- 22年6月6日
- 0
- 0
- 1.3k
百度搜索研发部百度官方内容

调研分享：Flipboard的使用特点和页面信息抽取机制

Flipboard是什么？封面封面　　标榜为“社会化杂志”，是ipad上的app应用，可以订阅twitter和facebook上的人、群组和话题，可以订阅flipboard（后面简称flip）指定的杂志类别，也可以订阅高质量的媒体站点，通过这些渠道，用户可以获得包括新闻、图片、视频、博客、微博等形式的数据，通过触屏点击进行预览、翻屏等操作，操作简单，内容组织图文并茂，类似于传统的杂志。内容…...
- 塵風
- 22年6月4日
- 0
- 0
- 1.3k
百度搜索研发部百度官方内容

语音搜索的基础-语音识别

一直在想，假如有一天我们生活中的机器人像在很多科幻电影里面看到的那样，能够理解人类的语言，并能完成与人类的自然对话，是多爽的事情。语音的研究一直在试图解决这个问题。例如，语音到文字，即通常所说的语音识别，就试图将语音转换为文字，然后交给计算机进行后续的理解；而文字到语音，即语音合成，则试图将文字转换为声音，让人类可以听到。也许通过全世界语音界的科研和工程人员的努力，在不久的将来，我们真的可以和机器…...
- 塵風
- 22年6月3日
- 0
- 0
- 602
百度搜索研发部百度官方内容

“分布式哈希”和“一致性哈希”的概念与算法实现

分布式哈希和一致性哈希是分布式存储和p2p网络中说的比较多的两个概念了。介绍的论文很多，这里做一个入门性质的介绍。　　分布式哈希(DHT)　　两个key point：每个节点只维护一部分路由；每个节点只存储一部分数据。从而实现整个网络中的寻址和存储。DHT只是一个概念，提出了这样一种网络模型。并且说明它是对分布式存储很有好处的。但具体怎么实现，并不是DHT的范畴。　　一致性哈希：　　DHT的一…...
- 塵風
- 22年6月3日
- 0
- 0
- 733
百度搜索研发部百度官方内容

基于hash计算的多层实验流量切分的实现

1. 背景介绍站点新功能或者是站内新策略开发完毕之后，在全流量上线之前要评估新功能或者新策略的优劣，常用的评估方法是A-B测试，做法是在全量中抽样出两份小流量，分别走新策略分支和旧策略分支，通过对比这两份流量下的各指标的差异，我们可以评估出…...
- 塵風
- 22年6月3日
- 0
- 0
- 940
百度搜索研发部百度官方内容

相似度计算常用方法综述

引言相似度计算用于衡量对象之间的相似程度，在数据挖掘、自然语言处理中是一个基础性计算。其中的关键技术主要是两个部分，对象的特征表示，特征集合之间的相似关系。在信息检索、网页判重、推荐系统等，都涉及到对象之间或者对象和对象集合的相似性的计算。而针对不同的应用场景，受限于数据规模、时空开销等的限制，相似度计算方法的选择又会有所…...
- 塵風
- 22年5月25日
- 0
- 0
- 1.2k
百度搜索研发部百度官方内容

Boosting算法简介

一、Boosting算法的发展历史　　Boosting算法是一种把若干个分类器整合为一个分类器的方法，在boosting算法产生之前，还出现过两种比较重要的将多个分类器整合为一个分类器的方法，即boostrapping方法和bagging方法。我们先简要介绍一下bootstrapping方法和bagging方法。　　1）bootstrapping方法的主要过程　　主要步骤：　　i)重复地从…...
- 塵風
- 22年5月25日
- 0
- 0
- 784

TOP1

谷歌浏览器(Google Chrome)各版本以及历史版本下载
23年8月22日
TOP2

Python爬虫报错：(Caused by SSLError(SSLEOFError(8, ‘EOF occurred in violation of protocol (_ssl.c:1129)’)))解决
22年6月26日
TOP3

命令（CMD）终端的清屏/清空命令/快捷键
22年8月21日
下/卸载鲁大师后浏览器主页被篡改为360导航的解决方法
22年12月11日
Windows10系统电脑日历添加节假日信息
22年7月30日
彻底禁止Windows10系统自动更新方法
22年10月4日

阿里云ECS服务99元/年-续费同价!!!
23年11月27日
不奋发，则心日颓靡，不检束，则心日恣肆。
21年11月15日
企业网站现在做SEO还值得吗
22年1月26日
SEO如何为网站选择合适的关键词？
22年1月29日
网站TDK是什么意思
21年10月25日
ChatGPT级别的AI会消灭SEO吗？
23年4月8日

❯

解锁会员权限

个人中心

购物车

优惠劵

今日签到

有新私信私信列表

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

查看所有

我的优惠劵

_￥_优惠劵

使用时效：无法使用

使用时效：
之前

使用时效：永久有效

优惠劵ID：
×

限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]

所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×

删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部