百度新搜索升级,Baidu Spider3.0都有哪些功能

发布时间:2018-03-17 18:09:28
百度新搜索升级,Baidu Spider3.0都有哪些功能

QQ截图20160624090053.png
  Baidu Spider上一次升级还要追溯到2010年。

那个时候,中国互联网资源急剧扩张,从百亿扩大到千亿规模,因而spider系统进行了重构,从单机互联转变为分布式计算系统。

但是有一个很大的缺点:延时严重!

而此次重构是把当前离线、全量计算为主的系统,改造成实时、增量计算的全实时调度系统,万亿规模的数据进行实时读写,可以收录90%的网页,速度提升80%!

一张图以蔽之:

QQ截图20160624090045.png
  一、链接发现方面

如今sipder每天发现的新链接在500亿左右的量级,而在百度站长平台提交链接是其中最为高效的,特此,工程师提醒站长不要过度提交链接,尤其是低质链接,这样才能达到更好更及时的收录效果。

二、链接抓取方面

策略上,开发了更强大的机器学习模型,来进行链接的质量预测,对库中所有的链接进行全局排序,对有价值链接的召回率提高95%!

架构上,计算性能的强劲提升,对每天新增的数百亿模块的链接,完成实时计算,延时不到1秒;开发了更强大的存储系统,面对万亿规模的数据做到实时读写。

三、时效性页面方面

中长尾站的福音!针对时效性资源,从原来的优先对新浪、网易等大新闻站进行抓取,扩大到覆盖全网的新闻、博客、论坛等站点进行快速抓取,大小站都能优待。

打破老的平稳抓取模型,采用按需抓取机制,对有时效性新资源,做到秒级抓取。

目前,每天收录的时效性资源规模,扩大到原来的3倍,达到近1亿量级!

四、死链方面

全新的死链识别模型,能识别各种协议死链、内容死链、跳转死链等低质网页。

其中无效低质网页(如被黑),通过百度站长平台提交,可加快检索屏蔽的过程。

五、建库方面

索引展现时效性提升,原来是10天左右,现在提升40%~80%不等!

百度新搜索升级 百度以用户体验为中心【版权与免责声明】如发现内容存在版权问题,烦请提供相关信息发邮件至[email protected],我们将及时沟通与处理。本站内容除非来源注明188推论坛(www.seopz.com),否则均为网友转载,涉及言论、版权与本站无关。

企业建站2800元起,携手武汉肥猫科技,做一个有见地的颜值派!更多优惠请戳:上海网站制作 http://www.flpsz.com

上一篇:20170426-1
下一篇:最后一页

友情链接

独家出品

新闻由机器选取每5分钟自动更新

新闻搜索源于互联网新闻网站和频道,系自动分类排列,本站不刊登或转载任何完整的新闻内容