有消息称,百度近日的收录减少并不是规则调整,而是因为大量的硬件故障造成的。
搜讯网6月24日消息:近日,有多家网站反映在百度的信息收录下降,有消息传出,百度近日的收录减少并不是规则调整,而是因为大量的硬件故障造成的。据悉,在昨天凌晨进行的大更新中,大多数站点收录明显增加或返回近一个月时的水平。下面是摘录该用户的发帖内容。
22日下午,vermin一行20余人受广大站长委托,特意前往百度总部探访近日来百度收录减少的原因。 百度公关小组的张工程师热情接待并介绍了此次百度收录大幅度减少的原因。
会谈中,vermin对百度数据中心表示出浓厚的兴趣,张工程师对此作了重点介绍。
张工程师说,百度的数据中心主要有三大核心元素:baidu文件系统(BFS);baidu索引表(souyin Table:是baidu一种对于半结构化数据进行分布存储与访问的接口或服务);MapBeduce算法(它是baidu开发的C++编程工具,用于大于1TB数据的大规模数据集并行运算)。
而对索引数据影响最大的就是baidu文件系统。baidu文件系统处于这三个元素的最底层,它负责许多服务器、机器的数据存储工作。很多baidu文件系统的体积都异常庞大,有好几个petabyte规模(1 petabyte相当于1百万gigabytes)。
由于公司的服务器硬件设施跟不上baidu全球化战略的发展,已有200多个服务器集群上的baidu文件系统遭到损坏,其中很多集群内的上千台服务器使用的磁盘遭遇物理损坏,数据大量丢失,所以造成了对中文站的收录反反复复或是K站的现象。
阅读推荐
相关文章