本期的QClub活动暨百度技术沙龙第五期主题确定为“走进搜索核心技术”。对于普罗大众尤其是技术人员来说,搜索引擎的出现很大程度上改变了我们的生活和工作习惯。生活中遇到什么问题,先百度一下,工作中遇到什么困难,再Google一下,大大节约了我们的时间。对于稍有规模的网站,特别是面向特定人群的垂直网站,提供搜索功能也是一个必选项,比如豆瓣网和旅游资讯垂直网站去哪儿等。
搜索技术已经不是秘密,但是却也远未到取得一个搜索引擎源代码后,就能立刻、马上应用得很好。这次技术交流活动我们有幸邀请了来自百度搜索技术部的研究员殷庆轩和去哪儿网站的搜索技术负责人何伟平,请他们带我们一起走进搜索的核心技术,来探讨如何让搜索结果更具时效性,以及数据库技术在现代搜索技术中的应用。
演讲嘉宾及主题
嘉宾简介:殷庆轩
百度搜索技术部研究员,2007年从清华大学获硕士学位后加入百度,从事网页搜索相关性改进方面的工作。目前负责网页搜索的时效性、需求满足多样性、阿拉丁相关性这几方面的工作。
演讲主题:走进搜索核心技术——时效性
主要内容:“全、准、快、新”是搜索引擎的四大评价指标,其中的“新”指代的就是时效性。随着互联网的发展,网民对信息获取的时效性要求越来越高。同时越来越多的网民更多的参与到创造互联网内容中去,互联网上的新信息也在迅速的膨胀。这都给搜索引擎时效性需求的满足带来了前所未有的冲击。
本次沙龙希望与大家交流一下,百度在提升搜索引擎时效性上面,是怎样考虑的。演讲者会从用户的时效性需求出发,逐步分析为了满足这样的需求,搜索引擎需要做哪些应对和改变,并解释时效性改进方面的难点。演讲的内容,也会体现出百度工程师,他们在做什么事情,以及是怎么做事情的。
嘉宾简介:何伟平
PostgreSQL数据库研究人员和中文文档维护人员,Perl 编程第三版译者,Linux 集群管理员及数据库研究人员和软件开发人员。Qunar工程师和搜索技术负责人。
演讲主题:数据库在现代搜索技术中的应用
主要内容:搜索引擎搜索质量与分层以及数据库在现代搜索技术中的应用。搜索引擎有量和速度之间的平衡,如何利用分层的机制实现速度与总量的平衡。传统数据库在处理关系型数据之外,如何在 NoSQL的大潮中看待传统数据库技术?
百度索引中提供检索的数据只有百亿条,而现在每天增加的数据量已是2-3亿条,现在每一天增加的数据量是2003年一年数据的增长量。对于如此强势的增长,要对数据进行全部索引并在200-300个毫秒级返回检索结果几乎是不可能的,所以就要对数据进行优化。
数据是有时效性的,索引可以为分最新最常使用的、不常使用的、很少使用的和很老又不用的等。所以可以多几个索引库,并对数据进行整理,对于时效性不强的可以向后面的索引里转移,检索时对这几个索引并发检索,最后将结果合并后返回用户。对于不用的数据只是一个保存,而不提供检索,或是在检索结果很少的情况下,再多增加一个链接"点击查看更多",点击后就去查找老而全的库。虽然返回时间可能会很长,但是用户体验的感受是不会降低的。