[转帖]垂直搜索动了谁的奶酪 系列(一)
本文同时发表在: http://doudou.blog.jobmet.com/
近来,垂直搜索越来越受到同行和媒体的关注,随着kooxoo.com、jobmet.com、globehr.com等垂直搜索网站的兴起,人们开始考虑到底垂直搜索到底是什么?模式是什么?和信息发布网站是否构成威胁?是否最终有出路等等问题。本人作为在自然语言处理和信息检索领域摸爬滚打多年的技术人员,对垂直搜索有一些自己的见解,现在把它拿出来和大家分享。
首先,我想需要说明的是:什么是垂直搜索?垂直搜索引擎是针对于像google和baidu这样的全网网页搜索
引擎而言的。这种搜索引擎是针对某一个领域的内容进行搜索。以个人之见,垂直搜索和开放式搜索的相同点主要有以下几个:
1.都是解决用户从海量信息中找到自己想要信息的目的;
2.基本技术都是信息检索;
3.对中文语言而言,都需要中文分词等关键技术;
4.都需要spider获取外部信息;
垂直搜索和开放式网页搜索的不同点主要有
1.产生的背景不同:开发网页搜索的产生背景是因为互联网上的网页太多,用户无法找到自己想要的网页,而垂直搜索的产生是因为两个原因:第一,用户从开放式的网页搜索中想要找到自己想要的某一个特定领域的信息时,需要花费大量的时间。例如,对于求职而言,如果用户在google中输入“java开发”,得到的结果都是讲java开发技巧的,要想看到关于“java开发”的职位,需要用不断的翻页;垂直搜索产生的第二个原因是,领域性网站数量的日益增多,拿招聘来说,现在国内的招聘网站可以说是几百家,除了51job、chinahr、zhaopin这样的门户之外,各地还有自己的招聘门户,因此,用户想要得到全面的招聘信息,就需要一个网站一个网站打开去看,耗时耗力!
2.受限领域:垂直搜索一定是针对用户在某一个方面的需求,专门搜索该方面的内容,例如:房地产搜索、汽车搜索、招聘搜索。。。。。。
3.定向spider:垂直搜索所用的spider和google、baidu所用的spider并不一样,当然开发的基本思想是一样的。只是垂直搜索的spider是针对已经收集好的website list进行爬取
4.信息抽取:垂直搜索中一项很关键技术就是信息抽取(IE:Information Extraction).网页搜索引擎(google)是针对去掉广告内容后的整个网页内容进行索引,然后呈现给用户的也是一个网页。而垂直搜索往往需要对爬下来网页中的部分内容进行索引,同时呈现给用户的也是经过抽取整理后的内容,而不是一个简单的summary加上网页链接。
5.排序技术:通常我们所知道的排序都是PR(page rank),google有google的pr技术,baidu有baidu的pr技术,但基本思想就是做网页的链接分析:包含一个关键词的网页有10万个,那到底哪个该排在第一个。网页搜索引擎通常都是分析一个网页中链接了多少个其它的网页,加上其它网页链接到这个网页有多少个,再加上更新时间,然后做一个数学运算得到最后的排序权值。垂直搜索的排序就和机遇链接分析的方法大不相同。链接分析的pr方法,需要爬取海量的网页信息,而垂直搜索并没有这样的海量数据,所以客观上的条件不允许做链接分析。同时垂直搜索的用户需求决定了常用的排序依据:内容相关性、实时性。因此,我们看到现在所有的垂直搜索都采用了按相关性和时间交叉排序的方法。
6.结果页面呈现方式:垂直搜索的结果页面呈现通常都是除了给出检索结果的title、summary、time、url等基本信息之外,还要给出一些经过信息抽取之后的内容:例如,房地产垂直搜索要给出地点、价格等信息,招聘垂直搜索要给出招聘单位名称、地点等信息。
7.核心技术:开放式的网页搜索引擎(google、baidu)的核心技术通常是:分布式存储、分布式检索、网页链接分析、自动摘要等技术。垂直搜索的核心技术主要是全文检索、信息抽取。相比之下,垂直搜索在自动摘要方面做得研究都很少,简单的拿出原文中的一定字数内容就可以做摘要。现有的垂直搜索有80%的是采用的开源的搜索模块,还有一小部分直接就用mysql做数据库检索,性能当然非常有限。在垂直搜索的网站中,像职脉搜索、酷询这样真正拥有自主研发的引擎的网站为数不多。
8.索引结构:垂直搜索是对抽取后的内容分字段索引,而开发网页搜索是对整个页面进行索引。
有何需要指正之处,希望各位朋友不吝赐教!
[转帖]垂直搜索动了谁的奶酪 系列(一)
请问楼主是否在做这方面的科研及项目呢? 搂主评价的很是有道理 赞页:
[1]