哈工大信息检索研究室论坛's Archiver

Tim 发表于 2007-3-11 09:16

杀向互联网(之四)

http://ir.hit.edu.cn/~tliu/blog
搜索的下一个热点是什么?内容整合是一种答案。
中搜CEO陈沛把内容整合视为互联网公司必须具备的五个核心竞争力之一,网易前任总编李学凌做客新浪大谈内容整合,他们一个从技术的角度,一个从编辑的角度,殊途同归地走到了一起。
搞搜索技术的人发现,巧妇难为无米之炊,被搜索的资讯库太重要了,而自己又不愿意去雇佣记者采集原始信息,怎么办,“天下文章一大抄,看你会抄不会抄”,陈沛的思路不仅仅是要把新闻的链接集成起来,而是要把内容转贴过来,版权将是一个很大的障碍。不过,陈总有他的见解:如果没有软件盗版,中国的信息化起步会很艰难,现在处在互联网发展初期,资讯盗版亦有其合理性。
搞网络采编的人发现,信息量太大了,靠人编辑加工越来越困难,编辑提炼出来的热点新闻主观性太强,能不能符合民意很难说,怎么办?他们开始求助于技术,求助于人工智能,希望计算机能够自动采编。自动采编的结果是未来的新闻阅读者必须忍受一定的错误,比如百度关于娱乐人物“白雪”的消息里充斥着“东北地区降温,白雪覆盖大地”的字样。
当然,内容的整合绝不仅仅限于资讯,对商品信息、职位信息等等融合结构化信息的全面内容整合具有更大的价值。
洪小文在2005年21世纪的计算大会上提出以数据为中心的搜索,我当时不解其意,我觉得“以数据为中心”这种提法太落俗套。最近我领导实验室开发新闻资讯的搜索,发现从用户需求的角度出发,需要搜索、跟踪、发现、浏览等各种工具,比如用户就是想到网上漫无目的地闲逛,传统门户提供的浏览方式就很有用;当用户希望持续关注某个事件或人物的时候,就不能每天都输入相同的关键词进行搜索,这时需要用到跟踪或者叫推送;对于那些突发的热门话题,用户都可能关心,但是无法实现预制关键词,所以需要用到热点发现;当用户知道自己要找什么的时候可以输入关键词进行搜索,但是搜到的结果太多,看不过来,此刻搜索结果的后聚类派上了用场,每个类别用一个词语作为标签,这其实是在搜索模式之后又加上了浏览模式,二者结合,相得益彰,因此最近聚类式的搜索引擎很时髦。此外,文本分类、信息抽取、关联发现等等工具都能够在处理网络资讯的时候被用起来。用搜索引擎这个概念是在难以概括这样一个信息采集、整理、分发的全过程,叫跟踪引擎、发现引擎等等都不行。
据此,我理解了洪小文所说的“以数据为中心”,用户需要的是访问他感兴趣的信息,我们提供的引擎必须紧扣用户的需求为其提供各种可能的便利,各种有利的工具,用户访问信息的方式有多少种,我们提供的工具就要有多少种,工具是次要的,数据才是核心。把原始的数据经过各道工序的处理,精炼为对用户有价值的信息并呈现给用户,这个以数据的流动为转移的基本概念必须建立起来。开发者的注意力不能集中在对各种技术指标的痴迷上,而应该集中在数据上,内容聚合的本质是用技术做出一个新的资讯媒体,媒体是目标,技术是手段。注意力的这种转移看似平淡无奇,实则蕴含着深意,必然对搜索引擎未来的发展产生深远的影响。
有一个疑问是,如果大家都无偿地进行转载聚合,类似于石油的深加工,那么进行原油开采的拥有大量采编人员的新闻机构势必受到伤害,没有了原油,还怎样进行深加工呢?一个答案是大量个人媒体(如Blog)的涌现将为内容整合提供越来越丰富的原始信息,美国今年很多重要的事件都是首先在Blog被曝光的。另一个答案是如果直接转载,那么做内容聚合的网站迟早应该给信息产业链中的前一个环节(采集第一手新闻的机构)支付一定的费用。产业生态环境一定有它自我调节的能力,我们无需多虑了。
奇虎专注于社区内容的整合,成立仅6个月即获得了2000万美元的投资。内容整合,商机无限,诸君岂有意乎?
(完)

brightforeve 发表于 2007-6-14 22:14

这篇文章1年多前,就拜读过。
现在看来,当今的互联网发展趋势,更验证了“内容的整合”这一点。

页: [1]

Powered by Discuz! Archiver 6.1.0  © 2001-2007 Comsenz Inc.