关于冰盾 | 使用条款 | 网站地图
 
网络论坛的问答搜索技术研究
网络论坛的问答搜索技术研究
作者:冰盾防火墙 网站:www.bingdun.com 日期:2014-11-17
 
1 引言
  随着搜索技术的不断发展,搜索引擎从全文搜索、综合式搜索慢慢向个性化化、专业化、智能化发展。如今个性化搜索引擎系统、垂直搜索引擎[1]系统正逐渐得到更多用户的青睐。下面针对论坛资源的问答检索就是一种更专业搜索引擎系统。
  论坛作为一种专门为用户提供信息交流和讨论的地方,只要授权登录用户都可以在论坛上发布和回复消息。目前论坛众多,涉及的领域广泛,应用形式多样,譬如有电子公告板(BBS)、新闻组(Newsgroup)、讨论组、贴吧等。论坛吸引了大量用户,其中一项重要的功能是解决问题。用户针对某一领域发帖提出问题,其他用户回复帖子,通过相互交流信息,达到解决问题的目的。论坛集聚了大量的人力资源,由人肉搜索引擎释放出来的威力就可见一斑。人肉搜索也是一类提问回答网站,先是一人提问,然后八方回应,通过网络社区集合广大网民的力量,寻求答案,追查事实真相。
  随着网络的普及,无数人在利用论坛进行问题的问答和讨论,其中很大一部分问题都能得到质量较高的回答。当然,可以利用这些基于主题的问题/答案对,进行采集处理,提供检索加以利用。当用户搜索问题时,能够定位到已搜集论坛中某个相似甚至完全相同的问题,将回复答案返回给用户,将大大提高问题解决的效率和准确度,这也将优于一般的信息检索系统。如何构建这样一个问答检索系统以及提高查询的精度将是本文研究的重点。
  2 关键问题
  要实现对论坛各种问答资源的有效整合和利用,需要解决数据采集与格式化、答案抽取与推送排序、索引建立、数据存储、问题映射等方面的问题。
  对于数据的收集和格式化问题,不同于互联网全文搜索引擎,对论坛数据的利用不能简单基于页面,而需要将其表示为以帖子为单位的格式化数据,其中涉及到数据拆分、数据抽取、数据清理等一系列难点。当然可以通过特定的程序抽取问答数据,并使用语法分析、正则表达式等技术对数据格式化。论文检测,Ranking。
  答案抽取及排序问题决定了整个系统的性能,是要重点解决的问题。论坛中对一个主题帖子的回复数量可能很多,内容可能五花八门,可能是对问题给出的答案,也可能是毫无价值的回复,有用信息不一定很多。即使同为答案,质量上也存在差别。如何高效、准确地将答案抽取出来,并按质量高低推送给用户参考,是研究的关键问题,也是具有一定挑战性的问题。
  索引建立、数据存储与一般互联网搜索引擎系统的做法相差不大,在此不作详细介绍。而对于问题映射,实际上是将用户查询的问题映射到系统存储数据库中的相似问题。在这里,并不是将查询映射到答案,而是映射到已有问题,而已有问题关联了相关答案。论文检测,Ranking。这有别于一般互联网查询中的关键词匹配网页的方法,可以有效提高问答检索的准确性。问题映射通过关键词匹配或余弦夹角相似性度量方法就可以取得较好的效果。
  其实,已有不少人在研究论坛数据并提供查询检索。国外有FAQ(Frequently Asked Questions)[2]、新闻组搜索、QA查询系统,国内有猫扑网、百度知道、中搜论坛搜索等。上述系统中,有些并未按问题/答案对形式提供检索,有些搜集检索的范围仅局限于本站,有些未对答案进行抽取量化而导致查询结果质量不高。本文着重解决论坛中回复答案抽取及排序问题,以期提高检索系统的性能。
  3 基于论坛数据的答案抽取与排序
  3.1 论坛的组织结构
  论坛是一个供用户进行信息发布、交流和互助的虚拟社区,论坛集聚了大量人力资源,用户在其中扮演了内容制造和发布的角色。一个论坛一般包括管理页面、导航页面和内容页面。每个论坛都会针对一定的领域设置一些主题,围绕其主题供用户交流讨论,某些主题可能划分得更具体,一个版块下有若干子版块,从而构成一个层次的组织结构。将主题(Topic)帖及回帖看成节点,由此形成一棵树状的结构。
  3.2 问答的组织
  论坛中很大一部分是用于问题解答的。论文检测,Ranking。许多论坛都设置了专门的版块用于讨论和解答问题。用户将希望得到解答的问题发布到相应的版块中,其他用户对该问题进行回复,回复内容可能是答案、推荐的文章或站点,以及其他有用的信息和意见等。论文检测,Ranking。另外,提问人和其他用户也可以给出反馈、评论,甚至是提问人发表自己突然领悟的答案。通过这种群体讨论模式,很多问题都能够较快地得到满意或高质量的答案,特别在一些用户量众多的热门论坛。由此可见,当用户的信息需求是对具体问题的解答时,一个合适的论坛通常能够提供快速、针对性强和高质量的答案。论文检测,Ranking。基于此,可以从大量的论坛中收集数据,从各个主题中抽取出相应的问题/答案,结构化处理后存储到问题/答案库。这些问题/答案对涵盖了数量众多的论坛,发挥人的参与性优势,因此答案质量较高。当问题/答案库极其丰富后,将有效提高检索质量。
  3.3 答案抽取技术
  由上一小节可知,针对问题的回复内容可能千差万别、杂乱无章,有些可能是需要的答案,有些可能是毫无价值的回复,而我们需要能够区分那些有意义的答案,将它们与原始问题构成问题/答案对,这就必须拥有一种高性能的自动化答案抽取技术,才能实现对论坛资源的有效利用。
  对于问题主贴的回帖,根据其内容性质,将它们大概划分为询问、补充、解释、评论、答案、无意义帖等类型,而我们需要的是答案,需要对答案进行抽取。如果有一种方法,能够将所有回帖根据与问题相关性进行排序,质量越高的答案排在前面,质量较低的或根本无关的帖子往后靠,那么通过排序,取前面一部分帖子就可以得到满意的答案。当然,我们设想所有论坛像百度知道那样,由提问者对回帖标注最佳答案,答案抽取问题将由人工决定得到完美解决,但事实并非如此,许多问题解答论坛并没有标注任何结果,这不得不通过机器学习来解决。
  概率统计的方法是答案抽取常用的解决途径,通过设计合适的计算模型,有效结合候选答案的各种特性,计算出候选答案是正确答案的概率值,从而进行答案抽取。文献[3]设计的概率模型能够方便地将候选答案的特征信息及其关系以概率的形式添加进来,具有良好的可扩展性。文献[4]利用无向概率图模型进行答案排序,该模型计算所有候选答案的正确性的联合概率,再计算出一个独立的候选答案的正确性的概率,这种联合预测模型可以把候选答案自身的先验信息,以及候选答案之问的各类相似性等特征结合考虑,具有较好的质量。在这里我们使用Ranking SVM[5]排序来进行答案抽取。
  3.3.1 Ranking SVM排序方法
  文献[5]介绍的Ranking SVM是机器学习排序的一种方法,它把排序问题转换成了一个分类问题,然后用支持向量机(SVM)训练出一个模型来解决。在此利用Ranking SVM对回帖文档进行排序。
  对一个文档集D={d1,…,dm},假设存在一个最优排序r*,而排序函数f给出的排序为rf。如果rf越接近于r*,则说明排序模型的性能越好。这里用度量rf接近r*的程度。假定两个文档集的全序关系ra和rb,用P表示两个排列中一致对的数量,用Q表示非一致对的数量,度量定义如下:
  Ranking(3.1)
  有了度量,便可以通过由训练样本来学习排序函数。对于给定的训练集T={t1,…,tn},其中t=(p,D),即对于问题p和所有回帖集D,训练的目标就是得到一个排序函数f使得所有训练样本的期望度量最大化,如下式:
  (3.2)
  排序函数f在这里使用Ranking SVM排序模型,类似SVM分类器[6],引入非负的松弛变量,并最小化的上界来逼近原问题的解。给定一个提供全序关系的训练集合S={(p1,),(p2,),…, (pn,)},利用SVM最大化间隔的规则化方法,得到如下Ranking SVM的优化问题,最小化目标:

 
来源网络
Ranking(3.3)
  约束条件:
  Ranking(3.4)
  …
  
  
  其中C是控制间隔大小和训练错误之间平衡的参数,是一个权重向量,由学习过程来调整,而则是描述p和d及其相互联系的特征向量。论文检测,Ranking。上述问题是一个凸优化问题,具有唯一的全局最优解。约束条件(3.4)变换一下可得到,而这恰好等价于两两的差向量进行SVM分类,一旦训练得到排序函数所需的权重向量,就可以计算一个新问题p的回帖d的排序分数,从而按分数高低得到一个问题帖对应的所有回帖的一个全序排列,取排列的前t项,则得到最佳答案。
  3.3.2 特征表示
  对于论坛中的回帖,可提取用于Ranking SVM排序方法的相关特征,主要包括:(1)发帖时间顺序;(2)发帖用户名称;(3)后续帖子反馈评价;(4)帖子长度;(5)发帖用户发帖总数;(6)发帖用户在本主题内的发帖总数;(7)帖子中的超链接数量;(8)帖子在同一发帖用户中的序号。这些特征都可以设成相应的权重参数进行计算。
  4 系统结构
  基于论坛数据的问答搜索系统相当复杂, 涉及到数据采集、数据结构化、数据处理、问题/答案抽取、索引排序、问题映射、接口设计、界面设计等。整个系统结构图设计如下:
  
  4.1 网络论坛问答搜索系统结构图
  图4.1中虚线以下部分通过采集论坛数据来构建问题/答案库,并定期更新,耗费时间较多,可离线实现,上部分对已经结构化的数据进行检索,能够及时反应。整个系统能够保证提高准确率的同时,有较高的检索速率。
  5 结语
  对于问答搜索技术的研究,相对来说,国外研究比较深入,有比较成功的问答式检索系统,而国内从事问答系统尤其是汉语自动问答技术研究的科研机构还是很少,而且基本没有成型的汉语自动问答系统问世。一个很重要的原因是缺乏一个公认的,相对成熟的汉语问答系统评测平台。
  本文针对论坛中问题解答数据设计的问答搜索系统,具有较高的应用价值。当然,作为一种Q/A系统的改进形式,提高精度是研究的核心,本文使用SVM排序方法来抽取答案,但算法受到论坛回帖特征表示不明显方面的限制,答案抽取的准确率并不太高,一般在60~70%之间,还需要进一步研究回帖摘要深入研究。

参考文献
[1]肖冬梅.垂直搜索引擎研究.图书馆学研究[J],2003.2:87-89
[2]R.Sorieut,and E.Brill.AutomaticQuestion Answering:Beyond the Factoid.In Proceedings of the HLT/NAACL 2004:Main Conference,57-64
[3]HANK S. SONG Y 1. RIM H C. Probabilistic model for definitional question answering[C].Proceedings of the 29th Annual International ACM SIGIR Conference onResearch and Development in Information Retrieval. New York: ACM Press,2006:212-219
[4]KO J. SI L. NYBERG E. A probabilistic graphical model for joint answer rankingin question answering[C]. Proceedings of the 30th AnnualInternational ACM SIGIR Conference on Research and Development in InformationRetrieval. New York: ACM Press, 2007:343-350
[5]T.Joachims. Optimizing search engines using click through data. Proceedings ofthe ACM Conference on Knowledge Discovery and Data Mining(KDD),2002
[6]徐启华,杨瑞.一种新的软间隔支持向量机分类算法.计算机工程与设计.2005年9期,第26卷第9期:2316-2318
 
网络内存服务器
网络黑客攻击手段分析及防范技术(图文)
 

 
最新内容:
网络黑客攻击手段分析及防范技术(图文)[2014-11-17]
关于DNS的设置问题 在有防火墙的情况下如何设置[2014-11-17]
通过注册表让黑客攻击无所遁形 (原创)[2014-11-17]
教你如何查看自己的IP地址及DNS[2014-11-17]
介绍Windows xp系统自行修复故障的方式[2014-11-17]
碰过DDOS攻击吗?介绍其攻击的几种方式[2014-11-17]
相关内容:

合作伙伴: 黑基网 补天科技 威盾科技 站长下载 新飞金信 北京电信 ZOL应用下载
中华人民共和国增值电信业务经营许可证京ICP备14024464 公安备案号 京1081234 
版权所有©2003-2014 冰盾防火墙  www.BingDun.com 法律声明
总机:(010)51661195