多语言性是网络社会交流的重要特征之一,跨语言信息检索旨在通过以某种
语言来检索表达为另外一种语言的信息,达到消除信息检索中语言差异的目的,从而成为近年来信息检索领域很活跃的研究方向。我们对国内外相关研究进行了全面调研,发现目前跨语言信息检索在查询翻译消歧问题上还有待进一步改善,而有关跨语言信息检索的中文研究则缺乏局部的技术实现以及整体的理论框架。鉴于此,本书的研究重点是引入相关反馈技术来提高英汉跨语言信息检索的精准度,尝试对基于相关反馈的翻译优化技术进行一些开创性的研究。
本书全面深入地介绍了跨语言信息检索技术的理论、重要方法和研究进展,重点探讨了基于相关反馈的翻译优化理论与技术,对交互式跨语言信息检索进行了研究。在此基础上,通过将翻译优化技术与查询扩展技术进行比较研究,并结合系统相关性与用户相关性理论,构建了一个跨语言检索相关反馈综合模型理论框架(RFIM模型),开发并实现了一个基于相关反馈的交互式英汉跨语言信息检索系统。最后,进行了一系列实验研究,其中包括:(1)通过自动相关反馈与用户相关反馈两组实验,验证了翻译优化技术的有效性与RFIM模型的合理性;(2)将翻译优化技术与其他技术如命名实体翻译、机器翻译、数据融合等技术进行比较与结合,验证了翻译优化技术在众多优化技术中的效果。相信翻译优化这种新的跨语言信息检索技术可以帮助用户跨越语言障碍从而无缝获取信息。
本书的创新之处主要体现在以下3个方面:一是提出了一种崭新的跨语言相关反馈技术——翻译优化技术。基于相关反馈的翻译优化技术完全不同于单语言检索中传统的相关反馈思想,它是利用检索结果中相关文献对来优化跨语言检索的查询翻译,解决了部分查询翻译的歧义性问题。二是建立了一个全新的跨语言检索相关反馈综合模型理论框架(RFIM模型)。具有三层结构的跨语言相关反馈综合模型结合了系统与用户相关性理论、各项相关反馈技术、影响相关反馈的各种因素以及用户行为因素。RFIM模型的建立合理地解释了在跨语言信息检索中各种相关反馈方法之间的关系及其应用环境。三是开发了一个新颖的具
有相关反馈功能的交互式英汉跨语言信息检索系统ICE_1"EA,并首次进行了跨语言检索的自动相关反馈与用尸相关反馈比较实验研究,同时将翻译优化技术与其他技术进行了比较与结合研究。ICE—TEA系统的构建和一系列实验的结论为翻译优化技术在跨语言信息检索中的实际应用提供了参考。
本书是一部论述跨语言信息检索技术的专著。书中既有对跨语言信息检索技术的理论方法研究的全面、深入的综述,又有针对其中翻译优化理论与技术的专门论述,还结合了大量系统实现与实验研究。因此,本书是一部理论与实践相结合的著作。本书适合高等院校信息管理专业、计算机科学技术专业以及相关专业的教学科研人员、高年级学生和研究生阅读参考,也适合工作范围涉及该领域的工程技术人员参阅。
全书共分11章。第1章“导论”介绍了跨语言信息检索的意义和国内外研究现状,提出了翻译优化技术,并介绍了全书的内容、技术路线、研究方法与结构。第2章“跨语言信息检索基础理论”和第3章“跨语言信息检索关键技术”分别概述了跨语言信息检索领域的基础理论与关键技术问题。第4章“跨语言信息检索的相关反馈技术”描述了相关性理论与相关反馈技术及其在不同检索模型中的应用,提出了跨语言查询扩展。第5章“基于相关反馈的翻译优化技术”重点论述了翻译优化技术的理论基础、处理过程、相关算法与数学模型。第6章“跨语言检索相关反馈综合模型构建”将翻译优化与查询扩展进行了对比与结合,提出了跨语言检索相关反馈综合模型理论框架(RFIM),并对模型的各层次进行了要素分析第7章“基于相关反馈的英汉跨语言检索系统实现”详细介绍了所构建系统的功能、结构、设计与评价方法。第8章“基于自动相关反馈的翻译优化实验”和第9章“基于用户相关反馈的翻译优化实验”,分别采用自动相关反馈方法和用户相关反馈方法对翻译优化技术进行了实验检验。第10章“其他优化技术的跨语言信息检索实验’’是将翻译优化技术与命名实体翻译、机器翻译、数据融合等技术进行比较与结合,并给出了实验检验结果。第11章“结论与展望”总结了全书的研究内容,指出了未来的研究方向。
本书是在我的北京大学博士毕业论文的基础上,补充了近几年的最新研究成果写成的。在此,首先衷心感谢我的博士导师——中国科学技术信息研究所的王惠临研究员,他的悉心教导和不断鼓励,使我在读博士期间收获了很多知识和经验。本书涉及的研究是在美国匹兹堡大学何大庆教授的直接指导与长期合作下完成的,他点明了方向,给了我许多新的思考,并帮助我在美国完成了部分实验,在此,对他表示衷心的感谢。同时,本书内容中的后续研究是我在武汉大学从事博士后工作期间完成的,在此期间得到了博士后合作导师——武汉大学陈传夫教授的中肯指导与大力帮助,他对本书内容提出了许多切合实际的建议,并为我提供了良好的工作条件,在此,表示衷心的感谢。另外,武汉大学信息管理学院信息检索实验室、中国科学技术信息研究所语言技术实验室、美国匹兹堡大学信息科学学院信息检索实验室都为本书的撰写提供了大力帮助,为本书部分实验内容的完成提供了条件,在此对所有提供过帮助的人深表感谢。本书在撰写和出版过程中得到了科学技术文献出版社周国臻编辑的大力支持,武汉大学信息管理学院的领导和同事们对本书的出版给予了热情鼓励和指导,北京大学信息管理系的老师与同学们给予了我支持与帮助,我的家人给了我极大的关心和爱护,以及其他诸多有关人士付出了辛勤劳动,特此一并致以衷心谢忱!
此外,本书的出版还得到了4个项30目的资助,分别是:2009年度国家科学技术学术著作出版基金项目“跨语言信息检索:翻译优化理论与技术”、2009年度国家社会科学基金项目“网络学术信息的多语言表示与获取模式研究(项目编号:09CTQ026)”、2009年度教育部人文社会科学研究项目“多语言信息获取中的用户相关反馈研究(项目编号:09YJC870022)”、2010年武汉大学入文社会科学“70后”学者学术发展计划项目“跨语言环境下的细粒度信息检索及可视化研究”。本书的出版是上述项目的研究成果之一。 |