著录项信息
专利名称 | 一种基于内容信任的可信搜索方法 |
申请号 | CN200910201533.5 | 申请日期 | 2009-12-21 |
法律状态 | 权利终止 | 申报国家 | 中国 |
公开/公告日 | | 公开/公告号 | |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/30 | IPC分类号 | G;0;6;F;1;7;/;3;0查看分类表>
|
申请人 | 暂无 | 申请人地址 | 上海市杨浦区四平路1239号
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 同济大学 | 当前权利人 | 同济大学 |
发明人 | 曾国荪;王伟;王晓君;黄宇;蒋昌俊;苗夺谦 |
代理机构 | 上海科盛知识产权代理有限公司 | 代理人 | 叶敏华 |
摘要
本发明涉及一种基于内容信任的可信搜索方法,包括以下步骤A.用户交互模块接收用户的搜索关键字,并分发给提供原始搜索服务的各个搜索引擎;B、接收各个搜索引擎提供的传统搜索结果,并递交给内容信任检测模块;C、给内容信任检测模块对传统搜索结果进行去重、文本归一化、信任语义理解、内容可信度计算和搜索结果重排序操作,将可信搜索结果递交给用户交互模块;D、用户交互模块将可信搜索结果呈现给用户。本发明方法对文本信息的本质——文本内容进行可信度评估,提出了基于信任事实、信任证据和信任特征的三种文本内容信任评估方法,并用贝叶斯网络将其统一起来,将文本的内容可信度应用到排序算法中,可以提高搜索结果的查准率。
1.一种基于内容信任的可信搜索方法,其特征在于,包括以下步骤:
A.用户交互模块接收用户的搜索关键字,并分发给提供原始搜索服务的各个搜索引擎;
B、接收各个搜索引擎提供的传统搜索结果,并递交给内容信任检测模块;
C、内容信任检测模块对传统搜索结果进行去重、文本归一化、信任语义理解、内容可信度计算和搜索结果重排序操作,将可信搜索结果递交给用户交互模块;
D、用户交互模块将可信搜索结果呈现给用户;
所述的内容可信度计算包括:
1)证据挖掘:通过文本命名实体识别法提取文本的命名实体集,采用依赖树来重构文本,依赖树的叶子节点代表段落,边代表段间的依赖关系,使用该段落中代表性单词的原型来标志每一个叶子节点,如果两个段落含有的相似命名实体超过阈值,则接受为证据;
2)信任证据可信度检测:通过多源求证法来检测;
3)文本可信度检测:将每个文本表示为一个包含以下因素的七维信任特征向量:
常用词条比例;
非标记文本比例;
锚文本数量;
标题词条数量;
词条平均长度;
压缩率和连贯性;
对人工判断的可信文本集进行训练,得到一个可信文本集的信任特征向量,将每个文本的信任特征向量与可信文本集的信任特征向量进行Cosin计算,结果值就是文本的可信度。
一种基于内容信任的可信搜索方法 \n技术领域\n[0001] 本发明涉及搜索技术,特别是涉及一种基于内容信任的可信搜索方法。 背景技术\n[0002] 在浩瀚的互联网世界中,搜索技术是为用户准确、快速地提供信息服务的关键。典型的搜索引擎由爬虫程序、索引系统和用户交互界面三部分组成。爬虫程序尽可能多地搜集互联网各站点上的网页,存储到本地数据库中;索引系统对本地数据库中的信息建立能够提供快速查找的倒排序索引,同时对信息进行重要性排序,当前最著名的排序算法是Google搜索创始人Larry Page和Sergey Brin提供的PageRank算法;用户交互界面接收用户的搜索关键字递交给搜索服务器,并将搜索服务器提供的搜索结果返回给用户。 [0003] 搜索系统的性能可以通过6项指标来衡量:覆盖范围、查全率、查准率、响应时间、用户负担和检索结果输出格式。根据以上评测标准,现有的搜索引擎存在七大类问题:(1)查全率和查准率低,即使功能最完善的搜索引擎也只能找到Web上大约1/3的网页,查全率无法保证。另一方面,由于网络信息海量、繁杂无序、网页的无效链接、查询结果重复、信息已过期、信息失真等问题大大降低了搜索的查准率。(2)网页作弊问题,既然搜索引擎成为网络用户获取信息的工具,就出现了针对搜索引擎网页排名的作弊现象。网页被其它网页链接得越多,排名越靠前,但信息内容并不一定越有价值。(3)安全性问题,搜索引擎功能越来越强大,有渗透到互联网每一个角落的趋势。据美国News-Factor Network进行的一项非正式调查显示:任何具有不良意图的人通过搜索引擎有可能找出相关人员信用卡号码、个人数据、及最近交易记录等信息。搜索引擎的安全漏洞无意中给黑客带来可乘之机。(4)检索功能问题,目前的搜索主要是对全文数据库、书目数据库、检索工具索引的查询,但检索点太少,不能做到条件联动检索。此外,当前的搜索引擎大多数都只能对文本检索,不能对图像、图形、图表、音频、视频等多媒体检索。(5)信 息更新不及时,据报道网络信息每100天增长1倍,搜索引擎不仅需要及时补充新信息,同时还应定期将过期无价值信息删除,例如一些无效链接、打不开的网页等。搜索引擎数据库巨大,不易更新,信息质量也难以保证。\n劣质及无效信息降低了搜索引擎查准率,也影响了用户快捷地获取有价信息的信心。(6)搜索引擎的规范化问题,包括检索词没有规范化、英文汉字切分问题、同一结果重复出现和查询接口标准问题。(7)用户查找需求表达不准。 \n发明内容\n[0004] 本发明所要解决的技术问题就是为了克服上述现有技术存在的缺陷而提供一种基于内容信任的可信搜索方法。 \n[0005] 本发明的目的可以通过以下技术方案来实现:一种基于内容信任的可信搜索方法,其特征在于,包括以下步骤: \n[0006] A.用户交互模块接收用户的搜索关键字,并分发给提供原始搜索服务的各个搜索引擎; \n[0007] B、接收各个搜索引擎提供的传统搜索结果,并递交给内容信任检测模块; [0008] C、给内容信任检测模块对传统搜索结果进行去重、文本归一化、信任语义理解、内容可信度计算和搜索结果重排序操作,将可信搜索结果递交给用户交互模块; [0009] D、用户交互模块将可信搜索结果呈现给用户。 \n[0010] 所述的内容可信度计算包括: \n[0011] 1)证据挖掘:通过文本命名实体识别法提取文本的命名实体集,采用依赖树来重构文本,依赖树的叶子节点代表段落,边代表段间的依赖关系,使用该段落中代表性单词的原型来标志每一个叶子节点,如果两个段落含有的相似命名实体超过阈值,则接受为证据; \n[0012] 2)信任证据可信度检测:通过多源求证法来检测; \n[0013] 3)文本可信度检测:将每个文本表示为一个包含以下因素的七维信任特征向量: [0014] 常用词条比例; \n[0015] 非标记文本比例; \n[0016] 锚文本数量; \n[0017] 标题词条数量; \n[0018] 词条平均长度; \n[0019] 压缩率和连贯性; \n[0020] 对人工判断的可信文本集进行训练,得到一个可信文本集的信任特征向量,将每个文本的信任特征向量与可信文本集的信任特征向量进行Cosin计算,结果值就是文本的可信度。 \n[0021] 与现有技术相比,本发明方法对文本信息的本质——文本内容进行可信度检测,提出了基于信任事实、信任证据和信任特征的三种文本内容信任评估方法,并用贝叶斯网络将其统一起来,将文本的内容可信度应用到排序算法中,可以提高搜索结果的查准率。该方法的优势体现在以下几个创新点上:①一种基于文本信息内容的信任度评估的新方法,传统上的信任度评估,依靠交易结果、交易历史记录,或者利用推荐信息等来计算网络资源的信任度。本项目从文本信息资源本身,即自身的信息内容出发,获取信任特征,理解信任语义,计算信任值,是一种直接和普适的智能信任度评估方法;②基于信任语义网的文本信任度定量计算方法,多维信任特征之间的影响和关系非常复杂,将信任事实,信任证据,信任模式等聚合在信任语义网络中,全面刻画文本整体内容信任的状态;③信任语义驱动改善Web搜索查准率的方法,通过信任素材、信任事实、信任证据、信任模式、信任语义网等计算Web文本内容信任度,加入到Web智能搜索引擎的结果排序算法中,过滤低可信结果,将提高Web信息的查准率。 \n[0022] 附图说明\n[0023] 图1为本发明的流程原理图; \n[0024] 图2为本发明的证据获取的示意图。 \n[0025] 具体实施方式\n[0026] 下面结合附图对本发明作进一步说明。 \n[0027] 如图1所示,一种基于内容信任的可信搜索方法,包括以下步骤: [0028] A.用户交互模块接收用户的搜索关键字,并分发给提供原始搜索服务的各个搜索引擎; \n[0029] B、接收各个搜索引擎提供的传统搜索结果,并递交给内容信任检测模块; [0030] C、给内容信任检测模块对传统搜索结果进行去重、文本归一化、信任语义理解、内容可信度计算和搜索结果重排序操作,将可信搜索结果递交给用户交互模块; [0031] D、用户交互模块将可信搜索结果呈现给用户。 \n[0032] 所述的内容可信度计算包括: \n[0033] 信任事实提取:信任事实,是指信息文本内容中,对某事物的概念、属性、特征等做不同程度地判断性(肯定或否定)描述的陈述句。信任事实的提取可通过以下自动机完成: \n[0034] 信任事实的提取算法如表1所示: \n[0035] 表1 \n[0036] \n[0037] 22)信任事实可信度:一个信任事实f的可信度是指这个信任事实是一个正确的、可信的事实的概率。事实可信度从概率上反映了一个信任事实对事实变量的描述或断言为真的程度。 \n[0038] 当f是一个肯定信任事实时,即f∈fPG时,信任事实f的可信度PF(f)可以由公式(1)计算得到,当f是一个否定信任事实时,即f∈fNG,信任事实f的可信度PF(f)可以由公式(2)计算得到。 \n[0039] \n[0040] \n[0041] 21)证据挖掘: \n[0042] 信任证据是指信息文本中描述某一事件所涉及到的时间,地点,人物,事件主 题等方面的信息及其之间的相互关联,这些信息的真实可靠性决定了该信息文本的可信性。\n形式化定义如下: \n[0043] TE(D)=(te1,te2,...,ten) (2.6) \n[0044] 其中,D是包含文本内容的字符串,tei是文本信任属性。 \n[0045] 如图2所示,通过文本命名实体识别法提取文本的命名实体集,采用依赖树来重构文本,依赖树的叶子节点代表段落,边代表段间的依赖关系,使用该段落中代表性单词的原型来标志每一个叶子节点,如果两个段落含有的相似命名实体超过阈值,则接受为证据; \n[0046] 22)信任证据可信度检测:通过多源求证法来检测;如果一个信任证据由很多可信任的文本所提供,则它极有可能是真实的;类似的,如果一个信任证据和其他文本中的信任证据有冲突,则有可能是不真实的。同样的,如果一篇文本提出的证据多是真实的,则可以认为该文本是可信任的。可以看到,文本的可信性和信任证据的真实性是相互影响的。 [0047] 23)文本可信度检测:将每个文本表示为一个包含以下因素的七维信任特征向量: \n[0048] 常用词条比例; \n[0049] 非标记文本比例; \n[0050] 锚文本数量; \n[0051] 标题词条数量; \n[0052] 词条平均长度; \n[0053] 压缩率和连贯性; \n[0054] 对人工判断的可信文本集进行训练,得到一个可信文本集的信任特征向量,将每个文本的信任特征向量与可信文本集的信任特征向量进行Cosin计算,结果值就是文本的可信度。 \n[0055] 本发明方法旨在提高搜索引擎的查准率。在开放的互联网中,信息内容丰富多样,质量良莠不齐,基于内容信任的可信搜索方法从信息内容的本质来判断信息文本的质量好坏,对搜索结果按信息质量的好坏重新排序,使用户得到更准确的搜索结果。 [0056] 信息文本由若干个句子组成,句子是具有一个句调,能够表达一个相对完整的 意思的语言单位,也是表达一个相对完整的信任语义的基本单位。组成信息文本的句子中有一组特殊陈述句,对某事物的概念、属性、特征等做不同程度地判断性(肯定或否定)描述的陈述句,称为信任事实。信息文本中信任事实的真实程度体现了该文本自身的质量好坏。\n一个准确可靠的信任事实,在整个互联网中会被大量引用,相反,错误的信任事实将极少被引用。因此,通过开放互联网形成的知识库,可以计算信任事实出现的频度,从而判断信任事实的可信度。信任事实根据其判断谓词和事实强度词的不同,可分为两组六种形式:{完全肯定式、一般肯定式、部分肯定式}和{完全否定式、一般否定式、部分否定式},信息文本中的每个信任事实属于其中的一组,其所在组的信任事实在互联网上被引用的次数与所有信任事实被引用的次数之比称为信任事实的可信度,信息文本中所有信任事实的可信度平均值是文本的可信度,即体现了文本质量的好坏。 \n[0057] 信息文本中的每个信任事实放映了文本的部分可信度,将文本当成一个整体看,它所描述的是某一事件,其中涉及到的时间,地点,人物,事件主题等具体信息及其相互之间的关系是一种信任特征,称为信任证据,它们的真实可靠性直接决定了该信息文本的可信性。信任证据的挖掘通过基于依赖树解析来实现。在新闻文本集中,利用文本命名实体识别方法提取文本的命名实体集,采用依赖树来重构文本,依赖树的叶子节点代表段落,边代表段间的依赖关系,使用该段落中代表性单词的原型来标志每一个叶子节点,如果两个段落含有的相似命名实体超过阈值,则接受为证据。信任证据的可信评估由多源求证方法来计算,如果一个信任证据由多个可信的文本提供,则它极有可能是真实的,反之,如果一个信任证据和其他文本中的信任证据有冲突,则有可能使不真实的;如果一片文本包含的信任证据多是真实的,则可以认为该文本时可信任的。 \n[0058] 除了信息文本描述的准确性之外,文本内容的可读性和可理解性也是衡量信息质量的一个重要因素。通过统计学习,信息文本中常用词条比例、非标记文本比例、锚文本数量、标题词条数量、词条平均长度、压缩率和连贯性这七个因素直接影响文本的可读性。每个文本可形成一个包含这些因素的七维向量,称为信任特征向量,对人工判断的可信文本集进行训练,得到一个可信文本集的信任特征向量,以后将每个测试文本的信任特征向量与可信信任特征向量进行Cosin计算,结果值就是测试文本的可信度。 \n[0059] 以上介绍的基于信任事实、信任证据和信任特征的文本内容信任评估方法从各 自的角度对文本内容的可信语义进行获取,并计算文本可信度,为了将三者统一起来,更好的满足用户对信任方面的不同需求,我们用贝叶斯网络完成多维信任特征的统一建模。将文本的整体可信度应用到排序算法中,以提高搜索结果的查准率。
法律信息
- 2017-02-08
未缴年费专利权终止
IPC(主分类): G06F 17/30
专利号: ZL 200910201533.5
申请日: 2009.12.21
授权公告日: 2012.12.05
- 2012-12-05
- 2011-08-03
实质审查的生效
IPC(主分类): G06F 17/30
专利申请号: 200910201533.5
申请日: 2009.12.21
- 2011-06-22
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2009-01-21
|
2007-07-18
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |