著录项信息
专利名称 | 从非结构化文本提取和显现图表结构化关系的方法和系统 |
申请号 | CN200680041525.3 | 申请日期 | 2006-09-18 |
法律状态 | 权利终止 | 申报国家 | 中国 |
公开/公告日 | 2008-11-12 | 公开/公告号 | CN101305366 |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/30 | IPC分类号 | G;0;6;F;1;7;/;3;0查看分类表>
|
申请人 | 国际商业机器公司 | 申请人地址 | 美国纽约
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 国际商业机器公司 | 当前权利人 | 国际商业机器公司 |
发明人 | H·哈桑;H·莫索塔费 |
代理机构 | 北京市金杜律师事务所 | 代理人 | 朱海波 |
摘要
本发明公开了一种用于从非结构化文本自动提取和挖掘关系和相关实体的系统和方法。该方法包括:接收指定主实体的查询;从非结构化文本提取与查询中指定的主实体相关的关系和相关实体,包括:在非结构化文本中搜索和选择包含主实体的文档,向所选文档的每个词附加一个或多个标签,每个标签是不同类型的,通过将图案应用到所述加标签的文档来提取关系和相关实体;从所选文档提取表征每个实体和关系的特征,包括:使每个关系与以下内容相关联:关系类,和/或关系强度,和/或时间信息,基于所提取特征构造图表,其节点表示与所指定主实体相关的实体并且其边表示所述实体间的关系。该系统和方法能够以清楚和可利用的方式显现信息。
1.一种用于从非结构化文本自动提取和挖掘关系和相关实体以用于搜索领域的方法,所述方法包括以下步骤:
·接收指定主实体的查询;
·从非结构化文本提取与查询中指定的主实体相关的关系和相关实体,所述步骤包括进一步的步骤:
·在非结构化文本中搜索和选择包含主实体的文档,
·向所选文档的每个词附加一个或多个标签,每个标签是不同类型的;
·通过将图案应用到所述加标签的文档来提取关系和相关实体;
·从所选文档提取表征每个实体和关系的特征,该步骤进一步包括:使每个关系与以下内容相关联:关系类;和/或关系强度;和/或时间信息;
·基于所提取特征构造图表,其节点表示与所指定主实体相关的实体并且其边表示所述实体间的关系。
2.根据权利要求1的方法,包括进一步的步骤:
·操纵所得图表以更加了解其包含的信息。
3.根据权利要求1或2所述的方法,其中向所选文档的每个词附加一个或多个标签,每个标签是不同类型的步骤包括以下步骤:
·对所选文档应用语法和语义标签器以提取已命名实体、词汇类型以及词的语义。
4.根据权利要求1或2所述的方法,其中操纵所得图表以更加了解其包含的信息的步骤包括进一步的步骤:
·接收图表查询以根据特定标准获得相关实体和关系的特定表示;
·响应于所述图表查询,生成输出图表,其根据图表查询中指定的标准表示实体以及它们的关系。
5.根据权利要求4的方法,其中所述标准是时间标准或者是与一个或多个与关系和相关实体相关联的特征相关的条件或/和约束。
6.根据权利要求1或2所述的方法,其中基于所提取特征构造图表的步骤包括进一步的步骤:
·使表示实体的每个节点与基于表征所述关系和相关实体的特征的值的矢量相关联。
7.根据权利要求1或2所述的方法,其中从在包含主实体的所选文档内频繁出现某实体的上下文中导出表征该实体的一个或多个特征。
8.根据权利要求6所述的方法,其中与表征实体的特征相关联的值基于相关联的实体出现所述特征的概率。
9.根据权利要求1或2所述的方法,其中生成输出图表的步骤包括进一步的步骤:
·在图表上显现:
·关系类;
·关系强度;
·时间信息。
10.根据权利要求9的方法,其中基于所提取特征构造图表的步骤包括进一步的步骤:
·根据关系的语义意义将关系分类在预定类别中。
11.根据权利要求9的方法,其中基于所提取特征构造图表的步骤包括进一步的步骤:
·基于节点间的距离扩展图表;所述步骤包括进一步的步骤:
·选择一个或多个扩展的实体;
·从非结构化文本提取与所述扩展的实体相关的关系和相关实体。
12.根据权利要求11所述的方法,其中所述一个或多个扩展的实体是接近主实体的实体。
13.根据权利要求1或2所述的方法,包括从非结构化文本导入图案的预备步骤,所述步骤包括进一步的步骤:
·向非结构化文本的每个词附加一个或多个不同类型的标签;
·定义一个或多个模板,每个模板基于标签的序列;
·从每个模板生成一个或多个图案,每个图案指定用于模板中每个标签的角色。
14.根据权利要求1或2所述的方法,其中标签是语音标签或已命名实体标签或语义标签器或任何其他类型的标签。
15.根据权利要求13所述的方法,其中定义基于标签的序列的一个或多个模板的步骤包括进一步的步骤:
·选择模板的初始集合;
·滤出在有限状态机中具有较低可能性的模板。
16.根据权利要求13所述的方法,其中从每个模板生成一个或多个图案的步骤包括进一步的步骤:
·从模板的初始集合生成图案的初始集合;
·将图案的初始集合中包含的每个图案应用于非结构化文本,以针对每个图案获得尽可能多的与所述图案匹配的元组,元组是应用图案到非结构化文本的结果;
·识别信息量最大的图案。
17.根据权利要求16的方法,其中识别信息量最大的图案的步骤包括进一步的步骤:
·运行超文本引导主题选择算法。
18.根据权利要求13所述的方法,其中每个图案针对模板中的每个标签指定该标签是第一实体、第二实体还是关系。
19.一种用于从非结构化文本自动提取和挖掘关系和相关实体以用于搜索领域的系统,所述系统包括:
·用于接收指定主实体的查询的模块;
·用于从非结构化文本提取与查询中指定的主实体相关的关系和相关实体的模块,进一步包括:
·用于在非结构化文本中搜索和选择包含主实体的文档的模块,
·用于向所选文档的每个词附加一个或多个标签的模块,每个标签是不同类型的;
·用于通过将图案应用到所述加标签的文档来提取关系和相关实体的模块;
·用于从所选文档提取表征每个实体和关系的特征的模块,进一步包括:用于使每个关系与以下内容相关联的模块:关系类;和/或关系强度;和/或时间信息;
·用于基于所提取特征构造图表的模块,其节点表示与所指定主实体相关的实体并且其边表示所述实体间的关系。
20.根据权利要求19的系统,进一步包括:
·用于操纵所得图表以更加了解其包含的信息的模块。
21.根据权利要求19或20所述的系统,其中用于向所选文档的每个词附加一个或多个标签的模块包括:
·用于对所选文档应用语法和语义标签器以提取已命名实体、词汇类型以及词的语义的模块。
22.根据权利要求19或20所述的系统,其中用于操纵所得图表以更加了解其包含的信息的模块进一步包括:
·用于接收图表查询以根据特定标准获得相关实体和关系的特定表示的模块;
·用于响应于所述图表查询,生成输出图表的模块,其根据图表查询中指定的标准表示实体以及它们的关系。
23.根据权利要求22的系统,其中所述标准是时间标准或者是与一个或多个与关系和相关实体相关联的特征相关的条件或/和约束。
24.根据权利要求19或20所述的系统,其中用于基于所提取特征构造图表的模块进一步包括:
·用于使表示实体的每个节点与基于表征所述关系和相关实体的特征的值的矢量相关联的模块。
25.根据权利要求19或20所述的系统,其中包括用于从在包含主实体的所选文档内频繁出现某实体的上下文中导出表征该实体的一个或多个特征的模块。
26.根据权利要求24所述的系统,其中与表征实体的特征相关联的值基于相关联的实体出现所述特征的概率。
27.根据权利要求19或20所述的系统,其中用于生成输出图表的模块进一步包括:
·用于在图表上显现:关系类、关系强度和时间信息的模块。
28.根据权利要求27的系统,其中用于基于所提取特征构造图表的模块进一步包括:
·用于根据关系的语义意义将关系分类在预定类别中的模块。
29.根据权利要求27的系统,其中用于基于所提取特征构造图表的模块进一步包括:
·用于基于节点间的距离扩展图表的模块,该模块进一步包括:
·用于选择一个或多个扩展的实体的模块;
·用于从非结构化文本提取与所述扩展的实体相关的关系和相关实体的模块。
30.根据权利要求29所述的系统,其中所述一个或多个扩展的实体是接近主实体的实体。
31.根据权利要求19或20所述的系统,包括用于从非结构化文本导入图案的模块,所述模块进一步包括:
·用于向非结构化文本的每个词附加一个或多个不同类型的标签的模块;
·用于定义一个或多个模板,每个模板基于标签的序列的模块;
·用于从每个模板生成一个或多个图案,每个图案指定用于模板中每个标签的角色的模块。
32.根据权利要求19或20所述的系统,其中标签是语音标签或已命名实体标签或语义标签器或任何其他类型的标签。
33.根据权利要求31所述的系统,其中用于定义基于标签的序列的一个或多个模板的模块进一步包括:
·用于选择模板的初始集合的模块;
·用于滤出在有限状态机中具有较低可能性的模板的模块。
34.根据权利要求31所述的系统,其中用于从每个模板生成一个或多个图案的模块进一步包括:
·用于从模板的初始集合生成图案的初始集合的模块;
·用于将图案的初始集合中包含的每个图案应用于非结构化文本,以针对每个图案获得尽可能多的与所述图案匹配的元组的模块,其中元组是应用图案到非结构化文本的结果;
·用于识别信息量最大的图案的模块。
35.根据权利要求34的系统,其中用于识别信息量最大的图案的模块进一步包括:
·用于运行超文本引导主题选择算法的模块。
36.根据权利要求31所述的系统,其中每个图案针对模板中的每个标签指定该标签是第一实体、第二实体还是关系。
从非结构化文本提取和显现图表结构化关系的方法和系统 \n技术领域\n[0001] 本发明涉及数据处理,更特别地,涉及一种用于从非结构化文本自动提取和显现表示出关系的图表结构化数据的方法、系统和计算机程序。 \n背景技术\n技术领域\n[0002] 结构化信息可以定义为其预期意义以数据的结构或格式明显地表示的信息。结构化信息的典型例子是关系数据库。非结构化信息可以表征为其意义需要解释以接近和提取预期意义的信息。例子包括自然语言文档、语音、音频、图像和视频。换言之,非结构化数据是无组织地驻留于数据库外部的任何数据。非结构化数据可以是文本、音频、视频或图形。 [0003] 非结构化信息代表可用于商界或政府的最大、最流行和最快发展的信息源。在一些估计中,非结构化数据代表所有共同信息中的80%。在这些大量数据中的高价值信息是难以发现的。非结构化信息不是适于搜索技术的格式。在非结构化源中搜索信息是不实际的。首先,必须分析数据以检测和定位所关心的项。然后必须将结果结构化为使得强大的搜索引擎和数据库引擎可以在内容被请求时有效地找到所请求的内容。从非结构化世界到结构化世界的桥梁称为信息提取(IE)。 \n[0004] 非结构化信息管理(UIM)应用通常是软件系统,其分析大量非结构化信息(文本、音频、视频、图像等)以发现、组织和传递相关知识到客户端或终端用户。一个例子是处理数百万医学文档和报告以发现药物间关键相互作用、副作用和疾病史的应用。另一例子 是处理数百万文档以发现表明可能的恐怖分子威胁的关键证据的应用。 \n[0005] 非结构化数据的管理被认为是信息技术(IT)产业中主要未解决问题之一,主要原因是可以成功地将结构化数据转换为商业情报和可用信息的工具和技术当应用于非结构化数据时完全不起作用。 \n[0006] 非结构化信息管理(UIM)系统对大量非结构化信息使用信息提取(IE)技术以发现、组织和传递相关知识到客户端。 \n[0007] 信息提取(IE)是自然语言处理(NLP)的重要未解决问题。信息提取中最重要的问题之一是从文本文档中提取实体以及提取这些实体间的关系。实体的例子是“民族”、“组织”和“位置”。关系的例子是“组织-雇用-执行官”、“组织-位置”等。例如,句子“John Adams是XYZ公司的首席执行官”包括个人“John Adams”和组织“XYZ公司”之间的“组织-雇用-执行官”关系。 \n[0008] 已经使用各种技术来提取相关实体间的关系。 \n[0009] ·在监督方法中,在给出的例子中人力专家人工地识别实体和关系。针对这些例子训练分类器,该分类器用于在以后运行时识别关系和实体。 \n[0010] ·半监督方法使用由专家提供的种子样本并设法自动获得类似于种子样本的更多样本。然后,种子样本和所获得的样本被用于训练类似于监督情况中的分类器。 [0011] 非结构化数据包括不同于实体和关系的其他信息,例如表示不同实体间的关系的社交网络,其间实体具有某些关系的周期,不同实体间共享的公共因素,…该复杂和丰富的信息难以获取并且非常难以用信息化方式表示。 \n[0012] HITS(“超文本引导主题选择”)算法是用于对网页进行分级并因此还进行排序的算法。HITS对每个页面使用两个值,“权威值”和“中心值”。“权威值”和“中心值”在相互递归中相互定义。权威值计算为指向该页面的定标中心值的和。中心值是其指向的页面的定标权威值的和。在一些实现中也考虑了所链接页面的关联性。 HITS算法得益于以下研究:当页面(中心)链接到另一页面(权威)时,前者对后者给予授权。HITS方法在J Kleinberg,J.ACM(1999)的标题为“Authoritative Sources in a Hyperlinked Environment”(超链接环境中的权威源)的出版物中描述。 \n[0013] 初始问题 \n[0014] 对于一些领域,从非结构化数据提取知识是昂贵且不可行的任务,因为需要生成很多手工规则以捕获各种信息。尽管对于任何给定领域提取这种知识都是非常困难的操作,但以清楚和有用的方式向用户呈现和显现数据是更困难的。本发明处理三个主要问题: \n[0015] ·用于在任何领域(应用)中从任何非结构化数据提取实体间关系的图案的自动发现 \n[0016] ·从非结构化数据提取表征每个实体和关系的知识(例如其间关系有效的时间以及在该时间该实体的位置)。 \n[0017] ·多层关系的定义(具有各种约束和条件的关系,例如在给定时间帧中的关系或者在给定组织中两个人之间的关系,…) \n[0018] ·所提取知识的显现(以使用户能够吸收和消化该知识的方式呈现所提取知识)。 现有技术\n[0019] 本发明集中于用于从非结构化数据提取和呈现信息的三个关键问题: [0020] ·用于提取实体间关系的图案的自动发现; \n[0021] ·从非结构化数据提取深层知识; \n[0022] ·所提取知识的显现。 \n[0023] 大多数现有技术仅集中于第一个问题,其包括从非结构化文本提取实体间关系。出版于“The proceedings of the 1998 InternationalWorkshop on the Web and Databases”中的标题为“Extracting Patternand Relations from the World Wide Web”(从万维网中提取图案和关 系)(Sergy Brin,斯坦福大学计算机科学系)的文章可以找到该领域中的工作。该出版物公开了作者身份信息的提取,如在万维网上在图书描述中找到的那样。该出版物基于双重迭代图案-关系提取,其中关系和图案集合被迭代地结构化。该方法具有两个主要缺陷: \n[0024] ·(1)使用手工种子样本以提取更多类似于这些手工种子样本的样本。 [0025] ·(2)使用词典作为用于提取信息的主要来源。 \n[0026] 出版于“Proceedings of the Fifth ACM International Conference onDigital Libraries”2000中的标题为“Snowball:Extracting Relation fromLarge Plain-Text collections”(雪球:从大型明文集合中提取关系)(Eugene Agichtein和Luis Gravano-哥伦比亚大学计算机科学系,1214 Amsterdam Avenue NY)的文章公开了一种类似于先前工作的思想,通过使用种子样本生成初始图案以及迭代地获得更多图案。然后使用特殊(ad-hoc)测量以估计最近获得的图案的相关性。该方法的主要缺陷是: [0027] ·(1)对种子样本的依赖导致有限的概括能力, \n[0028] ·(2)使用手工样本导致领域依赖,以及 \n[0029] ·(3)图案的相关性的估计要求特殊测量的使用。 \n[0030] 标 题 为“Visualization of integrated structured data and \nextractedrelational facts from free text”(显现整合的结构化文本和从自由文本中提取的关系事实)(Wakefield等人)的美国专利申请US2004/0167907公开了一种机制,用于从非结构化自由文本提取简单关系。然而,该机制具有可以概述如下的主要缺陷: [0031] ·提取关系的机制取决于语法分析树。这是主要缺陷,因为不能提取精确关系。 [0032] ·取决于人为规则。机制设计用于某些问题,并且必须针对每个问题而改变,这是昂贵且困难的。 \n[0033] ·使用词典和其他昂贵资源来提取信息。 \n[0034] ·不是通用的并且不能解决不同领域中的不同问题。 \n[0035] ·仅提供简单关系但不能提供高度详细的关系。 \n[0036] ·不完全自动并且需要人为干涉。 \n[0037] 标 题 为“System and method for automatically and iterativelymining related terms in a document through relations and patterns ofoccurrences”(用于通过出现关系和图案自动地和迭代地挖掘文档中的相关项的系统和方法)(Sundaresan等人)的美国专利US 6,505,197公开了一种自动和迭代数据挖掘系统,用于使用二元概念识别万维网上的一组定义了关系的相关信息。具体地,挖掘系统迭代地提炼以特定方式相关的项的配对,以及它们在网页中出现的图案。自动挖掘系统以迭代方式运行,用于连续地和递增地提炼关系及其相应图案。在一个实施例中,自动挖掘系统根据关系在网页中出现的图案来识别关系。自动挖掘系统包括导出新关系的关系标识器以及导出新图案的图案标识器。最近导出的关系和图案存储在数据库中,其最初以关系和图案的小种子集合开始,其连续地和迭代地被自动挖掘系统加宽。 \n[0038] 然而,该专利受制于多个缺陷: \n[0039] ·取决于用于提供种子图案的人为工作。 \n[0040] ·所得图案类似于原始种子图案。 \n[0041] ·对于每个领域或应用,新种子图案必须由专家提供;这是乏味且昂贵的过程。 [0042] ·提取关系和图案仅取决于非常有限的词汇(词)特征。 \n[0043] 标题为“Wrapper induction by hierarchical data analysis”(通过层级数据分析来进行封装包导入)(Muslea等人)的美国专利US6,606,625公开了一种归纳算法,其基于用户标记的训练样本生成提取规则。问题在于对训练数据的标记形成了严重的瓶颈。 [0044] 剩余问题 \n[0045] 所有先前解决方案都受制于下述缺陷中的一个或多个: \n[0046] ·需要手工规则或大量人为注解样本用于组成用于提取关系的图 案。 [0047] ·是领域专用的并且设计为解决非常特殊的问题。 \n[0048] ·取决于种子样本。所得图案不是通用的并且非常类似于种子样本。 [0049] ·不是独立于语言的。 \n[0050] ·仅提供简单关系但不能提供高度详细的关系。 \n[0051] ·不针对每个实体和关系提取详细的特征。 \n[0052] ·不能对所提取信息挖掘复杂数据。 \n[0053] ·不提供针对大量数据的有效显现。 \n[0054] 发明内容\n[0055] 发明目的 \n[0056] ·本发明的目的是从非结构化数据自动提取实体间关系,独立于领域和语言,不要求任何种类的任何人为干涉,并且不考虑数据数量如何。 \n[0057] ·本发明的另一目的是提取高度复杂的关系和相关实体,每个所提取实体和关系都由非常丰富的信息结构表示。 \n[0058] ·本发明的另一目的是提取实体间多层关系以及实现对所提取信息的复杂数据挖掘。 \n[0059] ·本发明的另一目的是以清楚和可利用的方式显现信息,可以帮助用户吸收和消化大量非结构化信息。 \n[0060] 发明概要\n[0061] 本发明公开了一种用于从非结构化文本自动提取和挖掘关系和相关实体的系统、方法和计算机程序。更特别地,本发明涉及一种方法,用于: \n[0062] ·从非结构化文本数据提取关系和相关实体, \n[0063] ·将所提取信息表现为图表,以及 \n[0064] ·操纵所得图表以更加了解其包含的信息。 \n[0065] 首先通过自动导入图案以及其次通过将这些导入的图案应用于非结构化文本数据,执行关系和相关实体的提取。对于每个关系和实体,提取多个特征以构造图表,其中节点表示实体,并且边表示关系。 \n[0066] 本发明提供如下装置,其用于开发图表,并用于导出其他图表,这些图表集中于某些时间帧内的关系或涉及某些特征。这是分别使用时间图表和基于特征的图表来完成的。\n两种方法基本上都查询与图表的节点和边相关联的数据结构的内容。 \n[0067] 本发明提供显现技术,用于更好地理解图表中包含的信息。 \n[0068] 本发明提供用于吸收和消化非结构化信息的有效解决方案并实现大量文档的有效显现。 \n[0069] 参照以下描述、权利要求和附图可以更好地理解本发明的前述以及其他目的、特征和优点。 \n[0070] 附图说明\n[0071] 当结合附图阅读时通过参照以下示例性详细实施例的详细描述将最好地理解本发明本身及其优选使用模式、其他目的和优点,附图中: \n[0072] 图1示出根据本发明的系统的概略图。 \n[0073] 图2是根据本发明的图表结构化关系提取器的详细视图。 \n[0074] 图3是根据本发明的导入图案的步骤的框图。 \n[0075] 图4是模板、图案和元组的例子。 \n[0076] 图5示出根据本发明用于导入图案的方法。 \n[0077] 图6是根据本发明用于图案的初始表示的有限状态机(FSM)。 \n[0078] 图7示出根据HITS算法的图案和元组的表示。 \n[0079] 图8是浅图表的例子。 \n[0080] 图9是基于特征的图表的例子。 \n具体实施方式\n[0081] 提供以下描述以使得人们或者本领域普通技术人员能够进行和使用本发明,并且在专利申请及其要求的上下文中提供以下描述。对这里描述的优选实施例以及一般原则和特征的各种修改对于本领域技术人员而言是显而易见的。因此,本发明不旨在受限于所示实施例,而是符合与这里描述的原则和特征一致的最宽范围。 \n[0082] 本发明的主要目的是处理非结构化文本数据以提取关系和相关实体以及对于二者的特征。结果是其节点和边分别表示实体和这些实体间关系的图表。当提取大量信息时,系统还提供操纵图表的能力,以动态地生成示出关系和/或实体的不同方面的各种图表。 [0083] 概略图 \n[0084] 图1示出根据本发明的系统的概略图。 \n[0085] ·系统接收指定已命名实体(例如人名、组织名或在任何领域中的任何其他已命名实体)的用户查询103。该已命名实体以下将称为“主实体”。 \n[0086] ·将大量非结构化文本数据100(例如万维网)提供到图表结构化关系提取器101,其提取相关实体、所述相关实体间的关系以及表征所述相关实体和关系的各种信息。 [0087] ·系统构造其节点表示与主实体最密切相关的实体并且边表示实体间关系的图表。 \n[0088] ·将图表查询104应用到图表以获得数据的具体视图。 \n[0089] ·由图表显现器102生成最终输出图表105。该最终输出图表105根据在应用到图表的查询中指定的标准来表示实体及其关系。 \n[0090] 图表结构化关系提取器 \n[0091] 图2是根据本发明的图表结构化关系提取器101的详细视图。系统操作如下: [0092] ·将从用户接收的查询103传输到索引器和搜索引擎200用于在非结构化文本数据100中进行搜索(例如在Web上)。非结构化文本数据100包括大量文档(即WEB上的各种文档,例如网页)。搜索引擎200从非结构化文本数据100检索包含查询103中指定的主实体的文档。 \n[0093] ·对包含查询103中指定的主实体的文档应用语法和语义标签器201(所述文档由搜索引擎200得到)以提取各种已命名实体、词汇类型以及词的语义。 \n[0094] ·相关实体和关系提取器202从先前步骤中标记的文档提取与查询103中指定的主实体强烈相关的实体和关系。 \n[0095] ·特征提取器203从由搜索产生的并包含查询中指定的主实体的文档提取信息,以表征先前在步骤202中提取的每个实体和关系。例如,对于特定实体,可以提取与该实体密切相关的接近该实体的人、组织、位置、时间特征、词…。 \n[0096] ·图表扩展器204重复先前步骤,即提取与查询103中指定的主实体特别相关的关系和实体。进行该操作以将图表扩展为具有附加的相关实体和关系。很多实体与查询中指定的主实体相关。在这些实体中,一些是特别相关的并且必须添加到图表。问题在于不知道这些相关实体如何彼此相关以及与其他实体相关。这就是图表扩展器对非结构化文本(100)(而不是仅仅对包含主实体的所选文档)重复先前步骤的原因。 \n[0097] ·然后,图表扩展器204基于所述提取的实体和关系形成图表。查询中指定的主实体作为图表的中心点,所有其他实体连接在其周围。 \n[0098] ·关系分类器205根据关系的语义意义根据一组预定类别来对所得关系进行分类。例如,诸如“领导”、“总裁”和“主席”的关系被分类为“执行官”。该步骤是可选的并且不影响系统的输出。 \n[0099] ·在图表中表示所提取实体和关系。图表扩展器204从非结构化文本数据收集信息并以与每个实体和关系相关联的结构表示所述信息。以便于内容操纵的方式构造图表。 [0100] ·将图表传输到图表显现器102。该图表可能会受到来自用户的指定某一标准的查询104。响应于该查询,图表显现器102在输出105中输出相对较简单的图表。该输出图表105根据在查询104中指定的标准表示实体及其关系。 \n[0101] 关系和相关实体提取 \n[0102] 根据优选实施例的系统从非结构化文本提取相关实体和这些实体间的关系。将各种标签器应用到文本以附上不同种类的标签(例如已命名实体标签器向每个词附上表示其已命名实体类别的标签)。关系和相关实体提取器202提取相关实体以及对所述实体间关系的描述。关系分类器205将所提取关系分类在预定关系集合中。 \n[0103] 关系和相关实体提取器202自动提取相关实体以及它们的关系。为了提取关系和相关实体,关系和相关实体提取器使用具有相关联的置信测量的图案。导入(自动获取)图案的过程被执行一次,然后在系统构造期间脱机。使用通用框架导入图案,该框架可以用于任何实体和相关类型。在运行时,将导入的图案应用到非结构化文本以提取实体以及与它们相关联的关系。 \n[0104] 图3是导入图案的方法的概略图。将非结构化文本数据300提供到图案导入器\n301中,其导入图案302用于接着提取实体以及所述实体间的关系(注意:非结构化文本数据300与非结构化文本数据100相同)。 \n[0105] 如上所述,根据优选实施例的图案导入器301对非结构化文本数据进行操作以导入图案。图4描述图案结构以及对非结构化文本执行的处理。例如,输入文本400“美国副总统Al Gore今天说…”被通过各种标签器(例如词性(POS)标签器、语义标签器和已命名实体标签器)加上标签。换言之,标签与句子中每个词相关联。结果是表示句子400的各种特征的一组多流标签401。 \n[0106] 词:美国 \n[0107] 实体:民族 \n[0108] 词性:形容词 \n[0109] 语义:居民 \n[0110] 词:副总统 \n[0111] 实体:职业 \n[0112] 词性:名词短语 \n[0113] 语义:执行官 \n[0114] 词:Al Gore \n[0115] 实体:个人 \n[0116] 词性:名词 \n[0117] 语义:无 \n[0118] 使用不同类型的标签的组合可以形成相同句子的不同表示。在给定表示中使用的标签类型取决于系统将尝试匹配的图案。 \n[0119] 模板 \n[0120] 模板是通用标签的序列。模板402的例子是: \n[0121] 民族_居民 职业_名词短语个人[2]动词_短语 \n[0122] 该模板来源于401中已命名实体标签、词性(POS)标签和语义标签的表示。所有这些标签被认为是单个标签。这里图案的选择仅用于示意目的,可以使用标签、表示和加标签样式的任何组合。 \n[0123] 图案 \n[0124] 图案比模板更具体。图案指定由标签扮演的角色(第一实体、第二实体、或关系)。\n如后面说明的,图案从模板获得。模板的例子 表示在403中,其中识别关系以及关系中的每个实体。 \n[0125] 该图案表明句子中具有标签民族_居民_形容词的词表示关系中第二实体(实体\n2),而具有标签个人[2]的词表示关系中第一实体(实体1)。最后,具有标签职业_执行官_名词短语的词表示两个先前实体间的关系。 \n[0126] 元组 \n[0127] “元组”是将图案应用到非结构化文本的结果。在上述例子中,将图案应用到原始文本的结果是以下元组: \n[0128] ·实体1:Al Gore \n[0129] ·实体2:美国 \n[0130] ·关系:副总统 \n[0131] 元组404、405示出不同元组可以如何与相同图案匹配。 \n[0132] 根据本发明的方法包括导入一组包含信息的高置信度的图案的步骤。该组图案在运行时间期间被应用于原始文本以正确识别相关实体以及这些实体间的关系。 [0133] 图案导入器 \n[0134] 图3中的图案导入器302进一步在图5中详细示出。用于导入图案的方法仅在构造系统时执行一次。用于导入图案的方法包括以下步骤: \n[0135] ·500:由语法和语义标签器模块对非结构化文本数据300(即大型文本数据或WEB数据)应用诸如POS标签器、已命名实体标签器和语义标签器的各种标签器。 [0136] ·501:所得数据分成两部分:小部分和大部分。该划分是有用的,因为仅数据的小部分需要得到图案的初始集合,而数据的大部分需要使用以下描述的导入过程来排序和检验这些图案。 \n[0137] ·502:数据的小部分用于构造有限状态机502,类似于图6中所示有限状态机。 [0138] ·503:初始图案生成器用于滤出不太可能的模板,其在有限状态机中具有较低可能性。然后,初始图案生成器使用初始模板以生成图案的初始集合。先前获得的集合中每个模板可以通过将不同角色附加到模板的不同部分生成多个图案。如果现在考虑以下模板: [0139] 民族 名词_短语个人个人位置 \n[0140] 则从该模板可以生成以下3个图案: \n[0141] ·民族:实体1名词_短语:关系 个人:实体2个人_实体2位置 \n[0142] ·民族:实体1名词_短语:关系个人个人位置:实体2 \n[0143] ·民族名词_短语_关系 个人:实体1个人:实体1位置:实体2 \n[0144] 因此,通过从模板的初始集合中的每个模板生成所有可能图案,构造图案的初始集合。 \n[0145] ·504:元组匹配器将图案的初始集合中的每个图案应用于非结构化数据。结果包括图案的配对(p,t)以及与这些图案匹配的元组。注意到,这些配对中的很多是错误的,即它们错误地识别相关实体和/或关系。 \n[0146] 有限状态机 \n[0147] 图6示出用于所考虑的图案的有限状态机。 \n[0148] ·第一状态601表示“民族”已命名实体, \n[0149] ·第二状态602表示“名词_短语”, \n[0150] ·第三状态603表示“个人”已命名实体,其可以由一个或多个名字表示。对第一弧线的加权604表示该状态序列的可能性。 \n[0151] HITS图案导入器 \n[0152] 步骤505使用以下研究用于自动识别信息量最大的图案:与很多元组匹配的图案倾向于为正确。类似地,与很多图案匹配的元组倾向于为正确。因此,问题可以视为中心(元组)和权威(图案)问 题,其可以使用HITS(“超文本引导主题选择”)算法来解决。\n基于一组相关“权威页面”和一组“中心页面”之间的关系,HITS是权威概念的算法公式。\nHITS算法原始用于通过分析WWW(万维网)的链接结构在考虑搜索查询时确定最权威的网页。HITS算法受益于以下研究:当页面(中心)链接到另一页面(权威)时,前者对后者给予授权。 \n[0153] HITS图案导入器操作如下: \n[0154] 假设很大一组数据D包括很大一组图案P,希望识别与最正确元组集合T匹配的图案集合 换言之,希望在数据中巨大图案空间之中选择信息量最大、置信度最高的图案,其可以识别正确元组。然而, 和T二者是未知的。 \n[0155] 应用导入过程如下: \n[0156] P中的每个图案 与数字的权威加权Ap相关联,其表示多少元组与该图案匹配。\n类似地,T中每个元组t具有数字的中心加权Ht,其表示该元组与多少图案匹配。 [0157] 加权被迭代地计算如下: \n[0158] \n[0159] 然后加权被归一化,使得: \n[0160] \n[0161] 拒绝加权低于预定阈值的图案。 \n[0162] 计算权威加权使得在第一迭代HITS计算中通过针对与图案匹配的每个元组加1来计算权威加权,该总和被进一步加权以有利于得到更短的图案。加权的增量计算如下: [0163] \n[0164] 其中 是图案的基于长度的加权,MaxLength是最长图案的长 度。对于更短的图案,该修改得到更好的加权。 \n[0165] 由该最后步骤产生包括信息量最大的图案的集合,每个图案具有存储在导入的图案302数据库中的权威加权。 \n[0166] 在运行时,如图2所示,关系和相关实体提取器202对非结构化文本数据300使用导入的图案302以提取关系和相关实体。 \n[0167] 图7示出作为双向图表的图案和元组的表示。图案701和702连接到多个元组,类似地,元组703连接到两个图案701和702。该连接导致相互干扰,其增加图案和元组二者的加权。另一方面,图案704具有单个连接,因此具有低加权。 \n[0168] 特征提取 \n[0169] 如图2所示,在被关系和相关实体提取器202提取之后,相关实体连同它们的关系存储在图表结构中。基于用户查询103中指定的主实体创建图表。特征提取器203从非结构化文本数据提取用以表征每个实体和关系的信息。结果是其节点表示实体并且边表示关系的复杂图表。图表是复杂的,因为不是具有简单标签,而是节点和边具有与它们相关联的数据结构。鉴于图表中包含的信息量,需要发明一种方法,其间接地使得对节点和边数据结构的查询可以动态地生成原始图表的变体。 \n[0170] 节点结构 \n[0171] 每个节点是包括基于从上下文导出的特征的实体和矢量的结构,在该上下文中实体在文本中频繁出现。例如,对于某个人,结构看起来是这样的: \n[0172] 实体名:个人1 \n[0173] 相关联的个人: \n[0174] 名字1 0.43 \n[0175] 名字2 0.21 \n[0176] …… \n[0177] 相关联的组织: \n[0178] 组织1 0.71 \n[0179] 组织2 0.12 \n[0180] …… \n[0181] 相关联的位置: \n[0182] 位置1 0.50 \n[0183] 位置2 0.24 \n[0184] …… \n[0185] 相关联的词包: \n[0186] 词1词2词3 0.7 \n[0187] 相关联的时间 \n[0188] 时间1 0.12 \n[0189] 时间2 0.09 \n[0190] …… \n[0191] 对于实体,与每个特征相关联的数值是当考虑该实体所出现的所有类似特征时出现该特征的概率。 \n[0192] 边结构 \n[0193] 如上所示,关系提取器202可以识别原始文本中哪个词用作关系。提取用于每个包括以下字段的边/关系的结构,其中有: \n[0194] ·关系类(例如管理人), \n[0195] ·关系强度(例如0.85意味着“强烈相关”), \n[0196] ·关于关系的时间信息(例如关系是在80年代)。时间信息用于构造考虑了关系的时间帧的时间图表。所得图表可以表明在给定时间哪些实体相关。这种时间图表可以示出例如个人在其一生与不同组织和个人的关系的种类。 \n[0197] 节点和边结构中包含的信息帮助对图表执行各种操作。 \n[0198] 图表扩展 \n[0199] 为了确定实体相关强度如何,系统依靠与节点配对相关联的特征矢量之间的距离。图表扩展器204使用这些距离来确定是否需要通过添加某些实体来扩展图表。选择接近主实体的实体来扩展图表。 \n[0200] 通过对选择用于扩展的实体重复关系提取和特征提取步骤来进行图表扩展,所选实体是到主实体的距离测量值为小的实体。因此,图表扩展导致多个子图表,每个子图表集中于被选择用于扩展的实体之一。 \n[0201] 可以使用各种距离度量,其中有欧几里德距离和余弦距离。在优选实施例中,使用两个矢量之间的余弦距离。 \n[0202] 可选图表表示 \n[0203] 在先前步骤中构建的图表由于存储在它的节点和边中的数据而非常丰富。为此,可行的是提供一些方法用于通过不同种类的图表表示底层数据。通过以不同方式查询节点和边数据结构的内容获得这些图表。图表显现器102使用图表查询104来对复杂图表执行进一步数据挖掘以更加了解数据。在更简单和更集中的图表(输出图表105))中针对某些特征和特性显现数据。 \n[0204] 将作为例子讨论这些种类的图表中的3个。其他图表可以通过改变前述查询而获得。 \n[0205] 浅图表 \n[0206] 对节点和边结构的最简单查询检索实体的名字以及由图表描述的关系。这导致非常“浅”的图表,其仅示出必需的几条信息。图8是这种浅图表的例子。节点801表示查询中指定的主实体,节点802和803表示与主实体最强烈相关的实体。边804表示节点实体\n801和803之间的关系,而边805表示节点实体801和802之间的关系。节点806表示图表中与主实体801相关的很多所得实体之一。 \n[0207] 基于特征的图表 \n[0208] 围绕用户查询而构造的图表基于每个节点的特征矢量。基于特征矢量的不同子集使用其他查询可能获得其他图表。当决定2个实体间关系的强度时,仅考虑所选特征子集,因此名为“基于特征的”图表。该种图表解决了如下问题,例如“哪些实体与和主实体X相同的组织集合相关联?”或“哪些人有与主实体X类似的爱好?”。因为可能将所选距离度量应用到所考虑的较小特征矢量,因此可能获得两个实体间针对所选特征的接近程度。换言之,可以仅针对某些特征测量两个实体的接近度以提供对数据的更多关注。 [0209] 因为集中于特征矢量的子集可以使在原始图表中远离的两个节点更接近,因此可能跨子图表边界测量节点间的距离。这可以展现出所关注的关系,否则该关系将难以在原始图表中被发现。 \n[0210] 图9示出这种子图表的例子,其中已从图8中所示图表中提取关于“中东危机”的实体。节点901表示主查询,而节点902表示图表中的主节点。节点903是图8中满足用于该子图表的基于特征的标准的节点之一。 \n[0211] 时间图表 \n[0212] 如前所述,每个关系的结构包括时间信息。这打开了到另一类型的查询的大门,该另一类型的查询考虑了关系的时间帧。所得图表可以表明在给定时间哪些实体相关。通过改变时间,图表可以在两方面不同: \n[0213] ·它们包含的节点(因为2个实体可能在给定时间开始/停止具有关系),以及 [0214] ·边的加权(因为关系的强度可以随时间变化)。 \n[0215] 这种时间图表可以示出例如个人在其一生与不同组织和个人的不同关系。 [0216] 显现 \n[0217] 图表显现器102以下列方式提供图表的增强可视表示: \n[0218] ·节点外形宽度表明某一网络中哪个节点是中心。 \n[0219] ·节点颜色对节点的已命名实体标签(例如个人,组织)进行编码。颜色的强度表明该节点与当前选择的中心节点相关的程度(例如深绿色节点是与X强烈相关的组织,淡蓝色节点是与X不那么相关的位置)。 \n[0220] ·边颜色反映关系所属的分类。 \n[0221] ·边厚度反映关系的强度。 \n[0222] ·刷涂和链接用于显示基于特征的图表。在信息显现中,刷涂和链接用于动态地表明相关实体。在多个显示以不同形式呈现相同底层数据的情况下,刷涂和链接是特别有用的。在这种情况下,在一个显示中“刷涂”一个数据项造成在所有其他显示(“链接的”)中刷涂相同项。在优选实施例中,用户可以选择将在构造基于特征的图表中被考虑的特征。\n当刷涂为激活时,节点的颜色强度反映其属于图表的程度。例如,如果图表表示某人并且希望关注与特定组织相关的其他人;所得新图表是包括仅与该组织相关的人的子图表。 [0223] ·时间滑块允许用户在时间上前后移动。作为该移动的结果,创建时间图表。这些时间图表反映在特定时间的关系和相关实体。然而,这些图表不针对每次滑块移动进行显示。实体的节点的颜色强度可以变化以反映在它与主实体之间的关系的变化强度。因此,随着滑块移动,某些节点变暗淡出并且其他节点变亮;关系越远离(过去或将来)当前选择时间,相关节点看起来越暗。在所选时间处与中心实体相关的实体看起来最亮。 [0224] 本领域技术人员将认识到,尽管适于操作本发明的数据处理系统的完整结构未在此描述,其结构和操作可以符合本领域已知的现有实现。特别地,注意到,本方法的步骤可以从通过任何类型计算机网络(公共或专用)连接的分布式系统在客户端-服务器模式中操作。 \n[0225] 尽管已经参照优选实施例特别地示出和描述了本发明。应该理解,在不脱离本发明的精神和范围的前提下,可以做出形式和细节 上的各种改变。
法律信息
- 2021-08-27
未缴年费专利权终止
IPC(主分类): G06F 17/30
专利号: ZL 200680041525.3
申请日: 2006.09.18
授权公告日: 2013.02.06
- 2013-02-06
- 2009-01-07
- 2008-11-12
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有引用任何外部专利数据! |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |