著录项信息
专利名称 | 使用本体论和用户查询处理技术解决问题的方法 |
申请号 | CN200410078337.0 | 申请日期 | 2004-09-24 |
法律状态 | 权利终止 | 申报国家 | 中国 |
公开/公告日 | 2006-03-29 | 公开/公告号 | CN1752966 |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/30 | IPC分类号 | G;0;6;F;1;7;/;3;0查看分类表>
|
申请人 | 北京亿维讯科技有限公司 | 申请人地址 | 北京市朝阳区八里庄东里1号莱锦TownCN-08
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 北京亿维讯科技有限公司 | 当前权利人 | 北京亿维讯科技有限公司 |
发明人 | 张国明 |
代理机构 | 暂无 | 代理人 | 暂无 |
摘要
本发明描述了在一个语义处理模块中,基于本体论方法对数据/知识进行表示和处理,从而解决技术问题的一种系统,方法和计算机程序。语义处理模块的基本部件包括一个语义知识库,一个本体论知识库,和/或一个专家知识库。被解决的问题可以包括一个用户技术问题或者一个发明问题。所述方法包括存贮一个结构化描述的或者非结构化描述的用户检索式,对非结构化的检索式进行语义分析形成检索式的一种正式语义表示式,对正式的语义检索式进行语义扩展,扩展后的检索式用于在专家知识库中查找相关的解决方案,并且根据语义关系对找到的解决方案进行分类。
1.一种利用计算机自动获取解决问题方案的方法,包括如下步骤:
a.用户提供对待解决问题描述的信息检索式,所述检索式为非结构化检索式,所述非结构化 检索式以自然语言的格式表示;
b.对用户提供的所述非结构化检索式进行解析,形成一个结构化检索式,其中所述结构化检 索式以动词-参数-对象格式表示;
c.根据所述结构化检索式进行扩展,得到与问题相关的扩展检索式并存贮;
d.使用扩展后得到的所述扩展检索式在专家知识库中进行检索;
e.最后在专家知识库中找到解决方案并根据语义关系进行分类,所述的分类包括以下几种: 精确方案,特例方案,通用方案和类比方案。
2.根据权利要求1所述的方法,其中所述b步骤中解析的步骤还包括:首先对所述的非结构 化检索式进行词法、语法分析和语义分析,再生成符合动词-参数-对象格式的正式语义表示 式。
3.根据权利要求1所述的方法,其中所述c步骤中扩展的步骤包括同义词扩展、种属扩展、 关联扩展,所述种属扩展包括通用扩展与特例扩展。
4.根据权利要求1所述的方法,其中e步骤中找到解决方案是通过检索所述专家知识库中与 所述扩展检索式的动词、参数、对象字段相匹配的技术解决方案实现的。
5.根据权利要求1所述的方法,其中e步骤中根据语义关系进行分类是基于所述结构化检索 式的字段和所述解决方案的相关字段的匹配程度决定的。
6.根据权利要求1所述的方法,其中e步骤中找到的解决方案的标题用自然语言的句子表示, 包括4个字段,对应着主题-动词-参数-对象的基本概念。
7.一种利用计算机自动获取解决问题方案的方法,包括如下步骤:
a.用户提供对待解决问题描述的信息检索式,所述检索式为结构化检索式,其中所述结构化 检索式以动词-参数-对象格式表示;
b.根据所述结构化检索式进行扩展,得到与问题相关的扩展检索式并存贮;
c.使用扩展后得到的所述扩展检索式在专家知识库中进行检索;
d.最后在专家知识库中找到解决方案并根据语义关系进行分类,所述的分类包括以下几种: 精确方案,特例方案,通用方案和类比方案。
8.根据权利要求7所述的方法,其中所述b步骤中扩展的步骤包括同义词扩展、种属扩展、 关联扩展,所述种属扩展包括通用扩展与特例扩展。
9.根据权利要求7所述的方法,其中d步骤中找到解决方案是通过检索所述专家知识库中与 所述扩展检索式的动词、参数、对象字段相匹配的技术解决方案实现的。
10.根据权利要求7所述的方法,其中d步骤中根据语义关系进行分类是基于所述结构化检索 式的字段和所述解决方案的相关字段的匹配程度决定的。
11.根据权利要求7所述的方法,其中d步骤中找到的解决方案的标题用自然语言的句子表示, 包括4个字段,对应着主题-动词-参数-对象的基本概念。
12.一种利用计算机自动获取问题解决方案的系统,包括一个语言处理模块,一个语言知识 库,一个本体论知识库和一个专家知识库,所述语言处理模块使用所述语言知识库以将检索 式处理成正式表示式,同时,所述语言处理模块使用所述本体论知识库对给定的检索式执行 语义扩充,其中所述语言知识库是根据用户提供的信息检索式进行解析并形成以动词-参数- 对象格式表示的结构化检索式,所述本体论知识库完成对所述结构化检索式的扩展,所述专 家知识库根据扩展后的结构化检索式提供解决技术问题的解决方案,并由语言处理模块对解 决方案按照语义关系进行分类,所述的分类包括以下几种:精确方案,特例方案,通用方案 和类比方案。
13.根据权利要求12所述的系统,所述的本体论知识库的语义关系包括同义关系、种属关系、 关联关系,所述种属关系包括通用关系与特例关系。
14.根据权利要求12所述的系统,其中所述的语言处理模块能够通过检索所述专家知识库与 所述扩展检索式的动词、参数、对象字段相匹配的程度找到解决方案。
15.根据权利要求12或14所述的系统,所述的语言处理模块能够根据所述结构化检索式的字 段和所述解决方案的相关值的匹配程度决定解决方案的分类并排列输出结果。
技术领域\n本发明涉及对问题的自动求解,更特别的是,使用信息和知识表示和处理的语义方法进 行问题求解。\n背景技术\n解决用户技术问题首先需要良好的技术支持,即可操作地获取信息和知识库,这能回答 如何解决问题,或者帮助提供涉及问题求解的信息,例如利用其它知识领域的问题,或者同 一系统中其它类型的问题。这能为用户指出解题的方向。传统上,基于计算机的信息检索是 由搜索引擎完成的。\n在不复杂的信息检索系统中,通过检索数据库文本中包含的关键词(由用户输入)完成 检索。这种检索的特征是精确度低、查全率低。现代信息检索系统应该为用户提供形成自然 语言检索式的可能性,即系统应该有自然语言的用户界面。然后,对检索式进行自动的语言 分析,生成正式的表达式。语言分析可以在自然语言不同深度的层次上完成。这种分析,在 理想的情况下,应该包括语义层次的分析。重要的是不仅要认识到检索式中不同元素之间的 关系(通常是最信息最丰富的元素),而且要认识到检索式中的元素和外部世界或者一定的知 识领域中的对应元素之间的关系。这就需要使用概念之间的语义关系,例如像在知识描述中 表述的辞典或者本体论,以在各种应用中在不同的方式下改善信息检索系统的表现。\n本体论是一种分层的词法结构,其中用词和词的组合定义的概念彼此之间存在着语义关 系。依据所描述的词和试图反映的关于特定领域和周围世界的人的知识,本体论可以是特定 领域的,也可以是通用的。由于本体论代表了一个有价值的和可扩充的数据集合,在信息检 索中可以使用本体论来改善检索的精确性。\n美国专利US6675159B1描述的信息检索系统,使用基于本体论的谓词结构来索引收集的 文档。这个专利所述的系统只能根据用户检索式返回完全匹配这些概念的文档。这个系统也 有一定的基于本体论的检索能力,它能从本体论中检索逻辑结构的词组。例如检索式是“What is the current situation of the stock market?”,一个属性提取器提取出直接的属性 “current”、“situation”、“stock”、“market”,属性提取器也可以使用包含分层概念的本 体论,将属性“stock”扩展到“finance”、“banks”、“brokerages”、“Wall Street”等等。\n美国专利US5940821所描述的知识检索和搜索系统,和美国专利US6460034B1所描述的 基于知识的相关文档检索和搜索系统,使用知识库进行文档主题词的识别(从文档的名词术 语推出主题词)和文档的分类,所述的知识库存贮了具有词法、语义、或者用法关联的名词/ 种类之间的关联。可以在知识库的帮助下通过扩展检索词语和主词检索出一个检索式的相关 文档。所述系统包括事实知识库检索式和概念知识库检索式。事实知识库检索式确定一个检 索式的相关主词、和为这些主词分类的文档。形成对比的是,概念知识库检索式通过显示相 关种类和主词确定了潜在的文档。\n上述两个专利的系统包括一个语言引擎,一个知识分类处理器,一个主词矢量处理器, 和一个词态学部分。所述的语言引擎,包括一个词法分析器和一个主词分析器,不仅分析所 述文档集合的词法或者上下文观点,也分析每篇文档体裁和主题的属性。特别是,语言引擎 生成了每篇文档的上下文标记、主题标记、和体裁标记等作为输出的一部分。\n上述两个专利的知识库用来生成检索式词语的扩展集合,所述的扩展集合用于选择附带 的文档。为了使用知识库来扩展检索式的词语,分类层的级别和知识库的关联用于在预定的 规则内选择节点。在一个实施例中,基于举例加权,检索式的词语强度被降低,例如对词法 举例上的每个点,当扩展到一个更一般的种类或者关联时,检索式的词语加权被降低50%。 最后选择检索式词语加权大于一的所有节点。并且选择一个节点下的所有子种类和词语。\n然而,上述两个专利所述的系统主要基于主词矢量识别法。所述系统需要检索数据库中 的文本按照特别的上下文标记、主词标记和体裁标记进行索引,基于本体论的词语扩展根据 主词矢量检索附带的文档。\n传统上本体论也应用于数据库管理系统。在国际专利申请WO2003/030025A1中,所述的 数据库管理系统使用本体论解决语义不同的问题、语义不匹配的问题、和分布式资源下的检 索式集成问题。语义不同问题的解决方案是正式地指定使用本体论(共享的或者私人的)的 每个系统中的词语的含义。这样,这个专利所述的系统为具有多个数据库资源的网络提供了 一个分布式的检索式解决方案。所述网络帮助用户从多个资源库进行检索和整理数据,这些 资源库可以是例如SQL或者XML数据库等等。\n因此,上述专利所述的系统在从不同的信息资源检索信息时消除了含糊词语的歧义。\n在美国专利US2002/0107844A1中,在信息生成和检索系统中将本体论作为一个工具, 用概念图的形式帮助建立句子的语义表示。在信息检索过程中,经过分析用户输入的自然语 言的检索式的句子结构和语义结构,将其转换为概念图,然后在数据库中检索最接近的概念 图显示给用户。\n这样,在信息检索中应用本体论暗示着建立概念关系图,并比较检索式和数据库的概念 图。\n美国专利US6498795B1描述的主动信息发现和检索系统,使用一个主动的网络架构和基 于本体论的信息分层来结构化语义和自动进行信息捆绑,并提供对称的信息框架来过滤信息 和在网络中进行绑定。检索式被直接路由到相关的信息源,并且信息被分布到有利的目的地。\n上述专利暗示在主动网络的每个节点上生成一个内容本体论距离树和检索式本体论距 离树。使用主动的网络架构和基于本体论的信息分层分别作为网络和语义框架。系统使用简 单超文本标记语言(HTML)的本体论扩展(SHOE)。当一个SHOE距离使得一个特别的要求基 于一个特别的本体论时,软件可以自动地由特定的本体论推出不是直接表述的知识。本体论 提供了到暗含知识的扩充。SHOE标记允许定义新的基于扩充的本体论。检索的操作模型应用 到本体论距离树子层的任一部分上。经过计算特别的系数来决定本体论中子节点和父节点相 关的可能性。\n因此,上述专利使用语义结构检索信息,这暗示着给信息源加上本体论标记(自动或者 手动地使用SHOE),然后才可能根据SHOE标记基于本体论关系检索信息。\n在美国专利US2002/0116169A1中,描述了对字符串生成归一化表示的方法和装置。在 此使用本体论、辞典、和术语数据库作为归一化的装置。\n上述专利试图增加信息检索系统的检索特性,特别是使用本体论来归一化地表示检索式 和数据库的字符串。\n美国专利US2003/0177112描述了一种基于本体论的信息管理系统和方法,在结构化的 数据源和非结构化的数据源之间使用本体论提供语义匹配,并且包括生成、合理化、审查、 联合等过程来满足生命科学、信息化、以及其它原则的要求。该专利建议使用本体论来有效 激活条目之间的词法和语义匹配。\n上述专利使用能够对大文档集合进行归类的信息检索引擎,来评价一对信息之间的空间 距离。\n上述专利所述的方法主要来源于基于本体论的信息源管理,这有助于集成结构化和非结 构化的数据。信息源是生成新本体论的来源。信息检索引擎基于对数据的分类。\n本体论也用于检索式的扩展。在美国专利US5822731中,在检索中使用语义网络来最大 化相关文档的数量,将检索式中每个检索词进行相关扩充来扩充检索式。\n在美国专利US2001/0003183A1中,描述了一种在知识库中检索的方法和设备。本体论 是这个系统的一个集成部分。检索模板库和与很抽象的概念相关的关键词的辞典用计算机系 统来表示。每个模板包含一个或者多个类型变量。通过在系统中输入一个或者多个关键词就 可以生成一个检索式。每个关键词被抽象为概念(使用不同的辞典和本体论)。经过附加的抽 取、从几个候选概念中选择一个概念、或者连续地提取或者拒绝不同的关键词直到发现一个 可接受的概念,来进一步提炼每一个概念。接着,对于所得到的概念,通过使用这些概念或 者关键词找到所有的检索模板。用户然后选择最恰当的检索式。应用这个专利所述的系统可 以形成接入任何信息源集合的检索式。这个专利所述的系统特别适用于哪些分布式接入、不 同质的数据库系统,这些系统没有一个单一的标准化的单词或者结构。\n实际上,上述后三种方法表示了使用不同变量的本体论装置的关键词检索扩展。\n日本专利JP2000222436描述了一种使用本体论支持的信息检索方法和设备。所述方法 能够为用户输入的检索信息选择不同的数据库的选择菜单。这个专利所描述的本体论将数据 库作为树形结构的信息源管理起来,从高层到低层,数据库选择菜单也智能地从高程度的抽 象到低程度的抽象。简单地说,这个专利建议使用本体论来反映数据库的内容,帮助用户提 炼或者通用化一个概念。\n美国专利US20020147578A1描述了一种检索信息的检索式形成系统。该系统使用语义或 者词法信息消除一个或者多个无关的词语,重新形成一个检索式,并基于重新形成的检索式 在信息库中进行检索。对每个问题的处理使用了很多相关的字典、辞典和本体论。\n在此,使用本体论消除无关的词来重新形成一个检索式。\n美国专利US6363378B1描述的信息检索系统使用本体论对检索反馈进行排序。所述的信 息检索系统处理检索式,识别与检索式相关的主题以及检索反馈结果的主题,然后链接这些 主题到知识库中的相关节点。至少基于主题从知识库中选择一个主节点,然后判定主节点和 检索反馈节点之间的概念近似度。在此使用本体论中的分层关系来计算语义近似度。最后根 据概念近似度对检索结果进行排序。\n上述专利使用本体论进行知识库和检索式中的主题识别,并进行语义近似度的计算。\n因此,使用本体论来改善信息检索系统特性的想法并不是新的;它已经在各种专利中以 各种形式予以公开。例如,已经公开了使用不同的方法来检索结构化和非结构化的数据库、 识别文档的主题或者主词、字符串语义表示的归一化、不同类型数据的检索和集成、检索式 的扩展等等。就目前使用本体论对检索式扩展而言,一般来说使用本体论扩展基于关键词和 基于概念的检索,以及在特定知识领域使用本体论的分层关系。\n发明内容\n本发明的一个实施例包括一种系统、方法、或者计算机编程产品,它们能够基于数据/ 知识表示和处理的语义方法,解决但不局限于发明问题或者用户的问题,实现语言处理模块。 在一个实施例中,这个模块的基本部件可能包括一个语言知识库(KB)、一个本体论知识库、 和/或一个专家知识库。\n根据本发明的一个实施例,所述的语言知识库能够提供一个用户检索式的语言分析和它 正式的语义表示——Verb(动词)-Parameter(参数)-Object(对象)(VPO),也称为“一 个技术功能”,这也是问题的一种正式特性。\n本体论知识库可能包含周围世界的一定知识,用不同知识领域的许多词语(概念和动词) 以及这些词语之间的语义关系来表示,例如:同义关系、种属关系、以及关联关系。\n在本体论知识库的帮助下语言处理模块能够完成语义扩展。语言处理模块提供了信息检 索的最大的取回和精确性,对一个特定问题的检索能够找到解决方案和类比的解决方案,在 处理上述这类任务时这是非常重要的。除此之外,用户也可能基于本体论知识库中词语的近 似程度改变语义扩展的程度。\n一个实施例中的专家知识库,是为解决技术问题的解决方案知识库,来源于许多文本文 档,主要来源于专利和论文。这些解决方案表示为SVPO(主词-动词-参数-对象)格式, 在此S是主词,或者说是VPO所定义的技术功能的解决方案。通过比较语义扩展后的检索式 和专家知识库中的解决方案,语言处理模块能够确定特定检索式的解决方案(包括类比解决 方案)。在一个实施例中,语言处理模块的输出是根据语义排列的这些解决方案。结果是,用 户可以得到检索式的精确(precise)方案、特例(particular)方案、通用(general)方 案、和类比(analogous)方案。\n根据本发明的一个实施例,语言处理模块能为用户的检索式提供一种有效的解决方案, 通过语言、本体论、专家知识库、以及一系列语义方法编辑工具实现了信息/知识的处理。\n本体论的使用大大改善了信息检索系统的特性,这些系统处理主要的信息载体介质—— 文档:\n能够提供对用户检索式正确的语义分析;\n能够使用本体论扩展检索式中每个重要的词;和/或\n本体论能够反映完成上述任务所需要的知识领域概念和关系。\n因此,我们的方法区别特征在于:\n1一种基于语言处理文档(主要是专利)的新方法,用来解决但不局限于 发明问题和用户技术问题;\n2根据第1点,语言处理模块提供:\na)以VPO格式表示的正式问题;\nb)基于本体论的对正式问题表示的语义自动扩展;\nc)专利收集的自动语义索引;\nd)根据上述(2)(a)和(2)(b)自动检索精确解;和/或\ne)自动检索更通用的问题、更特殊的问题、和类比问题的精确解。\n3所述的本体论技术是通用的,因为:\na)本体论可以应用到任何知识领域;\nb)本体论反映了主要语义分类的语义关系,包括概念、它们的属性和动 作;\nc)本体论反映的语义分类之间的主要语义关系包括:\n主要的属性关系;\n同义关系;\n分层关系;和\n关联关系;\nd)本体论具有管理语义分类之间关系深度的机制;和/或\ne)本体论对用户是开放的,即可以提供对本体论进行编辑的技术。\n因此本发明的实施例,实际上能够对发明家的专业活动提供有效的支持,并且可以帮助 典型用户解决问题。\n本发明更多的特征和优点,以及本发明各种实施例的结构和操作,在下文中结合附图进 行详细描述。\n附图说明\n本发明的上述和其它特征、优点通过附图所示实施例的描述将变得非常明显。附图中, 相同的编号表示相同的、功能相似的、或者结构相似的元素。\n图1表示根据本发明的一个实施例,用于解决发明问题和用户技术问题的语言处理模块 的结构和功能框图;\n图2表示根据本发明的一个实施例,概念的本体论知识库的一个例子片段;和\n图3表示根据本发明的一个实施例,语言处理模块执行扩展功能的结构和功能框图。\n具体实施方式\n发明问题和用户技术问题的语言处理模块概述\n本发明的一个实施例提供了一种解决问题的方法。在一个实施例中,语言处理模块 (LPM),和体现感兴趣的一定领域的实体之间的自然语言和关系的多组件的知识库(KB),提 供对用户输入的结构化和非结构化检索式的高品质的理解,并提供发现最精确的和最完全的 相关解决方案的搜索技术。\n图1是根据本发明的一个实施例,解决用户技术问题和发明问题的语言处理模块的结构 和功能框图。如图所示,图1中的LPM接收一个用户检索式104。使用语言知识库132,LPM 处理用户检索式(108),生成检索式的正式表示式。接着,使用LPM的本体论知识库136对 给定的检索式执行语义扩充(116)。得到的多种检索模式输入到LPM的检索模块120中。使 用一个专家知识库140,LPM确定解决对应问题的所有可用的解决方案,根据相关度对这些解 决方案进行排序(124),并罗列所有的解决方案(128)。\n在一个实施例中,语言知识库132可以包含,但不限于,分析的规则,词形还原辞典, 语言逻辑,和名词词组的分类。\n知识库136可以是不同知识领域的一个词语分层数据库。在此使用的“词语”这个词表 示一个概念(词语-概念)和一个动词(词语-动词)。在描述本体论数据库的结构和内容之 前,需要进行下述定义:\n同义词——在给定的上下文中表示相同含义的两个词或者两个词法结构之间的语义关 系。\n例如:“alter”,“change”,“modify”,“Vary”等。\n直接同义词-与上下文无关的、具有相同(相近)含义的词或者词法结构。\n例如,“water”,“aqua”等。\n句法同义词-表示相同(或者相近)含义的不同的词法结构。\n例如,“to heat”,“to increase temperature”。\n种属关系(父类关系/子类关系)-是给定一组概念的父类概念/子类概念的两个词或者 两个词法结构之间的语义关系。\n例如,“oxygen”->“gas”,“increase”->“change”,“temperature”->“parameter”。\n关联关系-彼此之间有关联关系的两个词或者两个词法结构之间的语义关系。它们被称 为“兄弟/姐妹”关系,它们具有相同的“父类关系”,它们都是同一“父类概念”的“子类 概念”。\n动词-参数-对象(VPO)-问题的正式表示式。动词在此表示一个技术功能要被改善; 参数(也可能没有参数,这种情况下只称为VO)表示技术系统或者其中的一个元件的一种特 殊特性;对象表示涉及的技术功能或者过程的一个技术系统或者其中的一个元件。\n例如:\n问题是:How to increase temperature of water(如何增加水的温度)?\nVPO:V(increase)P(temperature)O(water)。\n主语词(Subject-S)——是VPO结构定义的问题的解决方案。\n例如:\nFire increase temperature of water\nSVPO:S(Fire)V(increase)P(temperature)O(water)\n主要的词——名词词组中定义整个名词词组词法特性的特定词。\n例如:\n名词词组:cold water;\n主要的词:water。\n词形还原——从一个词的词形变化中生成原始的词形。动词的原始词形是不定动词,名 词的原始词形是单数形式。\n例如:\n动词:“moving”->“move”;\n名词:“cars”->“car”。\n同义集合——同义词语(动词或者名词)的一组集合。\n例如:\n同义集合:“marine vessel”,“vessel”,“watercraft”。\n同义词扩展——将一个词扩展为同义词法元件集合的功能。\n例如:\n将“vessel”扩展为“marine vessel”,“watercraft”;\n将“heat”扩展为“increase temperature”。\n种属扩展——将一个词扩展为更通用含义(上位含义)或者更特殊含义(下位含义)的 词法元件组合的功能。\n例如:\n将“marine vessel”扩展为“craft”(更通用的含义);\n将“marine vessel”扩展为“craft”,“ice yacht”,“scooter”等等(更特殊的含义)。\n关联扩展——将一个词扩展为相近含义的词法元件组合的功能。\n例如:\n“regularization”和“regulation”、“quality control”、“restraint”等等相关。\n本体论中的词语根据下述关系进行分组:\n1)“同义”关系,包括:\n1a)“直接同义”关系;\n1b)“句法同义”关系;\n2)“种属”关系(父类关系/子类关系);\n3)“相关”关系。\n其中,(1a)、(2)、(3)是名词词组的特性:(1a)、(1b)、(2)是动词词组的特性。\n关系(1b)表示下述同义关系:\n动词1(Verb1)=动词2(Verb2)+参数(parameter)。\n例如:\nmoisten=augmenthumidity:\nheat=increase temperature。\n为了丰富本体论数据库136,根据本发明开发了一种特别的基于计算机的工具,它能自动 进行领域知识专家文献资料的分析。\n图2描述了从本体论概念知识库136中截取的一段树形图。除了节点244、252、260之 外,树形中的每个节点中的多个词组之间是(1a)关系;树形图中的线段表示类型(2)关系。这 样,节点248中任何一个词都是节点244中任何一个词的父类关系。最后,同一层次上的一 个节点和另一个节点之间词组具有类型(3)的关系。例如,节点252上的唯一词组和节点 256/260/264上的任一词组之间就是关系(3)。\n图1中的专家知识库140是从自然语言文件(专利、论文等等)中提取出来的技术解决方案 知识库。专家知识库140只能被搜索模块使用。每个解决方案的标题都是用一个自然语言的 句子表示,包括4个字段,对应着SVPO(Subject/Verb/Parameter/Object)的基本概念。应该注 意的是S字段并不能被搜索引擎直接检索,只是作为问题(问题由VPO定义)的一个解决方案。\n为了正确地生成检索的VPO字段需要满足很多要求:\n1每个字段必须表示为典型的形式:\n■参数和对象所包含的名词必须是主格、单数的格式,例如:“nanotube arrays”->“nanotube array”;\n■如果参数和对象包括of短语,它们必须转换成为非正式的结构,例如:“query of user”->“user query”:\n■动词字段的动词必须是不定词的格式,例如:“provided”->“provide”。\n2参数或者对象字段,如果是由联接词连接在一起,根据联接词的位置将它们分 成几个部分,这样就形成了2个或者更多的参数或者对象,例如:\n“polymers and copolymers”->“polymers”,“copolymers”\n3参数和/或对象字段包含简单的名词词组,剥离所有的附加信息:\n“bowl containing water”->对象:“bowl”\n一个技术解决方案的实施例如下所示:\n自然语言格式:\nAccelerometer detects acceleration of magnetic head.\nSVPO格式:\nS:accelerometer\nV:detects\nP:acceleration\nO:magnetic head\n图1中的语义处理模块工作时使用了上述的知识库(语义知识库132,本体论知识库136, 和专家知识库140)。用户检索式提供给语义处理模块LPM。首先LPM检查用户检索式的合理 性。VPO字段对检索式结构来说是强制性的。研究表明,大多数的发明问题都可以表示为一 种称为“技术功能”的格式,也就是VPO格式,它表示了一个问题的正式特性(例如:“disk increases the depth of grinding”,在此V是“increases”,P是“depth”,O是“grinding”), 然而问题的解决方案就是这个技术功能的执行者。结构化的功能检索式(VPO)不必经过语义 处理。非结构化的功能检索式要经过语义处理以得到VPO字段。LPM使用了一些规则进行语 义处理(108),它们用于描述一个上下分析模型。处理算法实现时不需要很多资源。由于以 下限制,它在对非结构化的用户检索式处理时非常有效:\n缺少主语(S);和\n更复杂的句子结构,由于所有的输入句子都采用了祈使语气。\n下面是非结构检索式的语义处理实施例:\n例1:\n检索式:How to test fatigued metals?\n结构化形式:V(test)O(fatigued metal)\n例2:\n检索式:How to measure mechanical properties of MEMS material?\n结构化形式:V(measure)P(mechanical property)O(MEMS material)\n应该注意的是,LPM在处理时不只使用语义知识库(132),也可能使用本体论知识库 (136),它提供名词和动词词组的术语,最终提升了处理的性能。一个经过分析的用户检索 式可以是一个正式的VPO结构。这些字段必须经过词形还原,如专家知识库140所示。\nVPO格式的用户检索式可以进一步提交给检索扩充模块(116),它使用本体论知识库136 的分层结构来完成语义术语扩展。这个过程在后面会用到,为了在使用专家知识库140时检 索到尽可能多的与问题相关的解决方案。\n图3描述了本发明的一个实施例,说明了LPM的扩展模块的结构和功能示意图。框图300 中,VPO格式的用户检索式368使用任何可变的扩展方法进行扩展。相应地要进行任何下述 的扩展(如图3所示):\n同义词扩展372(对动词、参数、和对象进行扩展);\n种属扩展376(上下位扩展,只对对象进行扩展);和/或\n关联扩展380(只对对象扩展)。\n同义词扩展372时,用户检索式(VPO)的每个字段都可被相应的同义词替代:直接同 义词和词法同义词。\n例如:\n输入(用户检索式)是:change dimensions of a solid body\nVPO格式:V(change),P(dimension),O(body)\n输出(同义词扩展):\nV(change,alter,modify,vary)\nP(dimension,proportion,size)\nO(body,organic structure,physical structure)\n应该注意到词法同义词扩展(V->VP或VP->V)的结果也可以得到同义词术语。\n种属扩展(376)是把检索式字段中的术语用术语的分层关系(父关系或者子关系)来 替代。有两种“种属扩展”:\n■从一个特例术语到一个通用术语(自底向上)\n例如:\n输入(用户检索式):change the surface curvature of the conducting liquid drop\nVPO格式:V(change)P(surface curvature)O(conducting liquid drop)\n输出:(只将对象O进行父关系扩展)\nO(round shape,small indefinite amount)\n■从一个通用术语到一个特例术语(自顶向下)\n例如:\n输入(用户检索式):change the direction of movement of the gas flow\nVPO格式:V(change)P(direction)O(movement)\n输出:(只将对象O进行子关系扩展)\nO(abduction,adduction,flit,dart,circumduction,inclination, retraction,retrofection,rotation,vibration,…)\n种属关系376可以检索更特例、更通用、和相关的解决方案。\n关联扩展(380)是把检索式字段中的术语用术语的关联关系来替代。\n例如:\n例如:\n输入(用户检索式):measure traveling distance\nVPO格式:V(measure)O(traveling distance)\n输出:(只将对象O进行关联扩展)\nO(light time,skip distance,wingspan,wingspread,object distance,migration distance,migration length,altitude,……)\n关联种属380的扩展允许针对检索式查找类比的问题(类比方案)。这样扩展后的用户 检索式如图所示384.\n对解决方案模块(120)搜索的目标是根据扩展后的检索式(116)在专家知识库(140) 中查找解决方案,并根据查找的结果罗列解决方案128.搜索引擎比较专家知识库140中的VPO 字段和来自检索式扩展模块116/300的扩展后的检索式372/376/384.这些字段的对应关系将 检索出相关的解决方案。\n在专家知识库140中和扩展后的检索式有一定关联的解决方案,将被抽取出来作为检索 结果提供给用户。由于这些解决方案的性质,需要根据语义关系对它们进行分类(根据扩展 类型372/376/380)。在专家知识库中的所有解决方案按照语义关系分为以下几类:\n1精确方案——这些解决方案的VO/VPO字段和对检索式初始形成的VO/VPO 字段完全复合。\n例如:\n用户检索式:V(heat)O(water)\n解决方案:S(coil)V(increase)P(temperature)O(water)\n2特例方案——这些解决方案的VO/VPO字段中的至少一个是是检索式中相 关字段的一个特例。\n例如:\n用户检索式:V(neutralize)O(hydrochloric acid)\n解决方案:S(alkali)V(neutralize)O(hydrochloric acid)\n3通用方案——这些解决方案的VO/VPO字段中的至少一个是是检索式中相 关字段的一个通用概念。\n例如:\n用户检索式:V(neutralize)O(hydrochloric acid)\n解决方案:S(alkali)V(neutralize)O(acid)\n4类比方案——这些解决方案的VO/VPO字段中的至少一个是是检索式中相 关字段的一个相关概念。\n例如:\n用户检索式:V(neutralize)O(hydrochloric acid)\n解决方案:S(alkali)V(neutralize)O(nitric acid)\n在上面的例子中,S代表“主题词”或者问题的解决思路。\n根据解决方案的类型进行分类的算法如下面的两个表(分别是VPO格式和VO格式) 所示。先对其中的符号作以解释:\nS——原始的术语或者它的同义词;\nH——子关系术语;\nR——父关系术语;\nC——关联术语;\nExact——术语的精确匹配;\nPartial——部分匹配(根据最左词的裁减算法);\nAny——精确匹配或者部分匹配;\n∈——“属于、包含于”的意思。\n表1\n 解决方案 类型 动词(V) 参数(P) 对象(O) 其它条件 精确方案 S - Exact S - Exact S-Exact 特例方案 S - Exact S - Exact SH - Exact O∈H-Exact 通用方案1 S - Exact S - Exact SHR - Exact O∈R-Exact 通用方案2 S - Exact S-Any SHR-Any P∈S-Any& O∈SHR- Partial 类比方案 S - Exact S-Any SHRC - Any O∈C-Any\n表2\n 解决方案 类型 动词(V) 参 数(P) 对象(O) 其它条件 精确方案 S-Exact S-Exact 特例方案 S-Exact SH-Exact O∈H-Exact 通用方案 1 S-Exact SHR-Exact O∈R-Exact 通用方案 2 S-Exact SHR-Any O∈SHR- Partial 类比方案 S-Exact SHRC-Any O∈C-Any\n例如,在表1的类比方案中,动词一栏是“S-Exact”,这意味着动词字段只能对输入 的动词(Exact)进行同义词(S)扩展。对参数字段也进行同义词扩展。目标字段可以包括 进行语义扩展的任何字段(SHRC-Any)。其它条件是指对象字段必须包括一个相关术语(C)。\n如表所示,通用方案有两行。通用方案1是指对原始术语未经截取而进行语义扩展得到 的解决方案。通用方案2是指使用最左词截取算法后得到的解决方案。\n最左词截取算法如下所示。如果在本体论知识库中没有发现对输入术语的精确匹配,就 删除最左面的词语,然后在本体论知识库中再次检索剩下的术语。这个过程不断重复直到找 到了一个匹配,或者只剩下一个单词为止。在任何一种情况下,经过截取得到的术语与原始 术语相比,一般都认为它们的概念更通用。\n例如:“photosensitive resin composition”经过截取以后变为“resin composition”, 再次经过截取以后变为“composition”。\n在本发明的一个实施例中,可以使用一个计算机和/或通信系统。在一个实施例中,一 个计算机可以作为几个计算设备,例如但不限于,本发明的知识库。计算机包括,但不限于, 一个个人计算机,一个工作站,一个移动设备,一个电话,一个个人数字助理,一个简易的 客户端,一个复杂的客户端,一个网络应用,一个Internet浏览器,一个寻呼器,一个报警 设备,一个电视,一个交互电视,一个接收机,一个调谐器,一个高清晰电视,一个高清晰 电视接收机,一个视频点播系统,一个服务器,或者其它设备等等。\n本发明的一个实施例中,计算机包括一个中央处理器,它链接到总线。处理器可以通过 总线控制存贮器。计算机可以和输入输出子系统相连,例如网络接口设备,或者链接到网络 的调制解调器。计算机也可以通过总线和第二存贮器相连,或者通过主要存贮器和第二存贮 器相连。第二存贮器可以包括一个磁盘存贮单元或者其它的存贮介质等等。实施例中的磁盘 存贮单元包括,但不限于,一个磁性存贮设备,例如硬盘,或者一个光存贮设备,例如一次 写入多次读出(WORM)的驱动器,一个光盘(CD),或者一个磁光设备。第二存贮器的另一种 类型包括一个可移动的磁盘存贮设备,它和可移动的存贮介质联合使用,例如一个CD-ROM, 或者一个软盘等等。一般来说,磁盘存贮单元能够存贮操作计算机系统的一个应用程序。磁 盘存贮单元也可以存贮数据库文件。计算机可以通过总线和输入输出子系统和磁盘存贮单元 相联系。总线也可以链接到一个输出显示设备上,一个输入设备上,例如,但不限于,一个 键盘和一个鼠标或者其它的指定或者选择设备上。\n在本专利中,计算机程序介质和计算机可读介质一般是指,但不限于,可移动的存贮设 备介质,安装在硬盘驱动器中的硬盘介质,和信号介质等等。这些计算机程序产品可以给计 算机系统提供软件。本发明的保护范围也包括这些计算机程序产品。\n本发明所述的实施例都是本发明实施时的一种特殊情况,本发明的保护范围并不局限于 此。\n连接和联接在本发明中都指两个或者多个单元直接相连,但是联接可以指两个或者多个 单元不是直接相连,它们之间互相协作或者交互作用。\n这里的算法是指找到所要求结果的始终如一的一系列动作或者操作。它们可以包括大量 的物理操作。操作的信号形式可以是电信号或者磁信号,这些信号能够被存贮、转换、联合、 比较、以及其它形式的操作。这些信号的形式可以是比特,数值,元素,符号,字符,术语, 数字,等等。\n本发明中所述的处理、计算、判定等等都是对数据的一种操作和转换。\n计算机平台可以包括一个或者多个处理器。\n本发明的实施例包括完成这些操作的设备。\n尽管上面描述了本发明的一些实施例,但应该理解的是这些实施例都只是本发明实施的 一些具体例子,不应该是本发明保护范围的限制。本发明的保护范围不应该由说明书的描述 所限定,而应该由权利要求书和它们的等效物来限定。本领域的熟练技术人员根据上述的描 述和说明对本发明实施例所作的改动,都应该在本发明的保护范围之内。
法律信息
- 2021-09-24
未缴年费专利权终止
IPC(主分类): G06F 17/30
专利号: ZL 200410078337.0
申请日: 2004.09.24
授权公告日: 2008.01.09
- 2014-06-04
专利权人的姓名或者名称、地址的变更
专利权人由北京亿维讯科技有限公司变更为北京亿维讯科技有限公司
地址由100026 北京市朝阳区西大望路甲1号温特莱中心A座5A层变更为100025 北京市朝阳区八里庄东里1号莱锦TownCN-08
- 2008-01-09
- 2007-09-12
地址不明的通知
<收件人>刘彤浩<文件名称>第一次审查意见通知书
- 2006-08-30
- 2006-03-29
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2002-02-13
|
2001-09-05
| | |
2
| | 暂无 |
1999-08-03
| | |
3
| |
2004-08-18
|
2003-01-29
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |