著录项信息
专利名称 | 一种知识图谱的生成方法及装置 |
申请号 | CN201610628591.6 | 申请日期 | 2016-08-03 |
法律状态 | 暂无 | 申报国家 | 中国 |
公开/公告日 | 2016-11-23 | 公开/公告号 | CN106156365A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F16/33 | IPC分类号 | G;0;6;F;1;6;/;3;3;;;G;0;6;F;1;7;/;2;7查看分类表>
|
申请人 | 北京智能管家科技有限公司 | 申请人地址 | 北京市海淀区羊坊店路18号2幢3层301-112
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 北京如布科技有限公司 | 当前权利人 | 北京如布科技有限公司 |
发明人 | 郭瑞;郭祥;雷宇 |
代理机构 | 北京品源专利代理有限公司 | 代理人 | 胡彬 |
摘要
本发明提供了一种知识图谱的生成方法及装置,该方法包括:对指定领域的原始文本数据进行词法、语法和/或语义分析,得到标准化文本数据;从所述标准化文本数据中抽取事实信息,所述事实信息包括以下元素:实体、属性、实体之间的关系以及实体与属性之间的关系;采用预设表现形式对所述事实信息进行结构化表示,得到所述事实信息的结构化数据对;利用所述结构化数据对作为知识条目,构建知识图谱。本发明提出的知识图谱的生成方法,能够构建出具有针对性的知识图谱,满足指定领域,如儿童领域,的智能交互需求,提升不同需求用户的交互体验。
1.一种知识图谱的生成方法,其特征在于,包括:
对指定领域的原始文本数据进行词法、语法和/或语义分析,得到标准化文本数据;
从所述标准化文本数据中抽取事实信息,所述事实信息包括以下元素:实体、属性、实体之间的关系以及实体与属性之间的关系;
采用预设表现形式对所述事实信息进行结构化表示,得到所述事实信息的结构化数据对;
利用所述结构化数据对作为知识条目,构建知识图谱;
所述对指定领域的原始文本数据进行词法、语法和/或语义分析,得到标准化文本数据包括:
根据文档结构分布特征确定所述原始文本数据的文档结构,根据所述文档结构对所述原始文本数据进行段落结构划分,或采用预先训练的段落分类器模型对所述原始文本数据的段落进行文档结构分类,根据分类结果对所述原始文本数据进行段落结构划分;
对划分出的各段落结构进行词法、语法和/或语义分析,得到标准化文本数据。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
从资源网站、音频资源、视频资源和/或第三方服务器中获取指定领域的原始文本数据。
3.根据权利要求1或2所述的方法,其特征在于,所述对划分出的各段落结构进行词法、语法和/或语义分析,包括:
若所述原始文本数据为中文资源时,对划分出的各段落结构进行分词、词性标注以及短语识别,并去除段落结构中的标点符号;
若所述原始文本数据为外语资源时,对划分出的各段落结构进行词干处理、词形还原以及短语识别,并去除段落结构中的标点符号。
4.根据权利要求1或2所述的方法,其特征在于,所述从所述标准化文本数据中抽取事实信息,包括:
对所述标准化文本数据进行知识抽取,得到所述标准化文本数据中存在的名词,以及各名词之间的关系;
对知识抽取得到的结果进行事实信息的识别,得到所述事实信息。
5.根据权利要求4所述的方法,其特征在于,所述对所述标准化文本数据进行知识抽取,包括:
根据各类别的名词的结构特征从所述标准化文本数据中抽取相应类别的名词以及各名词之间的关系,或
采用预先训练的名词分类器模型对所述标准化文本数据中的词语进行分类,根据分类结果识别并抽取各类别的名词以及各名词之间的关系。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
采用关系数据库方式对构建的知识图谱进行存储,或
采用Hash表方式对构建的知识图谱进行存储,或
采用索引方式对构建的知识图谱进行存储。
7.一种知识图谱的生成装置,其特征在于,包括:
预处理单元,用于对指定领域的原始文本数据进行词法、语法和/或语义分析,得到标准化文本数据;
信息抽取单元,用于从所述标准化文本数据中抽取事实信息,所述事实信息包括以下元素:实体、属性、实体之间的关系以及实体与属性之间的关系;
信息表示单元,用于采用预设表现形式对所述事实信息进行结构化表示,得到所述事实信息的结构化数据对;
构建单元,用于利用所述结构化数据对作为知识条目,构建知识图谱;
所述预处理单元,包括第一处理模块和第二处理模块,其中:
所述第一处理模块,用于根据文档结构分布特征确定所述原始文本数据的文档结构,根据所述文档结构对所述原始文本数据进行段落结构划分,或采用预先训练的段落分类器模型对所述原始文本数据的段落进行文档结构分类,根据分类结果对所述原始文本数据进行段落结构划分;
所述第二处理模块,用于对划分出的各段落结构进行词法、语法和/或语义分析,得到标准化文本数据。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
获取单元,用于从资源网站、音频资源、视频资源和/或第三方服务器中获取指定领域的原始文本数据。
9.根据权利要求7或8所述的装置,其特征在于,所述信息抽取单元,包括:
抽取模块,用于对所述标准化文本数据进行知识抽取,得到所述标准化文本数据中存在的名词,以及各名词之间的关系;
识别模块,用于对知识抽取得到的结果进行事实信息的识别,得到所述事实信息。
10.根据权利要求7所述的装置,其特征在于,所述装置还包括:
存储单元,用于采用关系数据库方式对构建的知识图谱进行存储,或,采用Hash表方式对构建的知识图谱进行存储,或,采用索引方式对构建的知识图谱进行存储。
一种知识图谱的生成方法及装置\n技术领域\n[0001] 本发明涉及计算机技术领域,尤其涉及一种用于儿童领域智能交互的知识图谱的生成方法及装置。\n背景技术\n[0002] 儿童是目前市场上对智能硬件最容易接受的人群,其智能性主要体现在交互智能上,但针对儿童语言和知识处理与研究很少。普通的交互对话多数用检索的方式,构造一问一答的语料集,计算用户问题和语料问题的相似度,进而给出相应回复,这种属于浅层交互。\n[0003] 深度交互需要构建知识图谱来进行知识挖掘和推理。知识图谱,是指以实体、概念作为节点,以语义关系作为边的语义网络。知识图谱使得知识获取更直接,因此能够为阅读提供语义关联的知识,从而实现阅读的便捷化、智能化和人性化。\n[0004] 在实现本发明过程中,发明人发现现有技术中至少存在以下问题:现存的知识图谱多数都是普适目的,缺乏针对性,不足以满足儿童领域的智能交互需求。\n发明内容\n[0005] 鉴于上述问题,本发明实施例提出了一种知识图谱的生成方法及装置,用以解决现有的知识图谱缺乏针对性,不足以满足指定领域,如儿童领域,的智能交互需求的问题。\n[0006] 根据本发明的一个方面,提供了一种知识图谱的生成方法,该方法包括:\n[0007] 对指定领域的原始文本数据进行词法、语法和/或语义分析,得到标准化文本数据;\n[0008] 从所述标准化文本数据中抽取事实信息,所述事实信息包括以下元素:实体、属性、实体之间的关系以及实体与属性之间的关系;\n[0009] 采用预设表现形式对所述事实信息进行结构化表示,得到所述事实信息的结构化数据对;\n[0010] 利用所述结构化数据对作为知识条目,构建知识图谱。\n[0011] 可选地,所述方法还包括:\n[0012] 从资源网站、音频资源、视频资源和/或第三方服务器中获取指定领域的原始文本数据。\n[0013] 可选地,所述对原始文本数据进行词法、语法和/或语义分析,得到标准化文本数据,包括:\n[0014] 根据所述原始文本数据的文档结构进行段落结构划分;\n[0015] 对划分出的各段落结构进行词法、语法和/或语义分析,得到标准化文本数据。\n[0016] 可选地,所述根据所述原始文本数据的文档结构进行段落结构划分,包括:\n[0017] 根据文档结构分布特征确定所述原始文本数据的文档结构,根据所述文档结构对所述原始文本数据进行段落结构划分,或\n[0018] 采用预先训练的段落分类器模型对所述原始文本数据的段落进行文档结构分类,根据分类结果对所述原始文本数据进行段落结构划分。\n[0019] 可选地,所述对划分出的各段落结构进行词法、语法和/或语义分析,包括:\n[0020] 若所述原始文本数据为中文资源时,对划分出的各段落结构进行分词、词性标注以及短语识别,并去除段落结构中的标点符号;\n[0021] 若所述原始文本数据为外语资源时,对划分出的各段落结构进行词干处理、词形还原以及短语识别,并去除段落结构中的标点符号。\n[0022] 可选地,所述从所述标准化文本数据中抽取事实信息,包括:\n[0023] 对所述标准化文本数据进行知识抽取,得到所述标准化文本数据中存在的名词,以及各名词之间的关系;\n[0024] 对知识抽取得到的结果进行事实信息的识别,得到所述事实信息。\n[0025] 可选地,所述对所述标准化文本数据进行知识抽取,包括:\n[0026] 根据各类别的名词的结构特征从所述标准化文本数据中抽取相应类别的名词以及各名词之间的关系,或\n[0027] 采用预先训练的名词分类器模型对所述标准化文本数据中的词语进行分类,根据分类结果识别并抽取各类别的名词以及各名词之间的关系。\n[0028] 可选地,所述方法还包括:\n[0029] 采用关系数据库方式对构建的知识图谱进行存储,或\n[0030] 采用Hash表方式对构建的知识图谱进行存储,或\n[0031] 采用索引方式对构建的知识图谱进行存储。\n[0032] 可选地,所述方法还包括:\n[0033] 根据构建的知识图谱进行人机交互。\n[0034] 根据本发明的另一个方面,提供了一种知识图谱的生成装置,该系统包括:\n[0035] 预处理单元,用于对指定领域的原始文本数据进行词法、语法和/或语义分析,得到标准化文本数据;\n[0036] 信息抽取单元,用于从所述标准化文本数据中抽取事实信息,所述事实信息包括以下元素:实体、属性、实体之间的关系以及实体与属性之间的关系;\n[0037] 信息表示单元,用于采用预设表现形式对所述事实信息进行结构化表示,得到所述事实信息的结构化数据对;\n[0038] 构建单元,用于利用所述结构化数据对作为知识条目,构建知识图谱。\n[0039] 可选地,所述装置还包括:\n[0040] 获取单元,用于从资源网站、音频资源、视频资源和/或第三方服务器中获取指定领域的原始文本数据。\n[0041] 可选地,所述预处理单元,包括:\n[0042] 第一处理模块,用于根据所述原始文本数据的文档结构进行段落结构划分;\n[0043] 第二处理模块,用于对划分出的各段落结构进行词法、语法和/或语义分析,得到标准化文本数据。\n[0044] 可选地,所述信息抽取单元,包括:\n[0045] 抽取模块,用于对所述标准化文本数据进行知识抽取,得到所述标准化文本数据中存在的名词,以及各名词之间的关系;\n[0046] 识别模块,用于对知识抽取得到的结果进行事实信息的识别,得到所述事实信息。\n[0047] 可选地,所述装置还包括:\n[0048] 存储单元,用于采用关系数据库方式对构建的知识图谱进行存储,或,采用Hash表方式对构建的知识图谱进行存储,或,采用索引方式对构建的知识图谱进行存储。\n[0049] 可选地,所述装置还包括:\n[0050] 交互单元,用于根据构建的知识图谱进行人机交互。\n[0051] 本发明提供的知识图谱的生成方法及装置,通过从指定领域的文本数据中抽取事实信息,以预设表现形式对事实信息进行表示,并采用以预设表现形式进行表示的结构化数据对作为知识条目,构建知识图谱,进而能够构建出具有针对性的知识图谱,满足指定领域,如儿童领域,的智能交互需求,提升不同需求用户的交互体验。\n[0052] 上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。\n附图说明\n[0053] 通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:\n[0054] 图1为本发明实施例提出的一种知识图谱的生成方法的流程图;\n[0055] 图2为本发明另一实施例提出的一种知识图谱的生成方法的流程图;\n[0056] 图3为本发明实施例提出的一种知识图谱的生成方法中步骤S11的细分流程图;\n[0057] 图4为本发明实施例提出的一种知识图谱的生成方法中步骤S12的细分流程图;\n[0058] 图5为本发明实施例提出的一种知识图谱的生成装置的结构框图;\n[0059] 图6为本发明另一实施例提出的一种知识图谱的生成装置的结构框图。\n具体实施方式\n[0060] 下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。\n[0061] 本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。\n[0062] 本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非被特定定义,否则不会用理想化或过于正式的含义来解释。\n[0063] 图1示出了本发明实施例的一种知识图谱的生成方法的流程图。参照图1,本发明实施例提出的知识图谱的生成方法具体包括以下步骤:\n[0064] S11、对指定领域的原始文本数据进行词法、语法和/或语义分析,得到标准化文本数据。\n[0065] 其中,指定领域是指当前实际应用场景的领域,如针对儿童智能交互的儿童领域,具体可根据实际应用进行确定。词法、语法和/或语义分析是指对指定领域的原始文本数据基于词法、语法和/或语义分析进行结构化处理以及分词处理等操作。\n[0066] S12、从所述标准化文本数据中抽取事实信息,所述事实信息包括以下元素:实体、属性、实体之间的关系以及实体与属性之间的关系。\n[0067] 本实施例中,实体是指命名实体词和事件名等;属性是指命名实体修饰的名词,如年龄、性别、人物关系等。其中,实体属性的关系主要靠计算共现的概率,提取实体共有的,概率最大的属性词。实体之间的关系,一方面根据在句子中的共现概率,另一方面根据识别出的实体属性关系提取实体关系。\n[0068] S13、采用预设表现形式对所述事实信息进行结构化表示,得到所述事实信息的结构化数据对。\n[0069] 本实施例中,可采用N元组的表现方式实现对所述事实信息进行结构化表示,得到所述事实信息的结构化数据对。\n[0070] 在一个具体示例中,以三元组为例进行说明。具体的,根据知识挖掘的结果,识别输出实体和属性,以及实体属性的关系,构造三元组。每一条事实信息都可以表示成(实体,属性,关系)。\n[0071] S14、利用所述结构化数据对作为知识条目,构建知识图谱。\n[0072] 本发明实施例提供的知识图谱的生成方法,通过从指定领域的文本数据中抽取事实信息,以预设表现形式对事实信息进行表示,并采用以预设表现形式进行表示的结构化数据对作为知识条目,构建知识图谱,进而能够构建出具有针对性的知识图谱,满足指定领域,如儿童领域,的智能交互需求,提升不同需求用户的交互体验。\n[0073] 在本发明的一个可选实施例中,如图2所示,在步骤S11之前,所述方法还包括以下步骤:\n[0074] S10、从资源网站、音频资源、视频资源和/或第三方服务器中获取指定领域的原始文本数据。\n[0075] 本发明实施例中,在步骤S11之前还包括从资源网站、音频资源、视频资源和/或第三方服务器中获取指定领域的原始文本数据的步骤,该步骤具体以下方式中的一种或多种:\n[0076] (1)、通过网页抓取方法从资源网站中获取指定领域的原始文本数据。在实际应用中,可采用网络爬虫技术对网页进行抓取,以从资源网站中获取指定领域的原始文本数据;\n和/或,采用网络抓包技术对网页进行抓取,以从资源网站中获取指定领域的原始文本数据。\n[0077] 其中,抓包指的是将网络传输发送与接收的数据包进行截获、重发、编辑、转存等操作,网络抓包技术可以通过对网络数据进行截获。\n[0078] 网络爬虫是一个自动提取网页的程序,是搜索引擎的重要组成部分。示例性的,以采用网络爬虫技术进行网页抓取为例,网络抓取过程包括:首先选取种子统一资源定位符URL,将这些种子URL放入待抓取URL队列;从待抓取的URL阵列中取出待抓取URL,解析待抓取URL的域名系统DNS,查看与待抓取URL对应的网页,并将这些对应网页已查看的URL放入已抓取URL队列;分析已抓取URL队列中的URL,分析其中包含的其他URL,并将其他URL放入待抓取URL队列,从而进入下一个循环。需要说明的是,本发明实施例中对网页进行抓取时可采用上述的任意一项或多项抓取策略进行抓取,本发明对此不作限制。\n[0079] (2)、通过内容提取语音识别方法从语音资源中获取指定领域的原始文本数据。具体的,语音资源可以通过语音识别技术将其转成文本,得到原始文本数据。\n[0080] (3)、通过图像识别方法从视频资源中获取指定领域的原始文本数据。具体的,视频资源可以通过图像识别技术将视频资源中的字幕信息提取并转化成文本,得到原始文本数据。\n[0081] (4)、通过第三方服务器获取指定领域的原始文本数据。具体的,可通过与第三方机构进行资源合作,从第三方机构的服务器获取儿童作家等新内容资源。\n[0082] 需要说明的是,本发明实施例中提供的获取指定领域的原始文本数据的方式,仅用于举例说明,本领域技术人员可根据实际应用需求选择上述的任意一种或多种方式进行原始文本数据的获取,本发明对此不作限制。\n[0083] 在本发明的一个可选实施例中,如图3所示,上述实施例中的步骤S11进一步包括以下步骤:\n[0084] S111、根据所述原始文本数据的文档结构进行段落结构划分。\n[0085] 其中,所述步骤S111中的根据所述原始文本数据的文档结构进行段落结构划分,具体包括:根据文档结构分布特征确定所述原始文本数据的文档结构,根据所述文档结构对所述原始文本数据进行段落结构划分,或采用预先训练的段落分类器模型对所述原始文本数据的段落进行文档结构分类,根据分类结果对所述原始文本数据进行段落结构划分。\n[0086] 为了快速、准确地实现原始文本数据的段落结构划分,本发明实施例中,通过将原始文本数据进行结构化,区分出标题、正文、作者、时间、分类等段落,实现原始文本数据的段落结构划分。具体的。具体的,可根据文档结构分布特征,例如:文本的位置、长度、词语内容等方面特征,确定所述原始文本数据的文档结构。或人工标注少许训练语料,根据上述特征构建段落分类器模型对段落进行分类,以分类预测结果作为段落属性。\n[0087] S112、对划分出的各段落结构进行词法、语法和/或语义分析,得到标准化文本数据。\n[0088] 其中,所述步骤S112中的对划分出的各段落结构进行词法、语法和/或语义分析,具体包括:若所述原始文本数据为中文资源时,对划分出的各段落结构进行分词、词性标注以及短语识别,并去除段落结构中的标点符号;若所述原始文本数据为外语资源时,对划分出的各段落结构进行词干处理、词形还原以及短语识别,并去除段落结构中的标点符号。\n[0089] 为了快速、准确地实现原始文本数据的段落结构划分,本发明实施例,通过判断原始文本数据的语言,若原始文本数据为中文资源时,则对中文资源进行中文分词、词性标注、短语识别等。具体的可用开源工具对中文进行词法、语法和/或语义分析。若所述文本数据为外语资源时,按照对应语言工具对中文资源进行词法、语法和/或语义分析,例如,对英语资源进行词干处理、词形还原、短语识别等,指去除时态、词后缀并还原成原词。具体的也可以用开源工具对英语资源进行词法、语法和/或语义分析。\n[0090] 在本发明的一个可选实施例中,如图4所示,上述实施例步骤S12中的从所述标准化文本数据中抽取事实信息,进一步包括以下步骤:\n[0091] S121、对所述标准化文本数据进行知识抽取,得到所述标准化文本数据中存在的名词,以及各名词之间的关系。\n[0092] 其中,所述步骤S121中的对所述标准化文本数据进行知识抽取,具体包括:根据各类别的名词的结构特征从所述标准化文本数据中抽取相应类别的名词以及各名词之间的关系,或采用预先训练的名词分类器模型对所述标准化文本数据中的词语进行分类,根据分类结果识别并抽取各类别的名词以及各名词之间的关系。具体的,名词之间的关系可根据在句子中的共现概率确定。\n[0093] S122、对知识抽取得到的结果进行事实信息的识别,得到所述事实信息。\n[0094] 为了快速、准确地实现标准化文本数据的知识抽取,本发明实施例,通过对已有数据的观察,对名词的开始字、结束字、词长度等特点确定各类别的名词的结构特征,并根据各类别的名词的结构特征从标准化文本数据中抽取相应类别的名词以及各名词之间的关系,进而得到事实信息。\n[0095] 下面以人名为例进行详细举例说明:\n[0096] 首先,提取姓氏字,可以根据百家姓或从已有人名中抽取。\n[0097] 再统计人名中常出现的字概率,如字在文本共出现N次,人名中出现M次,则字可以作为名字的概率为M/N;\n[0098] 最后判断结尾,一般根据长度和字概率,概率和第二步类似,计算字在名字中间、结尾出现的概率,加上长度的限制(中文人名一般2-4个字)即可识别出人名。\n[0099] 此外,在本发明的另一实施例中,还可以基于统计模型的方法实现,具体如下:\n[0100] 首先,构造标注语料。对预处理后的文本数据,标注句子中的人名;\n[0101] 其次,提取各类别的名词的结构特征。可用的特征包括词性、词长度、词位置、前一个词、前词词性、后一个词、后词词性等。\n[0102] 最后,建模和预测。例如,基于标注好的语料和提取出的特征文件,训练统计模型。\n预测时加载已训练好的模型,对标准化文本数据预测并识别相应类别的名词。\n[0103] 在本发明的一个可选实施例中,所述方法还包括以下步骤:采用关系数据库方式对构建的知识图谱进行存储,或采用Hash表方式对构建的知识图谱进行存储,或采用索引方式对构建的知识图谱进行存储。\n[0104] 知识存储是用于后续的知识应用,需要考虑可查询性、查询效率、空间占用等方面的因素。本发明实施例以三种存储方法为例,对本发明中知识图谱的存储进行解释说明,具体如下:\n[0105] 采用关系数据库方式对构建的知识图谱进行存储。该存储方式对结构化数据对(实体、属性、关系)设计数据库表,根据表键值完成知识存储和查询。\n[0106] 采用Hash表方式对构建的知识图谱进行存储。该存储方式将知识主体(结构化数据对中的实体)作为key,其余作为value,构造hash表存储。\n[0107] 采用索引方式对构建的知识图谱进行存储,对知识(结构化数据对)做全文索引,构造正排索引和倒排索引完成存储和查询。\n[0108] 在本发明的一个可选实施了中,所述方法还包括以下步骤:根据构建的知识图谱进行人机交互。\n[0109] 知识图谱的应用方法多种多样,一般是根据已挖掘的知识,及存储格式和查询方法,完成知识推理、人机交互的过程。应用时,需要识别问题句子中的实体、属性等信息,并转换成知识查询的语法,根据图谱中的关系最后给出推理结果。\n[0110] 需要说明的是,本发明实施例中对知识图谱进行存储时可采用上述的任意一种存储方式实现,本发明对此不作限制。\n[0111] 下面以儿童领域中的白雪公主童话故事为具体实施例,对本发明技术方案进行详细的解释说明。\n[0112] 一、首先对获取到的童话故事文本做预处理,得到标准化的文本数据。\n[0113] 二、根据预处理的结果,对做标准化的文本数据进行知识抽取即事实信息的抽取。\n[0114] 抽取内容包括故事中的人物,如白雪公主、七个小矮人、皇后、王子等;事件,如皇后问魔镜,白雪公主吃毒苹果,白雪公主被救等。\n[0115] 三、知识图谱构建\n[0116] 对知识抽取的事实信息以结构化数据对的形式进行保存,利用所述结构化数据对作为知识条目,构建知识图谱,并对得到的知识图谱进行存储。\n[0117] 事实信息包括人物、地点、时间等。表示形式,例如事件的三元组表示:\n[0118] (白雪公主被救,施救,七个小矮人);\n[0119] (白雪公主被救,被救,白雪公主);\n[0120] (白雪公主被救,地点,森林木屋);\n[0121] 四、知识图谱应用\n[0122] 儿童问:谁救了白雪公主?\n[0123] 首先,进行专名识别,识别出人名:白雪公主,事件:被救。目标是求施救人。\n[0124] 再根据识别结果,查询知识存储查到(白雪公主被救,施救,七个小矮人)。\n[0125] 给出施救人为七个小矮人。\n[0126] 最后生成回复,七个小矮人救了白雪公主,完成人机交互。\n[0127] 对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。\n[0128] 图5示意性示出了本发明一个实施例的知识图谱的生成装置的结构框图。参照图\n5,本发明实施例的知识图谱的生成装置具体包括预处理单元501、信息抽取单元502、信息表示单元503以及构建单元504,其中:预处理单元501,用于对指定领域的原始文本数据进行词法、语法和/或语义分析,得到标准化文本数据;信息抽取单元502,用于从所述标准化文本数据中抽取事实信息,所述事实信息包括以下元素:实体、属性、实体之间的关系以及实体与属性之间的关系;信息表示单元503,用于采用预设表现形式对所述事实信息进行结构化表示,得到所述事实信息的结构化数据对;构建单元504,用于利用所述结构化数据对作为知识条目,构建知识图谱。\n[0129] 本发明实施例提供的知识图谱的生成装置,信息抽取单元502通过从经过预处理单元501处理后的指定领域的文本数据中抽取事实信息,信息表示单元503以预设表现形式对事实信息进行表示,以供构建单元504采用以预设表现形式进行表示的结构化数据对作为知识条目,构建知识图谱,进而能够构建出具有针对性的知识图谱,满足指定领域,如儿童领域,的智能交互需求,提升不同需求用户的交互体验。\n[0130] 在本发明的一个可选实施例中,如图6所示,所述装置还包括获取单元500,所述获取单元500,用于从资源网站、音频资源、视频资源和/或第三方服务器中获取指定领域的原始文本数据。\n[0131] 具体的,所述获取单元500可通过以下至少一种方式获取指定领域的原始文本数据:\n[0132] 通过网页抓取方法从资源网站中获取指定领域的原始文本数据;\n[0133] 通过内容提取语音识别方法从语音资源中获取指定领域的原始文本数据;\n[0134] 通过图像识别方法从视频资源中获取指定领域的原始文本数据;\n[0135] 通过第三方服务器获取指定领域的原始文本数据。\n[0136] 在本发明的一个可选实施例中,所述预处理单元501,包括第一处理模块和第二处理模块,其中:第一处理模块,用于根据所述原始文本数据的文档结构进行段落结构划分;\n第二处理模块,用于对划分出的各段落结构进行词法、语法和/或语义分析,得到标准化文本数据。\n[0137] 其中,第一处理模块,具体用于根据文档结构分布特征确定所述原始文本数据的文档结构,根据所述文档结构对所述原始文本数据进行段落结构划分,或采用预先训练的段落分类器模型对所述原始文本数据的段落进行文档结构分类,根据分类结果对所述原始文本数据进行段落结构划分。\n[0138] 为了快速、准确地实现原始文本数据的段落结构划分,本发明实施例中,第一处理模块通过将原始文本数据进行结构化,区分出标题、正文、作者、时间、分类等段落,实现原始文本数据的段落结构划分。具体的。具体的,可根据文档结构分布特征,例如:文本的位置、长度、词语内容等方面特征,确定所述原始文本数据的文档结构。或人工标注少许训练语料,根据上述特征构建段落分类器模型对段落进行分类,以分类预测结果作为段落属性。\n[0139] 其中,第二处理模块,具体用于若所述原始文本数据为中文资源时,对划分出的各段落结构进行分词、词性标注以及短语识别,并去除段落结构中的标点符号;若所述原始文本数据为外语资源时,对划分出的各段落结构进行词干处理、词形还原以及短语识别,并去除段落结构中的标点符号。\n[0140] 为了快速、准确地实现原始文本数据的段落结构划分,本发明实施例,第二处理模块通过判断原始文本数据的语言,若原始文本数据为中文资源时,则对中文资源进行中文分词、词性标注、短语识别等。具体的可用开源工具对中文进行词法、语法和/或语义分析。\n若所述文本数据为外语资源时,按照对应语言工具对中文资源进行词法、语法和/或语义分析,例如,对英语资源进行词干处理、词形还原、短语识别等,指去除时态、词后缀并还原成原词。具体的也可以用开源工具对英语资源进行词法、语法和/或语义分析。\n[0141] 在本发明的一个可选实施例中,所述信息抽取单元502,包括抽取模块和识别模块,其中:抽取模块,用于对所述标准化文本数据进行知识抽取,得到所述标准化文本数据中存在的名词,以及各名词之间的关系;识别模块,用于对知识抽取得到的结果进行事实信息的识别,得到所述事实信息。\n[0142] 其中,抽取模块,具体用于根据各类别的名词的结构特征从所述标准化文本数据中抽取相应类别的名词以及各名词之间的关系,或采用预先训练的名词分类器模型对所述标准化文本数据中的词语进行分类,根据分类结果识别并抽取各类别的名词以及各名词之间的关系。具体的,名词之间的关系可根据在句子中的共现概率确定。\n[0143] 为了快速、准确地实现标准化文本数据的知识抽取,本发明实施例,信息抽取单元\n502通过对已有数据的观察,对名词的开始字、结束字、词长度等特点确定各类别的名词的结构特征,并根据各类别的名词的结构特征从标准化文本数据中抽取相应类别的名词以及各名词之间的关系,进而得到事实信息。\n[0144] 在本发明的一个可选实施例中,所述装置还包括附图中未示出的存储单元,该存储单元,用于采用关系数据库方式对构建的知识图谱进行存储,或,采用Hash表方式对构建的知识图谱进行存储,或,采用索引方式对构建的知识图谱进行存储。\n[0145] 在本发明的一个可选实施例中,所述装置还包括附图中未示出的交互单元,该交互单元,用于根据构建的知识图谱进行人机交互。\n[0146] 对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。\n[0147] 综上所述,本发明实施例提供的知识图谱的生成方法及装置,通过从指定领域的文本数据中抽取事实信息,以预设表现形式对事实信息进行表示,并采用以预设表现形式进行表示的结构化数据对作为知识条目,构建知识图谱,进而能够构建出具有针对性的知识图谱,满足指定领域,如儿童领域,的智能交互需求,提升不同需求用户的交互体验。\n[0148] 通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可以通过硬件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。\n[0149] 本领域技术人员可以理解附图只是一个优选实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。\n[0150] 本领域技术人员可以理解实施例中的系统中的模块可以按照实施例描述进行分布于实施例的系统中,也可以进行相应变化位于不同于本实施例的一个或多个系统中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。\n[0151] 以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
法律信息
- 2021-08-31
专利权的转移
登记生效日: 2021.08.19
专利权人由北京儒博科技有限公司变更为北京如布科技有限公司
地址由101500 北京市密云县经济开发区西统路8号西田各庄镇政府办公楼508室-598变更为100038 北京市海淀区羊坊店路18号2幢3层301-112
- 2019-06-18
- 2019-06-07
著录事项变更
申请人由北京智能管家科技有限公司变更为北京儒博科技有限公司
地址由101500 北京市密云县经济开发区西统路8号西田各庄镇政府办公楼508室-598变更为101500 北京市密云县经济开发区西统路8号西田各庄镇政府办公楼508室-598
- 2016-12-21
实质审查的生效
IPC(主分类): G06F 17/30
专利申请号: 201610628591.6
申请日: 2016.08.03
- 2016-11-23
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| | 暂无 |
2001-12-25
| | |
2
| |
2014-04-02
|
2013-12-27
| | |
3
| |
2016-05-11
|
2015-12-11
| | |
4
| |
2016-05-04
|
2015-06-26
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |