著录项信息
专利名称 | 携带实体关系属性的中文通用知识图谱的生成方法及装置 |
申请号 | CN201710602759.0 | 申请日期 | 2017-07-21 |
法律状态 | 授权 | 申报国家 | 中国 |
公开/公告日 | 2017-11-24 | 公开/公告号 | CN107391677A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F16/28 | IPC分类号 | G;0;6;F;1;6;/;2;8;;;G;0;6;F;1;6;/;3;6查看分类表>
|
申请人 | 深圳狗尾草智能科技有限公司 | 申请人地址 | 江苏省苏州市姑苏区人民路239号39幢301室
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 苏州狗尾草智能科技有限公司 | 当前权利人 | 苏州狗尾草智能科技有限公司 |
发明人 | 宋亚楠;邱楠;王昊奋;周磊 |
代理机构 | 北京酷爱智慧知识产权代理有限公司 | 代理人 | 任媛 |
摘要
本发明提供的携带实体关系属性的中文通用知识图谱的生成方法及装置,方法为:对多种外部数据源和数据库中的实体进行命名实体识别,并对识别得到的多个命名实体进行连接,得到多个实体关系;在多个实体关系中增加属性标识符,得到多个实体关系属性;根据多个实体、多个实体关系和多个实体关系属性,生成携带实体关系属性的中文通用知识图谱。本发明通过在实体关系中添加标识符,建立实体关系属性,使通过知识图谱抽取答案时,由于实体关系属性的增加,提高了答案抽取的效率,且提高了抽取答案的完整性,使知识图谱更为高效地为使用者提供服务。
1.一种携带实体关系属性的中文通用知识图谱生成方法,其特征在于,包括:
步骤S1,对多种外部数据源和数据库中的实体进行命名实体识别,并对识别得到的多个命名实体进行连接,得到多个实体关系;
步骤S2,在所述多个实体关系中增加属性标识符,得到多个实体关系属性;
步骤S3,根据所述多个实体、所述多个实体关系和所述多个实体关系属性,生成携带实体关系属性的中文通用知识图谱;其中,
所述步骤S2,具体为:
通过RDF三元组,建立索引列表;
在所述索引列表中增加属性标识符,得到多个实体关系属性,所述实体关系属性中包括谓词的转述表达和谓词的逆转述表达。
2.根据权利要求1所述的携带实体关系属性的中文通用知识图谱生成方法,其特征在于,
所述实体关系属性还包括实体树,所述实体树的建立具体为:
在所述多个实体中选择一个作为根节点,其他实体作为父节点和叶节点;
根据所述根节点、父节点和叶节点,建立实体树,所述实体树至多包括三层,第一层包括所述根节点,第二层包括多个父节点,第三节点包括多个叶节点。
3.根据权利要求1所述的携带实体关系属性的中文通用知识图谱生成方法,其特征在于,
所述谓词的转述表达和谓词的逆转述表达采用独立表达方式。
4.根据权利要求2所述的携带实体关系属性的中文通用知识图谱生成方法,其特征在于,
还包括检索步骤:
获取检索输入条件;
对所述检索输入条件中的实体通过所述实体树进行模糊或泛化处理,得到模糊实体;
根据所述模糊实体,实现在所述知识图谱中的检索。
5.一种携带实体关系属性的中文通用知识图谱生成装置,其特征在于,包括:
实体识别和实体关系识别模块,用于对多种外部数据源和数据库中的实体进行命名实体识别,并对识别得到的多个命名实体进行连接,得到多个实体关系;
实体关系属性生成模块,用于在所述多个实体关系中增加属性标识符,得到多个实体关系属性;
知识图谱生成模块,用于根据所述多个实体、所述多个实体关系和所述多个实体关系属性,生成携带实体关系属性的中文通用知识图谱;其中,
所述实体关系属性生成模块,具体用于:
通过RDF三元组,建立索引列表;
在所述索引列表中增加属性标识符,得到多个实体关系属性,所述实体关系属性中包括谓词的转述表达和谓词的逆转述表达。
6.根据权利要求5所述的携带实体关系属性的中文通用知识图谱生成装置,其特征在于,
所述实体关系属性还包括实体树,所述装置还包括实体树建立模块,具体用于:
在所述多个实体中选择一个作为根节点,其他实体作为父节点和叶节点;
根据所述根节点、父节点和叶节点,建立实体树,所述实体树至多包括三层,第一层包括所述根节点,第二层包括多个父节点,第三节点包括多个叶节点。
7.根据权利要求6所述的携带实体关系属性的中文通用知识图谱生成装置,其特征在于,
还包括检索模块,具体用于:
获取检索输入条件;
对所述检索输入条件中的实体通过所述实体树进行模糊或泛化处理,得到模糊实体;
根据所述模糊实体,实现在所述知识图谱中的检索。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-4之一所述的方法。
携带实体关系属性的中文通用知识图谱的生成方法及装置\n技术领域\n[0001] 本发明涉及人工智能领域,尤其涉及携带实体关系属性的中文通用知识图谱的生成方法及装置领域。\n背景技术\n[0002] 知识图谱技术2012年由谷歌提出,其目标在于描述真实世界中存在的各种实体和概念,及实体、概念之间的关联关系,从而改善搜索结果。随后,知识图谱技术得到了研究人员和企业的重视,并在检索、风控等方面得到了应用。知识图谱在对输入进行回复的过程中,可以做一层、二层甚至多层检索以便组织最符合用户意图的全面的答案。\n[0003] 现有技术方案多是搜索引擎公司开发(google baidu sougou),用于特殊领域,比如百度和搜狗均开发人物关系的知识图谱,谷歌作为英文搜索为主的搜索引擎,对中文知识图谱的建立也有不足。尽管中文开放知识图谱联盟(OpenKG)已经搭建有OpenKG.CN技术平台,有35家机构入驻。吸引了国内如Zhishi.me,CN-DBPedia,PKUBase等最著名知识图谱资源加入,并已经包含了来自于常识、医疗、金融、城市、出行等15个类目的开放知识图谱。\n但中文通用知识图谱的开发目前仍显不足,中文通用知识图谱的开发平台也仍是空白领域。\n[0004] 当前知识图谱中存储的多是实体、实体属性、实体关系,但是关系本身也是具有属性的。另外,随着知识图谱规模变大,从其中推断新的关系或抽取特定答案工作量也变大,且信息产生的速度越来越快,需要快速更新知识图谱才能保证知识图谱的可靠性、有用性。\n另外,由于同一语义在自然语言中有多种不同的表达方式(“鲁迅出生在浙江绍兴”和“浙江绍兴是鲁迅的家乡”),导致在进行结构化查询(SPARQL)时无法抽取到完整答案。\n[0005] 因此,现有技术中的缺陷是:现有的知识图谱,由于知识图谱规模不断变大,单单依靠实体、实体属性和实体关系从知识图谱中抽取答案,导致效率慢、可靠性差,且由于同一语义在自然语言中有多种不同的表达方式,使抽取到的答案无法保证完整性。\n发明内容\n[0006] 针对上述技术问题,本发明提供一种携带实体关系属性的中文通用知识图谱的生成方法及装置,通过在实体关系中添加标识符,建立实体关系属性,使通过知识图谱抽取答案时,由于实体关系属性的增加,提高了答案抽取的效率,且提高了抽取答案的完整性,使知识图谱更为高效地为使用者提供服务。\n[0007] 为解决上述技术问题,本发明提供的技术方案是:\n[0008] 第一方面,本发明提供一种携带实体关系属性的中文通用知识图谱生成方法,其特征在于,包括:\n[0009] 步骤S1,对多种外部数据源和数据库中的实体进行命名实体识别,并对识别得到的多个命名实体进行连接,得到多个实体关系;\n[0010] 步骤S2,在所述多个实体关系中增加属性标识符,得到多个实体关系属性;\n[0011] 步骤S3,根据所述多个实体、所述多个实体关系和所述多个实体关系属性,生成携带实体关系属性的中文通用知识图谱。\n[0012] 本发明提供一种携带实体关系属性的中文通用知识图谱生成方法,其技术方案为:对多种外部数据源和数据库中的实体进行命名实体识别,并对识别得到的多个命名实体进行连接,得到多个实体关系;在所述多个实体关系中增加属性标识符,得到多个实体关系属性;根据所述多个实体、所述多个实体关系和所述多个实体关系属性,生成携带实体关系属性的中文通用知识图谱。\n[0013] 本发明提供的一种携带实体关系属性的中文通用知识图谱生成方法,通过在实体关系中添加标识符,建立实体关系属性,使通过知识图谱抽取答案时,由于实体关系属性的增加,提高了答案抽取的效率,且提高了抽取答案的完整性,使知识图谱更为高效地为使用者提供服务。\n[0014] 进一步地,所述步骤S2,具体为:\n[0015] 通过RDF三元组,建立索引列表;\n[0016] 在所述索引列表中增加属性标识符,得到多个实体关系属性,所述实体关系属性中包括谓词的转述表达和谓词的逆转述表达。\n[0017] 进一步地,所述实体关系属性还包括实体树,所述实体树的建立具体为:\n[0018] 在所述多个实体中选择一个作为根节点,其他实体作为父节点和叶节点;\n[0019] 根据所述根节点、父节点和叶节点,建立实体树,所述实体树至多包括三层,第一层包括所述根节点,第二层包括多个父节点,第三节点包括多个叶节点。\n[0020] 进一步地,所述谓词的转述表达和谓词的逆转述表达采用独立表达方式。\n[0021] 进一步地,还包括检索步骤:\n[0022] 获取检索输入条件;\n[0023] 对所述检索输入条件中的实体通过所述实体树进行模糊或泛化处理,得到模糊实体;\n[0024] 根据所述模糊实体,实现在所述知识图谱中的检索。\n[0025] 第二方面,本发明提供一种携带实体关系属性的中文通用知识图谱生成装置,包括:\n[0026] 实体识别和实体关系识别模块,用于对多种外部数据源和数据库中的实体进行命名实体识别,并对识别得到的多个命名实体进行连接,得到多个实体关系;\n[0027] 实体关系属性生成模块,用于在所述多个实体关系中增加属性标识符,得到多个实体关系属性;\n[0028] 知识图谱生成模块,用于根据所述多个实体、所述多个实体关系和所述多个实体关系属性,生成携带实体关系属性的中文通用知识图谱。\n[0029] 本发明提供的携带实体关系属性的中文通用知识图谱生成装置,其技术方案为:\n通过实体识别和实体关系识别模块,对多种外部数据源和数据库中的实体进行命名实体识别,并对识别得到的多个命名实体进行连接,得到多个实体关系;通过实体关系属性生成模块,在所述多个实体关系中增加属性标识符,得到多个实体关系属性;通过知识图谱生成模块,根据所述多个实体、所述多个实体关系和所述多个实体关系属性,生成携带实体关系属性的中文通用知识图谱。\n[0030] 本发明提供一种携带实体关系属性的中文通用知识图谱生成装置,通过在实体关系中添加标识符,建立实体关系属性,使通过知识图谱抽取答案时,由于实体关系属性的增加,提高了答案抽取的效率,且提高了抽取答案的完整性,使知识图谱更为高效地为使用者提供服务。\n[0031] 进一步地,所述实体关系属性生成模块,具体用于:\n[0032] 通过RDF三元组,建立索引列表;\n[0033] 在所述索引列表中增加属性标识符,得到多个实体关系属性,所述实体关系属性中包括谓词的转述表达和谓词的逆转述表达。\n[0034] 进一步地,所述实体关系属性还包括实体树,所述装置还包括实体树建立模块,具体用于:\n[0035] 在所述多个实体中选择一个作为根节点,其他实体作为父节点和叶节点;\n[0036] 根据所述根节点、父节点和叶节点,建立实体树,所述实体树至多包括三层,第一层包括所述根节点,第二层包括多个父节点,第三节点包括多个叶节点。\n[0037] 进一步地,还包括检索模块,具体用于:\n[0038] 获取检索输入条件;\n[0039] 对所述检索输入条件中的实体通过所述实体树进行模糊或泛化处理,得到模糊实体;\n[0040] 根据所述模糊实体,实现在所述知识图谱中的检索。\n[0041] 第三方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现第一方面任一所述的方法。\n附图说明\n[0042] 为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。\n[0043] 图1示出了本发明实施例所提供的一种携带实体关系属性的中文通用知识图谱的生成方法的流程图;\n[0044] 图2示出了本发明实施例所提供的一种携带实体关系属性的中文通用知识图谱的生成装置的示意图。\n具体实施方式\n[0045] 下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案,因此只是作为示例,而不能以此来限制本发明的保护范围。\n[0046] 实施例一\n[0047] 首先,对本发明中出现的名词进行解释:\n[0048] 知识图谱:一种基于图的数据结构,由节点和边组成。知识图谱是实体间关系的最有效表示方式。通俗地讲,知识图谱就是把所有不同种类的信息连接在一起而得到的一个关系网络。\n[0049] 实体(节点):在知识图谱里,每个节点表示现实世界中存在的“实体”。\n[0050] 实体属性:在知识图谱里,每个节点表示的“实体”的属性。\n[0051] 实体关系:在知识图谱里,每条边为实体与实体之间的“关系”。\n[0052] 实体关系属性:在知识图谱里,表示实体关系所具有的属性。\n[0053] 第一方面,图1示出了本发明实施例所提供的一种携带实体关系属性的中文通用知识图谱的生成方法的流程图;如图1所示,实施例一提供的一种携带实体关系属性的中文通用知识图谱的生成方法,包括:\n[0054] 步骤S1,对多种外部数据源和数据库中的实体进行命名实体识别,并对识别得到的多个命名实体进行连接,得到多个实体关系;\n[0055] 步骤S2,在多个实体关系中增加属性标识符,得到多个实体关系属性;\n[0056] 步骤S3,根据多个实体、多个实体关系和多个实体关系属性,生成携带实体关系属性的中文通用知识图谱。\n[0057] 本发明提供一种携带实体关系属性的中文通用知识图谱生成方法,其技术方案为:对多种外部数据源和数据库中的实体进行命名实体识别,并对识别得到的多个命名实体进行连接,得到多个实体关系;在多个实体关系中增加属性标识符,得到多个实体关系属性;根据多个实体、多个实体关系和多个实体关系属性,生成携带实体关系属性的中文通用知识图谱。\n[0058] 本发明提供的一种携带实体关系属性的中文通用知识图谱的生成方法,通过在实体关系中添加标识符,建立实体关系属性,使通过知识图谱抽取答案时,由于实体关系属性的增加,提高了答案抽取的效率,且提高了抽取答案的完整性,使知识图谱更为高效地为使用者提供服务。\n[0059] 其中,步骤S1之前,还包括本体的构建,本体包括通用公开本体和专业领域公开本体,本体用来做数据描述和数据集成。本体可以从OWL(web本体语言)中直接获取,不需要额外的转换。\n[0060] 具体地,步骤S2,具体为:\n[0061] 通过RDF三元组,建立索引列表;\n[0062] 在索引列表中增加属性标识符,得到多个实体关系属性,实体关系属性中包括谓词的转述表达和谓词的逆转述表达。\n[0063] 其中,命名实体的识别,可通过将多种外部数据源和数据库映射为RDF(资源描述框架)结构实现。\n[0064] 具体为:\n[0065] 在RDF三元组后增加其标识id,增加标识id后的关系表示形如:(
法律信息
- 2020-10-13
- 2020-09-01
著录事项变更
申请人由深圳狗尾草智能科技有限公司变更为苏州狗尾草智能科技有限公司
地址由518057 广东省深圳市南山区粤海街道科苑路16号东方科技大厦1307-09变更为215000 江苏省苏州市姑苏区人民路239号39幢301室
- 2017-12-22
实质审查的生效
IPC(主分类): G06F 17/30
专利申请号: 201710602759.0
申请日: 2017.07.21
- 2017-11-24
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有引用任何外部专利数据! |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |