著录项信息
专利名称 | 一种计算机语义工程系统 |
申请号 | CN201410227079.1 | 申请日期 | 2014-05-27 |
法律状态 | 暂无 | 申报国家 | 中国 |
公开/公告日 | 2016-01-27 | 公开/公告号 | CN105279145A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/27 | IPC分类号 | G;0;6;F;1;7;/;2;7查看分类表>
|
申请人 | 王楠 | 申请人地址 | 江苏省南京市秦淮区501号1202室
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 江苏联著实业股份有限公司 | 当前权利人 | 江苏联著实业股份有限公司 |
发明人 | 王楠 |
代理机构 | 暂无 | 代理人 | 暂无 |
摘要
本发明公开了一种计算机语义工程系统,其特征在于:其包括一个计算机根据外部输入信息,应用工程法创造、积累、管理和自我完善计算机语义的系统。这里“语义”是个广义的概念,指计算机自身定义的任何语义。为了解决中文自然语言理解问题,语义工程系统模拟人类认知结构和过程,采用类语言模型为计算机建立语义模型,实现计算机“语义”向人类语言语义的逼近。语义工程系统包括动态语义大辞典、语义映射引擎、数码大脑(CyberBrain)、语义模型库及其建模工具、语义学习引擎、语义应用引擎开发环境、以及规则维护工具等子系统。语义映射引擎、数码大脑、语义学习引擎、语义模型库、动态语义大辞典形成一个语义工程自学习过程的完整闭环。
一种计算机语义工程系统\n技术领域\n[0001] 本发明属于计算机自然语言理解领域,具体涉及一种新的理论和方法的创新和基于该新理论和方法的应用系统创建。\n背景技术\n[0002] 在计算机中文自然语言理解领域里,针对语义的研究往往称为“语义识别”或“语义理解”,而不叫“语义工程”。因为这里的“语义”指得是人类语言中的语义,它由人类在生活中创建,计算机只有“识别”和“理解”的份。本发明申请保护的语义工程系统中的“语义”指得是计算机自己定义的语义。语义工程系统中的“工程”指得是计算机应用工程的方法自己创建、积累、管理、维护和完善其语义体系。简言之,业内的语义研究是让计算机被动地去理解人类的语义,而本发明的语义工程是让计算机主动地创建和维护自身的语义。\n发明内容\n[0003] 实际上,人类编写的所有计算机程序都可以看作是计算机的一种简单的语义系统。它的语义模型体现在计算机程序代码所隐含的规则中,语义实例存储在各种程序变量或数据库数据中,其语义应用引擎就是程序本身的功能和可调用的功能函数。需要强调的是,对于计算机程序,无论是语义模型、语义实例,还是语义应用引擎都是程序员输入计算机并固化在计算机之中的,计算机只是按程式机械地、被动地做出反应。人工智能系统与计算机程序最大的不同在于计算机的语义和语义应用引擎都可能由计算机自己创造和完善。\n但是,大多数传统的人工智能研究依然沿用了程序员编程的方法,没有区分语义创建和语义应用引擎创建,而是紧耦合地把它们写在一个程序里。所以,以往的人工智能系统异常复杂,而且通用性差。\n[0004] 本发明申请保护的首要创新就是把人工智能研究中的语义系统分解为语义创建系统和语义应用引擎创建系统。就像人类可以把学习知识和学习技能分开一样。二者可以分别取得突破。本发明的语义工程系统主要是完成计算机自己创建语义的部分,而把创建语义应用引擎的部分做成开放的开发环境,供第三方程序员来创造。至于如何让计算机自己创建语义应用引擎将申请另外的发明专利给予公开。\n[0005] 在构建计算机语义工程系统的语义模型时,我曾经尝试了很多业内已有的数学建模方法,包括基于本体论的OWL建模方法,但是都不理想。原因是没有一个数学模型可以满足图灵机的完备性,即:可以让计算机模拟世界上任意复杂的现象。基于数学算法的知识模型只能在特定的领域的小范围内适用,一旦面对大数据的复杂社会现象就会失效。在反复尝试中我发现,只有人类的自然语言可以描述任意复杂的社会现象。世界上一个民族、部落,无论多么落后,甚至一点都不懂数学,但是,他们的语言体系都是完善的,人们从未感到因为语言的缺陷而不能沟通。更重要的是,语言的规则——语法,比数学算法要容易掌握得多。\n[0006] 本发明申请保护的第二项重要创新是用类自然语言描述模型代替数学算法模型来构建语义工程系统的语义模型,以此增强语义工程系统的普适性。在搭建语义结构时充分吸收了中国古老哲学《易经》的思想,包括:动与静、阴与阳、数码符、时间序、空间序、周期律和全息律等等。同时,采用自然语言语句作为语义表达式,采用自然语言语法作为语义模型的描述规则(作用类似数据库的SQL)。\n[0007] 计算机的“语义”是一个广义的概念,不一定是人类语言的语义。我们可以让语义工程系统针对任何特定的知识领域构造计算机专用的“语义”,开发专用的语义应用引擎。\n这也是目前很多人工智能系统采用的方法。这种方法的缺陷是没有通用性。本发明为了增强系统的通用性和处理复杂大数据的能力,采用了类自然语言的描述模型作为计算机语义模型。故此,本发明的计算机语义工程系统特别适合中文自然语言理解的研究。为达此目标,本发明申请保护的第三项创新是让计算机模拟人类的认知过程,用计算机自身创造的“语义”去逼近人类在生活中创造的语义,从而实现中文自然语言的“语义理解”。\n[0008] 当前业界很多计算机中文自然语言理解的研究放弃了原先模仿人类思维的研究方法,转而采用大规模预料的统计方法,因而只能算是“中文信息处理”研究,即:从真实的中文文本信息中提炼一些有用的信息,远远达不到语义理解的程度。而本发明的语义工程系统有望逼近中文自然语言语义理解研究原定的目标。\n发明内容\n[0009] 本发明提供了一种计算机语义工程系统,主要用于中文自然语言语义理解的研究,同时可以作为各类计算机智能化应用的基础技术解决方案。\n[0010] 本发明的计算机语义工程系统,其特征在于:其包括一个计算机根据外部输入信息,应用工程法创造、积累、管理和自我完善计算机语义的系统。这里“语义”的概念不是指人们常说的人类语言的语义,而是指计算机自身定义的、机器可以理解的语义。计算机理解的范围包括其感知的范围加上其所有语义应用引擎功能的集合。\n[0011] 这个语义工程系统,其特征还在于:为了让计算机产生的“语义”与人类自然语言的“语义”尽量靠近,该系统的实现采纳了计算机认知结构模拟人类认知结构的方法,即:用类自然语言模型代替数学模型为计算机构造语义模型,计算机语义模型的描述语言就是人类自然语言,计算机语义模型描述语言的规则就是人类自然语言的语法。其中,[0012] “认知结构”包括一个将输入信息映射为计算机语义的过程和一个根据这种映射关系和一系列理解规则做出行为响应的过程。\n[0013] 该语义工程系统的原理和各子系统的总体框架参见附图一。它包括动态语义大辞典、语义映射引擎、数码大脑(Cyber Brain)、语义模型库及其建模工具、语义学习引擎、语义应用引擎开发环境、以及规则维护工具。其中,\n[0014] 优选的,包括:动态语义大辞典、语义模型、数码大脑(Cyber Brain)、语义映射引擎、语义学习引擎、以及语义应用引擎开发环境。\n[0015] 动态语义大辞典是语义识别的基础,与传统电子辞典的主要区别在于:传统辞典中每个词的注释部分往往是一段由语言专家手工输入的文字,是固定不变的;而动态语义大辞典中每个词的注释部分将根据语义模型库和数码大脑的不断丰富和完善而动态变化。\n[0016] 语义模型模拟人类知识结构,其吸收了中国古老哲学《易经》结构化、数字化、动与静结合的建模思想,构造独特的计算机语义结构。它与业内其他语义模型的主要区别在于:\n传统语义模型都是某种数学算法模型,包括当今最火的本体论模型;而语义工程系统的语义模型采用的是类语言描述模型,数学只是这种模型的推理工具。\n[0017] 数码大脑(Cyber Brain)存储和管理语义实例,与各类知识库或数据库的区别在于:传统知识库或数据库的存储结构是固定的,其存储过程只是库中的数据或知识量在增减;而数码大脑的存储结构将根据语义实例存储的需要和语义学习引擎的反馈而动态地优化。所以它不是“库”,而是“脑”。\n[0018] 语义映射引擎完成语义识别和映射过程,是语义工程系统的基础模块,它决定了中文自然语言文本信息能否顺利地转化为语义工程系统数码大脑中的语义实例。\n[0019] 语义学习引擎执行语义工程,从海量的碎片化语义实例中提炼完整的语义实例,创建新的语义模型,不断充实语义模型库和改进数码大脑的存储结构。它是语义工程系统走向实用化的关键模块。\n[0020] 语义应用引擎开发环境将兑现计算机创建的所有语义的价值。它与其它人工智能系统的类似模块的主要区别在于:其它人工智能系统针对一套知识模型往往只提供一个具体的语义应用引擎,完成某特定种类的行为;语义工程系统可以在一套语义模型中按不同颗粒度的语义组来设计不同的语义应用引擎,最小的颗粒度可以是一个语义元。因此,语义工程系统将语义应用引擎的创建设计为一个开放系统,即:语义应用引擎开发环境,供第三方利用数码大脑开发各种不同的语义应用引擎,实现语义工程系统语义价值的最大化。\n[0021] 图1是计算机语义工程系统的原理框架图。(参考说明书附图)\n[0022] 计算机的“语义”是一个广义的概念,不一定是人类语言的语义。但是,能够让计算机逼近人类语言语义的理解是本发明的最高目标。所以,接下来以中文自然语言语义理解为例,说明本发明计算机语义工程系统的实现逻辑。\n[0023] 1)本发明的语义工程系统针对的大数据操作对象是互联网海量的真实中文文本。\n系统输入以文章为语义组,文章中的每一句话为一个完整的语义元,代表着某个语义模型中的一个碎片。一篇文章至少涉及一个语义模型,通常涉及很多语义模型。系统输入一次处理一句话,即:语句标点符号之间不间断的字符串。不间断字符串首先进入的是语义映射引擎。该引擎调用动态语义大辞典对输入的字符串进行切词,并根据动态语义大辞典对每一个词的注释(即:该词在各种已知的语义模型中的用法)对切分出的词进行消歧、语义要素标注,并识别出每一句话中的所有语义表达式。\n[0024] 2)每一个语义表达式背后都对应着一个或多个语义模型。语义映射引擎根据识别出的语义表达式推导出应该调用的语义模型或语义模型的实例。如果这些语义模型或语义模型的实例在语义模型库中被定义过或在数码大脑中被实例化过,则语义映射引擎将把它们直接调出;如果其中某些语义模型在系统中不存在,则语义映射引擎将从语义表达式中获取语义模型信息(因为类自然语言是语义模型的描述语言),并根据基于语义表达式创建语义模型的规则创建新的语义模型。\n[0025] 例如,一句话提到一家称为“华为”的企业。根据动态语义大辞典,语义映射引擎知道华为是一家企业,它首先会到数码大脑中看看有没有现成的华为企业的语义实例,如果有就调出来;如果没有,就到语义模型库中去掉企业的通用语义模型;如果连通用企业语义模型都没有,就会根据这句话的语义表达式创建一个企业语义模型(的碎片)。\n[0026] 3)被调出的语义模型是空架子,而语义映射引擎正在处理的句子包含有现实世界的具体信息。语义映射引擎会将这句话中的真实信息填充到语义模型中,将语义模型变成一个基于该模型的语义实例,即:完成一次语义映射。如果被调出的是数码大脑中现存的语义实例,语义映射引擎就会将正在处理的句子包含的新信息补充到被调出的语义实例中。\n语义映射引擎的输出是把语义实例存入数码大脑。\n[0027] 例如,一个通用的企业模型包括组织架构、业务模式、产品构成、经营状况等等。这个模型适用于很多企业。当把华为的信息填充进去以后,该模型就变成了一个描述华为企业的具体语义实例。一句话往往只提到华为的某一方面(所以称为碎片),语义映射引擎第一次碰到华为的句子就会实例化一个不完整的华为企业语义模型,并存入数码大脑。以后凡是碰到华为的句子,语义映射引擎都会从数码大脑中把华为的语义实例重新调出,把新的信息补充进去,形成一个关于华为的更大的语义实例(碎片),然后再存入数码大脑。\n[0028] 4)数码大脑是专门存取和管理语义实例的模块。它的输入是语义映射引擎输出的语义实例碎片;它的输出也是语义工程系统对语义应用引擎的输出,主要是较完整的语义实例。其最大的特点是随着语义实例的不断丰富,特别是描述维度的增加,数码大脑的存储结构会做出相应的调整,以保持最佳的存储性能。这是传统数据库系统不具备的能力。\n[0029] 5)语义学习引擎是执行语义工程的功能模块。它的输入是数码大脑中的语义实例碎片,输出是更完整的语义实例和提炼出的新语义模型。该引擎的学习规则库模拟了人类大多数学习方法,比如:解析、归纳、综合、抽象、继承、关联、比较、判断等等。根据这些规则,语义学习引擎将数码大脑中的语义实例碎片进行反复整理,逐步还原出完整的语义实例,存回到数码大脑中。与此同时,提取共性的部分和规律性的部分,作为语义模型改进的建议输出到语义模型库。\n[0030] 6)语义模型库是创建和维护语义工程系统知识架构的模块,是整个系统的灵魂所在。它吸收了《易经》结构化、数字化、动静结合的设计理念,采用类语言模型代替数学模型建立语义模型,采用类自然语言作为语义模型的描述工具。该语义模型库最初的“种子”语义模型是人工输入的,以后在语义学习引擎的配合下不断地丰富、成长。\n[0031] 7)动态语义大辞典实际上是语义模型库的另外一种表现形式。它的每一个词都在语义模型库中定义过,每一个词的注释部分都是该词在相关语义模型中的用法。随着语义模型库的不断丰富、完善,动态语义大辞典将随之动态地更新、丰富和完善。动态语义大辞典的作用在于为语义映射引擎提供词与词对比的基础,为语义表达式的消歧提供依据,为语义映射引擎该调用那一组语义模型或语义实例提供线索。\n[0032] 到此,语义映射引擎à数码大脑à语义学习引擎à语义模型库à动态语义大辞典形成一个语义工程自学习过程的完整闭环。\n[0033] 值得一提的是,为了提高系统的可扩展性,每一种引擎都配有可以人工干预的规则库。也就是说,人是通过控制规则的变化来控制各引擎的功能和性能的。\n[0034] 8)存于数码大脑中的完整语义实例将作为语义工程系统的输出给语义应用引擎。\n为了适应不同的应用领域,利用不同的语义实例开发不同的应用引擎,本发明的语义工程系统设计了语义应用引擎开发环境,为语义应用引擎顺利使用数码大脑的语义实例资源提供支撑。\n[0035] 至于具体的基于数码大脑的语义应用引擎将在其它发明专利中公开。\n具体实施方式\n[0036] 下面对本发明的具体实施的方式和次序作进一步的描述。\n[0037] 1)完成语义模型库的开发,并向语义模型库中人工输入“种子”语义模型;\n[0038] 2) 完成动态语义大辞典的开发,并根据语义模型库中的“种子”语义模型动态生成“种子”语义大辞典;\n[0039] 3) 为了增加通用性,可以参照《现代汉语词典》来规划上述两步的内容,即:根据《现代汉语词典》中收录的词来规划都需要哪些“种子”语义模型,动态生成的动态语义大辞典应该拥有哪些语义元,覆盖多少词汇。\n[0040] 4)完成数码大脑的开发。\n[0041] 5)完成语义映射引擎的开发,并精选真实的中文文本作为样本库来调试语义映射引擎。调试过程主要是丰富和完善语义映射规则库。\n[0042] 6)完成语义学习引擎的开发与调试。调试过程则是丰富和完善语义学习规则库。\n[0043] 7)在真实的互联网环境中运行本发明的语义工程系统,使数码大脑中拥有足够的较完整的语义实例,同时,使语义模型库和动态语义大辞典“成长”到实用的规模。\n[0044] 8)完成语义应用引擎开发环境的搭建,并可以利用数码大脑开发几个语义应用引擎,比如:互联网信息自动分类系统、智能化舆情监测系统、智能化供求关系匹配系统、以及新闻主题演绎系统等等。
法律信息
- 2018-09-21
专利权的转移
登记生效日: 2018.08.31
专利权人由王楠变更为江苏联著实业股份有限公司
地址由210006 江苏省南京市秦淮区中山南路号变更为210006 江苏省南京市秦淮区501号1202室
- 2018-09-07
专利权的转移
登记生效日: 2018.08.20
专利权人由王楠变更为江苏联著实业股份有限公司
地址由210006 江苏省南京市秦淮区中山南路号变更为210001 江苏省南京市中山南路501号通服大厦1202室
- 2018-01-09
- 2016-02-24
实质审查的生效
IPC(主分类): G06F 17/27
专利申请号: 201410227079.1
申请日: 2014.05.27
- 2016-01-27
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有引用任何外部专利数据! |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |