著录项信息
专利名称 | 基于知识图谱技术的海量非结构化配网数据集成方法 |
申请号 | CN201710593929.3 | 申请日期 | 2017-07-20 |
法律状态 | 授权 | 申报国家 | 中国 |
公开/公告日 | 2017-11-07 | 公开/公告号 | CN107330125A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F16/31 | IPC分类号 | G;0;6;F;1;6;/;3;1;;;G;0;6;F;1;6;/;3;6查看分类表>
|
申请人 | 云南电网有限责任公司电力科学研究院 | 申请人地址 | 云南省昆明市经济技术开发区云大西路105号
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 云南电网有限责任公司电力科学研究院 | 当前权利人 | 云南电网有限责任公司电力科学研究院 |
发明人 | 曹敏;邹京希;唐立军;赵旭;周年荣;魏玲;沈鑫 |
代理机构 | 北京弘权知识产权代理事务所(普通合伙) | 代理人 | 逯长明;许伟群 |
摘要
本发明公开一种基于知识图谱技术的海量非结构化配网数据集成方法,数据采集单元采集各信息化系统的非结构化配网数据,并分别对各信息化系统的非结构化配网数据进行质量分析和数据清洗处理;根据处理后的各信息化系统的非结构化配网数据,构建基于局部知识图谱的数据局部索引;将基于局部知识图谱的数据局部索引通过大数据连接器发送至数据管理中心;数据管理中心构建基于全局知识图谱的数据全局索引。本发明将分布式多源异构数据的采集、质量分析和数据清洗前置到各信息化系统,降低数据管理中心的数据融合计算量、存储压力和数据调度负担;利用基于全局知识图谱的数据全局索引对数据源进行集成,便于数据查询和提取,减小数据管理中心的工作量。
1.一种基于知识图谱技术的海量非结构化配网数据集成方法,其特征在于,包括:
由数据采集单元采集各信息化系统的非结构化配网数据,并分别对所述各信息化系统的非结构化配网数据进行质量分析和数据清洗处理;
根据处理后的所述各信息化系统的非结构化配网数据,构建基于局部知识图谱的数据局部索引,所述基于局部知识图谱的数据局部索引包括:所述各信息化系统的局部知识图谱和局部数据索引表;
将所述基于局部知识图谱的数据局部索引通过大数据连接器发送至数据管理中心;
由所述数据管理中心构建基于全局知识图谱的数据全局索引,所述基于全局知识图谱的数据全局索引包括全局知识图谱和全局数据索引表;
所述由数据管理中心构建基于全局知识图谱的数据全局索引的步骤包括:
对所述各信息化系统的局部知识图谱进行冲突检测,所述冲突检测包括实体名冲突检测、上下位关系冲突监测、单值属性冲突检测和多值属性冲突检测;
如果所述各信息化系统的局部知识图谱之间存在冲突,则消除冲突;
根据检测和消除冲突过程中获得的所述局部知识图谱的实体、类、属性值和上下位关系,统一所述局部数据索引表中各实体的局部索引信息,并构建全局知识图谱;
构建所述全局知识图谱与所述各信息化系统的局部知识图谱的映射关系;
根据所述映射关系和所述局部数据索引表,以实体库中各实体的实体名为关键词,构建全局数据索引表,所述全局数据索引表包括与所述实体库中各实体相对应的全局索引信息,所述全局索引信息包括所属关系、所引发冲突、所述局部索引信息和所属局部知识图谱;
其中,所述实体库包括所述各信息化系统的非结构化配网数据的实体、类和属性信息。
2.根据权利要求1所述的方法,其特征在于,所述根据处理后的所述各信息化系统的非结构化配网数据,构建基于局部知识图谱的数据局部索引的步骤包括:
对处理后的所述各信息化系统的非结构化配网数据进行实体提取,以获取所述各信息化系统的非结构化配网数据的实体库;
根据所述实体库中各实体的上下位关系,构建所述局部知识图谱;
以所述实体库中各实体的实体名为关键词,构建局部数据索引表,所述局部数据索引表包括与所述实体库中各实体相对应的局部索引信息,所述局部索引信息包括属性、实例、所属文本、数据源名称、所属数据库。
3.根据权利要求1所述的方法,其特征在于,所述如果所述各信息化系统的局部知识图谱之间存在冲突,则消除冲突的步骤包括:
创建各信息化系统的局部知识图谱的优先级;
如果所述各信息化系统的局部知识图谱之间存在实体名冲突或上下位关系冲突,则选择优先级最高的局部知识图谱的实体名或上下位关系作为所述全局知识图谱的实体名或者上下位关系,并修改对应的所述局部知识图谱的实体名和上下位关系;
在各所述局部知识图谱中遍历单值属性,如果检测到某一所述单值属性为多值,选择优先级最高的局部知识图谱的属性值作为全局知识图谱中该属性的属性值,并修改相对应的所述局部知识图谱的属性值;
如果检测到各所述局部知识图谱的多值属性值不一致,则将所有局部知识图谱的属性值合并,构成全局知识图谱的属性值,同时修改相对应的所述局部知识图谱的属性值。
4.根据权利要求2所述的方法,其特征在于,所述对处理后的所述各信息化系统的非结构化配网数据进行实体提取的步骤包括:
判断处理后的所述各信息化系统的非结构化配网数据是否为文本数据;
如果处理后的所述各信息化系统的非结构化配网数据为文本数据,根据预设规则和词典方法提取实体、类和属性信息;
如果处理后的所述各信息化系统的非结构化配网数据不是文本数据,将处理后的所述各信息化系统的非结构化配网数据转化为文本;
对所述文本进行分词,采用基于自然语言处理的语法分析算法分析所述文本的句法结构和句中词语间的依存关系,然后提取实体、类和属性信息。
5.根据权利要求2所述的方法,其特征在于,所述根据所述实体库中各实体的关系,构建所述局部知识图谱的步骤包括:
将文本化的所述非结构化配网数据的字符串序列内一定长度的任意子序列进行内积,计算句子之间的相似性;
将所述字符串序列的核作为支持向量机的核进行统计学习,获取所述实体库中各实体关系,采用下式所示的三元组构建所示局部知识图谱:
其中, 为所述局部知识图谱; 为所述实体库中各实体的集合,共包
含 种不同的实体; 是所述实体库中各实体关系的集合,共包含 种不同的实体关系; 代表所述局部知识图谱中的三元组集合。
6.根据权利要求1所述的方法,其特征在于,所述实体名冲突检测的方法包括:
根据下式计算某一所述局部知识图谱的实体A与其它所述局部知识图谱的实体B的相似度;
其中, 为所述实体A与所述实体B的相似度; 为所述实体A的类
与所述实体B的类 的距离; 为所述实体A的属性 与所述实体B的属性
的距离;
如果所述实体A与所述实体B的相似度大于阈值时,判断所述实体A与所述实体B的实体名是否相同;
如果所述实体A与所述实体B的实体名相同,则检测结果为存在实体名冲突。
7.根据权利要求1所述的方法,其特征在于,所述上下位关系冲突监测的方法包括:
提取某一所述局部知识图谱中的实体A的上下位关系图;
在其它所述局部知识图谱中查找出与所述实体A相关的上下位关系实体集合,并提取所述上下位关系实体集合中各实体的上下位关系图;
根据下式得到合并后的上下位关系图;
其中, 为合并后的上下位关系图; 为所述实体A的上下位关系图;
分别为取所述上下位关系实体集合中各实体的上下位关系图,n为所述
上下位关系实体集合中的实体数量;
删除所述合并后的上下位关系图中所有入度为零的顶点和相关的出边,直至所述合并后的上下位关系图中无顶点输出;
如果所述合并后的上下位关系图中的结点均被删除,则检测结果为不存在上下位关系冲突;如果所述合并后的上下位关系图中至少存在一个结点,则检测结果为存在上下位关系冲突。
8.根据权利要求2所述的方法,其特征在于,所述方法还包括:根据新设备和/或新用户的非结构化配网数据,对所述基于局部知识图谱的数据局部索引和所述基于全局知识图谱的数据全局索引进行更新。
9.根据权利要求8所述的方法,其特征在于,所述根据新设备和/或新用户的非结构化配网数据,对所述基于局部知识图谱的数据局部索引和所述基于全局知识图谱的数据全局索引进行更新的步骤包括:
获取新设备和/或新用户的非结构化配网数据,并提取所述新设备和/或新用户的非结构化配网数据的实体、类和属性信息;
判断所述新设备和/或新用户的非结构化配网数据的实体和类是否与某一所述局部知识图谱中的实体和类相匹配;
如果判断结果为匹配,则将所述新设备和/或新用户的非结构化配网数据的实体与该所述局部知识图谱相融合,并更新对应的实体属性和实体之间的上下位关系,根据融合后的所述局部知识图谱更新所述局部数据索引表和所述基于全局知识图谱的数据全局索引;
如果判断结果为不匹配,则创建新的实体和类,并根据所述新的实体和类,更新所述基于局部知识图谱的数据局部索引和所述基于全局知识图谱的数据全局索引。
基于知识图谱技术的海量非结构化配网数据集成方法\n技术领域\n[0001] 本发明涉及数据融合与集成技术领域,特别涉及一种基于知识图谱技术的海量非结构化配网数据集成方法。\n背景技术\n[0002] 电网包括营销系统、生产系统、配电数据采集与监控系统、以及电能表等信息化系统,为增强电网运营能力和扩充电力客户服务能力和质量,需要高效、快速地采集来自于配网设备的海量数据,并结合营销系统、生产系统等业务系统数据,并对数据进行有效识别和过滤,最终输出有利于电力运营、提高客户服务质量和服务水平的相关数据。\n[0003] 从各个信息化系统采集到的配网数据可分为两类,一种是结构化数据,如数据或符号类数据,另一种是非结构化数据,如用户语音、图像、文本等。现有的非结构化配网数据的集成方法是建立一个统一的数据中心平台,采用数据适配器等技术将采集到的非结构化数据拷贝到数据中心平台,然后对数据进行清洗后集成,从而解决各部门之间频繁的数据交换的需求。\n[0004] 然而,这种方法一方面普遍在数据中心进行集中数据清洗,导致数据中心清洗量大,集成速度慢,无法满足海量的非结构化数据的集成要求;另一方面,各个信息化系统的非结构化数据在业务逻辑、数据格式和存储上均存在差异,因此,当数据传输至数据中心平台后,不仅不利于海量数据的分类存储,还给数据提取和查询带来不便,大大增加了数据中心平台的工作量。\n发明内容\n[0005] 为解决上述技术问题,本发明提供一种基于知识图谱技术的海量非结构化配网数据集成方法。\n[0006] 根据本发明的实施例,提供了一种基于知识图谱技术的海量非结构化配网数据集成方法,包括:\n[0007] 由数据采集单元采集各信息化系统的非结构化配网数据,并分别对所述各信息化系统的非结构化配网数据进行质量分析和数据清洗处理;\n[0008] 根据处理后的所述各信息化系统的非结构化配网数据,构建基于局部知识图谱的数据局部索引,所述基于局部知识图谱的数据局部索引包括:所述各信息化系统的局部知识图谱和局部数据索引表;\n[0009] 将所述基于局部知识图谱的数据局部索引通过大数据连接器发送至数据管理中心;\n[0010] 由所述数据管理中心构建基于全局知识图谱的数据全局索引,所述基于全局知识图谱的数据全局索引包括全局知识图谱和全局数据索引表。\n[0011] 进一步地,所述根据处理后的所述各信息化系统的非结构化配网数据,构建基于局部知识图谱的数据局部索引的步骤包括:\n[0012] 对处理后的所述各信息化系统的非结构化配网数据进行实体提取,以获取所述各信息化系统的非结构化配网数据的实体库,所述实体库包括所述各信息化系统的非结构化配网数据的实体、类和属性信息;\n[0013] 根据所述实体库中各实体的关系,构建所述局部知识图谱;\n[0014] 以所述实体库中各实体的实体名为关键词,构建局部数据索引表,所述局部数据索引表包括与所述实体库中各实体相对应的局部索引信息,所述局部索引信息包括属性、实例、所属文本、数据源名称、所属数据库。\n[0015] 进一步地,所述由数据管理中心构建基于全局知识图谱的数据全局索引的步骤包括:\n[0016] 对所述各信息化系统的局部知识图谱进行冲突检测,所述冲突检测包括实体名冲突检测、上下位关系冲突监测、单值属性冲突检测和多值属性冲突检测;\n[0017] 如果所述各信息化系统的局部知识图谱之间存在冲突,则消除冲突;\n[0018] 根据检测和消除冲突过程中获得的所述局部知识图谱的实体、类、属性值和上下位关系,统一所述局部数据索引表中各实体的局部索引信息,并构建全局知识图谱;\n[0019] 构建所述全局知识图谱与所述各信息化系统的局部知识图谱的映射关系;\n[0020] 根据所述映射关系和所述局部数据索引表,以所述实体库中各实体的实体名为关键词,构建全局数据索引表,所述全局数据索引表包括与所述实体库中各实体相对应的全局索引信息,所述全部索引信息包括所属关系、所引发冲突、所述局部索引信息和所属局部知识图谱。\n[0021] 进一步地,所述如果所述各信息化系统的局部知识图谱之间存在冲突,则消除冲突的步骤包括:\n[0022] 创建各信息化系统的局部知识图谱的优先级;\n[0023] 如果所述各信息化系统的局部知识图谱之间存在实体名冲突或上下位关系冲突,则选择优先级最高的局部知识图谱的实体名或上下位关系作为所述全局知识图谱的实体名或者上下位关系,并修改对应的所述局部知识图谱的实体名和上下位关系;\n[0024] 在各所述局部知识图谱中遍历单值属性,如果检测到某一所述单值属性为多值,选择优先级最高的局部知识图谱的属性值作为全局知识图谱中该属性的属性值,并修改相对应的所述局部知识图谱的属性值;\n[0025] 如果检测到各所述局部知识图谱的多值属性值不一致,则将所有局部知识图谱的属性值合并,构成全局知识图谱的属性值,同时修改相对应的所述局部知识图谱的属性值。\n[0026] 进一步地,所述对处理后的所述各信息化系统的非结构化配网数据进行实体提取的步骤包括:\n[0027] 判断处理后的所述各信息化系统的非结构化配网数据是否为文本数据;\n[0028] 如果处理后的所述各信息化系统的非结构化配网数据为文本数据,根据预设规则和词典方法提取实体、类和属性信息;\n[0029] 如果处理后的所述各信息化系统的非结构化配网数据不是文本数据,将处理后的所述各信息化系统的非结构化配网数据转化为文本;\n[0030] 对所述文本进行分词,采用基于自然语言处理的语法分析算法分析所述文本的句法结构和句中词语间的依存关系,然后提取实体、类和属性信息。\n[0031] 进一步地,所述根据所述实体库中各实体的关系,构建所述局部知识图谱的步骤包括:\n[0032] 将文本化的所述非结构化配网数据的字符串序列内一定长度的任意子序列进行内积,计算句子之间的相似性;\n[0033] 将所述字符串序列的核作为支持向量机的核进行统计学习,获取所述实体库中各实体关系,采用下式所示的三元组构建所示局部知识图谱:\n[0034] GL=(E,R,S)\n[0035] 其中,GL为所述局部知识图谱;E={e1,e2,…,e|E|}为所述实体库中各实体的集合,共包含|E|种不同的实体;R={r1,r2,…,r|R|}是所述实体库中各实体关系的集合,共包含|R|种不同的实体关系; 代表所述局部知识图谱中的三元组集合。\n[0036] 进一步地,所述实体名冲突检测的方法包括:\n[0037] 根据下式计算某一所述局部知识图谱的实体A与其它所述局部知识图谱的实体B的相似度;\n[0038] Sim(A,B)=Dis(LA,LB)+Dis(SA,SB)\n[0039] 其中,Sim(A,B)为所述实体A与所述实体B的相似度;Dis(LA,LB)为所述实体A的类LA与所述实体B的类LB的距离;Dis(SA,SB)为所述实体A的属性SA与所述实体B的属性SB的距离;\n[0040] 如果所述实体A与所述实体B的相似度大于阈值时,判断所述实体A与所述实体B的实体名是否相同;\n[0041] 如果所述实体A与所述实体B的实体名相同,则检测结果为存在实体名冲突。\n[0042] 进一步地,所述上下位关系冲突监测的方法包括:\n[0043] 提取某一所述局部知识图谱中的实体A的上下位关系图;\n[0044] 在其它所述局部知识图谱中查找出与所述实体A相关的上下位关系实体集合,并提取所述上下位关系实体集合中各实体的上下位关系图;\n[0045] 根据下式得到合并后的上下位关系图;\n[0046] G=GA∪Gq1∪Gq2…∪Gqn\n[0047] 其中,G为合并后的上下位关系图;GA为所述实体A的上下位关系图;Gq1、Gq2…Gqn分别为取所述上下位关系实体集合中各实体的上下位关系图,n为所述上下位关系实体集合中的实体数量;\n[0048] 删除所述合并后的上下位关系图中所有入度为零的顶点和相关的出边,直至所述合并后的上下位关系图中无顶点输出;\n[0049] 如果所述合并后的上下位关系图中的结点均被删除,则检测结果为不存在上下位关系冲突;如果所述合并后的上下位关系图中至少存在一个结点,则检测结果为存在上下位关系冲突。\n[0050] 进一步地,所述方法还包括:根据新设备和/或新用户的非结构化配网数据,对所述基于局部知识图谱的数据局部索引和所述基于全局知识图谱的数据全局索引进行更新。\n[0051] 进一步地,所述根据新设备和/或新用户的非结构化配网数据,对所述基于局部知识图谱的数据局部索引和所述基于全局知识图谱的数据全局索引进行更新的步骤包括:\n[0052] 获取新设备和/或新用户的非结构化配网数据,并提取所述新设备和/或新用户的非结构化配网数据的实体、类和属性信息;\n[0053] 判断所述新设备和/或新用户的非结构化配网数据的实体和类是否与某一所述局部知识图谱中的实体和类相匹配;\n[0054] 如果判断结果为匹配,则将所述新设备和/或新用户的非结构化配网数据的实体与该所述局部知识图谱相融合,并更新对应的实体属性和实体之间的上下位关系,根据融合后的所述局部知识图谱更新所述局部数据索引表和所述基于全局知识图谱的数据全局索引;\n[0055] 如果判断结果为不匹配,则创建新的实体和类,并根据所述新的实体和类,更新所述基于局部知识图谱的数据局部索引和所述基于全局知识图谱的数据全局索引。\n[0056] 由以上技术方案可知,本发明提供一种基于知识图谱技术的海量非结构化配网数据集成方法,在营销系统、生产系统、配电数据采集与监控系统、电能表等各信息化系统布置大数据连接器和数据采集单元,将分布式多源异构数据的采集、质量分析和数据清洗的过程前置到各信息化系统,降低数据管理中心的数据融合计算量、存储压力和数据调度负担。数据采集单元将各信息化系统的用户语音、图片、文本等非结构化配网数据进行数据抽样、质量分析和数据清洗,利用处理后的非结构化配网数据构建每一个信息化系统的局部知识图谱和局部数据索引表,并通过大数据连接器传输到数据管理中心。数据管理中心检测和消除局部知识图谱之间的冲突,构建适用于全部数据的全局知识图谱和全局数据索引表,从而利用全局知识图谱和全局数据索引表对数据源进行集成。在新增数据集成过程中,利用全局知识图谱可以优化数据集成,利用采集到的新设备和/或新用户的非结构化配网数据来更新基于局部知识图谱的数据局部索引和基于全局知识图谱的数据全局索引。随着集成设备和数据的增加,所构建的局部知识图谱和全局知识图谱不停更新,便于后续开展配网海量数据检索查询、大数据分析等。\n附图说明\n[0057] 图1为本发明一实施例示出的分布式多源异构数据索引构建的流程图;\n[0058] 图2为本发明一实施例示出的一种基于知识图谱技术的海量非结构化配网数据集成方法的流程图;\n[0059] 图3为本发明一实施例示出的构建基于局部知识图谱的数据局部索引的方法流程图;\n[0060] 图4为本发明一实施例示出的局部数据索引表的示意图;\n[0061] 图5为本发明一实施例示出的基于局部知识图谱的局部数据索引的示意图;\n[0062] 图6为本发明一实施例示出的构建基于全局知识图谱的数据全局索引的方法流程图;\n[0063] 图7为本发明一实施例示出的全局数据索引表的示意图;\n[0064] 图8为本发明一实施例示出的消除各局部知识图谱之间冲突的方法流程图;\n[0065] 图9为本发明一实施例示出的非结构化配网数据实体提取的方法流程图;\n[0066] 图10为本发明又一实施例示出的一种基于知识图谱技术的海量非结构化配网数据集成方法的流程图;\n[0067] 图11为本发明又一实施例示出的更新知识图谱的方法流程图。\n具体实施方式\n[0068] 为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合附图,对本发明实施例中的技术方案进行清楚、完整地描述。\n[0069] 如图1所示,为本发明一实施例示出的分布式多源异构数据索引构建的流程图,包括多个信息化系统,如智能电表、SCADA(Supervisory Control And Data Acquisition,配电数据采集与监控)系统、营销系统和生产系统等,其中,每一个信息化系统都配备有数据采集单元和大数据连接器,数据采集单元用于对各信息化系统的非结构化配网数据进行采集、质量分析和数据清洗,发现并纠正数据中可识别的错误,包括检查数据一致性,处理无效值和缺失值等。如数据采集单元采集并处理:智能电表的电表数据,SCADA系统的遥测、遥控、遥调数据,营销系统的用户信息数据,生产系统的设备信息数据等。大数据连接器用于将基于局部知识图谱的数据局部索引传输至数据管理中心。\n[0070] 本发明中,各信息化系统的非结构化配网数据的架构为分布式多源异构形式,通过将分布式多源异构数据的采集、质量分析和数据清洗的过程前置到各信息化系统,无需数据管理中心进行相应操作,因而,有利于降低数据管理中心的数据融合计算量、存储压力和数据调度负担。\n[0071] 如图2所示,为本发明一实施例示出的一种基于知识图谱技术的海量非结构化配网数据集成方法,包括:\n[0072] 步骤S10,由数据采集单元采集各信息化系统的非结构化配网数据,并分别对所述各信息化系统的非结构化配网数据进行质量分析和数据清洗处理。\n[0073] 本发明中,各信息化系统的非结构化配网数据来源于不同的信息化系统,数据结构和类型多样化,如用户语音数据、图像和/或文本数据等,因此,各信息化系统的非结构化配网数据的架构为分布式多源异构形式,通过将分布式多源异构数据的采集、质量分析和数据清洗的过程前置到各信息化系统,无需数据管理中心进行相应操作,因而,有利于降低数据管理中心的数据融合计算量、存储压力和数据调度负担。\n[0074] 步骤S20,根据处理后的所述各信息化系统的非结构化配网数据,构建基于局部知识图谱的数据局部索引,所述基于局部知识图谱的数据局部索引包括:所述各信息化系统的局部知识图谱和局部数据索引表。\n[0075] 为了消除各个信息化系统数据在业务逻辑、数据格式和存储上的差异,需要将各信息化系统的非结构化配网数据抽象成实体、属性和实体间关系等知识,构建局部知识图谱和局部数据索引表,从而构建基于局部知识图谱的数据局部索引。\n[0076] 步骤S30,将所述基于局部知识图谱的数据局部索引通过大数据连接器发送至数据管理中心。\n[0077] 大数据连接器可选择Oracle大数据连接器或者其它标准的数据库大数据连接器。\n[0078] 步骤S40,由所述数据管理中心构建基于全局知识图谱的数据全局索引,所述基于全局知识图谱的数据全局索引包括全局知识图谱和全局数据索引表。\n[0079] 如图3所示,步骤S20包括:\n[0080] S201,对处理后的所述各信息化系统的非结构化配网数据进行实体提取,以获取所述各信息化系统的非结构化配网数据的实体库,所述实体库包括所述各信息化系统的非结构化配网数据的实体、类和属性信息。\n[0081] S202,根据所述实体库中各实体的上下位关系,构建所述局部知识图谱。\n[0082] 构建的局部知识图谱不是通用知识图谱,而是一个针对电力配网的专用知识图谱,所述类是指所述实体的分类,如用户实体、设备实体等;所述实体是指在某一类下的实体名,如用户名、设备名、厂家名等;所述属性是指某一实体采集到的信息和数据。\n[0083] 其中,设备名主要包括架空线路、电缆、杆塔、配电变压器、隔离开关、断路器、重合器、分段器、柱上负荷开关、环网柜、调压器、无功补偿电容器,以及馈线终端单元(Feeder Terminal Unit,FTU)、数据采集与监控终端单元(Distribution Terminal Unit,DTU)、配电变压器监测终端单元(Transformer Terminal Unit,TTU)、远程终端单元(Remote Terminal Unit,RTU)等一些附属设施。\n[0084] 从各信息化系统提取的档案信息、停电信息、电价信息、电费信息和手机APP返回的用户信息等作为用户实体的属性;将设备档案、设备类型、电压等级、所属台区、位置信息、GIS信息、电能表数据、四分路用电情况和状态信息等作为设备实体的属性。\n[0085] S203,以所述实体库中各实体的实体名为关键词,构建局部数据索引表,所述局部数据索引表包括与所述实体库中各实体相对应的局部索引信息,所述局部索引信息包括属性、实例、所属文本、数据源名称、所属数据库。其中,所述数据源名称为实体所在的信息化系统的名称,所属数据库为实体对应的非结构化配网数据所在的数据库,数据库中可包括多个存储数据的数据块。\n[0086] 如图4所示,为本发明一实施例示出的局部数据索引表的示意图,表中第一列为某一信息化系统的实体库中各实体的实体名,以实体库中各实体的实体名为关键词,将实体库中各实体进行罗列和区分;在表中行向上罗列出与该行实体对应的属性、实例、所属文本、数据源名称、所属数据库等信息。\n[0087] 如图5所示,为本发明一实施例示出的基于局部知识图谱的局部数据索引的示意图,以实体名1为例进行说明,当需要对实体名1在文本2下的数据进行索引时,根据各信息化系统的局部知识图谱和局部数据索引表,查找出实体名1在文本2下对应的所属数据库为数据库1,再继续查找出在数据库1中,数据块1、数据块2和数据块n为对应的目标数据块,也就索引出了所需非结构化数据;当需要对实体名1在实例1下的数据进行索引时,根据各信息化系统的局部知识图谱和局部数据索引表,查找出实体名1在实例1下对应的所述数据库为数据库2,且数据库2是专用来存储实体名1在实例1下的数据。由此可知,根据基于局部知识图谱的局部数据索引,即可查询处用户所需的目标数据,方便快捷且准确率高。\n[0088] 各信息化系统和数据源将非结构化配网数据抽象出来的各局部知识图谱是相互独立的,形成了系统多样、信息分散的“信息孤岛”,很难集中起来进行检索和分析。因此,需要建立一个统一的中介,实现各应用系统之间数据的共享和集成。具体地,如图6所示,步骤S40包括:\n[0089] S401,对所述各信息化系统的局部知识图谱进行冲突检测,所述冲突检测包括实体名冲突检测、上下位关系冲突监测、单值属性冲突检测和多值属性冲突检测。\n[0090] 对于营销系统、生产系统、SCADA系统、智能电表等不同数据源抽取的实体,难免出现不同名字指代相同事物或者相同名字指代不同实体的情况,当进行数据集成的时候,在各个局部知识图谱之间不可避免地存在一些冲突,因此必须对各局部知识图谱进行图谱检测,以有针对性地消除冲突,识别与合并等价实体,清除冗余知识和矛盾知识,从而形成准确的全局知识图谱。\n[0091] S402,如果所述各信息化系统的局部知识图谱之间存在冲突,则消除冲突。\n[0092] 消除各信息化系统的局部知识图谱之间存在冲突后,能够生成准确的全局知识图谱,使个信息化系统的非结构化配网数据能够更好地集成,便于数据管理中心对数据的集成管理和查询、索引。\n[0093] S403,根据检测和消除冲突过程中获得的所述局部知识图谱的实体、类、属性值和上下位关系,统一所述局部数据索引表中各实体的局部索引信息,并构建全局知识图谱。\n[0094] S404,构建所述全局知识图谱与所述各信息化系统的局部知识图谱的映射关系。\n[0095] 即通过局部知识图谱之间的冲突检测和消除过程,统一实体在所有局部知识图谱的索引;然后在全局范围内,构建各局部知识图谱在全局知识图谱的索引,建立跨局部知识图谱的数据映射关系,在局部数据索引表的基础上,对数据源抽取的每一个实体,增加所属局部知识图谱、所引发冲突等信息,建立跨越各个局部知识图谱的数据索引,从而实现跨系统、跨数据库的数据集成。\n[0096] S405,根据所述映射关系和所述局部数据索引表,以所述实体库中各实体的实体名为关键词,构建全局数据索引表,所述全局数据索引表包括与所述实体库中各实体相对应的全局索引信息,所述全部索引信息包括所属关系、所引发冲突、所述局部索引信息和所属局部知识图谱,图7为全局数据索引表的示意图。\n[0097] 如图8所示,步骤S402包括:\n[0098] S4021,创建各信息化系统的局部知识图谱的优先级.\n[0099] S4022,如果所述各信息化系统的局部知识图谱之间存在实体名冲突或上下位关系冲突,则选择优先级最高的局部知识图谱的实体名或上下位关系作为所述全局知识图谱的实体名或者上下位关系,并修改对应的所述局部知识图谱的实体名和上下位关系。\n[0100] 当检测到实体名称冲突或者上下位关系冲突,选择优先级最高的局部知识图谱的实体名称或上下位关系作为全局知识图谱的实体或者上下位关系,同时该实体或上下位关系即纳入到全局知识图谱中,并修改相对应的局部知识图谱的实体名称和上下位关系,实现实体名称和上下位关系的全局一致;当局部知识图谱之间发生冲突时,以全局知识图谱的实体名称和上下位关系为准。\n[0101] S4023,在各所述局部知识图谱中遍历单值属性,如果检测到某一所述单值属性为多值,选择优先级最高的局部知识图谱的属性值作为全局知识图谱中该属性的属性值,并修改相对应的所述局部知识图谱的属性值。\n[0102] 当单值属性检测到多值时,选择优先级最高的局部知识图谱的值作为全局知识图谱中该属性的值,同时该属性即纳入到全局知识图谱中,并修改相对应的局部知识图谱的属性值,实现单值属性的全局一致。当局部知识图谱之间发生冲突时,以全局知识图谱的属性值为准。\n[0103] S4024,如果检测到各所述局部知识图谱的多值属性值不一致,则将所有局部知识图谱的属性值合并,构成全局知识图谱的属性值,同时修改相对应的所述局部知识图谱的属性值。\n[0104] 对于多值属性,如果检测到局部知识图谱之间属性值不一致,则将所有局部知识图谱的值合并,构成全局知识图谱的属性即可,同时修改相对应的局部知识图谱的属性值,实现多值属性的全局一致。当局部知识图谱之间发生冲突时,以全局知识图谱的属性值为准。\n[0105] 如图9所示,步骤S201包括:\n[0106] S2011,判断处理后的所述各信息化系统的非结构化配网数据是否为文本数据。\n[0107] 非结构化配网数据可以包括用户语音、图像和/或文本等不同类型的数据形式,针对不同类型的数据,实体抽取的方法不同。\n[0108] S2012,如果处理后的所述各信息化系统的非结构化配网数据为文本数据,根据预设规则和词典方法提取实体、类和属性信息。\n[0109] 对于生产系统中的设备档案、操作手册、标准等格式较为固定的文本数据,采用基于规则和词典的方法提取其中的实体、类和属性信息;即请电网专家制定符合电网行业的实体提取规则,利用词典方法抽取出文本中的设备名、设备类型、人名、地名、组织机构名、特定时间等实体及其类和属性信息。\n[0110] S2013,如果处理后的所述各信息化系统的非结构化配网数据不是文本数据,将处理后的所述各信息化系统的非结构化配网数据转化为文本。\n[0111] S2014,对所述文本进行分词,采用基于自然语言处理的语法分析算法分析所述文本的句法结构和句中词语间的依存关系,然后提取实体、类和属性信息。\n[0112] 当非结构化配网数据为用户语音数据时,采用基于隐马尔科夫模型的语音转换技术转化为文本;当非结构化配网数据为图像时,采用基于支持向量机的图片识别技术将图片中的文字转化为文本。然后采用基于字符串匹配的自然语言分词技术将文本进行分词,然后提取其中的实体、类和属性,即先将文本进行分词,利用自然语言处理的语法分析算法分析句子的句法结构和句中词语间的依存关系,然后识别出实体、类和属性。\n[0113] 当实体、属性等抽取完成,获得实体库,在此基础上,采用基于字符串序列核的支持向量机模型的实体关系抽取技术识别两个实体之间的关系,建立实体之间的联系,即步骤S202包括:\n[0114] 将文本化的所述非结构化配网数据的字符串序列内一定长度的任意子序列进行内积,计算句子之间的相似性;\n[0115] 将所述字符串序列的核作为支持向量机的核进行统计学习,获取所述实体库中各实体关系,采用下式所示的三元组构建所示局部知识图谱:\n[0116] GL=(E,R,S)\n[0117] 其中,GL为所述局部知识图谱;E={e1,e2,…,e|E|}为所述实体库中各实体的集合,共包含|E|种不同的实体;R={r1,r2,…,r|R|}是所述实体库中各实体关系的集合,共包含|R|种不同的实体关系; 代表所述局部知识图谱中的三元组集合。\n[0118] 三元组的基本形式主要包括实体1、关系、实体2,和概念、属性、属性值等,通过三元组集合,就能够建立任何实体和实体所在的原始数据的映射,该映射由局部数据索引表来实现;对数据源抽取的每一个实体,以该实体名为关键字建立一个索引表,该索引表包括属性、数据源名称、所属关系、所属数据库、所属表、所属文本、实例、所属局部知识图谱等一系列与数据相关的信息,通过该局部数据索引表,在单个配网信息化系统中即可迅速定位数据,从而查询和提取数据。\n[0119] 步骤S401中,所述实体名冲突检测的方法包括:\n[0120] 根据下式计算某一所述局部知识图谱的实体A与其它所述局部知识图谱的实体B的相似度;\n[0121] Sim(A,B)=Dis(LA,LB)+Dis(SA,SB)\n[0122] 其中,Sim(A,B)为所述实体A与所述实体B的相似度;Dis(LA,LB)为所述实体A的类LA与所述实体B的类LB的距离;Dis(SA,SB)为所述实体A的属性SA与所述实体B的属性SB的距离;\n[0123] 如果所述实体A与所述实体B的相似度大于阈值时,判断所述实体A与所述实体B的实体名是否相同;\n[0124] 如果所述实体A与所述实体B的实体名相同,则检测结果为存在实体名冲突。\n[0125] 在各个局部知识图谱中分别对实体、实体的类和属性建立索引,即局部数据索引表,然后,对于某一个局部知识图谱中的实体A,在其它局部知识图谱的索引中查找实体B,计算A与B的相似度Sim(A,B),如果当前局部知识图谱中实体的类LA和属性SA与其它局部知识图谱中则的某一个实体B的类LB和属性SB很相似,但是实体名不同,则检测到存在实体名冲突。\n[0126] 步骤S401中,所述上下位关系冲突监测的方法包括:\n[0127] 提取某一所述局部知识图谱中的实体A的上下位关系图;\n[0128] 在其它所述局部知识图谱中查找出与所述实体A相关的上下位关系实体集合,并提取所述上下位关系实体集合中各实体的上下位关系图;\n[0129] 根据下式得到合并后的上下位关系图;\n[0130] G=GA∪Gq1∪Gq2…∪Gqn\n[0131] 其中,G为合并后的上下位关系图;GA为所述实体A的上下位关系图;Gq1、Gq2…Gqn分别为取所述上下位关系实体集合中各实体的上下位关系图,n为所述上下位关系实体集合中的实体数量;\n[0132] 删除所述合并后的上下位关系图中所有入度为零的顶点和相关的出边,直至所述合并后的上下位关系图中无顶点输出;\n[0133] 如果所述合并后的上下位关系图中的结点均被删除,则检测结果为不存在上下位关系冲突;如果所述合并后的上下位关系图中至少存在一个结点,则检测结果为存在上下位关系冲突。\n[0134] 如图10所示,为本发明又一实施例示出的一种基于知识图谱技术的海量非结构化配网数据集成方法,步骤S203之后还包括:\n[0135] S50,根据新设备和/或新用户的非结构化配网数据,对所述基于局部知识图谱的数据局部索引和所述基于全局知识图谱的数据全局索引进行更新。\n[0136] 数据管理中心负责维护和更新全局知识图谱、局部知识图谱、全局数据索引表、局部数据索引表,管理数据的交换。根据新设备和/或新用户的非结构化配网数据,对所述基于局部知识图谱的数据局部索引和所述基于全局知识图谱的数据全局索引进行更新,可以使数据管理中心的集成数据具有实时性、准确性,当增设新的配网设备和信息化系统时,可以适应于配电网的动态状态变化,实现数据集中管理。当需要查询某实体相关数据时,通过全局数据索引表,即可查询到数据相关信息和所属数据库,从而实现各信息化系统中的数据集成。\n[0137] 具体地,如图11所示,步骤S50包括:\n[0138] S501,获取新设备和/或新用户的非结构化配网数据,并提取所述新设备和/或新用户的非结构化配网数据的实体、类和属性信息;\n[0139] S502,判断所述新设备和/或新用户的非结构化配网数据的实体和类是否与某一所述局部知识图谱中的实体和类相匹配;\n[0140] S503,如果判断结果为匹配,则将所述新设备和/或新用户的非结构化配网数据的实体与该所述局部知识图谱相融合,并更新对应的实体属性和实体之间的上下位关系,根据融合后的所述局部知识图谱更新所述局部数据索引表和所述基于全局知识图谱的数据全局索引;\n[0141] S504,如果判断结果为不匹配,则创建新的实体和类,并根据所述新的实体和类,更新所述基于局部知识图谱的数据局部索引和所述基于全局知识图谱的数据全局索引。\n[0142] 全局知识图谱中的实体、类和属性来自于多个局部知识图谱,具有普遍性,对配网数据具有很强的识别作用,采用全局和局部知识图谱快速抽取新增数据源的实体和属性,提高新增数据源集成的速度和准确率,实现数据集成的优化;对于知识图谱无法识别的实体,抽取出相应的实体、类和属性,与原有知识图谱中的类和实体进行匹配,如果匹配度高则进行融合,更新实体属性和实体之间的上下位关系,否则就创建新的类,然后更新基于局部知识图谱的数据局部索引和基于全局知识图谱的数据全局索引,从而实现知识图谱的优化。\n[0143] 由以上技术方案可知,本发明提供一种基于知识图谱技术的海量非结构化配网数据集成方法,在营销系统、生产系统、配电数据采集与监控系统、电能表等各信息化系统布置大数据连接器和数据采集单元,将分布式多源异构数据的采集、质量分析和数据清洗的过程前置到各信息化系统,降低数据管理中心的数据融合计算量、存储压力和数据调度负担。数据采集单元将各信息化系统的用户语音、图片、文本等非结构化配网数据进行数据抽样、质量分析和数据清洗,利用处理后的非结构化配网数据构建每一个信息化系统的局部知识图谱和局部数据索引表,并通过大数据连接器传输到数据管理中心。数据管理中心检测和消除局部知识图谱之间的冲突,构建适用于全部数据的全局知识图谱和全局数据索引表,从而利用全局知识图谱和全局数据索引表对数据源进行集成。在新增数据集成过程中,利用全局知识图谱可以优化数据集成,利用采集到的新设备和/或新用户的非结构化配网数据来更新基于局部知识图谱的数据局部索引和基于全局知识图谱的数据全局索引。随着集成设备和数据的增加,所构建的局部知识图谱和全局知识图谱不停更新,便于后续开展配网海量数据检索查询、大数据分析等。\n[0144] 本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由权利要求指出。\n[0145] 应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
法律信息
- 2020-06-30
- 2017-12-01
实质审查的生效
IPC(主分类): G06F 17/30
专利申请号: 201710593929.3
申请日: 2017.07.20
- 2017-11-07
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2017-06-23
|
2015-12-16
| | |
2
| |
2014-01-01
|
2013-09-16
| | |
3
| |
2016-06-01
|
2015-12-21
| | |
4
| |
2017-06-27
|
2017-04-12
| | |
5
| |
2017-02-22
|
2016-08-29
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |