著录项信息
专利名称 | 挖掘属性和实体关联关系的方法和装置 |
申请号 | CN201310714291.6 | 申请日期 | 2013-12-20 |
法律状态 | 授权 | 申报国家 | 中国 |
公开/公告日 | 2014-03-12 | 公开/公告号 | CN103631970A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/30 | IPC分类号 | G;0;6;F;1;7;/;3;0查看分类表>
|
申请人 | 百度在线网络技术(北京)有限公司 | 申请人地址 | 北京市海淀区上地十街10号百度大厦三层
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 百度在线网络技术(北京)有限公司 | 当前权利人 | 百度在线网络技术(北京)有限公司 |
发明人 | 李超;李大任 |
代理机构 | 北京清亦华知识产权代理事务所(普通合伙) | 代理人 | 宋合成 |
摘要
本发明提出一种挖掘属性和实体关联关系的方法和装置,其中该方法包括:获取待关联属性;根据待关联属性从多个实体中获得至少一个种子实体;以及获得至少一个种子实体的关联实体,并将待关联属性与至少一个种子实体、至少一个种子实体的关联实体相关联。本发明实施例的方法,可以挖掘出待关联属性的多个关联实体,同理实现挖掘实体所对应的用户指定属性(即待关联属性),从而提供更全面、更精细、更优质的详细服务;还可以挖掘任意领域实体和用户指定属性(即待关联属性)之间的关联关系,不受应用领域的限制,应用广泛。
1.一种挖掘属性和实体关联关系的方法,其特征在于,包括以下步骤:
获取待关联属性;
根据所述待关联属性从多个实体中获得至少一个种子实体,其中,所述根据待关联属性从多个实体中获得至少一个种子实体具体包括:从预设实体库中获取所述多个实体;从总体用户样本群中获取具有所述待关联属性的关联用户样本群;分别获得所述多个实体在所述关联用户样本群中的多个分布差异值,其中,分别获取与所述多个实体相关的多个用户在所述总体用户样本群中的多个第一分布比重;分别获取与所述多个实体相关的多个用户在所述关联用户样本群中的第二分布比重;根据所述第二分布比重和所述第一分布比重获取所述分布差异值;以及根据所述多个分布差异值对所述多个实体进行筛选以获得所述至少一个种子实体;以及
获得所述至少一个种子实体的关联实体,并将所述待关联属性与所述至少一个种子实体、所述至少一个种子实体的关联实体相关联。
2.根据权利要求1所述的方法,其特征在于,所述总体用户样本群为多个,分别对应多个网络应用服务,则每个所述实体对应的分布差异值为多个,所述根据多个分布差异值对所述多个实体进行筛选以获得所述至少一个种子实体还包括:
根据预设分布差异值筛选规则对所述多个实体进行筛选;或,
创建分布差异值分类器,并根据所述分布差异值分类器对所述多个实体进行筛选。
3.根据权利要求1至2中任一项所述的方法,其特征在于,所述获得至少一个种子实体的关联实体具体包括:
分别获取所述至少一个种子实体到具有所述待关联属性的用户样本群之间的第一关联关系;
获取具有所述待关联属性的用户样本群的关联实体群,并获取所述具有所述待关联属性的用户样本群到所述关联实体群之间的第二关联关系;
根据所述第一关联关系和所述第二关联关系分别获取所述至少一个种子实体到所述关联实体群的第三关联关系;以及
根据所述第三关联关系对所述关联实体群中的每个所述关联实体进行筛选以获得所述至少一个种子实体的关联实体。
4.一种挖掘属性和实体关联关系的装置,其特征在于,包括:
待关联属性获取模块,用于获取待关联属性;
种子实体获取模块,用于根据所述待关联属性从多个实体中获得至少一个种子实体,其中,所述种子实体获取模块包括:实体获取单元,用于从预设实体库中获取所述多个实体;关联用户样本群获取单元,用于从总体用户样本群中获取具有所述待关联属性的关联用户样本群;分布差异值获取单元,用于分别获得所述多个实体在所述关联用户样本群中的多个分布差异值,其中,所述分布差异值获取单元还具体用于:分别获取与所述多个实体相关的多个用户在所述总体用户样本群中的多个第一分布比重,并分别获取与所述多个实体相关的多个用户在所述关联用户样本群中的第二分布比重,以及根据所述第二分布比重和所述第一分布比重获取所述分布差异值;以及筛选单元,用于根据所述多个分布差异值对所述多个实体进行筛选以获得所述至少一个种子实体;
关联实体获取模块,用于获得所述至少一个种子实体的关联实体;以及
关联模块,用于将所述待关联属性与所述至少一个种子实体、所述至少一个种子实体的关联实体相关联。
5.根据权利要求4所述的装置,其特征在于,所述总体用户样本群为多个,分别对应多个网络应用服务,则每个所述实体对应的分布差异值为多个,所述根据多个分布差异值对所述多个实体进行筛选还包括:
根据预设分布差异值筛选规则对所述多个实体进行筛选;或,
创建分布差异值分类器,并根据所述分布差异值分类器对所述多个实体进行筛选。
6.根据权利要求4至5中任一项所述的装置,其特征在于,所述关联实体获取模块包括:
第一关联关系获取单元,用于分别获取所述至少一个种子实体到具有所述待关联属性的用户样本群之间的第一关联关系;
第二关联关系获取单元,用于获取具有所述待关联属性的用户样本群的关联实体群,并获取所述具有所述待关联属性的用户样本群到所述关联实体群之间的第二关联关系;
第三关联关系获取单元,用于根据所述第一关联关系和所述第二关联关系分别获取所述至少一个种子实体到所述关联实体群的第三关联关系;以及
筛选单元,用于根据所述第三关联关系对所述关联实体群中的每个所述关联实体进行筛选以获得所述至少一个种子实体的关联实体。
挖掘属性和实体关联关系的方法和装置\n技术领域\n[0001] 本发明涉及计算机技术领域,尤其涉及一种挖掘属性和实体关联关系的方法和装置。\n背景技术\n[0002] 随着互联网技术,特别是无线互联网技术的快速发展,信息服务变得越来越普遍。\n信息服务提供商提供信息服务时,例如,搜索引擎提供搜索服务等,通常会挖掘实体和属性之间的关联关系,并根据实体和属性之间的关联关系提供信息服务。具体地,可将现实世界中的客观事物称为实体,例如概念、事物或事件等。举例来说,影视剧“我是特种兵”、百度公司以及宇宙大爆炸理论都是实体的实例。同时,每个实体具有属性,属性反映实体的相关信息,例如,军旅题材、公司办公地点、现代宇宙理论分别是上述实体对应的属性。\n[0003] 目前获取实体和属性之间关联关系的方法主要是从网站的结构化数据中定向抓取实体属性对,并根据实体属性对建立实体和属性之间的关联关系。但是,主要存在以下问题,由于一个实体对应的属性是多种多样的,对应一个实体来说,从网站获取的属性只是某一个方面,该属性可能无法很好的满足用户的需求。因此现有技术无法挖掘出实体所对应的用户指定属性,例如,无法挖掘出某个电影属于“屌丝逆袭”属性等,同样地,也无法挖掘出“屌丝逆袭”、“治愈系”、“虐心”等属性对应的实体,如“屌丝逆袭”题材的电影、小说等。\n发明内容\n[0004] 本发明旨在至少解决上述技术问题之一。\n[0005] 为此,本发明的第一个目的在于提出一种挖掘属性和实体关联关系的方法。该方法可以挖掘出待关联属性的多个关联实体,同理实现挖掘实体所对应的用户指定属性(即待关联属性),从而提供更全面、更精细、更优质的详细服务。\n[0006] 本发明的第二个目的在于提出一种挖掘属性和实体关联关系的装置。\n[0007] 为了实现上述目的,本发明第一方面实施例的挖掘属性和实体关联关系的方法,包括以下步骤:获取待关联属性;根据所述待关联属性从多个实体中获得至少一个种子实体;以及获得所述至少一个种子实体的关联实体,并将所述待关联属性与所述至少一个种子实体、所述至少一个种子实体的关联实体相关联。\n[0008] 本发明实施例的挖掘属性和实体关联关系的方法,通过待关联属性获取种子实体,再根据种子实体获取相关的关联实体,由此,可以挖掘出待关联属性的多个关联实体,同理实现挖掘实体所对应的用户指定属性(即待关联属性),从而提供更全面、更精细、更优质的详细服务,例如,根据用户指定属性向用户推荐实体;根据该方法还可以挖掘任意领域实体和给定属性(即待关联属性)之间的关联关系,不受应用领域的限制,应用广泛。\n[0009] 为了实现上述目的,本发明第二方面实施例的挖掘属性和实体关联关系的装置,包括:待关联属性获取模块,用于获取待关联属性;种子实体获取模块,用于根据所述待关联属性从多个实体中获得至少一个种子实体;关联实体获取模块,用于获得所述至少一个种子实体的关联实体;以及关联模块,用于将所述待关联属性与所述至少一个种子实体、所述至少一个种子实体的关联实体相关联。\n[0010] 本发明实施例的挖掘属性和实体关联关系的装置,通过待关联属性获取模块获取待关联属性,然后种子实体获取模块根据待关联属性获取种子实体,之后关联实体获取模块根据种子实体获取种子实体的关联实体,由此,可以挖掘出待关联属性的多个关联实体,同理实现挖掘实体所对应的用户指定属性(即待关联属性),从而提供更全面、更精细、更优质的详细服务,例如,根据用户指定属性向用户推荐实体;根据该装置还可以挖掘任意领域实体和用户指定属性(即待关联属性)之间的关联关系,不受应用领域的限制,应用广泛。\n[0011] 本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。\n附图说明\n[0012] 本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中,\n[0013] 图1是根据本发明一个实施例的挖掘属性和实体关联关系的方法的流程图;\n[0014] 图2是根据本发明一个实施例的挖掘属性和实体关联关系的方法的流程图;\n[0015] 图3是根据本发明一个实施例的获取分布差异值的流程图;\n[0016] 图4是根据本发明一个实施例的获得获取关联实体的流程图;\n[0017] 图5是根据本发明一个实施例的挖掘属性和实体关联关系的装置的结构示意图;\n[0018] 图6是根据本发明一个实施例的挖掘属性和实体关联关系的装置的结构示意图。\n具体实施方式\n[0019] 下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。\n[0020] 在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。\n[0021] 流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。\n[0022] 为了挖掘出任意领域中实体和用户指定属性(如用户指定属性)之间的关联关系,从而给用户提供更全面、更精细的信息服务,本发明提出一种挖掘属性和实体关联关系的方法和装置。下面参考附图描述本发明实施例的挖掘属性和实体关联关系的方法和装置。\n[0023] 一种挖掘属性和实体关联关系的方法,包括以下步骤:获取待关联属性;根据待关联属性从多个实体中获得至少一个种子实体;以及获得至少一个种子实体的关联实体,并将待关联属性与至少一个种子实体、至少一个种子实体的关联实体相关联。\n[0024] 图1是根据本发明一个实施例的挖掘属性和实体关联关系的方法的流程图。\n[0025] 如图1所示,挖掘属性和实体关联关系的方法包括下述步骤。\n[0026] 步骤S101,获取待关联属性。\n[0027] 在本发明的一个实施例中,待关联属性为一类描述用户感受、产品特性等特征的属性。待关联属性可以随网络语言实时更新,例如,对多个网页进行分析可获取待关联属性。举例来说,可以有“屌丝逆袭”、“邪恶战胜正义”、“治愈系”、“虐心”、“炫富”等描述用户感受的待关联属性;对于产品实体,可以有“性价比高”、“结实耐用”等描述用户使用体验的待关联属性。\n[0028] 步骤S102,根据待关联属性从多个实体中获得至少一个种子实体。\n[0029] 具体地,获取待关联属性之后,根据待关联属性从多个实体中获得至少一个种子实体。其中,将与待关联属性联系紧密、相关度高的实体命名作为种子实体。例如,如果待关联属性为“治愈系”,则获取的种子实体可以是“治愈系”的影视剧实体、“治愈系”的小说实体、“治愈系”的漫画实体或者“治愈系”的其它实体等。该过程与用户与实体的关联度、服务应用与实体的关联度有关,后续实施例中将详细叙述。\n[0030] 步骤S103,获得至少一个种子实体的关联实体,并将待关联属性与至少一个种子实体、至少一个种子实体的关联实体相关联。\n[0031] 具体地,从多个实体中获得至少一个种子实体后,再由至少一个种子实体为中心,获得至少一个种子实体相关度较高的关联实体。以从多个实体中获得了一个种子实体为例,例如,如果从多个实体中获得的一个种子实体为“治愈系”的影视剧种子实体A,然后获得该“治愈系”的影视剧种子实体A的关联实体,例如获得的关联实体可以是“治愈系”的小说实体B、“治愈系”的漫画实体C、“治愈系”的其他实体E、或者其他“治愈系”的影视剧种子F和G等。该过程可以扩大实体的范围,召回一些关联实体。\n[0032] 更具体地,获得至少一个种子实体的关联实体之后,将待关联属性与至少一个种子实体、至少一个种子实体的关联实体相关联。例如,获得关联实体“治愈系”的小说实体或其他“治愈系”的影视剧实体之后,将待关联属性“治愈系”与“治愈系”的影视剧种子实体、“治愈系”的影视剧种子实体的关联实体(即“治愈系”的小说实体或其他“治愈系”的影视剧实体)相关联。\n[0033] 其中,相关联的操作可以是给待关联属性、至少一个种子实体、至少一个种子实体的关联实体贴上标签或者建立它们之间的对应关系等。例如,可以将待关联属性“治愈系”与“治愈系”的影视剧种子实体、“治愈系”的影视剧种子实体的关联实体(即“治愈系”的小说实体或其他“治愈系”的影视剧实体)贴上“治愈系”的标签或建立它们之间的对应关系等。\n[0034] 本发明实施例的挖掘属性和实体关联关系的方法,通过待关联属性获取种子实体,再根据种子实体获取相关的关联实体,由此,可以挖掘出待关联属性的多个关联实体,同理实现挖掘实体所对应的用户指定属性(即待关联属性),从而提供更全面、更精细、更优质的详细服务,例如,根据用户指定属性向用户推荐实体;根据该方法还可以挖掘任意领域实体和给定属性(即待关联属性)之间的关联关系,不受应用领域的限制,应用广泛。\n[0035] 图2是根据本发明另一个实施例的挖掘属性和实体关联关系的方法的流程图。在本发明的实施例中,采用分布差异的方式从多个实体中获取种子实体。\n[0036] 具体地,如图2所示,挖掘属性和实体关联关系的方法包括下述步骤。\n[0037] 步骤S201,获取待关联属性。\n[0038] 在本发明的一个实施例中,待关联属性为一类描述用户感受、产品特性等特征的属性。待关联属性可以随网络语言实时更新,例如,对多个网页进行分析可获取待关联属性。举例来说,可以有“屌丝逆袭”、“邪恶战胜正义”、“治愈系”、“虐心”、“炫富”等描述用户感受的待关联属性;对于产品实体,可以有“性价比高”、“结实耐用”等描述用户使用体验的待关联属性。\n[0039] 步骤S202,从预设实体库中获取多个实体。\n[0040] 具体地,预设实体库为预先从网络中获取的实体库,预设实体库中存储有多个实体,其中,预设实体库可以存储在服务器中或者其它设备中。还可以对预设实体库进行分类,不同的应用服务可以具有不同的预设实体库。\n[0041] 步骤S203,从总体用户样本群中获取具有待关联属性的关联用户样本群。\n[0042] 具体地,根据待关联属性,从总体用户样本群中获取具有待关联属性的关联用户样本群。例如,如果待关联属性为“炫富”,总体用户样本群为1000万个观看影视剧的用户,那么获取总体用户样本群中的100万个观看“炫富”影视剧的用户,即具有待关联属性的关联用户样本群。\n[0043] 步骤S204,分别获得多个实体在关联用户样本群中的多个分布差异值。\n[0044] 具体地,同一个实体在总体用户样本群和在具有待关联属性的关联用户样本群中的分布是不同的。分布差异值的大小可以对应的体现出实体与待关联属性的相关度的高低,便于后续根据分布差异值对实体进行筛选。具体地分布差异值的获取将在后续实施例中详细叙述。\n[0045] 步骤S205,根据多个分布差异值对多个实体进行筛选以获得至少一个种子实体。\n[0046] 具体地,获得多个实体在关联用户样本群中的多个分布差异值后,根据多个分布差异值对多个实体进行筛选以获得至少一个种子实体。其中,种子实体为根据分布差异值从多个实体中筛选出来的与待关联属性相关度较高的实体。\n[0047] 步骤S206,获得至少一个种子实体的关联实体,并将待关联属性与至少一个种子实体、至少一个种子实体的关联实体相关联。\n[0048] 具体地,从多个实体中获得至少一个种子实体后,再由至少一个种子实体为中心,获得至少一个种子实体相关度较高的关联实体。以从多个实体中获得了一个种子实体为例,例如,如果从多个实体中获得的一个种子实体为“治愈系”的影视剧种子实体A,然后获得该“治愈系”的影视剧种子实体A的关联实体,例如获得的关联实体可以是“治愈系”的小说实体B、“治愈系”的漫画实体C、“治愈系”的其他实体E、或者其他“治愈系”的影视剧种子F和G等。该过程可以扩大实体的范围,召回一些关联实体。\n[0049] 更具体地,获得至少一个种子实体的关联实体之后,将待关联属性与至少一个种子实体、至少一个种子实体的关联实体相关联。例如,获得关联实体“治愈系”的小说实体或其他“治愈系”的影视剧实体之后,将待关联属性“治愈系”与“治愈系”的影视剧种子实体、“治愈系”的影视剧种子实体的关联实体(即“治愈系”的小说实体或其他“治愈系”的影视剧实体)相关联。\n[0050] 其中,相关联的操作可以是给待关联属性、至少一个种子实体、至少一个种子实体的关联实体贴上标签或者建立它们之间的对应关系等。例如,可以将待关联属性“治愈系”与“治愈系”的影视剧种子实体、“治愈系”的影视剧种子实体的关联实体(即“治愈系”的小说实体或其他“治愈系”的影视剧实体)贴上“治愈系”的标签或建立它们之间的对应关系等。\n[0051] 本发明实施例的挖掘属性和实体关联关系的方法,采用分布差异值从多个实体中获取种子实体,分布差异值真实地反映种子实体的分布,获取的种子实体与待关联属性的相关度更高、更加准确,从而进一步提升信息服务的质量。\n[0052] 图3是根据本发明一个实施例的获取分布差异值的流程图。在本发明的一个实施例中,如图3所示,步骤S204具体包括:\n[0053] S2041,分别获取与多个实体相关的多个用户在总体用户样本群中的多个第一分布比重。\n[0054] 例如,总体用户样本群为1000万个观看影视剧的用户,其中有50万的用户观看了影视剧实体M,那么观看影视剧实体M的用户在总体用户样本群中的分布比重为50万除以\n1000万,即第一分布比重为5%。类似地,依次获取与多个实体相关的多个用户在总体用户样本群中的多个第一分布比重。\n[0055] S2042,分别获取与多个实体相关的多个用户在关联用户样本群中的第二分布比重。\n[0056] 例如,待关联属性为“炫富”,关联用户样本群为100万个观看“炫富”影视剧的用户,其中,30万个用户观看了影视剧实体M,那么观看影视剧实体M的用户在关联用户样本群中的分布比重为30万除以100万,即第二分布比重为30%。类似地,依次获取与多个实体相关的多个用户在关联用户样本群中的多个第二分布比重。\n[0057] S2043,根据第二分布比重和第一分布比重获取分布差异值。\n[0058] 具体地,根据获取的第二分布比重和第一分布比重,用第二分布比重除以第一分布比重即得到分布差异值。\n[0059] 例如,总体用户样本群为1000万个观看影视剧的用户,其中有50万的用户观看了影视剧实体M,那么第一分布比重为5%;如果待关联属性为“炫富”,关联用户样本群为100万个观看“炫富”影视剧的用户,其中,30万个用户观看了影视剧实体M,那么第二分布比重为\n30%,则用30%除以5%,即得到分布差异值为6。其中分布差异值越大,说明影视剧实体M与待关联属性“炫富”的相关度越高。\n[0060] 由此,根据第一分布比重和第二分布比重获取的分布差异值更能体现关联度,分布差异值更加准确。\n[0061] 在本发明的一个实施例中,在步骤S205中,总体用户样本群为多个,分别对应多个网络应用服务,则每个实体对应的分布差异值为多个,根据多个分布差异值对多个实体进行筛选以获得所述至少一个种子实体(即步骤S205)还包括:根据预设分布差异值筛选规则对所述多个实体进行筛选;或,创建分布差异值分类器,并根据分布差异值分类器对多个实体进行筛选,另外,还可以使用其它方法。\n[0062] 具体地,下面以实体在关联用户样本群、百度贴吧、百度知道、百度会话中的分布差异为例来说明根据预设分布差异值筛选规则对多个实体进行筛选的方法。该方法采用的筛选规则如下:\n[0063] (1)输出实体在关联用户样本群、百度贴吧、百度知道、百度会话中的分布差异值较大的实体,用Suser、Stieba、Siknow、Ssession分别表示实体在关联用户样本群、百度贴吧、百度知道、百度会话中的分布差异值,如:输出Suser>10、Stieba>50、Siknow>50、或Ssession>30的实体;\n[0064] (2)输出Stieba、Siknow、Ssession中至少有一个大于3并且Suser也大于3的实体;\n[0065] (3)输出Stieba、Siknow、Ssession全部大于3的实体;\n[0066] (4)输出Stieba、Siknow、Ssession中至少有一个大于3、一个大于8的实体。\n[0067] 还可以根据上述的筛选规则建立分类器,例如,可以采用现有技术的建立分类器的方法建立分类,分类器的建立可以提高效率。分类器的建立可以采用现有技术,在此不再赘述。\n[0068] 上述根据分布差异值在多个实体中筛选至少一个种子实体的方法准确率高,但是在设定的筛选规则中阈值以下的实体并不能被召回,为此后续还需要获得种子实体的关联实体。\n[0069] 图4是根据本发明一个实施例的获得获取关联实体的流程图。在本发明的一个实施例中,如图4所示,步骤S206中获得至少一个种子实体的关联实体具体包括:\n[0070] S2061,分别获取至少一个种子实体到具有待关联属性的用户样本群之间的第一关联关系。\n[0071] 具体地,例如,可以通过矩阵来描述种子实体到具有待关联属性的用户样本群之间的第一关联关系,例如矩阵A。\n[0072] S2062,获取具有待关联属性的用户样本群的关联实体群,并获取具有待关联属性的用户样本群到关联实体群之间的第二关联关系。\n[0073] 具体地,获取具有待关联属性的用户样本群的关联实体群,例如,如果具有待关联属性的用户样本群为观看“治愈系”的影视剧实体的用户,则获取“治愈系”的影视剧实体、“治愈系”小说实体、“治愈系”漫画实体或者“治愈系”的其它实体,即为具有待关联属性的用户样本群的关联实体群。\n[0074] 更具体地,可以通过矩阵来描述具有待关联属性的用户样本群到关联实体群之间的第二关联关系,例如矩阵B。\n[0075] S2063,根据第一关联关系和第二关联关系分别获取至少一个种子实体到关联实体群的第三关联关系。\n[0076] 具体地,例如可以根据矩阵A和矩阵B来获取至少一个种子实体到关联实体群的第三关联关系,可以用矩阵C来描述。例如,可通过简单的矩阵相乘即可获取到矩阵C,还可以进行加权处理之后再进行相乘。\n[0077] S2064,根据第三关联关系对关联实体群中的每个关联实体进行筛选以获得至少一个种子实体的关联实体。\n[0078] 例如,第三关联关系可以用矩阵C标识,矩阵C中的每个元素是该实体种子到关联实体之间的相关度信息,根据该矩阵可以获取种子实体到每个关联实体的路径上的路径相似度pathsim特征,根据该特征获取种子实体的关联实体。此外,pathsim特征还能够找到等同实体peer objects,减少热门实体的影响。其中,Pathsim特征的计算公式如下:\n[0079]\n[0080] 其中,ai为第i个实体,aj为第j个实体,pcR(ai,aj)是矩阵C中第i行、第j列的元素值(即实体ai和实体aj之间的相关度),pcR(ai,ai)是矩阵C中第i行、第i列的元素值(即实体ai自身的相关度),pcR-1(aj,ai)是矩阵C的逆矩阵C-1中第j行、第i列的元素值,pcR-1(aj,aj)是矩阵C的逆矩阵C-1中第j行、第j列的元素值。\n[0081] 过滤上述获取的关联出的实体。具体地,可以设定阈值来过滤掉关联出的实体中疑似不相关的实体,其中,阈值可以为种子实体在关联用户样本群上的分布差异值的倍数,例如2倍、3倍或者其它倍数。\n[0082] 由此,获取的第三关联关系更加直接反应了种子实体的关联实体,使获得的关联实体更加准确。\n[0083] 为了实现上述实施例,本发明还提出一种挖掘属性和实体关联关系的装置。\n[0084] 一种挖掘属性和实体关联关系的装置,包括:待关联属性获取模块,用于获取待关联属性;种子实体获取模块,用于根据待关联属性从多个实体中获得至少一个种子实体;关联实体获取模块,用于获得至少一个种子实体的关联实体;以及关联模块,用于将待关联属性与至少一个种子实体、至少一个种子实体的关联实体相关联。\n[0085] 图5是根据本发明一个实施例的挖掘属性和实体关联关系的装置的结构示意图。\n[0086] 如图5所示,挖掘属性和实体关联关系的装置包括:待关联属性获取模块100、种子实体获取模块200、关联实体获取模块300和关联模块400。\n[0087] 其中,待关联属性获取模块100用于获取待关联属性。\n[0088] 具体地,待关联属性为一类描述用户感受、产品特性等特征的属性。待关联属性可以随网络语言实时更新,例如,对多个网页进行分析可获取待关联属性。举例来说,可以有“屌丝逆袭”、“邪恶战胜正义”、“治愈系”、“虐心”、“炫富”等描述用户感受的待关联属性;对于产品实体,可以有“性价比高”、“结实耐用”等描述用户使用体验的待关联属性。\n[0089] 种子实体获取模块200用于根据待关联属性从多个实体中获得至少一个种子实体。\n[0090] 具体地,获取待关联属性之后,根据待关联属性从多个实体中获得至少一个种子实体。其中,将与待关联属性联系紧密、相关度高的实体命名作为种子实体。例如,如果待关联属性为“治愈系”,则获取的种子实体可以是“治愈系”的影视剧实体、“治愈系”的小说实体、“治愈系”的漫画实体或者“治愈系”的其它实体等。该过程与用户与实体的关联度、服务应用与实体的关联度有关,后续实施例中将详细叙述。\n[0091] 关联实体获取模块300用于获得至少一个种子实体的关联实体。\n[0092] 具体地,从多个实体中获得至少一个种子实体后,再由至少一个种子实体为中心,获得至少一个种子实体相关度较高的关联实体。以从多个实体中获得了一个种子实体为例,例如,如果从多个实体中获得的一个种子实体为“治愈系”的影视剧种子实体A,然后获得该“治愈系”的影视剧种子实体A的关联实体,例如获得的关联实体可以是“治愈系”的小说实体B、“治愈系”的漫画实体C、“治愈系”的其他实体E、或者其他“治愈系”的影视剧种子F和G等。该过程可以扩大实体的范围,召回一些关联实体。\n[0093] 关联模块400用于将待关联属性与至少一个种子实体、至少一个种子实体的关联实体相关联。\n[0094] 具体地,获得至少一个种子实体的关联实体之后,将待关联属性与至少一个种子实体、至少一个种子实体的关联实体相关联。\n[0095] 例如,获得关联实体“治愈系”的小说实体或其他“治愈系”的影视剧实体之后,将待关联属性“治愈系”与“治愈系”的影视剧种子实体、“治愈系”的影视剧种子实体的关联实体(即“治愈系”的小说实体或其他“治愈系”的影视剧实体)相关联。\n[0096] 其中,相关联的操作可以是给待关联属性、至少一个种子实体、至少一个种子实体的关联实体贴上标签或者建立它们之间的对应关系等。例如,可以将待关联属性“治愈系”与“治愈系”的影视剧种子实体、“治愈系”的影视剧种子实体的关联实体(即“治愈系”的小说实体或其他“治愈系”的影视剧实体)贴上“治愈系”的标签或建立它们之间的对应关系等。\n[0097] 本发明实施例的挖掘属性和实体关联关系的装置,通过待关联属性获取模块获取待关联属性,然后种子实体获取模块根据待关联属性获取种子实体,之后关联实体获取模块根据种子实体获取种子实体的关联实体,由此,可以挖掘出待关联属性的多个关联实体,同理实现挖掘实体所对应的用户指定属性(即待关联属性),从而提供更全面、更精细、更优质的详细服务,例如,根据用户指定属性向用户推荐实体;根据该装置还可以挖掘任意领域实体和用户指定属性(即待关联属性)之间的关联关系,不受应用领域的限制,应用广泛。\n[0098] 图6是根据本发明一个实施例的挖掘属性和实体关联关系的装置的结构示意图。\n[0099] 如图6所示,挖掘属性和实体关联关系的装置包括:待关联属性获取模块100、种子实体获取模块200、实体获取单元210、关联用户样本群获取单元220、分布差异值获取单元\n230、筛选单元240、关联实体获取模块300、第一关联关系获取单元310、第二关联关系获取单元320、第三关联关系获取单元330、筛选单元340和关联模块400。其中,种子实体获取模块200包括实体获取单元210、关联用户样本群获取单元220、分布差异值获取单元230、筛选单元240;关联实体获取模块300包括第一关联关系获取单元310、第二关联关系获取单元\n320、第三关联关系获取单元330、筛选单元340。\n[0100] 在本发明的一个实施例中,第一关联关系获取单元310、第二关联关系获取单元\n320、第三关联关系获取单元330、筛选单元340是可选的。\n[0101] 具体地,待关联属性获取模块100用于获取待关联属性。\n[0102] 在本发明的一个实施例中,待关联属性为一类描述用户感受、产品特性等特征的属性。待关联属性可以随网络语言实时更新,例如,对多个网页进行分析可获取待关联属性。举例来说,可以有“屌丝逆袭”、“邪恶战胜正义”、“治愈系”、“虐心”、“炫富”等描述用户感受的待关联属性;对于产品实体,可以有“性价比高”、“结实耐用”等描述用户使用体验的待关联属性。\n[0103] 实体获取单元210用于从预设实体库中获取多个实体。\n[0104] 具体地,预设实体库为预先从网络中获取的实体库,预设实体库中存储有多个实体,其中,预设实体库可以存储在服务器中或者其它设备中。还可以对预设实体库进行分类,不同的应用服务可以具有不同的预设实体库。\n[0105] 关联用户样本群获取单元220用于从总体用户样本群中获取具有待关联属性的关联用户样本群。\n[0106] 具体地,根据待关联属性,从总体用户样本群中获取具有待关联属性的关联用户样本群。例如,如果待关联属性为“炫富”,总体用户样本群为1000万个观看影视剧的用户,那么获取总体用户样本群中的100万个观看“炫富”影视剧的用户,即具有待关联属性的关联用户样本群。\n[0107] 分布差异值获取单元230用于分别获得多个实体在关联用户样本群中的多个分布差异值。\n[0108] 具体地,同一个实体在总体用户样本群和在具有待关联属性的关联用户样本群中的分布是不同的。分布差异值的大小可以对应的体现出实体与待关联属性的相关度的高低,便于后续根据分布差异值对实体进行筛选。具体地分布差异值的获取将在后续实施例中详细叙述。\n[0109] 在本发明的一个实施例中,分布差异值获取单元230还具体用于:分别获取与多个实体相关的多个用户在总体用户样本群中的多个第一分布比重,并分别获取与多个实体相关的多个用户在关联用户样本群中的第二分布比重,以及根据第二分布比重和第一分布比重获取分布差异值。\n[0110] 其中,下面举例说明第一分布比重的获取,例如,总体用户样本群为1000万个观看影视剧的用户,其中有50万的用户观看了影视剧实体M,那么观看影视剧实体M的用户在总体用户样本群中的分布比重为50万除以1000万,即第一分布比重为5%。类似地,依次获取与多个实体相关的多个用户在总体用户样本群中的多个第一分布比重。\n[0111] 下面举例说明第二分布比重的获取,例如,待关联属性为“炫富”,关联用户样本群为100万个观看“炫富”影视剧的用户,其中,30万个用户观看了影视剧实体M,那么观看影视剧实体M的用户在关联用户样本群中的分布比重为30万除以100万,即第二分布比重为30%。\n类似地,依次获取与多个实体相关的多个用户在关联用户样本群中的多个第二分布比重。\n[0112] 根据获取的第二分布比重和第一分布比重,用第二分布比重除以第一分布比重即得到分布差异值。例如,总体用户样本群为1000万个观看影视剧的用户,其中有50万的用户观看了影视剧实体M,那么第一分布比重为5%;如果待关联属性为“炫富”,关联用户样本群为100万个观看“炫富”影视剧的用户,其中,30万个用户观看了影视剧实体M,那么第二分布比重为30%,则用30%除以5%,即得到分布差异值为6。其中分布差异值越大,说明影视剧实体M与待关联属性“炫富”的相关度越高。\n[0113] 由此,根据第一分布比重和第二分布比重获取的分布差异值更能体现关联度,分布差异值更加准确。\n[0114] 筛选单元240用于根据多个分布差异值对多个实体进行筛选以获得至少一个种子实体。\n[0115] 具体地,获得多个实体在关联用户样本群中的多个分布差异值后,根据多个分布差异值对多个实体进行筛选以获得至少一个种子实体。其中,种子实体为根据分布差异值从多个实体中筛选出来的与待关联属性相关度较高的实体。\n[0116] 此外,总体用户样本群为多个,分别对应多个网络应用服务,则每个实体对应的分布差异值为多个,筛选单元240根据多个分布差异值对多个实体进行筛选还包括:根据预设分布差异值筛选规则对多个实体进行筛选;或,创建分布差异值分类器,并根据分布差异值分类器对多个实体进行筛选,另外,还可以使用其它方法。\n[0117] 具体地,下面以实体在关联用户样本群、百度贴吧、百度知道、百度会话中的分布差异为例来说明根据预设分布差异值筛选规则对多个实体进行筛选的方法。该方法采用的筛选规则如下:\n[0118] (1)输出实体在关联用户样本群、百度贴吧、百度知道、百度会话中的分布差异值较大的实体,用Suser、Stieba、Siknow、Ssession分别表示实体在关联用户样本群、百度贴吧、百度知道、百度会话中的分布差异值,如:输出Suser>10、Stieba>50、Siknow>50、或Ssession>30的实体;\n[0119] (2)输出Stieba、Siknow、Ssession中至少有一个大于3并且Suser也大于3的实体;\n[0120] (3)输出Stieba、Siknow、Ssession全部大于3的实体;\n[0121] (4)输出Stieba、Siknow、Ssession中至少有一个大于3、一个大于8的实体。\n[0122] 还可以根据上述的筛选规则建立分类器,例如,可以采用现有技术的建立分类器的方法建立分类,分类器的建立可以提高效率。分类器的建立可以采用现有技术,在此不再赘述。\n[0123] 上述根据分布差异值在多个实体中筛选至少一个种子实体的方法准确率高,但是在设定的筛选规则中阈值以下的实体并不能被召回,为此后续还需要获得种子实体的关联实体。\n[0124] 第一关联关系获取单元310用于分别获取至少一个种子实体到具有待关联属性的用户样本群之间的第一关联关系。\n[0125] 具体地,例如,可以通过矩阵来描述种子实体到具有待关联属性的用户样本群之间的第一关联关系,例如矩阵A。\n[0126] 第二关联关系获取单元320用于获取具有待关联属性的用户样本群的关联实体群,并获取具有待关联属性的用户样本群到关联实体群之间的第二关联关系。\n[0127] 具体地,获取具有待关联属性的用户样本群的关联实体群,例如,如果具有待关联属性的用户样本群为观看“治愈系”的影视剧实体的用户,则获取“治愈系”的影视剧实体、“治愈系”小说实体、“治愈系”漫画实体或者“治愈系”的其它实体,即为具有待关联属性的用户样本群的关联实体群。\n[0128] 更具体地,可以通过矩阵来描述具有待关联属性的用户样本群到关联实体群之间的第二关联关系,例如矩阵B。\n[0129] 第三关联关系获取单元330用于根据第一关联关系和第二关联关系分别获取至少一个种子实体到关联实体群的第三关联关系。\n[0130] 具体地,例如可以根据矩阵A和矩阵B来获取至少一个种子实体到关联实体群的第三关联关系,可以用矩阵C来描述。例如,可通过简单的矩阵相乘即可获取到矩阵C,还可以进行加权处理之后再进行相乘。\n[0131] 筛选单元340用于根据第三关联关系对关联实体群中的每个所述关联实体进行筛选以获得至少一个种子实体的关联实体。\n[0132] 例如,第三关联关系可以用矩阵C标识,矩阵C中的每个元素是该实体种子到关联实体之间的相关度信息,根据该矩阵可以获取种子实体到每个关联实体的路径上的路径相似度pathsim特征,根据该特征获取种子实体的关联实体。此外,pathsim特征还能够找到等同实体peer objects,减少热门实体的影响。其中,Pathsim特征的计算公式如下:\n[0133]\n[0134] 其中,ai为第i个实体,aj为第j个实体,pcR(ai,aj)是矩阵C中第i行、第j列的元素值(即实体ai和实体aj之间的相关度),pcR(ai,ai)是矩阵C中第i行、第i列的元素值(即实体ai自身的相关度),pcR-1(aj,ai)是矩阵C的逆矩阵C-1中第j行、第i列的元素值,pcR-1(aj,aj)是矩阵C的逆矩阵C-1中第j行、第j列的元素值。\n[0135] 过滤上述获取的关联出的实体。具体地,可以设定阈值来过滤掉关联出的实体中疑似不相关的实体,其中,阈值可以为种子实体在关联用户样本群上的分布差异值的倍数,例如2倍、3倍或者其它倍数。\n[0136] 由此,获取的第三关联关系更加直接反应了种子实体的关联实体,使获得的关联实体更加准确。\n[0137] 关联模块400用于将待关联属性与至少一个种子实体、至少一个种子实体的关联实体相关联。\n[0138] 具体地,获得至少一个种子实体的关联实体之后,将待关联属性与至少一个种子实体、至少一个种子实体的关联实体相关联。\n[0139] 例如,获得关联实体“治愈系”的小说实体或其他“治愈系”的影视剧实体之后,将待关联属性“治愈系”与“治愈系”的影视剧种子实体、“治愈系”的影视剧种子实体的关联实体(即“治愈系”的小说实体或其他“治愈系”的影视剧实体)相关联。\n[0140] 其中,相关联的操作可以是给待关联属性、至少一个种子实体、至少一个种子实体的关联实体贴上标签或者建立它们之间的对应关系等。例如,可以将待关联属性“治愈系”与“治愈系”的影视剧种子实体、“治愈系”的影视剧种子实体的关联实体(即“治愈系”的小说实体或其他“治愈系”的影视剧实体)贴上“治愈系”的标签或建立它们之间的对应关系等。由此,获取的第三关联关系更加直接反应了种子实体的关联实体,使获得的关联实体更加准确。\n[0141] 本发明实施例的挖掘属性和实体关联关系的装置,分布差异值获取单元根据第一分布比重和第二分布比重获取的分布差异值更能体现关联度,分布差异值更加准确;第三关联关系获取单元根据第一关联关系和第二关联关系获取的第三关联关系更加直接反应了种子实体的关联实体,使获得的关联实体更加准确;由此,可以挖掘出更加准确的待关联属性的多个关联实体,同理实现挖掘实体所对应的用户指定属性(即待关联属性),从而提供更全面、更精细、更优质的详细服务,例如,根据用户指定属性向用户推荐实体;根据该装置还可以挖掘任意领域实体和用户指定属性(即待关联属性)之间的关联关系,不受应用领域的限制,应用广泛。\n[0142] 应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。\n[0143] 在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。\n[0144] 尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
法律信息
- 2017-08-18
- 2014-04-09
实质审查的生效
IPC(主分类): G06F 17/30
专利申请号: 201310714291.6
申请日: 2013.12.20
- 2014-03-12
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2013-12-04
|
2013-07-19
| | |
2
| |
2008-11-19
|
2007-05-18
| | |
3
| |
2011-05-18
|
2009-11-16
| | |
4
| |
2013-02-06
|
2012-09-17
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |