著录项信息
专利名称 | 信息判断方法及装置 |
申请号 | CN201710440051.X | 申请日期 | 2017-06-12 |
法律状态 | 暂无 | 申报国家 | 暂无 |
公开/公告日 | 2017-12-08 | 公开/公告号 | CN107451879A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06Q30/06 | IPC分类号 | G;0;6;Q;3;0;/;0;6查看分类表>
|
申请人 | 北京小度信息科技有限公司 | 申请人地址 | 北京市海淀区建材城中路27号12幢N3号楼
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 拉扎斯网络科技(上海)有限公司,北京星选科技有限公司 | 当前权利人 | 拉扎斯网络科技(上海)有限公司,北京星选科技有限公司 |
发明人 | 蒋能能 |
代理机构 | 北京太合九思知识产权代理有限公司 | 代理人 | 刘戈 |
摘要
本申请实施例公开了一种信息判断方法、装置及设备,所述方法包括:计算第一产品提供方的产品与第二产品提供方的产品的产品相似度;基于所述产品相似度,判断所述第一产品提供方与所述第二产品提供方是否相同。本申请实施例实现了产品提供方的有效判重,提高了判重准确性。
1.一种信息判断方法,其特征在于,包括:
计算第一产品提供方的产品与第二产品提供方的产品的产品相似度;
基于所述产品相似度,判断所述第一产品提供方与所述第二产品提供方是否相同;
所述计算第一产品提供方的产品与第二产品提供方的产品的产品相似度包括:
确定价格差值满足差值要求,且分属于所述第一产品提供方以及所述第二产品提供方的任意两个产品,以获得至少一个匹配对;
计算所述至少一个匹配对的产品相似度。
2.根据权利要求1所述的方法,其特征在于,所述产品相似度的计算步骤之前,还包括:
基于所述第一产品提供方的提供方名称,确定与所述第一产品提供方匹配的所述第二产品提供方。
3.根据权利要求2所述的方法,其特征在于,所述第二产品提供方确定步骤包括:
提取所述第一产品提供方的提供方名称中的主干信息;
确定提供方名称中包含所述主干信息的第二产品提供方。
4.根据权利要求1所述的方法,其特征在于,所述产品相似度的计算步骤包括:
确定价格差值满足差值要求,且分属于所述第一产品提供方以及所述第二产品提供方的任意两个产品,以获得至少一个匹配对;
计算所述至少一个匹配对的产品相似度;
所述判断步骤包括:
基于所述至少一个匹配对的产品相似度,判断所述第一产品提供方与所述第二产品提供方是否相同。
5.根据权利要求4所述的方法,其特征在于,所述计算所述至少一个匹配对的产品相似度包括:
计算每一个匹配对中两个产品的产品名称的字符串相似度,作为每一个匹配对的产品相似度。
6.根据权利要求4所述的方法,其特征在于,所述计算所述至少一个匹配对的产品相似度包括:
基于每一个匹配对中两个产品的图片信息,计算图像相似度,作为每一个匹配对的产品相似度。
7.根据权利要求4所述的方法,其特征在于,所述判断步骤包括:
针对任一个产品,选择其对应的各个匹配对的产品相似度中的最大值,作为所述任一个产品的待处理相似度;
计算待处理相似度大于设定阈值的产品的数量、与所述第一产品提供方中产品的数量以及所述第二产品提供方中产品的数量之和的比值,为所述第一产品提供方与所述第二产品提供方的产品综合相似度;
基于所述产品综合相似度,判断所述第一产品提供方与所述第二产品提供方是否相同。
8.根据权利要求7所述的方法,其特征在于,还包括:
基于第一产品提供方与第二产品提供方的至少一个属性因子,计算所述第一产品提供方与所述第二产品提供方的至少一个属性相似度;
所述判断步骤包括:
基于所述产品综合相似度以及所述至少一个属性相似度,判断所述第一产品提供方与所述第二产品提供方是否相同。
9.根据权利要求8所述的方法,其特征在于,所述判断步骤包括:
加权计算所述产品综合相似度以及所述至少一个属性相似度的和值,获得总相似度;
基于所述总相似度,判断所述第一产品提供方与所述第二产品提供方是否相同。
10.根据权利要求8所述的方法,其特征在于,所述至少一个属性因子包括提供方名称、服务地址、通信方式以及地理坐标。
11.一种信息判断装置,其特征在于,包括:
第一计算模块,计算第一产品提供方的产品与第二产品提供方的产品的产品相似度;
判断模块,用于基于所述产品相似度,判断所述第一产品提供方与所述第二产品提供方是否相同;
所述第一计算模块包括:
匹配单元,用于确定价格差值满足差值要求,且分属于所述第一产品提供方以及所述第二产品提供方的任意两个产品,以获得至少一个匹配对;
第一计算单元,用于计算所述至少一个匹配对的产品相似度。
12.根据权利要求11所述的装置,其特征在于,还包括:
确定模块,用于基于所述第一产品提供方的提供方名称,确定与所述第一产品提供方匹配的所述第二产品提供方。
13.根据权利要求12所述的装置,其特征在于,所述确定模块包括:
提取单元,用于提取所述第一产品提供方的提供方名称中的主干信息;
确定单元,用于确定提供方名称中包含所述主干信息的第二产品提供方。
14.根据权利要求11所述的装置,其特征在于,所述第一计算模块包括:
匹配单元,用于确定价格差值满足差值要求,且分属于所述第一产品提供方以及所述第二产品提供方的任意两个产品,以获得至少一个匹配对;
第一计算单元,用于计算所述至少一个匹配对的产品相似度;
所述判断模块具体用于基于所述至少一个匹配对的产品相似度,判断所述第一产品提供方与所述第二产品提供方是否相同。
15.根据权利要求14所述的装置,其特征在于,所述第一计算单元具体用于计算每一个匹配对中两个产品的产品名称的字符串相似度,作为每一个匹配对的产品相似度。
16.根据权利要求14所述的装置,其特征在于,所述第一计算单元具体用于基于每一个匹配对中两个产品的图片信息,计算图像相似度,作为每一个匹配对的产品相似度。
17.根据权利要求14所述的装置,其特征在于,所述判断模块包括:
第二计算单元,针对任一个产品,选择其所属的各个匹配对的产品相似度中的最大值,作为所述任一个产品的待处理相似度;计算待处理相似度大于设定阈值的产品的数量、与所述第一产品提供方中产品的数量以及所述第二产品提供方中产品的数量之和的比值,为所述第一产品提供方与所述第二产品提供方的产品综合相似度;
判断单元,用于基于所述产品综合相似度,判断所述第一产品提供方与所述第二产品提供方是否相同。
18.根据权利要求17所述的装置,其特征在于,还包括:
第二计算模块,用于基于所述第一产品提供方与所述第二产品提供方的至少一个属性因子,计算所述第一产品提供方与所述第二产品提供方的至少一个属性相似度;
所述判断单元具体用于基于所述产品综合相似度以及所述至少一个属性相似度,判断所述第一产品提供方与所述第二产品提供方是否相同。
19.根据权利要求18所述的装置,其特征在于,所述判断单元具体用于加权计算所述产品综合相似度以及所述至少一个属性相似度的和值,获得总相似度;基于所述总相似度,判断所述第一产品提供方与所述第二产品提供方是否相同。
20.根据权利要求18所述的装置,其特征在于,所述至少一个属性因子包括提供方名称、服务地址、通信方式以及地理坐标。
21.一种信息判断设备,其特征在于,包括一个或多个处理器以及一个或多个存储器;
其中,所述一个或多个存储器存储一条或多条计算机指令,其中,所述一条或多条计算机指令供所述一个或多个处理器调用执行;
所述一个或多个处理器用于:
计算第一产品提供方的产品与第二产品提供方的产品的产品相似度;
基于所述产品相似度,判断所述第一产品提供方与所述第二产品提供方是否相同;
所述处理器计算产品相似度具体是:
确定价格差值满足差值要求,且分属于所述第一产品提供方以及所述第二产品提供方的任意两个产品,以获得至少一个匹配对;
计算所述至少一个匹配对的产品相似度。
22.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序;
所述计算机程序使计算机执行时实现如权利要求1~10任一项所述的信息判断方法。
信息判断方法及装置\n技术领域\n[0001] 本申请属于网络技术领域,具体地说,涉及一种信息判断方法及装置。\n背景技术\n[0002] 随着互联网技术以及电子技术的发展,通过网上交易获取各种产品的便携方式逐渐渗透到日常生活中。\n[0003] 由于实际应用中,产品提供方可能不止在一个网上交易系统提供其产品的销售,为了方便对产品提供方销售行为的管理,为产品提供方提供更好的交易环境等,在某些应用场景下,就需要获知在不同网上交易系统中是否存在相同的产品提供方。\n发明内容\n[0004] 有鉴于此,由于存在获知是否存在相同的产品提供方的需求,因此就需要对产品提供方进行判重处理。本申请实施例提供了一种信息判断方法及装置,实现了产品提供方的有效判重,提高了判重准确性。\n[0005] 为了解决上述技术问题,本申请的第一方面提供了一种信息判断方法,包括:\n[0006] 计算第一产品提供方的产品与第二产品提供方的产品的产品相似度;\n[0007] 基于所述产品相似度,判断所述第一产品提供方与所述第二产品提供方是否相同。\n[0008] 可选地,所述产品相似度的计算步骤之前,还包括:\n[0009] 基于所述第一产品提供方的提供方名称,确定与所述第一产品提供方匹配的所述第二产品提供方。\n[0010] 可选地,所述第二产品提供方确定步骤包括:\n[0011] 提取所述第一产品提供方的提供方名称中的主干信息;\n[0012] 确定提供方名称中包含所述主干信息的第二产品提供方。\n[0013] 可选地,所述产品相似度的计算步骤包括:\n[0014] 确定价格差值满足差值要求,且分属于所述第一产品提供方以及所述第二产品提供方的任意两个产品,以获得至少一个匹配对;\n[0015] 计算所述至少一个匹配对的产品相似度;\n[0016] 所述判断步骤包括:\n[0017] 基于所述至少一个匹配对的产品相似度,判断所述第一产品提供方与所述第二产品提供方是否相同。\n[0018] 可选地,所述计算所述至少一个匹配对的产品相似度包括:\n[0019] 计算每一个匹配对中两个产品的产品名称的字符串相似度,作为每一个匹配对的产品相似度。\n[0020] 本申请的第二方面提供了一种信息判断装置,其特征在于,包括:\n[0021] 第一计算模块,计算第一产品提供方的产品与第二产品提供方的产品的产品相似度;\n[0022] 判断模块,用于基于所述产品相似度,判断所述第一产品提供方与所述第二产品提供方是否相同。\n[0023] 可选地,还包括:\n[0024] 确定模块,用于基于所述第一产品提供方的提供方名称,确定与所述第一产品提供方匹配的所述第二产品提供方。\n[0025] 可选地,所述确定模块包括:\n[0026] 提取单元,用于提取所述第一产品提供方的提供方名称中的主干信息;\n[0027] 确定单元,用于确定提供方名称中包含所述主干信息的第二产品提供方。\n[0028] 可选地,所述第一计算模块包括:\n[0029] 匹配单元,用于确定价格差值满足差值要求,且分属于所述第一产品提供方以及所述第二产品提供方的任意两个产品,以获得至少一个匹配对;\n[0030] 第一计算单元,用于计算所述至少一个匹配对的产品相似度;\n[0031] 所述判断模块具体用于基于所述至少一个匹配对的产品相似度,判断所述第一产品提供方与所述第二产品提供方是否相同。\n[0032] 可选地,所述第一计算单元具体用于计算每一个匹配对中两个产品的产品名称的字符串相似度,作为每一个匹配对的产品相似度。\n[0033] 与现有技术相比,本申请可以获得包括以下技术效果:\n[0034] 对于第一产品提供方以及第二产品提供方,计算第一产品提供方的产品与第二产品提供方的产品的产品相似度;进而基于所述产品相似度,判断所述第一产品提供方与所述第二产品提供方是否相同。由于产品稳定性高,因此可以实现有效判重,提高判重准确性。\n附图说明\n[0035] 此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:\n[0036] 图1是本申请实施例的一种信息判断方法一个实施例的流程图;\n[0037] 图2是本申请实施例的一种信息判断方法又一个实施例的流程图;\n[0038] 图3是本申请实施例的一种信息判断装置一个实施例的结构示意图;\n[0039] 图4是本申请实施例的一种信息判断设备一个实施例的结构示意图。\n具体实施方式\n[0040] 以下将配合附图及实施例来详细说明本申请的实施方式,藉此对本申请如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。\n[0041] 在本申请的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。\n[0042] 本申请实施例的技术方案主要应用于网上交易场景中,例如O2O(Online To Offline,线上到线下)应用场景。在网上交易场景中,由产品提供方提供产品,用户通过网上交易系统可以购买产品提供方提供的产品,产品例如可以是指各种商品,在基于O2O的外卖应用中,产品提供方即为提供产品的线下商户,产品通常为菜品。\n[0043] 由于实际应用中,存在获知是否存在相同产品提供方的需求,因此需要对产品提供方进行判重处理,现有技术中通常是基于产品提供方的提供方名称进行判重,如果任意两个产品提供方的提供方名称相同,则即认为该任意两个产品提供方为同一个产品提供方,但是这种方式准确度较低,同一产品提供方可能会采用不同提供方名称,比如“北京正宗德记烤肉”和“德记烤肉上地店”为同一产品提供方,但是却会被识别为不同产品提供方。\n[0044] 为了实现有效判重,发明人想到需要利用稳定、变化较小的因素来判断两个产品提供方是否相同,而同一产品提供方提供的产品通常不会变化太大,因此可以将对产品提供方的判断转换为对产品的判断,据此,提出了本申请技术方案,在本申请实施例中,对于任意两个产品提供方:第一产品提供方以及第二产品提供方,首先计算第一产品提供方的产品与第二产品提供方的产品的产品相似度;进而基于所述产品相似度,判断所述第一产品提供方与所述第二产品提供方是否相同。如果产品相似度越高,则表明第一产品提供方与第二产品提供方为同一产品提供方的可能性越大,由于产品稳定性高,因此可以实现有效判重,提高判重准确性。\n[0045] 下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。\n[0046] 图1为本申请实施例提供的一种信息判断方法一个实施例的流程图,该方法可以包括以下几个步骤:\n[0047] 101:计算第一产品提供方的产品与第二产品提供方的产品的产品相似度。\n[0048] 102:基于所述产品相似度,判断所述第一产品提供方与所述第二产品提供方是否相同。\n[0049] 其中,第一产品提供方以及第二产品提供方为任意两个产品提供方,为了方便描述,命名为第一产品提供方以及第二产品提供方,因此其中的“第一”以及“第二”并不表示具有其它诸如顺序、递进等关系。\n[0050] 其中,第一产品提供方可能提供多个产品,第二产品提供方也可能提供多个产品,可选地,可以计算第一产品提供方的每一个产品与第二产品提供方的每一产品的产品相似度。\n[0051] 此外,可选地,为了提高处理效率,可以首先对产品进行筛选,以初步确定相似的产品。\n[0052] 由于产品通常用于售卖,其通常具有一个售卖价格。\n[0053] 因此,在某些实施例中,所述计算第一产品提供方的产品与第二产品提供方的产品的产品相似度可以包括:\n[0054] 确定价格差值满足差值要求,且分属于所述第一产品提供方以及所述第二产品提供方的任意两个产品,以获得至少一个匹配对;\n[0055] 计算所述至少一个匹配对的产品相似度。\n[0056] 则所述判断步骤即是基于所述至少一个匹配对的产品相似度,判断所述第一产品提供方与所述第二产品提供方是否相同。\n[0057] 也即一个匹配对中包括第一产品提供方的一个产品以及第二产品提供方的一个产品。\n[0058] 其中,每一个产品可以属于多个匹配对。\n[0059] 该价格差值满足差值要求例如可以是价格差值小于预设差值。\n[0060] 例如价格差值在5元之内的两个产品可以作为一个匹配对,在实际应用中,可以基于第一产品提供方的第一产品的售卖价格,在第二产品提供方中寻找价格差值满足该差值要求的第二产品,第一产品以及第二产品即作为一个匹配对。其中,该第一产品为第一产品提供方中的任一个产品,第二产品为第二产品提供方中的任一个产品。\n[0061] 计算获得产品相似度之后,即可以基于产品相似度对第一产品提供方以及第二产品提供方是否相同进行判断,例如可以是在产品相似度大于预设相似值时,可以确定第一产品提供方与第二产品提供方相同,或者由于不同产品之间可能计算获得多个产品相似度,可以是超过预设数量的产品相似度均大于预设相似值时,可以确定第一产品提供方与第二产品提供方相同。当然还可以采用其他可能实现方式,在下面实施例中会详细进行介绍。\n[0062] 在本实施例中,基于产品相似度,判断所述第一产品提供方与所述第二产品提供方是否相同。由于产品更稳定,可以实现有效判重,提高判重准确度。\n[0063] 为了进一步提高处理效率,可以对产品提供方进行初步筛选,因此,可选地,在某些实施例中,所述计算第一产品提供方的产品与第二产品提供方的产品的产品相似度之前,还可以包括:\n[0064] 基于所述第一产品提供方的提供方名称,确定与所述第一产品提供方匹配的所述第二产品提供方。\n[0065] 也即基于提供方名称对产品提供方进行初步筛选,而不是将任一个产品提供方的产品与全部产品提供方的产品计算产品相似度,以减少计算资源占用,提高处理效率。\n[0066] 其中,确定提供方名称匹配的第一产品提供方以及第二产品提供方可以有多种可能实现方式。\n[0067] 例如提供方名称中预设数量的字符串相同等,即可以认为第一产品提供方以及第二产品提供方匹配。\n[0068] 而由于同一产品提供方可能存在多个提供方名称,为了提高匹配准确度,该预设数量的字符串可以是指提供方名称中的主干信息。主干信息为产品提供方的重要标识信息,即便存在多个提供方名称也会至少包含该主干信息。\n[0069] 因此,在某些实施例中,所述基于所述第一产品提供方的提供方名称,确定与所述第一产品提供方匹配的所述第二产品提供方可以包括:\n[0070] 提取所述第一产品提供方的提供方名称中的主干信息;\n[0071] 确定提供方名称中包含所述主干信息的第二产品提供方。\n[0072] 其中,由于产品提供方提供的提供方名称通常具有一定的命名规则,一个提供方名称通常由多个元素构成,因此可以预先设置结构表达式,从而可以是基于结构表达式,提取所述第一产品提供方的提供方名称中的主干信息。\n[0073] 在进行主干信息的提取时,可以首先对提供方名称进行分词解析以确定提供方名称中的各个分词信息,从而再基于结构表达式确定哪一个分词信息为主干信息。\n[0074] 为了方便理解,在一个实际应用中,提供方名称的结构表达式可以如下所述:\n[0075] name=(Pr ovince)*(city)*(county)*(stem)(type)(appendix)*\n[0076] 可知该结构表达式由多个元素构成,任一个提供方名称可以包括其中一个或多个元素,当然任一个提供方名称包括的一个或多个元素的排列顺序也不限定该结构表达式中出现的顺序。下面对每一个元素分别进行介绍:\n[0077] Province:表示提供方名称中的省份信息,比如:一个提供方名称为“新疆买买提烤羊肉串”,其中“新疆”即为省份信息。\n[0078] City:表示提供方名称中的城市信息,比如:一个提供方名称为“哈尔滨徐氏诊所”,其中“哈尔滨”即为城市信息。\n[0079] County:表示提供方名称中的县级行政信息,与Province或者City类似,可知一个提供方名称中可以包括Province、City以及County中的一个或多个元素,当然也可以均不包括。\n[0080] Stem:表示提供方名称中的主干信息,比如:一个提供方名称为“北京宜佳蛋糕店”,其中“宜佳”即为主干信息。\n[0081] Type:表示提供方名称中的行业特征,比如:“北京宜佳蛋糕店”,其中“蛋糕店”即为行业特征。\n[0082] appendix:表示提供方名称中的分店信息,比如:“北京宜佳蛋糕店(上地店)”,其中“上地店”即为分店信息。\n[0083] 通过分词解析可以将一个提供方名称进行分词,例如“北京宜佳蛋糕店”,获得的分词信息包括“北京”“宜佳”“蛋糕店”,基于上述结构表达式,即可以获知“宜佳”即为主干信息。\n[0084] 其中,可选地,可以基于产品名称来计算任意两个产品的产品相似度。\n[0085] 利用任意两个产品的产品名称的字符串相似度,作为任意两个产品的产品相似度。\n[0086] 在某些实施例中,所述计算所述至少一个匹配对的产品相似度可以包括:\n[0087] 计算每一个匹配对中两个产品的产品名称的字符串相似度,作为每一个匹配对的产品相似度。\n[0088] 由于产品的产品名称通常比较短,无需进行分词,但是可能包括冗余信息,比如“+”以及“()”中包含的内容等,因此可以首先将两个产品的产品名称删除冗余信息,计算剩余字符串的相似度。\n[0089] 其中,可以基于字符串编辑距离计算字符串相似度,字符串编辑距离是指由一个提供方名称转成另一个提供方名称所需的最少编辑操作次数,编辑操作可以包括:将一个字符替换成另一个字符,插入一个字符,删除一个字符。一般来说,编辑距离越小,两个提供方名称的字符串相似度越大。\n[0090] 可选地,可以按照字符串相似度计算公式,计算两个产品的产品名称的字符串相似度。\n[0091] 该字符串计算公式为:\n[0092]\n[0093] 其中,simi表示字符串相似度,s1以及s2分别为两个产品的提供方名称,len()用于计算提供方名称的字符串长度,d为两个提供方名称的字符串编辑距离。\n[0094] 其中,可选地,还可以基于两个产品的图片信息,计算图像相似度,将图像相似度作为两个产品的产品相似度。\n[0095] 由于在实际应用中,产品可以用于售卖,其可以为商品或菜品等,因此均会对应表示该产品的图片信息。因此可以通过图片识别技术,来确定两个产品是否相似。\n[0096] 在某些实施例中,所述计算所述至少一个匹配对的产品相似度可以包括:\n[0097] 基于每一个匹配对中两个产品的图片信息,计算图像相似度,作为每一个匹配对的产品相似度。\n[0098] 由上述描述可知,第一产品提供方以及第二产品提供方可以对应至少一个匹配对,在某些实施例中,所述基于所述至少一个匹配对的产品相似度,判断所述第一产品提供方与所述第二产品提供方是否相同可以包括:\n[0099] 针对任一个产品,选择其所属的各个匹配对的产品相似度中的最大值,作为所述任一个产品的待处理相似度;\n[0100] 根据待处理相似度大于设定阈值的产品的数量、所述第一产品提供方中产品的数量以及所述第二产品提供方中产品的数量,计算所述第一产品提供方与所述第二提供方的产品综合相似度;\n[0101] 基于所述产品综合相似度,判断所述第一产品提供方与所述第二产品提供方是否相同。\n[0102] 也即假设第一产品提供方包括M个产品,第二产品提供方包括N个产品;M+N个产品中的任一个产品可能属于一个或多个匹配对,从而可以基于其所属的各个匹配对的产品相似度,选择最大的一个产品相似度作为该任一个产品的待处理相似度,如果任一个产品不属于任意匹配对,其待处理相似度可以设定为最小值,例如为0。\n[0103] 从而可以根据待处理相似度的数值大小,确定出待处理相似度大于设定阈值的产品的数量。\n[0104] 具体的,该产品综合相似度可以按照如下公式计算获得:\n[0105]\n[0106] 其中,Z表示产品综合相似度,M为第一产品提供方中产品的数量N为第二产品提供方中产品的数量,X为待处理相似度大于设定阈值的产品的数量。\n[0107] 其中,为了进一步提高判重准确度,可以从多个维度进行判断。\n[0108] 可选地,可以基于第一产品提供方与第二产品提供方的至少一个属性因子,计算所述第一产品提供方与所述第二产品提供方的至少一个属性相似度;\n[0109] 从而可以基于所述产品相似度以及所述至少一个属性相似度,判断所述第一产品提供方与所述第二产品提供方是否相同。\n[0110] 该至少一个属性因子可以包括提供方名称、服务地址、通信方式以及地理坐标等。\n[0111] 基于属性相似度,可以确定两个产品提供方的属性因子是否相似。\n[0112] 如图2所示,为本申请提供的一种信息判断方法又一个实施例的流程图,该方法可以包括以下几个步骤:\n[0113] 201:基于第一产品提供方的提供方名称,确定与所述第一产品提供方匹配的第二产品提供方。\n[0114] 可选地,可以通过提取所述第一产品提供方的提供方名称中的主干信息;\n[0115] 确定提供方名称中包含所述主干信息的第二产品提供方。\n[0116] 其中,第一产品提供方可以为待判断产品提供方,可以通过全文检索技术,检索提供方名称中包括所主干信息的全部产品提供方,该第二产品提供方即为其中任一个产品提供方。该全文检索技术例如可以为Sphinx。\n[0117] 202:基于第一产品提供方与第二产品提供方的至少一个属性因子,计算所述第一产品提供方与所述第二产品提供方的至少一个属性相似度。\n[0118] 其中,该至少一个属性因子可以包括提供方名称、服务地址、通信方式以及地理坐标等。该至少一个属性因子可以表示产品提供方的主要特征,这些主要特征也可以用于对产品提供方进行识别。可选地,可以是利用多个属性因子计算获得多个属性因子的属性相似度,从而是结合多个属性因子的属性相似度用来判断第一产品提供方以及第二产品提供方是否相同,以提高判重的准确性。\n[0119] 其中,属性相似度可以根据属性因子是否相同或者是否相近来进行计算。\n[0120] 下面以提供方名称、服务地址、通信方式以及地理坐标分别对属性相似度的计算进行解释说明。\n[0121] 提供方名称:\n[0122] 其中,可以分别提取第一产品提供方与第二产品提供方的提供方名称的主干信息,判断主干信息是否相同,如果相同可以设定提供方名称的属性相似度为第一相似度,如果不同可以设定提供方名称的属性相似度为第二相似度,第一相似度大于第二相似度。其中主干信息的提取可以参见上文中所述。其中,第二相似度可以为0。\n[0123] 当然,还可以是判断两个提供方名称是否相同,或者是否至少第一数量的连续字符串相同、或者至少第二数量的分词信息相同,如果是设定属性相似度为第一相似度,否则设定为所述第二相似度;其中分词信息可以通过将提供方名称进行分词获得。\n[0124] 服务地址:\n[0125] 其中,服务地址为产品提供方提供的线下店铺地址,其通常由省份、城市、区域、街道、门牌号等构成。\n[0126] 因此可以通过判断两个产品提供方的服务地址是否相同、或者是否至少第三数量的连续字符串相同、或者至少第四数量的分词信息相同,如果是可以设定属性相似度为第三相似度,否则设定为所述第四相似度;其中第三相似度大于第四相似度,第四相似度可以为0。\n[0127] 通信方式:\n[0128] 通信方式通常是指通讯号码;\n[0129] 因此可以判断两个产品提供方的通讯号码是否相同,或者是否至少第三数量的连续字符串相同,如果是则可以设定属性相似度为第五相似度,否则可以设定属性相似度为第六相似度,其中第五相似度大于第六相似度,第六相似度可以为0。\n[0130] 地理坐标:\n[0131] 在O2O应用中,各个产品提供方为线下商户,地理坐标可以为通过GPS定位获得的经纬度坐标,可以根据产品提供方提供的服务地址进行地位。\n[0132] 因此根据两个产品提供方地理坐标的位置距离远近,可以设定相应的属性相似度,例如位置距离大于第一距离,可以设定为相似度为a,小于第一距离且大于第二距离,可以设定属性相似度为b,小于第二距离,可以设定属性相似度为c,距离越小,属性相似度即越大。\n[0133] 需要说明的是,上述仅是举例说明属性相似度的计算方式,本申请并不对此进行具体限定。\n[0134] 203:确定价格差值满足差值要求,且分属于所述第一产品提供方以及所述第二产品提供方的任意两个产品,以获得至少一个匹配对;\n[0135] 204:计算所述至少一个匹配对的产品相似度。\n[0136] 可选地,可以计算每一个匹配对中两个产品的产品名称的字符串相似度,作为每一个匹配对的产品相似度。\n[0137] 可选地,也可以基于每一个匹配对中两个产品的图片信息,计算图像相似度,作为每一个匹配对的产品相似度。\n[0138] 205:根据所述匹配对的个数、所述第一产品提供方中产品的个数、所述第二产品提供方中产品的个数以及每一个匹配对的产品相似度,计算所述第一产品提供方与所述第二提供方的产品综合相似度。\n[0139] 206:加权计算所述产品综合相似度以及所述至少一个属性相似度的和值,获得总相似度。\n[0140] 其中,该加权计算可以是加权求和或者加权平均等。\n[0141] 其中,产品综合相似度的权重系数、以及每一个属性相似度的权重系数可以根据实际情况以及判重精度要求进行设定。\n[0142] 或者可以结合实际应用场景中,如果产品以及各个属性因子中的一个或多个因素相似度较高时,可以降低相似度度较高的因素的权重系数而提高相似度较低的因素的权重系数。\n[0143] 例如当两个产品提供方的提供方名称、通信方式以及产品的相似度都较高时,而服务地址和地理坐标的相似度较低时,则该两个产品提供方可能为连锁经营形式,因此可以适当考虑增加服务地址以及地理坐标的权重系数,而降低其他因素的权重系数。\n[0144] 207:基于所述总相似度,判断所述第一产品提供方与所述第二产品提供方是否相同。\n[0145] 例如,如果总相似度大于总判断阈值,则可以确定第一产品提供方与所述第二产品提供方相同。\n[0146] 本实施例中,结合至少一个属性因子,而采用多维度进行判重处理,增强了判断稳定性,可以提高判重准确性,提高判重效率。\n[0147] 图3为本申请实施例提供的一种信息判断装置一个实施例的结构示意图,该装置可以包括:\n[0148] 第一计算模块301,计算第一产品提供方的产品与第二产品提供方的产品的产品相似度。\n[0149] 判断模块302,用于基于所述产品相似度,判断所述第一产品提供方与所述第二产品提供方是否相同。\n[0150] 在本实施例中,基于产品相似度,判断所述第一产品提供方与所述第二产品提供方是否相同。由于产品更稳定,可以实现有效判重,提高判重准确度。\n[0151] 为了进一步提高处理效率,可以对产品提供方进行初步筛选,因此,可选地,在某些实施例中,该装置还可以包括:\n[0152] 确定模块,用于基于所述第一产品提供方的提供方名称,确定与所述第一产品提供方匹配的所述第二产品提供方。\n[0153] 可选地,该确定模块可以包括:\n[0154] 提取单元,用于提取所述第一产品提供方的提供方名称中的主干信息;\n[0155] 确定单元,用于确定提供方名称中包含所述主干信息的第二产品提供方。\n[0156] 其中,第一产品提供方可能提供多个产品,第二产品提供方也可能提供多个产品,可选地,可以计算第一产品提供方的每一个产品与第二产品提供方的每一产品的产品相似度。\n[0157] 此外,可选地,为了提高处理效率,可以首先对产品进行筛选,以初步确定相似的产品。因此,在某些实施例中,所述第一计算模块可以包括:\n[0158] 匹配单元,用于确定价格差值满足差值要求,且分属于所述第一产品提供方以及所述第二产品提供方的任意两个产品,以获得至少一个匹配对;\n[0159] 第一计算单元,用于计算所述至少一个匹配对的产品相似度;\n[0160] 则所述判断模块可以具体用于基于所述至少一个匹配对的产品相似度,判断所述第一产品提供方与所述第二产品提供方是否相同。\n[0161] 作为一种可能的实现方式,所述第一计算单元可以具体用于计算每一个匹配对中两个产品的产品名称的字符串相似度,作为每一个匹配对的产品相似度。\n[0162] 作为又一种可能的实现方式,所述第一计算单元可以具体用于基于每一个匹配对中两个产品的图片信息,计算图像相似度,作为每一个匹配对的产品相似度。\n[0163] 可选地,在某些实施例中,所述判断模块可以具体包括:\n[0164] 第二计算单元,用于针对任一个产品,选择其所属的各个匹配对的产品相似度中的最大值,作为所述任一个产品的待处理相似度;根据待处理相似度大于设定阈值的产品的数量、所述第一产品提供方中产品的数量以及所述第二产品提供方中产品的数量,计算所述第一产品提供方与所述第二提供方的产品综合相似度;\n[0165] 判断单元,用于基于所述产品综合相似度,判断所述第一产品提供方与所述第二产品提供方是否相同。\n[0166] 其中,为了进一步提高判重准确度,可以从多个维度进行判断。因此,在某些实施例中,该装置还可以包括:\n[0167] 第二计算模块,用于基于第一产品提供方与第二产品提供方的至少一个属性因子,计算所述第一产品提供方与所述第二产品提供方的至少一个属性相似度;\n[0168] 则所述判断单元可以具体用于:\n[0169] 基于所述产品综合相似度以及所述至少一个属性相似度,判断所述第一产品提供方与所述第二产品提供方是否相同。\n[0170] 可选地,在某些实施例中,所述判断单元可以具体用于加权计算所述产品综合相似度以及所述至少一个属性相似度的和值,获得总相似度;基于所述总相似度,判断所述第一产品提供方与所述第二产品提供方是否相同。\n[0171] 其中,所述至少一个属性因子包括提供方名称、服务地址、通信方式以及地理坐标。\n[0172] 本申请实施例中结合至少一个属性因子,采用多维度进行判重处理,增强了判断稳定性,可以提高判重准确性,提高判重效率。\n[0173] 在一个可能的设计中,上述任一实施例所述的信息判断装置可以实现为一信息判断设备,该信息判断设备可以具体为服务器。如图4所示,该信息判断设备可以包括一个或多个处理器401以及一个或多个存储器402。\n[0174] 所述一个或多个存储器402存储一条或多条计算机指令,其中,所述一条或多条计算机指令供所述一个或多个处理器401调用执行。\n[0175] 所述一个或多个处理器401用于:\n[0176] 计算第一产品提供方的产品与第二产品提供方的产品的产品相似度;\n[0177] 基于所述产品相似度,判断所述第一产品提供方与所述第二产品提供方是否相同。\n[0178] 可选地,所述一个或多个处理器还用于执行上述任一实施例所述的数据抓取方法。\n[0179] 此外,本发明实施例还提供了一种存储有计算机程序的计算机可读存储介质,所述计算机程序使计算机执行时可以实现上述任一实施例所述的信息判断方法。\n[0180] 在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。\n[0181] 内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。\n[0182] 计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。\n计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。\n[0183] 如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解,硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式,而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语,故应解释成“包含但不限定于”。“大致”是指在可接收的误差范围内,本领域技术人员能够在一定误差范围内解决所述技术问题,基本达到所述技术效果。此外,“耦接”一词在此包含任何直接及间接的电性耦接手段。因此,若文中描述一第一装置耦接于一第二装置,则代表所述第一装置可直接电性耦接于所述第二装置,或通过其他装置或耦接手段间接地电性耦接至所述第二装置。说明书后续描述为实施本申请的较佳实施方式,然所述描述乃以说明本申请的一般原则为目的,并非用以限定本申请的范围。本申请的保护范围当视所附权利要求所界定者为准。\n[0184] 还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。\n[0185] 上述说明示出并描述了本申请的若干优选实施例,但如前所述,应当理解本申请并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述申请构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本申请的精神和范围,则都应在本申请所附权利要求的保护范围内。\n[0186] 本申请公开了A1、一种信息判断方法,包括:\n[0187] 计算第一产品提供方的产品与第二产品提供方的产品的产品相似度;\n[0188] 基于所述产品相似度,判断所述第一产品提供方与所述第二产品提供方是否相同。\n[0189] A2、根据A1所述的方法,所述产品相似度的计算步骤之前,还包括:\n[0190] 基于所述第一产品提供方的提供方名称,确定与所述第一产品提供方匹配的所述第二产品提供方。\n[0191] A3、根据A2所述的方法,所述第二产品提供方确定步骤包括:\n[0192] 提取所述第一产品提供方的提供方名称中的主干信息;\n[0193] 确定提供方名称中包含所述主干信息的第二产品提供方。\n[0194] A4、根据A1所述的方法,所述产品相似度的计算步骤包括:\n[0195] 确定价格差值满足差值要求,且分属于所述第一产品提供方以及所述第二产品提供方的任意两个产品,以获得至少一个匹配对;\n[0196] 计算所述至少一个匹配对的产品相似度;\n[0197] 所述判断步骤包括:\n[0198] 基于所述至少一个匹配对的产品相似度,判断所述第一产品提供方与所述第二产品提供方是否相同。\n[0199] A5、根据A4所述的方法,所述计算所述至少一个匹配对的产品相似度包括:\n[0200] 计算每一个匹配对中两个产品的产品名称的字符串相似度,作为每一个匹配对的产品相似度。\n[0201] A6、根据A4所述的方法,所述计算所述至少一个匹配对的产品相似度包括:\n[0202] 基于每一个匹配对中两个产品的图片信息,计算图像相似度,作为每一个匹配对的产品相似度。\n[0203] A7、根据A4所述的方法,所述判断步骤包括:\n[0204] 针对任一个产品,选择其对应的各个匹配对的产品相似度中的最大值,作为所述任一个产品的待处理相似度;\n[0205] 根据待处理相似度大于设定阈值的产品的数量、所述第一产品提供方中产品的数量以及所述第二产品提供方中产品的数量,计算所述第一产品提供方与所述第二提供方的产品综合相似度;\n[0206] 基于所述产品综合相似度,判断所述第一产品提供方与所述第二产品提供方是否相同。\n[0207] A8、根据A7所述的方法,还包括:\n[0208] 基于第一产品提供方与第二产品提供方的至少一个属性因子,计算所述第一产品提供方与所述第二产品提供方的至少一个属性相似度;\n[0209] 所述判断步骤包括:\n[0210] 基于所述产品综合相似度以及所述至少一个属性相似度,判断所述第一产品提供方与所述第二产品提供方是否相同。\n[0211] A9、根据A8所述的方法,所述判断步骤包括:\n[0212] 加权计算所述产品综合相似度以及所述至少一个属性相似度的和值,获得总相似度;\n[0213] 基于所述总相似度,判断所述第一产品提供方与所述第二产品提供方是否相同。\n[0214] A10、根据A8所述的方法,所述至少一个属性因子包括提供方名称、服务地址、通信方式以及地理坐标。\n[0215] B11、一种信息判断装置,包括:\n[0216] 第一计算模块,计算第一产品提供方的产品与第二产品提供方的产品的产品相似度;\n[0217] 判断模块,用于基于所述产品相似度,判断所述第一产品提供方与所述第二产品提供方是否相同。\n[0218] B12、根据B11所述的装置,还包括:\n[0219] 确定模块,用于基于所述第一产品提供方的提供方名称,确定与所述第一产品提供方匹配的所述第二产品提供方。\n[0220] B13、根据B12所述的装置,所述确定模块包括:\n[0221] 提取单元,用于提取所述第一产品提供方的提供方名称中的主干信息;\n[0222] 确定单元,用于确定提供方名称中包含所述主干信息的第二产品提供方。\n[0223] B14、根据B11所述的装置,所述第一计算模块包括:\n[0224] 匹配单元,用于确定价格差值满足差值要求,且分属于所述第一产品提供方以及所述第二产品提供方的任意两个产品,以获得至少一个匹配对;\n[0225] 第一计算单元,用于计算所述至少一个匹配对的产品相似度;\n[0226] 所述判断模块具体用于基于所述至少一个匹配对的产品相似度,判断所述第一产品提供方与所述第二产品提供方是否相同。\n[0227] B15、根据B14所述的装置,所述第一计算单元具体用于计算每一个匹配对中两个产品的产品名称的字符串相似度,作为每一个匹配对的产品相似度。\n[0228] B16、根据B14所述的装置,所述第一计算单元具体用于基于每一个匹配对中两个产品的图片信息,计算图像相似度,作为每一个匹配对的产品相似度。\n[0229] B17、根据权利要求14所述的装置,所述判断模块包括:\n[0230] 第二计算单元,针对任一个产品,选择其所属的各个匹配对的产品相似度中的最大值,作为所述任一个产品的待处理相似度;根据待处理相似度大于设定阈值的产品的数量、所述第一产品提供方中产品的数量以及所述第二产品提供方中产品的数量,计算所述第一产品提供方与所述第二提供方的产品综合相似度;\n[0231] 判断单元,用于基于所述产品综合相似度,判断所述第一产品提供方与所述第二产品提供方是否相同。\n[0232] B18、根据B17所述的装置,还包括:\n[0233] 第二计算模块,用于基于所述第一产品提供方与所述第二产品提供方的至少一个属性因子,计算所述第一产品提供方与所述第二产品提供方的至少一个属性相似度;\n[0234] 所述判断单元具体用于基于所述产品综合相似度以及所述至少一个属性相似度,判断所述第一产品提供方与所述第二产品提供方是否相同。\n[0235] B19、根据B18所述的装置,所述判断单元具体用于加权计算所述产品综合相似度以及所述至少一个属性相似度的和值,获得总相似度;基于所述总相似度,判断所述第一产品提供方与所述第二产品提供方是否相同。\n[0236] B20、根据B18所述的装置,所述至少一个属性因子包括提供方名称、服务地址、通信方式以及地理坐标。\n[0237] C21、一种信息判断设备,包括一个或多个处理器以及一个或多个存储器;\n[0238] 其中,所述一个或多个存储器一条或多条计算机指令,其中,所述一条或多条计算机指令供所述一个或多个处理器调用执行。\n[0239] 所述一个或多个处理器用于:\n[0240] 计算第一产品提供方的产品与第二产品提供方的产品的产品相似度;\n[0241] 基于所述产品相似度,判断所述第一产品提供方与所述第二产品提供方是否相同。\n[0242] C22、一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序;\n[0243] 所述计算机程序使计算机执行时实现如A1~A10任一项所述的信息判断方法。
法律信息
- 2020-10-30
专利权人的姓名或者名称、地址的变更
专利权人由北京小度信息科技有限公司变更为北京星选科技有限公司
地址由100085 北京市海淀区上地信息路11号1至3层整栋2层202室变更为100086 北京市海淀区建材城中路27号12幢N3号楼
专利权人由拉扎斯网络科技(上海)有限公司 变更为拉扎斯网络科技(上海)有限公司
- 2019-04-05
专利权的转移
登记生效日: 2019.03.15
专利权人由北京小度信息科技有限公司变更为北京小度信息科技有限公司
地址由100085 北京市海淀区上地信息路11号1至3层整栋2层202室变更为100085 北京市海淀区上地信息路11号1至3层整栋2层202室
专利权人变更为拉扎斯网络科技(上海)有限公司
- 2018-11-02
- 2018-01-05
实质审查的生效
IPC(主分类): G06Q 30/06
专利申请号: 201710440051.X
申请日: 2017.06.12
- 2017-12-08
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2007-09-12
|
2006-03-08
| | |
2
| |
2015-04-08
|
2014-12-19
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |