著录项信息
专利名称 | 一种数据分类的方法及装置 |
申请号 | CN201010122141.2 | 申请日期 | 2010-03-09 |
法律状态 | 授权 | 申报国家 | 中国 |
公开/公告日 | 2011-09-21 | 公开/公告号 | CN102193936A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/30 | IPC分类号 | G;0;6;F;1;7;/;3;0;;;G;0;6;F;1;7;/;2;7;;;G;0;6;Q;3;0;/;0;0查看分类表>
|
申请人 | 阿里巴巴集团控股有限公司 | 申请人地址 | 英属开曼群岛大开曼岛资本大厦一座四层847号邮箱
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 阿里巴巴集团控股有限公司 | 当前权利人 | 阿里巴巴集团控股有限公司 |
发明人 | 钟灵;刘华雷 |
代理机构 | 北京同达信恒知识产权代理有限公司 | 代理人 | 郭润湘 |
摘要
本申请涉及数字处理领域,公开了一种商品分类的方法及装置,用于提高商品分类流程的执行效率。该方法为:获取需要进行分类的各商品的相关数据,并提取出其中的商品标题;对各商品标题分别进行分词划分,并确定各分词的权重,其中,各分词的权重用于表示该分词的历史出现频率;针对不同的商品分别选取权重取值符合预设条件的分词组成分词序列;将针对各商品选取的分词序列进行比较,并将分词序列相同的商品的相关数据进行合并。这样,大大减少了需要处理的商品相关数据的数量,可以在较短时间内迅速、准确地实现商品分类,从而有效提高了商品分类流程的执行效率,降低了商品相关数据的管理复杂度,也减轻了系统的运算负荷。
1.一种数据分类的方法,其特征在于,包括:
获取需要进行分类的各商品的相关数据,并提取出其中的商品标题;
对各商品标题分别进行分词划分,并确定各分词的权重,其中,各分词的权重用于表示该分词的历史出现频率;
针对不同的商品分别选取权重取值符合预设条件的分词组成分词序列; 将针对各商品选取的分词序列进行比较,并将分词序列相同的商品的相关数据进行合并;
分别计算任意两类商品的分词序列的相似度,将获得的任意两类商品的分词序列的相似度,分别与设定阈值进行比较,将分词序列的相似度达到设定阈值的两类商品的相关数据进行合并。
2.如权利要求1所述的方法,其特征在于,对各商品标题进行分词划分后,根据划分结果,调整各分词的权重取值。
3.如权利要求1所述的方法,其特征在于,所述将分词序列相同的商品的相关数据进行合并,包括:
将分词序列相同的商品的相关数据直接进行合并;
或者
获取分词序列相同的商品的指定属性值,并将指定属性值相同的商品的相关数据进行合并。
4.如权利要求1所述的方法,其特征在于,计算所述任意两类商品的分词序列的相似度时,采用以下公式:
其中,TD1和TD2为分别进行比较的两类商品的分词序列,prop1和prop2为分别进行比较的两类商品对应的主属性值,λ1和λ2是预设的控制系数,a 和b为预设的参量,n1和n2分别用于表示进行相似度比较的两类商品中各自包含的商品数目 。
5.如权利要求1所述的方法,其特征在于,将分词序列的相似度达到设定阈值的两类商品的相关数据进行合并后,按照预设次数执行迭代操作。
6.如权利要求1、2或3所述的方法,其特征在于,针对合并后获得的每一类商品分别设置相应的商品标识ID,并进行保存。
7.一种用于进行商品分类的装置,其特征在于,包括:
提取单元,用于获取需要进行分类的各商品的相关数据,并提取出其中的商品标题; 划分单元,用于对各商品标题分别进行分词划分,并确定各分词的权重,其中,各分词的权重用于表示该分词的历史出现频率;
选取单元,用于针对不同的商品分别选取权重取值符合预设条件的分词组成分词序列;
合并单元,用于将针对各商品选取的分词序列进行比较,并将分词序列相同的商品的相关数据进行合并,分别计算任意两类商品的分词序列的相似度,再将获得的任意两类商品的分词序列的相似度,分别与设定阈值进行比较,以及将分词序列的相似度达到设定阈值的两类商品的相关数据进行合并。
8.如权利要求7所述的装置,其特征在于,所述划分单元对各商品标题进行分词划分后,根据划分结果,调整各分词的权重取值。
9.如权利要求7所述的装置,其特征在于,所述合并单元将分词序列相同的商品的相关数据进行合并时,将分词序列相同的商品的相关数据直接进行合并;或者,获取分词序列相同的商品的指定属性值,并将指定属性值相同的商品的相关数据进行合并。
10.如权利要求7所述的装置,其特征在于,所述合并单元将分词序列的相似度达到设定阈值的两类商品的相关数据进行合并后,按照预设次数执行迭代操作。
11.如权利要求7、8或9所述的装置,其特征在于,还包括:
处理单元,用于针对合并后获得的每一类商品分别设置相应的商品标识ID,并进行保存。
一种数据分类的方法及装置\n技术领域\n[0001] 本申请涉及数据处理领域,特别涉及一种数据分类的方法及装置。\n背景技术\n[0002] 在电子商务网站中,各种商品数据通常是以文本、数据表等形式进行存储。一个电子商务网站所需要管理的商品数据数以千万计,因此,如何将商品数据按照其描述的信息内容进行分类,将相似的商品数据进行统一管理,以降低系统的管理复杂度,减轻系统的运行负荷,是电子商务网站运营时首先需要考虑的问题。\n[0003] 目前,在各类电子商务网站内,通常采用聚类算法对各种商品数据进行分类,即根据预设的一系列规则、条件,通过相似性分析,将商品数据划分为多种类别。现有技术下,最常采用的聚类算法是分层聚类算法。\n[0004] 所谓分层聚类算法,是一种自底向上的策略,即首先将每个分类对象作为单独的一个原子簇,然后合并这些原子簇为级别更高的簇,直到所有的分类对象均集中在同一个簇中,或者,达到某个终止条件。\n[0005] 在电子商务网站中,一件商品的相关数据通常包括多种,例如,商品的标识、类目、属性等等。而电子商务网站内设置的商品数目数以万计,相应地,其相关数据可多达数十万种,如,一件商品归属的类目为“手机”,该商品的某一属性为“手机品牌”,而该属性的取值可以为“A品牌”或“B品牌”等等。因此,采用分层聚类算法对电子商务网站中的各种商品的相关数据进行分类,计算量非常大,以致于单机无法完成,需要服务器集群进行统一计算。显然,这会大大地浪费系统资源,也耗费大量的计算时间,从而不能及时有效地完成商品的相关数据的分类,降低了商品相关数据分类流程的执行效率。\n发明内容\n[0006] 本申请实施例提供一种数据分类的方法及装置,用以提高商品相关数据分类流程的执行效率。\n[0007] 本申请实施例提供的具体实施方式如下:\n[0008] 一种数据分类的方法,包括:\n[0009] 获取需要进行分类的各商品的相关数据,并提取出其中的商品标题;\n[0010] 对各商品标题分别进行分词划分,并确定各分词的权重,其中,各分词的权重用于表示该分词的历史出现频率;\n[0011] 针对不同的商品分别选取权重取值符合预设条件的分词组成分词序列;\n[0012] 将针对各商品选取的分词序列进行比较,并将分词序列相同的商品的相关数据进行合并;\n[0013] 分别计算任意两类商品的分词序列的相似度,将获得的任意两类商品的分词序列的相似度,分别与设定阈值进行比较,将分词序列的相似度达到设定阈值的两类商品的相关数据进行合并。\n[0014] 一种用于进行商品分类的装置,包括:\n[0015] 提取单元,用于获取需要进行分类的各商品的相关数据,并提取出其中的商品标题;\n[0016] 划分单元,用于对各商品标题分别进行分词划分,并确定各分词的权重,其中,各分词的权重用于表示该分词的历史出现频率;\n[0017] 选取单元,用于针对不同的商品分别选取权重取值符合预设条件的分词组成分词序列;\n[0018] 合并单元,用于将针对各商品选取的分词序列进行比较,并将分词序列相同的商品的相关数据进行合并,分别计算任意两类商品的分词序列的相似度,再将获得的任意两类商品的分词序列的相似度,分别与设定阈值进行比较,以及将分词序列的相似度达到设定阈值的两类商品的相关数据进行合并。\n[0019] 本申请实施例中,通过从商品标题和属性信息中划分并提取出的分词序列,来标识某一类商品,并将分词序列相同的商品进行合并,这样,这样,大大减少了需要处理的商品相关数据的数量,可以在较短时间内迅速、准确地实现商品分类,从而有效提高了商品分类流程的执行效率,降低了商品相关数据的管理复杂度,也减轻了系统的运算负荷。\n附图说明\n[0020] 图1为本申请实施例中管理装置功能结构图;\n[0021] 图2为本申请实施例中对商品数据进行分类流程图;\n[0022] 图3为本申请实施例中对分类结果进行优化流程图。\n具体实施方式\n[0023] 为了提高商品相关数据分类流程的执行效率,减轻系统的运行负荷,本申请实施例中,在进行商品相关数据分类时,获取需要进行分类的各商品的相关数据,并提取出其中的商品标题;对各商品标题分别进行分词划分,并确定各分词的权重,其中,各分词的权重用于表示该分词的历史出现频率;针对不同的商品分别选取权重取值符合预设条件的分词组成分词序列;将针对各商品选取的分词序列进行比较,并将分词序列相同的商品的相关数据进行合并。\n[0024] 其中,将分词序列相同的商品进行合并时,包括将分词序列相同的商品的相关数据直接进行合并;或者,获取分词序列相同的商品的指定属性值,并将指定属性值相同的商品的相关数据进行合并。以下实施例中,将以第二种情况为例进行说明。\n[0025] 下面结合附图对本申请优选的实施方式进行详细说明。\n[0026] 参阅图1所示,本申请实施例中,用于进行商品分类的管理装置包括提取单元10、划分单元11、选取单元12和合并单元13,其中,\n[0027] 提取单元10,用于获取需要进行分类的各商品的相关数据,并提取出其中的商品标题;\n[0028] 划分单元11,用于对各商品标题分别进行分词划分,并确定各分词的权重,其中,各分词的权重用于表示该分词的历史出现频率;\n[0029] 选取单元12,用于针对不同的商品分别选取权重取值符合预设条件的分词组成分词序列;\n[0030] 合并单元13,用于将针对各商品选取的分词序列进行比较,并将分词序列相同的商品的相关数据进行合并。\n[0031] 参阅图1所示,本实施例中,上述管理装置进一步包括处理单元14,用于针对合并后获得的每一类商品分别设置相应的商品标识ID,并进行保存。\n[0032] 基于上述原理,参阅图2所示,本申请实施例中,管理装置对电子商务网站内包含的所有商品数据进行分类的详细流程如下:\n[0033] 步骤200:获取需要进行分类的各商品的相关数据,并提取出其中的商品标题及相应的属性信息。\n[0034] 通常情况下,用户在电子商务网站发布商品信息时,会在商品发布网页中填写各种信息,如标题、属性等。填写好的网页由用户客户端上传至网站服务器。网站服务器接收到该网页后,提取网页中包含的标题信息。并对该标题进行分词处理。例如,某电吹风的标题为:**品牌D3506型号电吹风,显然,商品标题中往往包含有可以区分该商品的关键字,因此,对商品标题的提取是很必要的。\n[0035] 而商品的属性信息中往往包含针对商品的详细描述,例如,某电吹风的属性信息为:上市时间、颜色类型、风嘴形态、市场价、人气指数等等。本申请实施例中,属性及属性值均以ID形式进行设置,如,某商品的颜色属性为绿色,可以表示为:属性A:2000,A为颜色属性的ID,2000为绿色的ID。本实施例中,在进行商品合并时同时考虑了商品标题和属性信息的相同程度,因此,在步骤200中同时提取了商品标识和属性信息。实际应用中,也可以在执行商品合并的步骤中再提取属性信息,步骤200仅为举例。\n[0036] 步骤210:对各商品标题进行分词,并确定各分词的权重,其中,分词的权重用于表示该分词的历史出现频率相关信息;如、用户历史搜索次数,或/和商户设置次数及分布概率。\n[0037] 本实施例中,采用hadoop分布式计算系统(hadoop是一种分布式计算的框架),对商品标题和属性信息进行分词。例如,将商品标题“**品牌D3506型号电吹风”划分为以下分词:“**品牌”、“D3506型号”和“电吹风”。本实施例中,较佳地,可以使用分布式的hadoop,即采用多台(如,50台到300台)机器组成的运算集群来执行hadoop程序。\n[0038] 为了提高分词的精准性,本实施例中,较佳地,在执行完分词操作后,管理装置根据数据库中的历史参考信息,将能够反映商品品牌、产品类型的核心分词进行保留,如,“**品牌”、“**款式”等等,相应地,需要将对商品分类没有参考价值的多余分词进行删除,如“正品”、“促销”、“特价”等等。\n[0039] 步骤220:针对不同的商品分别选取权重取值符合预设条件的分词组成分词序列。\n[0040] 本实施例中,所谓的预设条件设置为:在商品标题中选取权重取值最高的两个分词、以及从属性信息中选取权重取值最高的五个分词。以上预设条件仅为举例,分词的选取方式和选取数量可以根据实际应用环境而自行设定,在此不再赘述。\n[0041] 步骤230:将针对各商品选取的分词序列进行比较,获取分词序列相同的商品的指定属性值,并将指定属性值相同的商品的相关数据进行合并。\n[0042] 本实施例中,将商品的相关数据进行合并,即是将这些商品归属至同一类目下,例如,将各商品的相关数据以同一组文本或数据表的形式进行存储,在后续管理中,将其作为同一种商品进行呈现、发布、修改等等操作。\n[0043] 本实施例中,根据步骤200~步骤230将各商品的相关数据进行分类后,为每一类商品设置一商品ID,用于唯一标识该类商品,实际试验数据表明,采用上述方法,可以将实际涵盖几亿商品的电子商务网站中商品的数量,归类缩减至几千万左右的商品类目,从而大大减少了电子商务网站的管理对象的数目,降低了商品相关数据的管理复杂度,减轻了网站的运算负担。\n[0044] 执行完上述步骤后,针对步骤210中获得的分词的划分结果,需要重新调整各分词的权重,调整权重的操作可以在步骤210执行完毕后立即执行,也可以在步骤200~步骤\n230全部执行完毕后再执行。其中,较佳地,需要对包含产品型号的分词的权重进行重点设置,因为产品型号由数字字母等符号组成,在商品分类过程中的参考价值最大,因此,针对产品型号这一类型的分词,需要将其权重值设置得较高。\n[0045] 基于上述实施例,为了进一步提高商品归类结果的准确性,本实施例中,在执行完步骤200~步骤230后,在针对分类完毕的各类商品分别设置相应的商品ID之前,需要对分类结果作进一步优化,参阅图3所示,优化的详细流程如下:\n[0046] 步骤300:根据分类结果确定用于区分每一类商品的分词序列。\n[0047] 所谓的分词序列即是执行步骤200~步骤230后,获得的每一类商品的标志性分词组合,例如,经过分词后,将商品标题和属性信息中包含分词“**品牌”,“**款式”、“红颜色”、“DF0753”和“L码”的商品归属至同一类中,那么,该类商品的分词序列即是“**品牌款式红颜色DF0753L码”。\n[0048] 步骤310:分别计算任意两类商品的分词序列的相似度。\n[0049] 本实施例中,采用以下公式计算任意两类商品的分词序列的相似度:\n[0050] \n[0051] 其中,TD1和TD2为分别进行比较的两类商品的分词序列,例如,\n[0052] TD1=(word11,score11),(word12,score12),(word13,score13)[0053] TD2=(word21,score21),(word22,score22),(word23,score23)[0054] word为某分词,score为其权重。\n[0055] Prop1和prop2为分别进行比较的两类商品对应的主属性值(主属性,也就是重要的属性,例如手机最重要的属性就是品牌和型号,而颜色、重量就是一般的属性。主属性值表示具体的属性,例如:品牌是一个主属性,通过余弦计算相似性的大小。相似性最大,两个商品就越相似。\n[0056] λ是一个控制权重的系数。λ1和λ2是不同的两个系数。在计算相似性的时候,分别表明是标题重要还是属性更重要。在λ1=2,λ2=1的时候。就表明标题的重要性是属性重要性的两倍。\n[0057] a,b为预设的参量,n1和n2分别用于表示进行相似度比较的两类商品中各自包含的商品数目,a、b用于控制相似度的取值,以间接控制两类商品进行合并的可能性,如,当两类商品各自包含的商品数目都很多时,可以通过a和b的取值对相似度的取值进行调节,令采用 计算得到的相似度取值变小,从而使两类商品被合并在一起\n的机会变小。\n[0058] 例如,a=50,b=20n1=100,n2==10,那么,\n-λ1*|TD1-TD2| -λ2*|prop1-prop2|\n[0059] 相 似 度 = e * e *1/(1+e^(50/20))=1/\n(1+e^2.5)=0.07585818≈7%。\n[0060] 步骤320:将获得的任意两类商品的分词序列的相似度,分别与设定阈值进行比较,将分词序列的相似度达到设定阈值的两类商品进行合并。\n[0061] 例如,在步骤310中,计算得到两类商品的分词序列的相似度为7%,假设设定阈值为5,则相似度取值远远小于设定阈值,这说明,这两类商品不能进行合并。\n[0062] 之所以执行上述步骤300-步骤320,是因为分词序列不同的两类商品也可能是同一种商品,只是商户设置的商品标题和属性信息不完全相同而已,因此,通过执行步骤\n300~步骤320对步骤200~步骤230中获得的分类结果进行优化,使其更为精确。实际应用中,若为了进一步优化分类结果,可以将步骤300~步骤320按照设定次数进行多数迭代,使最终获得的分类结果中包含的商品类目进一步缩减。\n[0063] 采用上述方法,可以缩减几千万左右的商品,进一步缩减至几百万,同时整个过程只需要几个小时,从而再次大大减少了电子商务网站的管理对象的数目,也进一步降低了其管理商品相关数据的复杂度,减轻了其运算负担。\n[0064] 综上所述,本申请实施例中,通过从商品标题和属性信息中划分并提取出的分词序列,来标识某一类商品,并将分词序列相同的商品的相关数据进行合并,这样,大大减少了需要处理的商品相关数据的数量,可以在较短时间内迅速、准确地实现商品分类,从而有效提高了商品分类流程的执行效率,降低了商品相关数据的管理复杂度,也减轻了系统的运算负荷。\n[0065] 基于上述方案,本申请实施例中,继续通过分词序列之间的相似度来实现分类结果的优化,从而进一步提高了分类结果的准确性,也进一步减少了需要处理的商品数据的数量,提高了商品分类流程的执行效率。\n[0066] 显然,本领域的技术人员可以对本申请中的实施例进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请实施例中的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请中的实施例也意图包含这些改动和变型在内。
法律信息
- 2013-09-18
- 2011-11-23
实质审查的生效
IPC(主分类): G06F 17/30
专利申请号: 201010122141.2
申请日: 2010.03.09
- 2011-09-21
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
1997-09-03
|
1996-12-31
| | |
2
| |
2007-07-25
|
2007-01-24
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 1 | | 2013-12-11 | 2013-12-11 | | |
2 | | 2013-12-11 | 2013-12-11 | | |