著录项信息
专利名称 | 一种优化电子商务商品搜索的方法及系统 |
申请号 | CN201510465677.7 | 申请日期 | 2015-07-31 |
法律状态 | 授权 | 申报国家 | 中国 |
公开/公告日 | 2015-11-18 | 公开/公告号 | CN105069086A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/30 | IPC分类号 | G;0;6;F;1;7;/;3;0查看分类表>
|
申请人 | 焦点科技股份有限公司;新一站保险代理有限公司 | 申请人地址 | 江苏省南京市高新技术产业开发区星火路软件大厦A座8-12F
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 焦点科技股份有限公司,新一站保险代理有限公司 | 当前权利人 | 焦点科技股份有限公司,新一站保险代理有限公司 |
发明人 | 赵亮亮;沈华楠;姜平;何学勇 |
代理机构 | 南京瑞弘专利商标事务所(普通合伙) | 代理人 | 陈建和 |
摘要
一种优化电子商务商品搜索的系统,包括前端处理模块、后端处理模块、商品实体词库、属性搜索域、实体搜索域、评分模块及商品信息库,其中前端处理模块调用商品实体词库对产品搜索信息进行数据处理;后端处理模块调用商品实体词库对电子商务网站内已有的商品信息进行数据处理,经后端处理模块的处理后会形成基于电子商务网站内所有商品的实体搜索域和属性搜索域;所述商品信息库:指电子商务商品搜索的数据来源,用于存储网站上已有产品的商品描述数据,商品描述数据由商家提供和维护;评分模块根据前端处理模块和后端处理模块的信息匹配情况,计算相应的匹配分值;统计产品搜索词在搜索域内的命中得分,并排序输出搜索结果。
1.一种优化电子商务商品搜索的系统,其特征在于,包括前端处理模块、后端处理模块、商品实体词库、商品属性搜索域、商品实体搜索域、评分模块及商品信息库,其中前端处理模块调用商品实体词库对商品搜索信息进行数据处理;后端处理模块调用商品实体词库对电子商务网站内已有的商品信息进行数据处理,经后端处理模块的处理后会形成基于电子商务网站内所有商品的实体搜索域和属性搜索域;评分模块根据前端处理模块和后端处理模块的信息匹配情况,计算相应的匹配分值;搜索系统最终会依据分值返回搜素结果;
所述商品信息库:指电子商务商品搜索的数据来源,用于存储网站上已有商品的商品描述数据,包括名称描述、商品特征描述、商品属性描述,商品描述数据由商家提供和维护;
所述商品实体词库:指电子商务的商品信息库中所有商品实体的集合,理论上能够实现对商品的全覆盖;商品实体词库的形成源于对商品信息内容的提取;
所述前端处理模块:采用一些分析方法处理输入用户的商品搜索词,经处理后的搜索词会被划分成不同的类型,通过调用商品实体词库定位用户欲搜索的商品,搜索词被划分成商品属性词和作为商品名称的商品实体词,商品名称用于明确用户搜索输入中欲强调的商品搜索重心,商品属性词用于描述商品特征;
所述后端处理模块:调用商品实体词库对电子商务网站内已有的商品信息和商品描述数据进行数据处理,后端处理模块的处理后会形成基于电子商务网站内所有商品实体搜索域和商品属性搜索域;数据处理过程中调用商品实体词库;
所述商品属性搜索域:存储经后端处理模块处理商品实体信息后形成的商品属性数据,包括商品基本属性搜索域和商品名称的属性搜索域;其中商品的基本属性搜索域涵盖电子商务网站上所有商品的通用属性,每一类商品均有和自身相应的通用属性,包括品牌、型号、厂家;其中商品名称的属性搜索域的形成来自于商家对所提供商品的特征描述,包括“最新款”、“爆款”相关修饰词语,也涵盖部分通用属性;
所述商品实体搜索域,存储经后端处理模块调用商品实体词库处理商品信息后形成的商品实体名称数据,包含商品实体名称搜索域和相关的商品实体搜索域;其中商品实体名称搜索域涉及“电子商务网站商品目录内所包含”的商品名称;相关的商品实体搜索域涉及“与商品实体相似但命名不一样”的商品名称,商品相关性依赖商品信息库内已存商品的属性数据间相似性确认;
所述评分模块:根据商品搜索词在商品属性搜索域和商品实体搜索域内的匹配情况,按照每个搜索域的命中权重,统计商品搜索词在商品属性搜索域和商品实体搜索域内的命中得分,并排序输出搜索结果;
前端处理模块对商品搜索词进行切分,形成一个或多个商品搜索词,通过调用商品实体词库定位用户欲搜索的商品,经前端处理模块处理之后,搜索词被划分成商品属性词和作为商品名称的商品实体词;商品名称用于明确用户搜索输入中欲强调的商品搜索重心,商品属性词用于描述商品特征;
根据商品实体词,从商品实体搜索域中寻找能表明该商品实体的名称或相关的近似名称;根据商品属性词,从商品属性搜索域中寻找能限定预搜索商品特征的特定词语;商品实体搜索域和商品属性搜索域均以商品信息库内的数据为依据而建立和形成;
评分:根据商品实体词在商品实体搜索域中的搜索情况,及商品属性词在商品基本属性搜索域和商品名称的属性搜索域中的搜索情况,评分模块按照每个搜索域的命中权重,根据如下公式计算商品搜索词在系统搜索域内的命中得分;
score=f(e)·be+f(r)·br+∑s(x)
其中,
其中f(e)·be代表商品实体词在商品实体搜索域内商品实体名称搜索域的命中得分,f(r)·br代表商品实体词在相关的商品实体搜索域内的命中得分,f(pk)代表商品属性词在商品基本属性搜索域和商品名称的属性搜索域内的命中情况,be、br、bp分别代表在相应搜索域内命中的权重,∑s(x)代表各商品属性词在商品基本属性搜索域和商品名称的属性搜索域内命中得分的总和;x用于表示商品属性的匹配情况,“0”代表不完全匹配,“1”代表完全匹配;
搜索系统根据评分模块输出的命中得分,统计商品搜索词在搜索域内的命中得分,从高至低对命中的商品信息进行排序,并将结果返回至搜索结果页面。
2.一种优化电子商务商品搜索的方法,其特征在于,包括如下步骤:
步骤1:获取用户输入的商品搜索词,用户所搜的商品必须是电子商务网站中已包含的商品;
步骤2:前端处理模块对商品搜索词进行切分,形成一个或多个商品搜索词,通过调用商品实体词库定位用户欲搜索的商品,经前端处理模块处理之后,搜索词被划分成商品属性词和作为商品名称的商品实体词;商品名称用于明确用户搜索输入中欲强调的商品搜索重心,商品属性词用于描述商品特征;
步骤3:根据商品实体词,从商品实体搜索域中寻找能表明该商品实体的名称或相关的近似名称;根据商品属性词,从商品属性搜索域中寻找能限定预搜索商品特征的特定词语;
商品实体搜索域和商品属性搜索域均以商品信息库内的数据为依据而建立和形成;
步骤4:评分:根据商品实体词在商品实体名称搜索域和相关的商品实体搜索域中的搜索情况,及商品属性词在商品基本属性搜索域和商品名称的属性搜索域中的搜索情况,评分模块按照每个搜索域的命中权重,根据如下公式计算商品搜索词在系统搜索域内的命中得分;
score=f(e)·be+f(r)·br+∑s(x)
其中,
其中f(e)·be代表商品实体词在商品实体搜索域内商品实体名称搜索域的命中得分,f(r)·br代表商品实体词在相关的商品实体搜索域内的命中得分,f(pk)代表商品属性词在商品基本属性搜索域和商品名称的属性搜索域内的命中情况,be、br、bp分别代表在相应搜索域内命中的权重,∑s(x)代表各商品属性词在商品基本属性搜索域和商品名称的属性搜索域内命中得分的总和;x用于表示商品属性的匹配情况,“0”代表不完全匹配,“1”代表完全匹配;
步骤5:搜索系统根据评分模块输出的命中得分,统计商品搜索词在搜索域内的命中得分,从高至低对命中的商品信息进行排序,并将结果返回至搜索结果页面。
3.根据权利要求2所述的一种优化电子商务商品搜索的方法,其特征在于:
在步骤2中,商品实体词和商品属性词的限定是:
(1)所述商品实体词是用于指明用户想要通过搜索系统了解的某一种商品;通过使用逆向最大匹配算法从后向前、即从右向左查找实体词,默认遇到的第一个词是商品实体词;
(2)所谓商品属性词,其用于限定用户所搜某一种商品的特征,在商品搜索词中用于修饰商品实体词,商品属性词能有一个或多个。
4.根据权利要求3所述的一种优化电子商务商品搜索的方法,其特征在于:
商品实体词在实体搜索域中命中得分的统计步骤包括:
(1)商品实体词在商品实体搜索域内命中情况分为命中和不命中,其中将“命中”计为“1”,将“不命中”计为“0”;
(2)根据商品实体词,从实体搜索域中获取相应的商品实体名称,并计算搜索域内命中的商品实体词和其所指代商品的相关性得分;
如果商品实体词在商品实体名称搜索域内命中,由于命中的商品实体词与其所指商品的名称基本是一致的,因而命中的商品实体词与其所指商品相关性默认为“1”;
如果商品实体词在相关的商品实体搜索域内命中,由于相关实体名称仅是其所指代商品的相似品,因而命中的相关实体名称和其所指代商品的相关性小于1,具体数值根据两类商品的属性相似度来定;
(3)根据商品实体词所命中的搜索域,赋予相应的命中权重,计算商品实体词在实体搜索域内的命中得分:商品实体词在商品实体搜索域中命中得分=命中分值*相关性分值*权重分值。
5.根据权利要求4所述的一种优化电子商务商品搜索的方法,其特征在于:
商品属性词在属性搜索域内命中的得分的统计步骤具体包括:
(1)商品属性词在商品属性搜索域中的命中情况分为“命中”和“不命中”,其中将“命中”计为“1”,将“不命中”计为“0”;
(2)按照商品属性词所命中的属性搜索域,赋予相应的命中权重,计算商品属性词在商品属性搜索域内的命中得分;
商品属性词在商品属性搜索域中命中得分=命中分值*权重分值
由于商品属性词并非只有一个,关于他们的匹配在搜索中会分为“所有属性完全匹配”和“所有属性不完全匹配”两种:
(1)在完全匹配情况下,n个商品属性词在商品属性搜索域内的命中得分为n个商品属性词在属性搜索域中命中得分的总和;
(2)在不完全匹配情况下,n个商品属性词在商品属性搜索域内的命中得分为n个商品属性词命中得分的乘积,任何一个商品属性词的未命中都会导致命中得分为0。
6.根据权利要求5所述的一种优化电子商务商品搜索的方法,其特征在于:
由于商品名称属性搜索域的命中比商品基本属性搜索域的命中更能表明用户欲搜索的商品与电子商务网站内某一商品之间的高匹配度,因而商品名称属性搜索域的命中权重值大于商品基本属性搜索域的命中权重值;而商品实体搜索域的命中又比商品属性搜索域的命中更能说明用户欲搜索的商品与电子商务网站内某一商品之间的高匹配度,因而,四个搜索域的命中权重之间的关系是:商品实体名称搜索域=相关的商品实体搜索域>商品名称的属性搜索域>商品基本属性搜索域。
一种优化电子商务商品搜索的方法及系统\n技术领域\n[0001] 本发明属于电子商务搜索领域,特别是商品搜索技术,具体涉及一种优化电子商务商品搜索的方法及系统。\n背景技术\n[0002] 在电子商务环境中,商品搜索是频繁使用的工具,商品销售者通过它向用户推销自己的商品,用户通过它快速寻找自己所需的商品。随着商品种类及数量的快速增长,面对不计其数且表达不准确的商品信息,商品搜索工具有时候给出的搜索结果差强人意,比如说用户输入两个关键词,可能搜索出来的商品描述中的确是带有这两个关键词,但问题是这个商品并不是用户希望得到的。\n[0003] 传统的商品搜索方法的实现原理是进行搜索词与商品信息的完全匹配。通过分词,用户输入的有关某一商品的描述被划分为一个或多个独立的搜索词,然后根据这些搜索词在商品名称、商品属性等数据搜索域内的匹配情况,利用一些评分算法对匹配结果进行排序。虽然这种方式可以帮助用户快速找寻商品,但却因为缺乏对搜索词权重评估,而不能精确定位用户欲搜索的商品及商品特性,具体表现在如下两个方面:\n[0004] (1)系统缺乏对用户输入重心的挖掘\n[0005] 商品描述经分词后形成多个搜索词,搜索词间相互平等,无重要性之分,这种方式会导致无法从用户输入层面了解用户想要搜索的商品,而缺乏对用户真实搜索需求的捕捉,将导致商品信息召回失误。例如,用户输入“苹果电脑”,按照传统的搜索方式,用户输入被切分成“苹果”和“电脑”两个搜索词,由于系统不能明晰“苹果”和“电脑”的重要性,即不清楚用户想要搜索的商品是苹果还是电脑,经将两个搜索词与电子商务网站内所有商品信息进行完全匹配后,返回的搜索结果中会涵盖有关“电脑形状的苹果”的商品信息。明显地,这条返回结果与用户需求完全不一致。\n[0006] (2)商品信息的质量降低搜索结果的准确性\n[0007] 从召回角度分析,搜索引擎希望能降低商品识别的难度,传统的产品搜索方法将商品信息视为一个文本信息,如果商品信息所含内容越多,越容易和搜索词成功匹配。电子商务网站上的商品信息一般由商家发布和维护,为使自己的商品能被被快速搜到,他们在对商品描述时会添加很多与商品不相符或不相关的词语,商品信息质量的参差不齐限制了传统搜索方法准确召回的实现,且容易导致“因商品信息中含有搜索词,即使不需要的信息也会召回”或“因商品信息中没有包含搜索词,明明是用户需要的信息无法召回”等现象频繁发生。\n[0008] 如何突破传统产品搜索方法的局限性,实现既保证能从多元化的产品需求表达中识别商品实体,又能减弱商品信息质量对搜索效果的影响,带给用户更好的搜索体验,对电子商务商品搜索来说是一件非常重要和有意义的工作。\n发明内容\n[0009] 为解决现有技术存在的局限性,本发明目的是,提出一种优化电子商务网站商品搜索的方法及系统。本发明旨在分别在用户输入和商品描述信息两个层面对数据进行处理,将以“单纯的文本匹配”为主的传统产品搜索方式转变成“某一特定产品实体的识别和匹配过程”,以降低搜索引擎定位商品实体的不准确程度;再者,通过控制产品实体间的关联性,提高搜索结果的召回准确性,优化用户搜索商品的体验。\n[0010] 本发明的技术方案是,一种优化电子商务商品搜索的系统,包括前端处理模块、后端处理模块、商品实体词库、属性搜索域、实体搜索域、评分模块及商品信息库,其中前端处理模块调用商品实体词库对产品搜索信息进行数据处理;后端处理模块调用商品实体词库对电子商务网站内已有的商品信息进行数据处理,经后端处理模块的处理后会形成基于电子商务网站内所有商品的实体搜索域和属性搜索域;评分模块根据前端处理模块和后端处理模块的信息匹配情况,计算相应的匹配分值;搜索系统最终会依据分值返回搜素结果;\n[0011] 所述商品信息库:指电子商务商品搜索的数据来源,用于存储网站上已有产品的商品描述数据,包括名称描述、产品特征描述、产品属性描述等等,商品描述数据由商家提供和维护;\n[0012] 所述商品实体词库:指电子商务商品信息库中所有商品实体的集合,理论上能够实现对商品的全覆盖;实体词库的形成源于对商品信息内容的提取;\n[0013] 所述前端处理模块:采用一些分析方法处理输入的用户商品搜索词,经处理后的搜索词会被划分成不同的类型,通过调用商品实体词库定位用户欲搜索的产品,搜索词被划分成商品属性词和商品实体词即商品名称,商品名称用于明确用户搜索输入中欲强调的产品搜索重心,商品属性用于描述商品特征;\n[0014] 所述后端处理模块:调用商品实体词库对电子商务网站内已有的商品信息和商品描述数据进行数据处理,后端处理模块的处理后会形成基于电子商务网站内所有商品的实体搜索域和商品属性搜索域;数据处理过程中调用商品实体词库,将以文本形式存在的商品描述转变成四类数据:商品实体标签、商品相关实体标签、商品的基本属性、商品名称的属性,这四类数据能更容易地区分商品描述中的商品及其属性;\n[0015] 所述商品属性搜索域:存储经后端处理模块处理商品实体信息后形成的商品属性数据,包括商品基本属性搜索域和商品名称的属性搜索域;其中商品的基本属性搜索域涵盖电子商务网站上所有产品的通用属性,每一类产品均有和自身相应的通用属性,比如品牌、型号、厂家等;其中商品名称的属性搜索域的形成主要来自于商家对所提供产品的特征描述,比如类似“最新款”、“爆款”相关修饰词语,其也可能会涵盖部分通用属性;\n[0016] 所谓商品实体搜索域,存储经后端处理模块调用商品实体词库处理商品信息后形成的商品实体名称数据,包含商品实体名称搜索域和相关实体搜索域;其中商品实体名称搜索域涉及“电子商务网站产品目录内所包含”的商品实体名称;相关实体搜索域涉及“与商品实体相似但命名不一样”的商品实体名称,商品相关性主要依赖商品信息库内已存商品的属性间相似性确认;\n[0017] 所述评分模块:根据商品搜索词在商品属性搜索域和商品实体搜索域内的匹配情况,按照每个搜索域的命中权重,统计产品搜索词在搜索域内的命中得分,并排序输出搜索结果。\n[0018] 一种优化电子商务商品搜索的方法,包括如下步骤:\n[0019] 步骤1:获取用户输入的商品搜索词,用户所搜的商品必须是电子商务网站中已包含的商品;\n[0020] 步骤2:前端处理模块对搜索词进行切分,形成一个或多个搜索词,通过调用商品实体词库定位用户欲搜索的产品,经前端处理模块处理之后,搜索词被划分成商品属性词和商品实体词即商品名称;商品名称用于明确用户搜索输入中欲强调的产品搜索重心,商品属性用于描述商品特征;\n[0021] 后端处理模块调用商品实体词库对电子商务网站内已有的商品信息和商品描述数据进行数据处理,后端处理模块的处理后会形成基于电子商务网站内所有商品的实体搜索域和商品属性搜索域;数据处理过程中调用商品实体词库,将以文本形式存在的商品描述转变成四类数据:商品实体标签、商品相关实体标签、商品的基本属性、商品名称的属性,这四类数据能更容易地区分商品描述中的商品及其属性;步骤3:根据商品实体词,从商品实体搜索域中寻找能表明该商品实体的名称或相关的近似名称;根据商品属性词,从商品属性搜索域中寻找能限定预搜索产品特征的特定词语;商品实体搜索域和属性搜索域均以商品信息库内的数据为依据而建立和形成;步骤4:根据商品实体词在商品实体搜索域和相关实体搜索域中的搜索情况,及商品属性词在商品基本属性搜索域和商品名称的属性搜索域中的搜索情况,评分模块按照每个搜索域的命中权重,根据如下公式计算商品搜索词在系统搜索域内的命中得分;\n[0022] score=f(e)·b6+f(r)·br+Σs(x)\n[0023] 其中,\n[0024]\n[0025] 其中f(e)·b6代表商品实体词在商品实体搜索域内的命中得分,f(r)·br代表商品实体词在相关实体搜索域内的命中得分,f(pk)代表商品属性词在属性搜索域内的命中情况,b6、br、bp分别代表在相应搜索域内命中的权重,Σs(x)代表各商品属性词在基本属性搜索域和名称的属性搜索域内命中得分的总和;x用于表示属性的匹配情况,“0”代表不完全匹配,“1”代表完全匹配;\n[0026] 步骤5:搜索系统根据评分模块输出的命中得分,统计商品搜索词在搜索域内的命中得分,从高至低对命中的产品信息进行排序,并将结果返回至搜索结果页面。\n[0027] 所述商品属性搜索域:用于存储经后端处理模块处理商品实体信息后形成的商品属性数据,包括基本属性搜索域和商品名称的属性搜索域;其中实体的基本属性搜索域涵盖电子商务网站上所有产品的通用属性,每一类产品均有和自身相应的通用属性,比如品牌、型号、厂家等;其中商品名称的属性搜索域的形成主要来自于商家对所提供产品的特征描述,比如类似“最新款”、“爆款”相关修饰词语,其也可能会涵盖部分通用属性。\n[0028] 在步骤2中,商品实体词和商品属性词的限定是:\n[0029] (1)所述商品实体词是用于指明用户想要通过搜索系统了解的某一种产品;通过使用逆向最大匹配算法从后向前(即从右向左)查找实体词,默认遇到的第一个词是商品实体词;\n[0030] (2)所谓商品属性词,其用于限定用户所搜某一种产品的特征,在商品搜索词中主要用于修饰商品实体词,商品属性词可以有一个或多个。\n[0031] 商品实体词在实体搜索域中命中得分的统计步骤包括:\n[0032] (1)商品实体词在商品实体搜索域内命中情况分为命中和不命中,其中将“命中”计为“1”,将“不命中”计为“0”;\n[0033] (2)根据商品实体词,从实体搜索域中获取相应的商品实体名称,并计算搜索域内命中的商品实体词和其所指代商品的相关性得分;\n[0034] 如果商品实体词在商品实体搜索域内命中,由于命中的商品实体词与其所指商品的名称基本是一致的,因而命中的产品实体词与其所指商品相关性默认为“1”;\n[0035] 如果商品实体词在相关产品实体搜索域内命中,由于相关实体名称仅是其所指代商品的相似品,因而命中的相关实体名称和其所指代商品的相关性小于1,具体数值根据两类产品的属性相似度来定;\n[0036] (3)根据商品实体词所命中的搜索域,赋予相应的命中权重,计算商品实体词在实体搜索域内的命中得分:商品实体词在产品实体搜索域中命中得分=命中分值*相关性分值*权重分值。\n[0037] 商品属性词在属性搜索域内命中的得分的统计步骤具体包括:\n[0038] (1)商品属性词在属性搜索域中的命中情况分为“命中”和“不命中”,其中将“命中”计为“1”,将“不命中”计为“0”;\n[0039] (2)按照商品属性词所命中的属性搜索域,赋予相应的命中权重,计算商品属性词在属性搜索域内的命中得分;\n[0040] 商品属性词在属性搜索域中命中得分=命中分值*权重分值\n[0041] 由于商品属性词并非只有一个,关于他们的匹配在搜索中会有为“所有属性完全匹配”和“所有属性不完全匹配”两种:\n[0042] (1)在完全匹配情况下,n个商品属性词在属性搜索域内的命中得分为n个商品属性词在属性搜索域中命中得分的总和;\n[0043] (2)在不完全匹配情况下,n个商品属性词在属性搜索域内的命中得分为n个商品属性词命中得分的乘积,任何一个商品属性词的未命中都会导致命中得分为0。\n[0044] 由于名称属性搜索域的命中比基本属性搜索域的命中更能表明用户欲搜索的产品与电子商务网站内某一商品之间的高匹配度,因而名称属性搜索域的命中权重值大于基本属性搜索域的命中权重值;而实体搜索域的命中又比属性搜索域的命中更能说明用户欲搜索的产品与电子商务网站内某一商品之间的高匹配度因而,四个搜索域的命中权重之间的关系是:产品实体名称搜索域=相关产品实体名称搜索域>产品名称的属性搜索域>产品实体的基本属性搜索域。\n[0045] 本发明与现有技术相比,其有益效果:\n[0046] (1)本发明方法提供一种优化电子商务商品搜索的方法及系统,通过在用户输入和商品描述信息两个层面对数据处理,搜索词被划分成商品属性词和商品实体词即商品名称,商品名称用于明确用户搜索输入中欲强调的产品搜索重心,商品属性用于描述商品特征;将传统“文本匹配”的产品搜索方式转变为“某一特定产品实体的识别和匹配过程”,这有助于搜索引擎更清晰地明确用户输入的产品重点,降低产品识别错误率;\n[0047] (2)本发明方法通过对搜索输入词分析,确定输入词中所涉及的商品实体和商品特征,并利用商品信息库中的商品数据对商品实体进行标注,这有利于提高搜索引擎对商品的识别速度,降低产品的错误召回率;\n[0048] (3)本发明方法通过控制产品实体间的关联性,设计两个有关产品的搜索域,通过设有前端处理模块、后端处理模块;前端处理模块调用商品实体词库对产品搜索信息进行数据处理;后端处理模块调用商品实体词库对电子商务网站内已有的商品信息进行数据处理,经后端处理模块的处理后会形成基于电子商务网站内所有商品的实体搜索域和属性搜索域;实现在商品识别过程中,对与目标商品相似或相近的商品进行识别,使商品搜索不再受搜索词对产品名称的限定,扩展搜索范围,提高搜索结果的召回数量,优化用户搜索商品的体验。\n附图说明\n[0049] 图1为传统商品搜索方法实现的示例图\n[0050] 图2为本发明实施例中一种优化电子商务商品搜索的系统示意图\n[0051] 图3为本发明实施例中一种优化电子商务商品搜索的流程示意图\n[0052] 图4为本发明实施例中商品搜索方法实现的示例图\n具体实施方式\n[0053] 为使本发明的目的、技术方案和优点更加清楚明白,下面对本发明的优化电子商务商品搜索的方法及系统中所涉及的一些术语做简单解释:\n[0054] 所谓商品实体词,用于指明用户想要通过搜索系统了解的某一种产品,默认位于产品搜索词末尾的即是商品实体词;\n[0055] 所谓商品属性词,用于限定用户所搜某一种产品的特征,在商品搜索词中主要用于修饰商品实体词,商品属性词可以有一个或多个;\n[0056] 为了更清晰的阐述本发明的目的、技术方案和优点,下面结合具体实施例和附图对本发明进行详细阐述。\n[0057] 如图1所示,为传统商品搜索方法实现的示例图,具体描述是:\n[0058] 以“用户当前预搜索的产品是苹果电脑”为例,传统的搜索方法涉及的流程包括:\n[0059] 步骤1:搜索系统获取到搜索词“苹果电脑”,经分词后形成“苹果”和“电脑”两个词语,此时搜索系统未对词语做重点标注,两个词语属于平等搜索词。\n[0060] 步骤2:将“苹果”和“电脑”两个词语分别与商品名称描述(名称搜索域)及商品属性(基本属性搜索域)进行文本匹配;\n[0061] 电子商务网站上现有的商品名称描述和属性包括名称1“2015最新款21寸苹果电脑”及属性1、名称2“水果系列之苹果外形平板电脑”及属性2、名称3“2015新款21寸苹果一体机”及属性3、名称4“景观水果之电脑形状苹果”及属性4,搜索系统会查看这些名称和属性中是否包含“苹果”或“电脑”这两个词;\n[0062] 步骤3:由于名称1、名称2、名称4及他们的属性中均含有“苹果”或“电脑”,因此搜索系统返回结果“2015最新款21寸苹果电脑”、“水果系列之苹果外形平板电脑、“景观水果之电脑形状苹果”\n[0063] 从搜索结果发现,其一,“一体机”是“电脑”的相似名称,但搜索系统没有识别出“一体机”和“电脑”的关联性,进而导致“2015新款21寸苹果一体机”不在返回结果列表中;\n其二,产品“景观水果之电脑形状的苹果”是对苹果的描述,其并非是用户想要接收到的有关“电脑”的商品搜索结果,这样的搜索结果并不准确,搜索方法有待优化。\n[0064] 如图2所示,为本发明实施例中一种优化电子商务商品搜索的系统示意图,包括商品信息库201、商品实体词库202、前端处理模块203、后端处理模块204、属性搜索域205、实体搜索域206、评分模块207,其中前端处理模块203调用商品实体词库202对商品搜索信息进行数据处理;后端处理模块204调用商品实体词库202对电子商务网站内已有的商品信息进行数据处理,经后端处理模块204的处理后会形成基于电子商务网站内所有商品的实体搜索域205和属性搜索域206;评分模块207会将前端处理模块203和后端处理模块204的结果进行匹配,形成相应的匹配分值;搜索系统最终会依据分值返回搜素结果。\n[0065] 所述商品信息库201:指电子商务商品搜索的数据来源,用于存储网站上已有产品的商品描述数据,包括名称描述、产品特征描述、产品属性描述等等,商品描述数据由商家提供和维护;\n[0066] 所述商品实体词库202:指电子商务商品信息库中所有商品实体的集合,理论上能够实现对商品的全覆盖;实体词库的形成源于对商品信息内容的提取;\n[0067] 所述前端处理模块203:采用一些分析方法处理输入的用户商品搜索词,经处理后的搜索词会被划分成不同的类型,通过调用商品实体词库定位用户欲搜索的产品,搜索词被划分成商品属性词和商品实体词即商品名称,商品名称用于明确用户搜索输入中欲强调的产品搜索重心,商品属性用于描述商品特征;\n[0068] 所述后端处理模块204:调用商品实体词库对电子商务网站内已有的商品信息和商品描述数据进行数据处理,后端处理模块的处理后会形成基于电子商务网站内所有商品的实体搜索域和商品属性搜索域;数据处理过程中调用商品实体词库,将以文本形式存在的商品描述转变成四类数据:商品实体标签、商品相关实体标签、商品的基本属性、商品名称的属性,这四类数据能更容易地区分商品描述中的商品及其属性;\n[0069] 所述商品属性搜索域205:存储经后端处理模块处理商品实体信息后形成的商品属性数据,包括商品基本属性搜索域和商品名称的属性搜索域;其中商品的基本属性搜索域涵盖电子商务网站上所有产品的通用属性,每一类产品均有和自身相应的通用属性,比如品牌、型号、厂家等;其中商品名称的属性搜索域的形成主要来自于商家对所提供产品的特征描述,比如类似“最新款”、“爆款”相关修饰词语,其也可能会涵盖部分通用属性;\n[0070] 所谓商品实体搜索域206,存储经后端处理模块调用商品实体词库处理商品信息后形成的商品实体名称数据,包含商品实体名称搜索域和相关实体搜索域;其中商品实体名称搜索域涉及“电子商务网站产品目录内所包含”的商品实体名称;相关实体搜索域涉及“与商品实体相似但命名不一样”的商品实体名称,商品相关性主要依赖商品信息库内已存商品的属性间相似性确认;\n[0071] 所述评分模块207:根据商品搜索词在商品属性搜索域和商品实体搜索域内的匹配情况,按照每个搜索域的命中权重,统计产品搜索词在搜索域内的命中得分,并排序输出搜索结果。\n[0072] 如图3所示,为本发明实施例中一种优化电子商务商品搜索的流程示意图,具体包括:\n[0073] 步骤301:获取用户输入的商品搜索词,用户所搜的商品必须是电子商务网站中已包含的商品;\n[0074] 步骤302:前端处理模块203对搜索词进行切分,形成一个或多个搜索词,通过调用商品实体词库202定位用户欲搜索的产品,经前端处理模块处理203之后,搜索词被划分成商品属性词和商品实体词即商品名称;商品名称用于明确用户搜索输入中欲强调的产品搜索重心,商品属性用于描述商品特征;\n[0075] 特别地,如果从商品实体词库202中没有与商品实体词相匹配的词语,搜索系统将默认用户输入的商品搜索词内全部都是商品属性词;\n[0076] 步骤303:根据商品实体词,从商品实体搜索域206中寻找能表明该商品实体的名称或相关的近似名称;根据商品属性词,从商品属性搜索域205中寻找能限定预搜索产品特征的特定词语;商品实体搜索域206和属性搜索域205均以商品信息库内的数据为依据而建立和形成;\n[0077] 步骤304:根据商品实体词在商品实体搜索域和相关实体搜索域中的搜索情况,及商品属性词在商品基本属性搜索域和商品名称的属性搜索域中的搜索情况,评分模块207按照每个搜索域的命中权重,根据如下公式计算商品搜索词在系统搜索域内的命中得分;\n[0078] score=f(e)·b6+f(r)·br+Σs(x)\n[0079] 其中,\n[0080]\n[0081] 其中f(e)·b6代表商品实体词在产品实体搜索域内的命中得分,f(r)·br代表商品实体词在相关实体搜索域内的命中得分,f(pk)代表商品属性词在属性域内的命中情况,b6、br、bp分别代表在相应搜索域内命中的权重,Σs(x)代表各商品属性词在基本属性搜索域和商品名称的属性搜索域内命中得分的总和;x用于表示属性的匹配情况,“0”代表不完全匹配,“1”代表完全匹配。\n[0082] 商品实体词在实体搜索域中命中得分的统计步骤包括:\n[0083] (1)商品实体词在商品实体搜索域内命中情况分为命中和不命中,其中将“命中”计为“1”,将“不命中”计为“0”;\n[0084] (2)根据商品实体词,从实体搜索域中获取相应的商品实体名称,并计算搜索域内命中的商品实体词和其所指代商品的相关性得分;\n[0085] 如果商品实体词在商品实体搜索域内命中,由于命中的商品实体词与其所指商品的名称基本是一致的,因而命中的产品实体词与其所指商品相关性默认为“1”;\n[0086] 比如商品实体词是“电脑”,在产品实体搜索域内也找到“电脑”一词,即代表实体搜索域内命中,由于产品实体名称“电脑”和其所代表的商品“电脑”在名称上是一致的,此时两者相关性应为“1”;\n[0087] 如果商品实体词在相关实体搜索域内命中,由于相关实体名称仅是其所指代商品的相似品,因而命中的实体名称和其所指代商品的相关性小于1,具体数值根据两类产品的属性相似度来定。\n[0088] 比如商品实体词是“电脑”,在相关产品实体搜索域内也找到“电脑”一词,即代表相关产品实体搜索域内命中,由于相关产品实体名称“电脑”实际指代的商品是“一体机”,此时两者相关性应是小于“1”的数值;\n[0089] (3)根据商品实体词所命中的搜索域,赋予相应的命中权重,计算商品实体词在实体搜索域内的命中得分:\n[0090] 商品实体词在产品实体搜索域中命中得分=命中分值*相关性分值*权重分值[0091] 商品属性词在属性搜索域内命中的得分的统计步骤包括:\n[0092] (1)商品属性词在属性搜索域中的命中情况分为“命中”和“不命中”,其中将“命中”计为“1”,将“不命中”计为“0”;\n[0093] (2)按照商品属性词所命中的属性搜索域,赋予相应的命中权重,计算商品属性词在属性搜索域内的命中得分;\n[0094] 商品属性词在属性搜索域中命中得分=命中分值*权重分值\n[0095] 由于商品属性词并非只有一个,关于他们的匹配在搜索中会有为“所有属性完全匹配”和“所有属性不完全匹配”两种:\n[0096] 在完全匹配情况下,n个商品属性词在属性搜索域内的命中得分为n个商品属性词在属性搜索域中命中得分的总和;\n[0097] 在不完全匹配情况下,n个商品属性词在属性搜索域内的命中得分为n个商品属性词命中得分的乘积,任何一个商品属性词的未命中都会导致命中得分为0;\n[0098] 特别地,由于名称属性搜索域的命中比基本属性搜索域的命中更能表明用户欲搜索的产品与电子商务网站内某一商品之间的高匹配度,因而名称属性搜索域的命中权重值大于基本属性搜索域的命中权重值;而实体搜索域的命中又比属性搜索域的命中更能说明用户欲搜索的产品与电子商务网站内某一商品之间的高匹配度因而,四个搜索域的命中权重之间的关系是:产品实体名称搜索域=相关产品实体名称搜索域>产品名称的属性搜索域>产品实体的基本属性搜索域;\n[0099] 步骤305:搜索系统根据评分模块输出的命中得分,统计商品搜索词在搜索域内的命中得分,从高至低对命中的产品信息进行排序,并将结果返回至搜索结果页面。\n[0100] 如图4所示,为本发明实施例中商品搜索方法实现的示例图,具体描述是:\n[0101] 继续以“用户当前预搜索的产品是苹果电脑”为例,本发明实施例中的搜索系统内含产品实体搜索域、相关产品实体搜索域、产品实体的基本属性搜索域、产品名称的属性搜索域,通过对电子商务网站内现有商品信息分析,在不同的域内会有不同的数据内容,可参阅图4中的表格所示。其中,商品的基本属性存于产品实体的基本属性搜索域内;商品名称属性是商品名称经“分词、去实体词”剩余的词语,其存于产品名称的属性搜索域内;商品实体词存于产品实体搜索域内,相关商品实体词存于相关产品实体搜索域内。\n[0102] 当用户输入“苹果电脑”时,本发明实施例中的商品搜索系统会做如下处理:\n[0103] 步骤1:搜索系统获取到搜索词“苹果电脑”,经分词后形成“苹果”和“电脑”两个词语,调用商品实体词库,明确“电脑”是用户欲搜索的商品实体,“苹果”是形容电脑的特征词;\n[0104] 步骤2:在产品实体搜索域和相关产品实体搜索域内搜索“电脑”,所有涉及“电脑”这一词的商品或与“电脑”相似的商品都会被搜索到,比如“一体机”;\n[0105] 步骤3:在产品实体的基本属性搜索域和产品名称的属性搜索域内搜索“苹果”;\n[0106] 由于“苹果”只在属性搜索域内做检索匹配,因而“苹果”在检索系统中只被视为对电脑特征的描述。\n[0107] 步骤4:根据“苹果”和“电脑”在各自搜索域内的命中情况,计算“苹果”和“电脑”在相应搜索内的命中得分,最终形成搜索结果“2015最新款21寸苹果电脑”、“水果系列之苹果外形平板电脑”、“2015新款21寸苹果一体机”。\n[0108] 为计算方便,假设各个搜索域内命中权重依次是:名称属性搜索域为10分,基本属性搜索域为5分,实体标签搜索域为20分,相关实体标签搜索域为20分;\n[0109] 现有四个商品,商品A为2015最新款21寸苹果电脑,商品B为水果系列之苹果外形平板电脑,商品C为2015新款21寸苹果一体机,商品D为景观水果之电脑形状苹果,关于这些商品的实体名称和属性如下表:\n[0110]\n[0111] 商品实体词“电脑”和商品属性词“苹果”在各个产品的搜索域内命中情况的统计如下表:\n[0112]\n[0113]\n[0114] 按照计分公式,搜索词在产品A所形成的搜索域内命中得分为:\n[0115] f(e)·b6=1(命中)*1(相关性)*20(权重)=20\n[0116] f(r)·br=0(未命中)*20(权重)=0\n[0117] s(名称属性搜索域)=1(命中)*1(相关性)*10(权重)=10\n[0118] s(基本属性搜索域)=1(命中)*1(相关性)*5(权重)=5\n[0119] Σs=f(e)·b6+f(r)·br+s(名称属性搜索域)+s(基本属性搜索域\n[0120] =20+0+10+5\n[0121] =35(分)\n[0122] 按照计分公式,搜索词在产品B所形成的搜索域内命中得分为:\n[0123] f(e)·b6=1(命中)*1(相关性)*20(权重)=20\n[0124] f(r)·br=0(未命中)*20(权重)=0\n[0125] s(名称属性搜索域)=1(命中)*1(相关性)*10(权重)=10\n[0126] s(基本属性搜索域)=0(未命中)*1(相关性)*5(权重)=0\n[0127] Σs=f(e)·b6+f(r)·br+s(名称属性搜索域)+s(基本属性搜索域\n[0128] =20+0+10+0\n[0129] =30(分)\n[0130] 按照计分公式,搜索词在产品C所形成的搜索域内命中得分为:\n[0131] f(e)·b6=0(未命中)*1(相关性)*20(权重)=0\n[0132] f(r)·br=1(命中)*0.9(相关性)*20(权重)=18\n[0133] s(名称属性搜索域)=1(命中)*1(相关性)*10(权重)=10\n[0134] s(基本属性搜索域)=1(命中)*1(相关性)*5(权重)=5\n[0135] Σs=f(e)·b6+f(r)·br+s(名称属性搜索域)+s(基本属性搜索域\n[0136] =0+18+10+5\n[0137] =33(分)\n[0138] 按照计分公式,搜索词在产品D所形成的搜索域内命中得分为:\n[0139] f(e)·b6=0(未命中)*1(相关性)*20(权重)=0\n[0140] f(r)·br=0(未命中)*20(权重)=0\n[0141] s(名称属性搜索域)=0(未命中)*1(相关性)*10(权重)=0\n[0142] s(基本属性搜索域)=0(未命中)*1(相关性)*5(权重)=0\n[0143] Σs=f(e)·b6+f(r)·br+s(名称属性搜索域)+s(基本属性搜索域\n[0144] =0+0+0+0\n[0145] =0(分)\n[0146] 由于命中得分为0时,表示该产品无需被召回,因而本次搜索的商品结果及排序应该是:A->C->B,即“2015最新款21寸苹果电脑”、“水果系列之苹果外形平板电脑”、“2015新款21寸苹果一体机。\n[0147] 和传统搜索方法的搜索结果相比,通过本发明实施例的搜索方法所实现的搜索不仅不会忽略对与“电脑”名称相似的产品的检索,也会避开对产品“苹果”的检索,提高检索速度的同时,也提高了检索准确度。\n[0148] 所属领域的普通技术人员应当理解:以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
法律信息
- 2017-07-11
- 2015-12-16
实质审查的生效
IPC(主分类): G06F 17/30
专利申请号: 201510465677.7
申请日: 2015.07.31
- 2015-11-18
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有引用任何外部专利数据! |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |