著录项信息
专利名称 | 标题关键词推荐方法及系统 |
申请号 | CN201210125441.5 | 申请日期 | 2012-04-25 |
法律状态 | 授权 | 申报国家 | 中国 |
公开/公告日 | 2013-10-30 | 公开/公告号 | CN103377232A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | 暂无 | IPC分类号 | 暂无查看分类表>
|
申请人 | 阿里巴巴集团控股有限公司 | 申请人地址 | 开曼群岛大开曼资本大厦一座四层847号邮箱
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 阿里巴巴集团控股有限公司 | 当前权利人 | 阿里巴巴集团控股有限公司 |
发明人 | 朱道勇;董芳英 |
代理机构 | 隆天知识产权代理有限公司 | 代理人 | 姜燕;郑特强 |
摘要
本申请公开了一种标题关键词推荐方法及系统,其中方法包括:接收数据对象;获取数据对象中标题的分词数据;从查询库中查询与所述标题的分词数据对应的关键词作为与所述标题相关的候选关键词;将候选关键词与所述标题的分词数据之间的相关性,与供求指数、基尼指数以及行业指数中的至少一个相结合来获取候选关键词与标题的分词数据之间的综合相关性;选择综合相关性排序前N个候选关键词作为所推荐的标题的关键词,N为自然数。本申请提供的方法及系统能够提供更为合理的标题关键词,使得数据对象获得更多的曝光量。
1.一种标题关键词推荐方法,包括:
接收数据对象;
获取所述数据对象中标题的分词数据;
从查询库中查询与所述标题的分词数据对应的关键词作为与所述标题相关的候选关键词;所述查询库包括预先获取的分词数据以及各分词数据对应的关键词;
将所述候选关键词与所述标题的分词数据之间的相关性,与用于体现与所述候选关键词相关的供求关系的供求指数、用于体现基于所述候选关键词能够获得的数据对象曝光程度的基尼指数以及用于体现所述候选关键词与所述数据对象所属行业之间相关性的行业指数中的至少一个相结合,来获取所述候选关键词与所述标题的分词数据之间的综合相关性;
选择综合相关性排序前N个候选关键词作为推荐的所述标题的关键词,N为自然数;
其中,如果网络搜索引擎接收到的用户查询信息中包括所述标题的关键词,则所述数据对象被作为搜索结果曝光给用户。
2.根据权利要求1所述的方法,其中,将所述候选关键词与所述标题的分词数据之间的相关性,与所述供求指数、所述基尼指数以及所述行业指数相结合,来获取所述候选关键词与所述标题的分词数据之间的综合相关性。
3.根据权利要求2所述的方法,其中,获取所述候选关键词与所述标题的分词数据之间的综合相关性,包括:通过将所述候选关键词与所述标题的分词数据之间的相关性、所述供求指数、所述基尼指数以及所述行业指数与它们各自的权重相乘而获得的综合加权值来获得所述综合相关性。
4.根据权利要求1-3中任一权利要求所述的方法,其中,获取所述数据对象中标题的分词数据,包括:
从所述标题中获取初始分词数据;
获取各初始分词数据与所述数据对象之间的相关性;
从所述初始分词数据中选择与所述数据对象之间的相关性排名前M个初始分词数据作为所述标题的分词数据,M为自然数。
5.根据权利要求1-3中任一权利要求所述的方法,还包括:根据搜索日志获取所述查询库中的分词数据以及分词数据对应的关键词。
6.根据权利要求5所述的方法,其中,根据搜索日志获取所述查询库中的分词数据以及分词数据对应的关键词,包括:
从搜索日志中获取待添加到所述查询库中的关键词;
获取待添加到所述查询库中的关键词的分词数据;
在所述查询库中建立从获得的所述分词数据到关键词的倒排索引。
7.根据权利要求6所述的方法,在从搜索日志中获取待添加到所述查询库中的关键词之后,还包括获取待添加到所述查询库中的关键词的供求指数、基尼指数和行业指数。
8.一种标题关键词推荐系统,包括:
接收模块,用于接收数据对象;
分词数据获取模块,与所述接收模块连接,用于获取所述数据对象中标题的分词数据;
查询模块,与所述分词数据获取模块连接,用于从查询库中查询与所述标题的分词数据对应的关键词作为与所述标题相关的候选关键词;所述查询库包括预先获取的分词数据以及各分词数据对应的关键词;
处理模块,与所述查询模块连接,用于将所述候选关键词与所述标题的分词数据之间的相关性,与用于体现与所述候选关键词相关的供求关系的供求指数、用于体现基于所述候选关键词能够获得的数据对象曝光程度的基尼指数以及用于体现所述候选关键词与所述数据对象所属行业之间相关性的行业指数中的至少一个相结合,来获取所述候选关键词与所述标题的分词数据之间的综合相关性;
选择模块,与所述处理模块连接,用于选择综合相关性排序前N个候选关键词作为推荐的所述标题的关键词,N为自然数;
其中,如果网络搜索引擎接收到的用户查询信息中包括所述标题的关键词,则所述数据对象被作为搜索结果曝光给用户。
9.根据权利要求8所述的系统,其中,所述处理模块用于通过将所述候选关键词与所述标题的分词数据之间的相关性、所述供求指数、所述基尼指数以及所述行业指数与它们各自的权重相乘而获得综合加权值来获得所述综合相关性。
10.根据权利要求9所述的系统,所述分词数据获取模块包括:
初始分词数据获取单元,用于从所述标题中获取初始分词数据;
相关性获取单元,与所述初始分词数据获取单元连接,用于获取各初始分词数据与所述数据对象之间的相关性;
选择单元,与所述相关性获取单元连接,用于从所述初始分词数据中选择与所述数据对象之间的相关性排名前M个初始分词数据作为所述标题的分词数据,M为自然数。
11.根据权利要求8-10中任一权利要求所述的系统,还包括查询库模块,与所述查询模块连接,用于根据搜索日志获取所述查询库中的分词数据以及分词数据对应的关键词。
12.根据权利要求11所述的系统,所述查询库模块包括:
搜索单元,用于从搜索日志中获取待添加到所述查询库中的关键词;
分词数据获取单元,与所述搜索单元连接,用于获取待添加到所述查询库中的关键词的分词数据;
倒排索引单元,与所述分词数据获取单元和所述搜索单元连接,用于在所述查询库中建立从获得的所述分词数据到获取的所述关键词的倒排索引。
标题关键词推荐方法及系统\n技术领域\n[0001] 本申请涉及信息处理技术,尤其涉及一种标题关键词推荐方法及系统。\n背景技术\n[0002] 在一些网站中,卖方用户为了使其产品、视频或图片等可以被访问网站的用户(以下简称搜索用户)看到,可以提供一些数据对象给网站。该数据对象通常包括用于描述产品的产品信息、用于描述视频的视频信息或用于描述图片的图片信息等文本数据,还可以包括图片、视频等。\n[0003] 通常,网站中的搜索引擎可以通过各数据对象的标题关键词来搜索与搜索用户的查询信息相关的数据对象。以数据对象的内容是用于描述产品的产品信息为例,在一些电子商务网站中,如果某条产品信息A的标题关键词被包括在搜索用户的查询信息中,则该条产品信息A将会被作为搜索结果,更有机会曝光显示给搜索用户。如果某条产品信息A的标题关键词总是不能或很多情况下不能被包括在搜索用户的查询信息中,则该条产品信息A的曝光量减小。可见,对于数据对象而言,选择合适的标题关键词,可以增大数据对象的曝光量,反之则会减小曝光量。另外,对于搜索用户而言,由于一些产品信息的标题关键词选择得不合适,因而使得搜索用户总是查询不到合适的产品信息或者查询到的产品信息与其查询意图不匹配,搜索用户不得不反复调整查询信息来进行查询,而搜索用户查询次数增多,会导致网站搜索引擎负荷增大。而且,如果搜索用户经常搜索不到合适的产品信息,也会降低用户体验。\n[0004] 为了使得数据对象的标题关键词尽可能地被包括在相关的查询信息中,可以通过对搜索日志全量进行分析来为数据对象推荐标题关键词。然而由于搜索日志全量的数据量庞大,运算过程复杂,对系统资源要求高,计算时间长,难以满足互联网领域中快速响应的要求。\n发明内容\n[0005] 本申请针对现有技术中存在的问题,提供一种标题关键词推荐方法及系统,以增大数据对象的曝光量,而且所需计算量小,对系统资源要求低,计算时间短,能够满足互连网行业快速响应的业务要求。\n[0006] 本申请提供了一种标题关键词推荐方法,包括:\n[0007] 接收数据对象;\n[0008] 获取所述数据对象中标题的分词数据;\n[0009] 从查询库中查询与所述标题的分词数据对应的关键词作为与所述标题相关的候选关键词;所述查询库包括预先获取的分词数据以及各分词数据对应的关键词;\n[0010] 将所述候选关键词与所述标题的分词数据之间的相关性,与用于体现与所述候选关键词相关的供求关系的供求指数、用于体现基于所述候选关键词能够获得的数据对象曝光程度的基尼指数以及用于体现所述候选关键词与所述数据对象所属行业之间相关性的行业指数中的至少一个相结合,来获取所述候选关键词与所述标题的分词数据之间的综合相关性;\n[0011] 选择综合相关性排序前N个候选关键词作为推荐的所述标题的关键词,N为自然数。\n[0012] 本申请还提供了一种标题关键词推荐系统,包括:\n[0013] 接收模块,用于接收数据对象;\n[0014] 分词数据获取模块,与所述接收模块连接,用于获取所述数据对象中标题的分词数据;\n[0015] 查询模块,与所述分词数据获取模块连接,用于从查询库中查询与所述标题的分词数据对应的关键词作为与所述标题相关的候选关键词;所述查询库包括预先获取的分词数据以及各分词数据对应的关键词;\n[0016] 处理模块,与所述查询模块连接,用于将所述候选关键词与所述标题的分词数据之间的相关性,与用于体现与所述候选关键词相关的供求关系的供求指数、用于体现基于所述候选关键词能够获得的数据对象曝光程度的基尼指数以及用于体现所述候选关键词与所述数据对象所属行业之间相关性的行业指数中的至少一个相结合,来获取所述候选关键词与所述标题的分词数据之间的综合相关性;\n[0017] 选择模块,与所述处理模块连接,用于选择综合相关性排序前N个候选关键词作为推荐的所述标题的关键词,N为自然数。\n[0018] 本申请提供的标题关键词推荐方法及系统,在基于数据对象的标题的分词数据从查询库中获取候选关键词之后,将候选关键词与数据对象之间的相关性与供求指数、基尼指数以及行业指数这三者中的至少一者相结合来获取综合相关性,再根据综合相关性筛选出高质量的关键词作为标题的关键词。在获取综合相关性时,考虑基尼指数,则推荐的标题关键词可以使得数据对象具有更大的曝光量。如果考虑行业指数,则推荐的标题关键词可以使得数据对象在相关的行业中的曝光量增大。如果考虑供求指数,则相当于是根据当前的供求关系来推荐标题关键词,使得所推荐的标题关键词更加符合当前的供求关系,进而增大数据对象的曝光量。\n[0019] 此外,基于供求指数、基尼指数以及行业指数这三者中的至少一者来获取标题关键词,使得标题关键词能够体现当前的供求关系等。这样,标题的关键词被包括在相关查询信息中的几率增大,搜索用户无需反复调整查询信息即可查询到符合其意图的数据对象,能够减少搜索用户查询次数,减小搜索引擎的负荷。\n[0020] 而且,在本申请实施例提供的方法和系统中,在从查询库中获取候选关键词之后,可以基于候选关键词的供求指数、基尼指数和行业指数这几个指数来确定最终的标题关键词。而这几个指数可以预先获取,无需线上获取,这样,在线上推荐标题关键词时所涉及的计算量小,对系统资源要求低,而且可以满足快速响应的要求。\n[0021] 通过以下参照附图对优选实施例的说明,本申请的上述以及其它目的、特征和优点将更加明显。\n附图说明\n[0022] 图1示例性示出本申请涉及到的操作环境的示意图;\n[0023] 图2示例性示出本申请标题关键词推荐方法实施例一的流程图;\n[0024] 图3示出本申请实施例中查询库中的数据组织形式;\n[0025] 图4示例性示出了一种电子商务平台的配置;\n[0026] 图5示例性示出了本申请标题关键词推荐方法实施例二的流程图;\n[0027] 图6示例性示出了图5中步骤202的具体步骤;\n[0028] 图7示例性示出了图5中步骤206的详细步骤;\n[0029] 图8示例性示出了本申请标题关键词推荐系统实施例的结构示意图。\n具体实施方式\n[0030] 下面将详细描述本申请的实施例。应当注意,这里描述的实施例只用于举例说明,并不用于限制本申请。\n[0031] 图1示例性示出本申请涉及到的一种示例操作环境的示意图,标题关键词推荐系统1可以由一台或多台服务器组成,图1中以包括一台服务器11为例进行介绍。该服务器11中可以存储查询库11a,该查询库11a可以包括预先获取的分词数据以及各分词数据对应的关键词。\n[0032] 在本申请的实施例中,采用分词技术可以将一个字或词的序列分割成一个一个单独的字或词,分割出的这些单独的字或词称作分词数据。当对关键词应用分词技术时,可以将关键词看作是一个字或词的序列。基于不同的分词算法,可以获得不同的分词数据。\n[0033] 图2示例性示出本申请标题关键词推荐方法实施例一的流程图,包括:\n[0034] 步骤101、接收数据对象。具体地,服务器11可以接收数据对象,从而获取该数据对象的标题。\n[0035] 步骤102、获取数据对象中标题的分词数据。\n[0036] 具体地,服务器11可以采用各种分词技术获取标题的分词数据。标题的分词数据可以包括标题的核心名词、修饰名词和修饰词等。\n[0037] 其中,标题的核心名词是指能够表达该标题的核心含义的词,修饰名词是起到修饰作用的名词,修饰词是起到修饰作用的一些形容词或副词等,例如可以是一些描述颜色、尺寸、形状等的词。\n[0038] 例如,对于一个标题“红色MP3播放器”进行分词,可以获得“红色”、“MP3”和“播放器”这三条分词数据,其中“红色”是修饰词,“MP3”是修饰名词,“播放器”是核心名词。\n[0039] 步骤103、从查询库中查询与标题的分词数据对应的关键词作为与标题相关的候选关键词。查询库11a中包括预先获取的分词数据以及各分词数据对应的关键词。查询库\n11a中数据的组织形式可以采用倒排索引的形式,即建立从分词数据到关键词的映射,如图\n3所示。\n[0040] 在图3中,在查询库11a中分别建立了四个分词数据“红色”、“播放器”、“MP3”和“女装”到多个关键词的索引,分词数据“红色”对应于关键词A和关键词B,分词数据“播放器”对应于关键词C和关键词D,分词数据“MP3”对应于关键词A、关键词B和关键词C,分词数据“女装”对应于关键词A和关键词E。\n[0041] 在步骤103中,服务器11可以基于步骤102中获取的分词数据从查询库11a中查询。\n服务器11可以基于标题的所有分词数据从查询库11a中查询,也可以只基于标题的核心名词从查询库11a中查询。例如,如果标题的核心名词是“播放器”,则服务器11通过从查询库中查询,可以查询到分词数据“播放器”对应的关键词,即,关键词C和关键词D。\n[0042] 服务器11在查询出标题的分词数据对应的关键词之后,还可以获取各个关键词与分词数据的相关性,进而选择出与标题相关的候选关键词。可以将各关键词按照与分词数据的相关性排序,然后选择出排序靠前的一定数量的关键词作为与标题相关的候选关键词。候选关键词的数量可以根据系统的数据处理能力来设置,例如可以取排名前50的关键词作为候选关键词。\n[0043] 可以采用各种方式来获取各个关键词与分词数据的相关性,例如可以采用文本相关性方法,在本申请的实施例中并不限制具体的相关性算法。\n[0044] 步骤104、将候选关键词与标题的分词数据之间的相关性,与用于体现与候选关键词相关的供求关系的供求指数、用于体现基于候选关键词能够获得的数据对象曝光程度的基尼指数以及用于体现候选关键词与数据对象所属行业之间的相关性的行业指数中的至少一个相结合,来获取所述候选关键词与标题的分词数据之间的综合相关性。\n[0045] 在本申请的实施例中,综合相关性是指除了考虑候选关键词与标题的分词数据之间的相关性之外,还考虑了其他指数而获得的体现候选关键词与标题分词数据之间的相关程度的一个指数。\n[0046] 其中,供求指数的公式可以表示如下:\n[0047] 供求指数=与候选关键词相关的搜索量/供应的数据对象的数量 (1)[0048] 其中,供应的数据对象的数量可以由服务器从搜索引擎中获取。以电子商务领域为例,电子商务平台中的搜索引擎是指用于为电子商务平台中的用户提供搜索服务的引擎。例如,对于一个买家而言,当他希望搜索某一类产品时,可以通过向搜索引擎输入查询信息来获取搜索结果,查询信息可以包括多个搜索关键词,搜索引擎返回的搜索结果包括多个数据对象。搜索引擎在搜索时,可以基于数据对象的标题和属性等进行文本检索。\n[0049] 对于搜索引擎而言,与搜索关键词相关的数据对象数量庞大。为了提供最相关的结果,可以显示相关性较大的一些数据对象,其余的相关性较小的则不显示。例如,对于某个搜索关键词,如果返回结果数是1000条,则显示其中满足相关性要求的200条数据对象。\n将每条数据对象与搜索关键词之间的相关性(在本申请中称作mlr)分为从1档到12档这12个档位,对于第i条数据对象,mlr记为mlri。如果满足相关性要求的数据对象的条数小于\n200,例如为n条,则记mlr(n+1)、mlr(n+2)、......、mlr200均为0。利用公式sum(mlr1+...mlr200)/12+返回结果数*(1+mlr200)/2/12可以计算出总的供应的数据对象的数量(即,供求指数计算公式(1)中的分母)。其中,返回结果数是指与用户搜索关键词相关的所有数据对象的总数。\n[0050] 基尼指数可以用公式 来表示。将基于某一个关键词的数据\n对象依据各数据对象的曝光量分成n组,wi表示第i组的曝光占比。曝光占比是指每一组的曝光量与n组的总的曝光量的比值。\n[0051] 行业指数可以通过与数据对象相关的卖方用户主营行业(例如,可以来源于电子商务平台中的卖方用户属性)、数据对象所属行业(例如,可以来源于数据对象的属性)、关键词行业(例如,可以来源于搜索引擎返回的数据对象的行业)、行业相似度系数(来源于行业分析)等来诊断出候选关键词行业和数据对象所属行业之间的相关性。其中数据对象所属行业可以是指数据对象被发布(例如,可以是在电子商务平台中被发布)时所属的行业。\n[0052] 行业指数可以用如下公式(2)表示:\n[0053] 行业指数=M1*W1+M2*W2 (2)\n[0054] 其中,M1是关键词行业与数据对象所属行业之间的相似度系数,M2是关键词行业与卖方用户主营行业之间的相似度系数,W1和W2是权重值,例如,W1可以取值为0.75,W2可以取值为0.25。\n[0055] 利用公式(2)计算候选关键词的行业指数时,M1的值可以取候选关键词行业与数据对象所属行业之间的相似度系数,M2的值可以取候选关键词行业与卖方用户主营行业之间的相似度系数。\n[0056] 在获得了每个候选关键词的四类指数之后,即,候选关键词与标题的分词数据之间的相关性、供求指数、基尼指数和行业指数,可以分别为每个指数设置权重W11、W12、W13和W14,例如,这四个权重的取值可以分别是W11=0.4、W12=0.2、W13=0.1和W14=0.3。\n[0057] 根据一个实施例,可以将上述四个指数与各自的权重相乘来获得综合加权值,从而获得综合相关性。例如,可以通过线性回归的统计方法,经过归一化处理计算出综合相关-t\n性如下:综合相关性=1/(1+e ),其中,t=各项指数的加权项+修正系数,e是自然对数的底数。其中,修正系数可以根据数据处理的需要来设置。\n[0058] 根据另一个实施例,也可以采用别的统计方法,不是将行业指数、供求指数和基尼指数这三个指数全部引入,而是将这三个指数中的一部分结合候选关键词与标题分词数据的相关性来计算综合相关性。\n[0059] 当然,在获取综合相关性时还可以考虑更多的指数,所考虑的指数应当能够获得合适的标题关键词,该合适的标题关键词可以提高数据对象的曝光量。\n[0060] 根据另一个实施例,各关键词的供求指数、基尼指数和行业指数等可以预先获取,例如可以将各个关键词的供求指数、基尼指数和行业指数等存储到一个指数库中。候选关键词与标题的分词数据之间的相关性可以存储在查询库中。在步骤103中获取候选关键词之后,从查询库中可以获取候选关键词与标题的分词数据之间的相关性,然后从指数库中可以获取各候选关键词对应的供求指数、基尼指数和行业指数。\n[0061] 步骤105、选择综合相关性排序前N个候选关键词作为推荐的标题的关键词,N为自然数。\n[0062] 在步骤105中,服务器11可以将各个候选关键词按照综合相关性从大到小的顺序排列,然后选择排序前N的候选关键词作为最终推荐的标题关键词。\n[0063] 对于卖方用户而言,在获取了服务器11推荐的标题关键词之后,可以依据服务器\n11所推荐的标题关键词修改他的标题,使得他的数据对象能够得到尽可能多的曝光量。\n[0064] 本申请提供的标题关键词推荐方法,在基于数据对象的标题的分词数据从查询库中获取候选关键词之后,将候选关键词与标题的分词数据之间的相关性与供求指数、基尼指数以及行业指数这三者中的至少一者相结合来获取综合相关性,再根据综合相关性筛选出高质量的关键词作为标题的关键词。在获取综合相关性时,考虑基尼指数,则推荐的标题关键词可以使得数据对象具有更大的曝光量。如果考虑行业指数,则推荐的标题关键词可以使得数据对象在相关的行业中的曝光量增大。如果考虑供求指数,则相当于是根据当前的供求关系来推荐标题关键词,使得所推荐的标题关键词更加符合当前的供求关系,进而增大数据对象的曝光量。\n[0065] 此外,基于供求指数、基尼指数以及行业指数这三者中的至少一者来获取标题关键词,使得标题的关键词能够体现当前的供求关系等。这样,标题的关键词被包括在相关查询信息中的几率增大,搜索用户无需反复调整查询信息即可查询到符合其意图的产品信息,能够减少搜索用户查询次数,减小搜索引擎的负荷。\n[0066] 而且,在本申请实施例提供的方法和系统中,在从查询库中获取候选关键词之后,可以基于候选关键词的供求指数、基尼指数和行业指数这几个指数来确定最终的标题关键词。而这几个指数可以预先获取,无需线上获取,这样,在线上推荐标题关键词时所涉及的计算量小,对系统资源要求低,而且可以满足快速响应的要求。\n[0067] 下面结合具体的电子商务平台的配置来更详细地描述本申请的实现方式。\n[0068] 图4示例性示出了一种电子商务平台的配置。该电子商务平台的配置包括基础数据层21、算法模型层(包括模型层22和算法层23)、应用接口层24。\n[0069] 基础数据层21为算法模型层和应用接口层24提供了基础数据,例如,关键词的分词数据21a、标题的分词数据21b、产品信息的属性数据21c和卖方用户数据21d等。例如,卖方用户数据21d包括该电子商务平台的会员的相关信息。\n[0070] 算法层23涉及关键词的各指数的算法23a、关键词与标题的分词数据的相关性算法23b、词与产品信息的关系算法23c、关键词与卖方用户数据关系算法23d等。词与产品信息的关系算法23c可以包括分词算法等。\n[0071] 模型层22涉及算法层23的各种算法对应的输出模型,例如基尼指数模型22a、供求指数模型22b、行业指数模型22c和相关性模型22d,模型层22还涉及关键词与产品信息相关性表22e和关键词与卖方用户表22f等。\n[0072] 应用接口层24涉及到各种具体的应用,例如,产品发布、优化的关键词推荐系统\n24a、招商系统24b、竞价词推荐系统24c以及其他应用24d。\n[0073] 在图4中还示出了计算模块25,该计算模块25可以进行从查询库中获取候选关键词的步骤、获取与卖方用户相关的标题关键词的步骤、获取各种指数的步骤,等等。\n[0074] 在该电子商务平台中还可以包括监控模块26,监控模块26可以进行业务监控。业务监控用于监控卖方用户是否会将所推荐的标题关键词添加到产品信息的标题中。\n[0075] 图5示例性示出了本申请标题关键词推荐方法实施例二的流程图。在实施例二中,主要以数据对象的内容是产品信息为例进行介绍。根据实施例二的方法包括以下步骤:\n[0076] 步骤201、接收产品信息。\n[0077] 步骤202、获取产品信息中标题的分词数据。\n[0078] 在步骤202中,可以从标题中获取初始分词数据;然后,获取各初始分词数据与产品信息之间的相关性;再从初始分词数据中选择与产品信息之间的相关性排名前M个初始分词数据作为标题的分词数据,M为自然数。\n[0079] 图6示例性示出了图5中步骤202的具体步骤,包括:\n[0080] 步骤2021、清洗产品信息的标题。例如,可以去除标题中的一些停词(stop word)、标点符号等。\n[0081] 步骤2022、分析该产品信息的标题,实现标题分词(可以通过分词词库来实现标题分词),获取标题的核心名词、修饰名词和修饰词等初始分词数据,并获得各个初始分词数据与产品信息之间的相关性。\n[0082] 可选地,可以通过行业融合性词库来获取各初始分词数据的权重。行业融合性词库包括通过行业数据分析得出的行业相关词库表以及与行业高度相关的核心词库。在步骤\n2022中获得初始分词数据之后,可以通过行业融合性词库来获取初始分词数据的行业与产品信息的行业(或卖方用户行业)之间的相似度,从而计算初始分词数据的权重。\n[0083] 可选地,在获取初始分词数据之后,可以通过分词融合性词库来对分词进行融合处理。\n[0084] 一些初始分词数据含义模糊,无法正确体现产品信息。例如经过标题分词处理后获得了一个分词数据“设备”,然而该分词数据无法明确该产品信息是属于何种行业的设备,例如无法确定该产品信息是属于电子设备还是机械设备或其他设备。\n[0085] 为了使得分词数据含义清楚,可以将该分词数据与其他词进行融合。例如,可以根据分词融合性词库来将该分词数据“设备”与其他分词融合。在分词融合性词库包括一些分词组合的对照表。当步骤2022中获取的初始分词数据出现在分词融合性词库中时,可以基于该分词融合性词库采用一定的策略来分析是否需要将该初始分词与一些修饰词组合在一起。\n[0086] 然后,可以依据各初始分词数据的权重和经过分词融合处理后的结果来综合分析各初始分词数据与产品信息之间的相关性。\n[0087] 步骤2023、根据上述相关性选择出最能体现产品信息的高质量的分词数据。例如,可以将各初始分词数据依照与产品信息之间的相关性从大到小排序,选择排名靠前的M个初始分词数据作为标题的分词数据。\n[0088] 接下来,返回图5,描述步骤203。在步骤203中,从查询库中查询与标题的分词数据对应的关键词作为与所述标题相关的候选关键词。\n[0089] 查询库中的数据的组织形式可以如图3所示。可以基于Sphinx、Lucene、Coreseek等文本检索算法来从查询库中获取候选关键词。\n[0090] 另外,也可以采用将Sphinx结合PostgreSQL获得的全文检索方法来从查询库中获取候选关键词。\n[0091] 步骤204、将各候选关键词与标题的分词数据之间的相关性,与各候选关键词的供求指数、基尼指数和行业指数中的至少一个相结合,获取各候选关键词与标题的分词数据之间的综合相关性。\n[0092] 步骤205、将各个候选关键词按照综合相关性排序,例如按照从大到小的顺序排列,选择排名前N个候选关键词作为推荐的标题关键词。\n[0093] 在图5所示的实施例中,还可以包括根据搜索日志获取所述查询库中的分词数据以及分词数据对应的关键词的步骤206。该步骤206是独立于步骤201-205之外的一个步骤,该步骤206可以以线下的方式执行,即该步骤206不是从步骤201接收到产品信息后开始执行,而是可以定期或不定期地以线下方式进行。\n[0094] 图7示例性示出了图5中步骤206的详细步骤,包括:\n[0095] 步骤2061、获取待添加到查询库中的关键词。例如,可以根据搜索日志中搜索关键词的搜索次数和搜索返回结果数来从搜索日志中获取待添加到查询库中的关键词。例如,可以筛选出搜索次数排名靠前的一定数量(例如,排名前40万)的搜索关键词作为待添加到查询库中的关键词。此处,搜索日志中的搜索关键词可以作为查询库中的关键词的来源。\n[0096] 在步骤2061中,还可以进行搜索关键词的清洗、过滤、修饰和合并,以获得高质量的搜索关键词。\n[0097] 步骤2062、获取待添加到查询库中的关键词的分词数据。可以通过分词词库和分词融合性词库来获取待添加到查询库中的关键词的分词数据。\n[0098] 还可以结合黑名单词库,去除掉那些属于黑名单词库中的分词数据。\n[0099] 步骤2063、在查询库中建立从获得的分词数据到关键词的倒排索引。\n[0100] 在步骤2061之后、步骤2062之前还可以获取待添加到查询库中的关键词的供求指数、基尼指数和行业指数等。获取各指数的方法与前述各实施例介绍的相同,各指数可以添加到一个指数库中。\n[0101] 通过上述步骤2061-2063,就实现了查询库的建立。\n[0102] 在图5所示的实施例中,如果从查询库中找不到候选关键词,则可以提供一个补充步骤,即,为当前接收到的产品信息的标题提供与该产品信息所属行业相关的关键词。\n[0103] 如同本文前面提及的,本申请实施例中的各个步骤,可以由一台服务器实现。可选地,也可以由多台服务器实现。例如,对于图5所示的实施例,可以由一台服务器执行步骤\n201-205,由另一台服务器执行步骤206。这两台服务器之间可以交互数据。\n[0104] 或者,可以将相同的处理由同一台服务器处理,提高数据处理效率。例如,对于步骤202和206,均涉及到获取分词数据的处理,这两个步骤可以由同一台应用服务器实现。其他步骤可以由另一台数据服务器实现。应用服务器功能单一,数据处理效率高,而且不会影响数据服务器中进行的处理。这样,通过应用服务器和数据服务器可以提高标题关键词的推荐效率。\n[0105] 图8示例性示出了本申请标题关键词推荐系统实施例的结构示意图,该系统包括接收模块31、分词数据获取模块32、查询模块33、处理模块34和选择模块35。接收模块31用于接收数据对象。分词数据获取模块32与接收模块31连接,用于获取数据对象中标题的分词数据。查询模块33与分词数据获取模块32连接,用于从查询库中查询与标题的分词数据对应的关键词作为与标题相关的候选关键词。处理模块34与查询模块33连接,用于将候选关键词与标题的分词数据之间的相关性,与用于体现与候选关键词相关的供求关系的供求指数、用于体现基于候选关键词能够获得的数据对象曝光程度的曝光指数以及用于体现候选关键词与所述数据对象所属行业之间的相关性的行业指数中的至少一个相结合,来获取候选关键词与标题的分词数据之间的综合相关性。选择模块35与处理模块34连接,用于选择综合相关性排序前N个候选关键词作为推荐的标题的关键词,N为自然数。\n[0106] 具体地,处理模块34可以用于通过将所述候选关键词与所述标题的分词数据之间的相关性、供求指数、基尼指数以及行业指数与它们各自的权重相乘而获得综合加权值来获得综合相关性。\n[0107] 其中,分词数据获取模块32可以包括初始分词数据获取单元321、相关性获取单元\n322和选择单元323。初始分词数据获取单元321用于从标题中获取初始分词数据。相关性获取单元322与初始分词数据获取单元321连接,用于获取各初始分词数据与数据对象之间的相关性。选择单元323与相关性获取单元322连接,用于从初始分词数据中选择与数据对象之间的相关性排名前M个初始分词数据作为所述标题的分词数据,M为自然数。\n[0108] 在以上技术方案的基础上,该系统还可以包括查询库模块36,该查询库模块36与查询模块33连接,用于根据搜索日志获取查询库中的分词数据以及分词数据对应的关键词。\n[0109] 该查询模块36可以包括搜索单元361、分词数据获取单元362和倒排索引单元363。\n搜索单元361用于从搜索日志中获取待添加到所述查询库中的关键词。分词数据获取单元\n362与搜索单元361连接,用于获取待添加到查询库中的关键词的分词数据。倒排索引单元\n363与搜索单元361和分词数据获取单元362连接,用于在查询库中建立从获得的分词数据到获得的关键词的倒排索引。\n[0110] 在以上技术方案的基础上,该系统还可以包括用于获取待添加到查询库中的关键词的供求指数、基尼指数和行业指数的模块。\n[0111] 本申请提供的方法及其步骤可以由具有数据处理能力的一个或多个处理设备例如一个或多个服务器运行计算机可执行指令来实现。服务器的存储介质中可以存储各种用于执行本申请提供的方法的各个步骤的指令。\n[0112] 本申请的系统中的各个模块可以由运行计算机可执行指令的一个或多个服务器实现。各个模块可以为该服务器运行计算机可执行指令时具有相应功能的设备组件。\n[0113] 虽然已参照典型实施例描述了本申请,但应当理解,所用的术语是说明和示例性、而非限制性的术语。由于本申请能够以多种形式具体实施而不脱离本申请的精神或实质,所以应当理解,上述实施例不限于任何前述的细节,而应在随附权利要求所限定的精神和范围内广泛地解释,因此落入权利要求或其等效范围内的全部变化和改型都应为随附权利要求所涵盖。
法律信息
- 2016-12-07
- 2013-11-27
实质审查的生效
IPC(主分类): G06F 17/30
专利申请号: 201210125441.5
申请日: 2012.04.25
- 2013-10-30
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有引用任何外部专利数据! |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |