著录项信息
专利名称 | 文件推荐方法和装置 |
申请号 | CN201310652678.3 | 申请日期 | 2013-12-05 |
法律状态 | 授权 | 申报国家 | 中国 |
公开/公告日 | 2015-06-10 | 公开/公告号 | CN104699696A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/30 | IPC分类号 | G;0;6;F;1;7;/;3;0查看分类表>
|
申请人 | 深圳市腾讯计算机系统有限公司 | 申请人地址 | 广东省深圳市南山区高新区高新南一路飞亚达大厦5-10楼
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 深圳市腾讯计算机系统有限公司 | 当前权利人 | 深圳市腾讯计算机系统有限公司 |
发明人 | 尹程果 |
代理机构 | 北京三高永信知识产权代理有限责任公司 | 代理人 | 关文魁 |
摘要
本发明公开了一种文件推荐方法和装置,属于网络技术领域。所述方法包括:对第一名称进行分词得到第一关键词集合;根据预设对应关系,获取至少一个第二名称和第二关键词集合,所述预设对应关系包括关键词与包含所述关键词的文件名称之间的对应关系;获取所述第一关键词集合和每个第二名称对应的第二关键词集合中相同的关键词作为匹配关键词;获取所述每个第二名称包括的匹配关键词在所述第一名称中的权重;确定待推荐的第二名称;推荐所述确定的第二名称所指示的文件。本发明通过根据匹配关键词的词性确定权重,根据权重从多个备选的第二名称中确定待推荐的第二名称,提高了最终推荐的文件名称与当前打开文件的名称的相关度,提高了推荐成功率。
1.一种文件推荐方法,其特征在于,所述方法包括:
对第一名称进行分词,得到第一关键词集合,所述第一名称为当前打开文件的名称,所述第一关键词集合包括所述第一名称分词得到的至少一个关键词,所述第一名称为发布者自定义的名称;
根据预设对应关系,获取至少一个第二名称和所述至少一个第二名称对应的第二关键词集合,所述第二名称为所述第一关键词集合中的关键词对应的文件名称,所述预设对应关系包括关键词与包含所述关键词的文件名称之间的对应关系;
获取所述第一关键词集合和每个第二名称对应的第二关键词集合中相同的关键词,将所述相同的关键词作为匹配关键词;
根据所述第一关键词集合中每个关键词的类型和出现频率中的至少一项,获取所述每个关键词在所述第一名称中的权重;
获取所述每个第二名称包括的匹配关键词在所述第一名称中的权重;
根据所述每个第二名称包括的匹配关键词在所述第一名称中的权重,确定待推荐的第二名称;
推荐所述确定的第二名称所指示的文件。
2.根据权利要求1所述的方法,其特征在于,根据预设对应关系,获取至少一个第二名称和所述至少一个第二名称对应的第二关键词集合包括:
根据所述预设对应关系,获取所述至少一个第二名称;
对于所述至少一个第二名称中的每个第二名称,对所述第二名称进行分词,得到第二关键词集合,所述第二关键词集合包括所述第二名称分词得到的至少一个关键词。
3.根据权利要求1所述的方法,其特征在于,根据所述第一关键词集合中每个关键词的类型和出现频率中的至少一项,获取所述每个关键词在所述第一名称中的权重包括:
根据所述每个关键词的类型对应的权重级别,按照权重级别从高到低的顺序为所述每个关键词分配权重,使得权重级别高的关键词所分配的权重大于权重级别低的关键词所分配的权重;或,
按照所述每个关键词的出现频率从高到低的顺序为所述每个关键词分配权重,使得出现频率高的关键词所分配的权重大于出现频率低的关键词所分配的权重;或,根据所述每个关键词的类型对应的权重级别,按照权重级别从高到低的顺序为所述每个关键词分配权重,使得权重级别高的关键词所分配的权重大于权重级别低的关键词所分配的权重;
根据所述每个关键词的出现频率,对所述每个关键词所分配的权重进行调整。
4.根据权利要求1所述的方法,其特征在于,所述关键词的类型包括名词、动词或虚词,名词的权重级别高于动词和虚词的权重级别;
所述关键词的出现频率为所述关键词在已存储的文件名称中出现的频率,或者,所述关键词的出现频率为所述关键词在已存储的指定类别的文件名称中出现的频率,所述指定类别为所述当前打开文件所属的类别。
5.根据权利要求4所述的方法,其特征在于,名词中姓名的权重级别高于其他名词的权重级别。
6.根据权利要求1所述的方法,其特征在于,根据所述每个第二名称包括的匹配关键词在所述第一名称中的权重,确定待推荐的第二名称包括:
根据所述每个第二名称包括的匹配关键词在所述第一名称中的权重,确定所述每个第二名称的权重;
按照所述每个第二名称的权重从大到小的顺序,将预设数目的第二名称确定为所述待推荐的第二名称。
7.根据权利要求6所述的方法,其特征在于,根据所述每个第二名称包括的匹配关键词在所述第一名称中的权重,确定所述每个第二名称的权重包括:
将所述每个第二名称包括的匹配关键词在所述第一名称中的权重的和值确定为所述每个第二名称的权重;或,
根据所述每个第二名称所指示文件的发布时间,确定所述每个第二名称的时间权重,按照预设比例,对所述每个第二名称包括的匹配关键词在所述第一名称中的权重的和值以及所述时间权重进行加权计算,得到加权和值,将所述加权和值确定为所述每个第二名称的权重。
8.一种文件推荐装置,其特征在于,所述装置包括:
第一分词模块,用于对第一名称进行分词,得到第一关键词集合,所述第一名称为当前打开文件的名称,所述第一关键词集合包括所述第一名称分词得到的至少一个关键词,所述第一名称为发布者自定义的名称;
第二集合获取模块,用于根据预设对应关系,获取至少一个第二名称和所述至少一个第二名称对应的第二关键词集合,所述第二名称为所述第一关键词集合中的关键词对应的文件名称,所述预设对应关系包括关键词与包含所述关键词的文件名称之间的对应关系;
匹配模块,用于获取所述第一关键词集合和每个第二名称对应的第二关键词集合中相同的关键词,将所述相同的关键词作为匹配关键词;
第一权重获取模块,用于根据所述第一关键词集合中每个关键词的类型和出现频率中的至少一项,获取所述每个关键词在所述第一名称中的权重;
权重获取模块,用于获取所述每个第二名称包括的匹配关键词在所述第一名称中的权重;
名称确定模块,用于根据所述每个第二名称包括的匹配关键词在所述第一名称中的权重,确定待推荐的第二名称;
推荐模块,用于推荐所述确定的第二名称所指示的文件。
9.根据权利要求8所述的装置,其特征在于,所述第二集合获取模块包括:
第二名称获取单元,用于根据所述预设对应关系,获取所述至少一个第二名称;
第二分词单元,用于对于所述至少一个第二名称中的每个第二名称,对所述第二名称进行分词,得到第二关键词集合,所述第二关键词集合包括所述第二名称分词得到的至少一个关键词。
10.根据权利要求8所述的装置,其特征在于,所述第一权重获取模块包括:
第一权重获取单元,用于根据所述每个关键词的类型对应的权重级别,按照权重级别从高到低的顺序为所述每个关键词分配权重,使得权重级别高的关键词所分配的权重大于权重级别低的关键词所分配的权重;或,
第二权重获取单元,用于按照所述每个关键词的出现频率从高到低的顺序为所述每个关键词分配权重,使得出现频率高的关键词所分配的权重大于出现频率低的关键词所分配的权重;或,
第三权重获取单元,用于根据所述每个关键词的类型对应的权重级别,按照权重级别从高到低的顺序为所述每个关键词分配权重,使得权重级别高的关键词所分配的权重大于权重级别低的关键词所分配的权重;
调整单元,用于根据所述每个关键词的出现频率,对所述每个关键词所分配的权重进行调整。
11.根据权利要求8所述的装置,其特征在于,所述关键词的类型包括名词、动词或虚词,名词的权重级别高于动词和虚词的权重级别;
所述关键词的出现频率为所述关键词在已存储的文件名称中出现的频率,或者,所述关键词的出现频率为所述关键词在已存储的指定类别的文件名称中出现的频率,所述指定类别为所述当前打开文件所属的类别。
12.根据权利要求11所述的装置,其特征在于,名词中姓名的权重级别高于其他名词的权重级别。
13.根据权利要求8所述的装置,其特征在于,所述名称确定模块包括:
权重确定单元,用于根据所述每个第二名称包括的匹配关键词在所述第一名称中的权重,确定所述每个第二名称的权重;
待推荐名称确定单元,用于按照所述每个第二名称的权重从大到小的顺序,将预设数目的第二名称确定为所述待推荐的第二名称。
14.根据权利要求13所述的装置,其特征在于,所述权重确定单元用于将所述每个第二名称包括的匹配关键词在所述第一名称中的权重的和值确定为所述每个第二名称的权重;
或,
所述权重确定单元用于根据所述每个第二名称所指示文件的发布时间,确定所述每个第二名称的时间权重,按照预设比例,对所述每个第二名称包括的匹配关键词在所述第一名称中的权重的和值以及所述时间权重进行加权计算,得到加权和值,将所述加权和值确定为所述每个第二名称的权重。
文件推荐方法和装置\n技术领域\n[0001] 本发明涉及网络技术领域,特别涉及一种文件推荐方法和装置。\n背景技术\n[0002] 在日常的线上活动中,用户时时刻刻都在面对着各种各样的信息,但却很难从中筛选出自己真正感兴趣的信息。为了便于用户的筛选,服务器可以根据用户的浏览记录、兴趣爱好等,为用户推荐其可能感兴趣的信息。\n[0003] 以视频为例,在推荐视频时,服务器可以为用户推荐当前播放视频所属的类型下最热门的视频,如,当前播放视频为“体育”类型的视频时,服务器为用户推荐“体育”类型下最热门的视频。或者,服务器计算每个视频的名称与当前播放视频的名称之间的LD\n(Levenshtein Distance,编辑距离),将名称与当前播放视频的名称之间的LD距离最小的视频推荐给用户。\n[0004] 推荐当前播放视频所属的类型下最热门的视频时,该最热门的视频与当前播放视频的相关度可能很低,进而导致推荐成功率低;而服务器采用计算LD距离的方法推荐视频时,LD距离只能机械地度量不同视频名称之间文字编辑层面的差异,使得最终确定推荐的视频名称与当前播放视频名称在语义上可能相差甚远,同样会造成视频相关度很低,进而导致推荐成功率很低。\n发明内容\n[0005] 为了解决现有技术的问题,本发明实施例提供了一种文件推荐方法和装置。所述技术方案如下:\n[0006] 第一方面,提供了一种文件推荐方法,所述方法包括:\n[0007] 对第一名称进行分词,得到第一关键词集合,所述第一名称为当前打开文件的名称,所述第一关键词集合包括所述第一名称分词得到的至少一个关键词;\n[0008] 根据预设对应关系,获取至少一个第二名称和所述至少一个第二名称对应的第二关键词集合,所述第二名称为所述第一关键词集合中的关键词对应的文件名称,所述预设对应关系包括关键词与包含所述关键词的文件名称之间的对应关系;\n[0009] 获取所述第一关键词集合和每个第二名称对应的第二关键词集合中相同的关键词,将所述相同的关键词作为匹配关键词;\n[0010] 获取所述每个第二名称包括的匹配关键词在所述第一名称中的权重;\n[0011] 根据所述每个第二名称包括的匹配关键词在所述第一名称中的权重,确定待推荐的第二名称;\n[0012] 推荐所述确定的第二名称所指示的文件。\n[0013] 第二方面,提供了一种文件推荐装置,所述装置包括:\n[0014] 第一分词模块,用于对第一名称进行分词,得到第一关键词集合,所述第一名称为当前打开文件的名称,所述第一关键词集合包括所述第一名称分词得到的至少一个关键词;\n[0015] 第二集合获取模块,用于根据预设对应关系,获取至少一个第二名称和所述至少一个第二名称对应的第二关键词集合,所述第二名称为所述第一关键词集合中的关键词对应的文件名称,所述预设对应关系包括关键词与包含所述关键词的文件名称之间的对应关系;\n[0016] 匹配模块,用于获取所述第一关键词集合和每个第二名称对应的第二关键词集合中相同的关键词,将所述相同的关键词作为匹配关键词;\n[0017] 权重获取模块,用于获取所述每个第二名称包括的匹配关键词在所述第一名称中的权重;\n[0018] 名称确定模块,用于根据所述每个第二名称包括的匹配关键词在所述第一名称中的权重,确定待推荐的第二名称;\n[0019] 推荐模块,用于推荐所述确定的第二名称所指示的文件。\n[0020] 本发明实施例提供的技术方案带来的有益效果是:\n[0021] 本发明实施例提供的方法和装置,通过对当前打开文件的第一名称进行处理,得到多个备选的第二名称,根据该第一名称对每个第二名称进行匹配,确定每个第二名称包括的匹配关键词,并根据匹配关键词的词性确定权重,从而根据权重从多个备选的第二名称中确定待推荐的第二名称,并推荐该确定的第二名称所指示的文件,提高了最终推荐的文件名称与当前打开文件的名称的相关度,提高了推荐成功率。\n附图说明\n[0022] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。\n[0023] 图1是本发明实施例提供的一种文件推荐方法的流程图;\n[0024] 图2是本发明实施例提供的一种文件推荐方法的流程图;\n[0025] 图3是本发明实施例提供的一种文件推荐装置结构示意图;\n[0026] 图4是本发明实施例提供的一种服务器结构示意图。\n具体实施方式\n[0027] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。\n[0028] 图1是本发明实施例提供的一种文件推荐方法的流程图。该发明实施例的执行主体为服务器,参见图1,所述方法包括:\n[0029] 101、对第一名称进行分词,得到第一关键词集合,该第一名称为当前打开文件的名称,该第一关键词集合包括该第一名称分词得到的至少一个关键词。\n[0030] 102、根据预设对应关系,获取至少一个第二名称和该至少一个第二名称对应的第二关键词集合,该第二名称为该第一关键词集合中的关键词对应的文件名称,该预设对应关系包括关键词与包含该关键词的文件名称之间的对应关系。\n[0031] 103、获取该第一关键词集合和每个第二名称对应的第二关键词集合中相同的关键词,将该相同的关键词作为匹配关键词。\n[0032] 104、获取该每个第二名称包括的匹配关键词在该第一名称中的权重。\n[0033] 105、根据该每个第二名称包括的匹配关键词在该第一名称中的权重,确定待推荐的第二名称。\n[0034] 106、推荐该确定的第二名称所指示的文件。\n[0035] 本发明实施例提供的方法,通过对当前打开文件的第一名称进行处理,得到多个备选的第二名称,根据该第一名称对每个第二名称进行匹配,确定每个第二名称包括的匹配关键词,并根据匹配关键词的词性确定权重,从而根据权重从多个备选的第二名称中确定待推荐的第二名称,并推荐该确定的第二名称所指示的文件,提高了最终推荐的文件名称与当前打开文件的名称的相关度,提高了推荐成功率。\n[0036] 可选地,根据预设对应关系,获取至少一个第二名称和该至少一个第二名称对应的第二关键词集合包括:\n[0037] 根据该预设对应关系,获取该至少一个第二名称;\n[0038] 对于该至少一个第二名称中的每个第二名称,对该第二名称进行分词,得到第二关键词集合,该第二关键词集合包括该第二名称分词得到的至少一个关键词。\n[0039] 可选地,获取该每个第二名称包括的匹配关键词在该第一名称中的权重之前,该方法还包括:\n[0040] 根据该第一关键词集合中每个关键词的类型和出现频率中的至少一项,获取该每个关键词在该第一名称中的权重。\n[0041] 可选地,根据该第一关键词集合中每个关键词的类型和出现频率中的至少一项,获取该每个关键词在该第一名称中的权重包括:\n[0042] 根据该每个关键词的类型对应的权重级别,按照权重级别从高到低的顺序为该每个关键词分配权重,使得权重级别高的关键词所分配的权重大于权重级别低的关键词所分配的权重;或,\n[0043] 按照该每个关键词的出现频率从高到低的顺序为该每个关键词分配权重,使得出现频率高的关键词所分配的权重大于出现频率低的关键词所分配的权重;或,\n[0044] 根据该每个关键词的类型对应的权重级别,按照权重级别从高到低的顺序为该每个关键词分配权重,使得权重级别高的关键词所分配的权重大于权重级别低的关键词所分配的权重;\n[0045] 根据该每个关键词的出现频率,对该每个关键词所分配的权重进行调整。\n[0046] 可选地,该关键词的类型包括名词、动词或虚词,名词的权重级别高于动词和虚词的权重级别;\n[0047] 该关键词的出现频率为该关键词在已存储的文件名称中出现的频率,或者,该关键词的出现频率为该关键词在已存储的指定类别的文件名称中出现的频率,该指定类别为该当前打开文件所属的类别。\n[0048] 可选地,名词中姓名的权重级别高于其他名词的权重级别。\n[0049] 可选地,根据该每个第二名称包括的匹配关键词在该第一名称中的权重,确定待推荐的第二名称包括:\n[0050] 根据该每个第二名称包括的匹配关键词在该第一名称中的权重,确定该每个第二名称的权重;\n[0051] 按照该每个第二名称的权重从大到小的顺序,将预设数目的第二名称确定为该待推荐的第二名称。\n[0052] 可选地,根据该每个第二名称包括的匹配关键词在该第一名称中的权重,确定该每个第二名称的权重包括:\n[0053] 将该每个第二名称包括的匹配关键词在该第一名称中的权重的和值确定为该每个第二名称的权重;或,\n[0054] 根据该每个第二名称所指示文件的发布时间,确定该每个第二名称的时间权重,按照预设比例,对该每个第二名称包括的匹配关键词在该第一名称中的权重的和值以及该时间权重进行加权计算,得到加权和值,将该加权和值确定为该每个第二名称的权重。\n[0055] 上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,在此不再一一赘述。\n[0056] 图2是本发明实施例提供的一种文件推荐方法的流程图。该发明实施例的执行主体为服务器,参见图2,所述方法包括:\n[0057] 201、该服务器对第一名称进行分词,得到第一关键词集合,该第一名称为当前打开文件的名称,该第一关键词集合包括该第一名称分词得到的至少一个关键词。\n[0058] 本发明实施例应用于用户已打开文件,该服务器根据当前打开文件的名称,为用户推荐其他文件的场景下。该服务器可以为与当前打开文件关联的服务器或者与当前打开文件关联的服务器中的功能模块,本发明实施例对此不做限定。\n[0059] 进一步地,本发明实施例应用于当前打开文件的名称为发布者自定义的名称的场景下。与电影名称或电视剧名称等在发布时已规定好的名称不同,发布者自定义的名称可能很长或者很短,可能为一个简单的词语,也可能为一个复杂的句子,本发明实施例即根据发布者自定义的个性化名称,为用户推荐文件。\n[0060] 其中,该文件可以为服务器所提供的视频文件、音频文件或者文本文件等,如视频网站服务器提供的网络视频文件、音频网站提供的音频文件或文档共享服务器所提供的网络文档等,本发明实施例对此不做限定。\n[0061] 具体地,该服务器在检测到用户打开文件时,获取当前打开文件的名称作为第一名称,并对该第一名称进行分词,得到该第一名称的至少一个关键词,将该至少一个关键词组成该第一关键词集合。\n[0062] 例如,该第一名称为“刘德华出席张学友的演唱会时穿的服装”,则对该第一名称进行分词,得到该第一关键词集合{刘德华,张学友,演唱会,服装}。\n[0063] 其中,该服务器在对该第一名称分词时,可以采用基于字符串匹配的分词方法或者基于统计的分词方法,本发明实施例对此不做限定。\n[0064] 202、该服务器根据预设对应关系,获取该至少一个第二名称,该第二名称为该第一关键词集合中的关键词对应的文件名称,该预设对应关系包括关键词与包含该关键词的文件名称之间的对应关系。\n[0065] 其中,该第一关键词集合包括至少一个关键词,而对于该第一关键词集合中的每个关键词来说,该服务器通过查询该预设对应关系,即可得到包含该第一关键词集合中的任一个或多个关键词的文件名称。\n[0066] 例如,该第一名称、该第一关键词集合中的关键词以及每个关键词对应的第二名称之间的对应关系如表1所示。\n[0067] 表1\n[0068]\n[0069]\n[0070] 可选地,在该步骤202之前,该方法还包括:根据该服务器已存储的文件名称,建立该预设对应关系。\n[0071] 具体地,该服务器对已存储的所有文件的名称进行分词,得到每个文件名称包含的关键词;对于一个关键词,根据该每个文件名称包含的关键词,得到包含该关键词的文件名称;建立该关键词与包含该关键词的文件名称之间的预设对应关系。\n[0072] 进一步可选地,该服务器对每个文件名称包含的关键词建立倒排索引,将建立的倒排索引确定为该预设对应关系。\n[0073] 203、对于该至少一个第二名称中的每个第二名称,该服务器对该第二名称进行分词,得到第二关键词集合,该第二关键词集合包括该第二名称分词得到的至少一个关键词。\n[0074] 基于步骤202的举例,该第二名称为“刘德华演唱会全集”,则该服务器对该第二名称进行分词后得到该第二关键词集合{刘德华,演唱会,全集}。\n[0075] 其中,该服务器在对该第二名称分词时,也可以采用基于字符串匹配的分词方法或者基于统计的分词方法,本发明实施例对此不做限定。\n[0076] 204、该服务器获取该第一关键词集合和每个第二名称对应的第二关键词集合中相同的关键词,将该相同的关键词作为匹配关键词。\n[0077] 具体地,对于该第一关键词集合中的一个关键词,遍历该第二关键词集合,判断该第二关键词集合中是否包括该关键词,当该第二关键词集合中包括该关键词时,将该关键词作为匹配关键词,继续对该第一关键词集合中的每个关键词进行上述判断,获取至少一个匹配关键词。或者,对于该第二关键词集合中的一个关键词,遍历该第一关键词集合,判断该第一关键词集合中是否包括该关键词,当该第一关键词集合中包括该关键词时,将该关键词作为匹配关键词,继续对该第二关键词集合中的每个关键词进行上述判断,获取至少一个匹配关键词。\n[0078] 基于步骤201和步骤203的举例,该第一关键词集合为{刘德华,张学友,演唱会,服装},该第二关键词集合为{刘德华,演唱会,全集},则该匹配关键词为“刘德华”和“演唱会”。\n[0079] 205、该服务器根据该第一关键词集合中每个关键词的类型对应的权重级别,按照权重级别从高到低的顺序为该每个关键词分配权重,使得权重级别高的关键词所分配的权重大于权重级别低的关键词所分配的权重。\n[0080] 在本发明实施例中,该第一关键词集合和该第二关键词集合包括至少一个相同的匹配关键词,但该第一名称和该第二名称在语义上可能相差很大。因此,在选择待推荐的第二名称时,为了提高待推荐的第二名称与该第一名称的相关度,通过为该第一关键词集合中的关键词分配权重,相应确定每个第二名称的权重,以提高最终确定的待推荐的第二名称与该第一名称的相关度。\n[0081] 具体地,该服务器预先设定每个关键词的类型所对应的权重级别,在该服务器确定该第一关键词集合中每个关键词的类型时,根据该服务器预先设定的每种类型对应的权重级别,确定该每个关键词的权重级别,按照权重级别从高到低的顺序,对该每个关键词进行排序,并分配权重,使得权重级别高的关键词所分配的权重大于权重级别低的关键词所分配的权重。\n[0082] 可选地,该第一关键词集合中每个关键词所分配的权重的和值为1。\n[0083] 进一步可选地,该关键词的类型包括名词、动词或虚词,名词的权重级别高于动词和虚词的权重级别,且名词中姓名的权重级别高于其他名词的权重级别。\n[0084] 如,该第一名称为“刘德华出席张学友的演唱会时穿的服装”,其中的名词“刘德华”、“张学友”、“演唱会”、“服装”的权重级别要高于动词“出席”、“穿”和虚词“的”、“时”的权重级别。\n[0085] 其中,名词中的姓名可以是人名、地名、机构名称、商标名称等,本发明实施例对此不做限定。姓名的权重级别高于其他名词的权重级别,如“刘德华”、“张学友”的权重级别高于“演唱会”、“服装”的权重级别。\n[0086] 仍以该第一名称为“刘德华出席张学友的演唱会时穿的服装”为例,该服务器确定“刘德华”、“张学友”的权重级别高于“演唱会”、“服装”的权重级别,“演唱会”、“服装”的权重级别高于“出席”、“穿”、“的”、“时”的权重级别,则该服务器可以为关键词“刘德华”分配权重0.3,为关键词“张学友”分配权重0.3,为关键词“演唱会”分配权重0.2,为关键词“服装”分配权重0.1,为关键词“出席”分配权重0.1,其余关键词分配权重0。\n[0087] 在本发明实施例提供的另一实施例中,该步骤205可以由以下步骤(1)代替:\n[0088] (1)按照该每个关键词的出现频率从高到低的顺序为该每个关键词分配权重,使得出现频率高的关键词所分配的权重大于出现频率低的关键词所分配的权重。\n[0089] 在本发明实施例中,可以认为该第一关键词集合中出现频率较高的关键词更为热门,则用户很可能对与该出现频率较高的关键词相关的文件感兴趣,即可以根据该第一关键词集合的每个关键词的出现频率分配权重。\n[0090] 可选地,该关键词的出现频率为该关键词在已存储的文件名称中出现的频率,或者,该关键词的出现频率为该关键词在已存储的指定类别的文件名称中出现的频率,该指定类别为该当前打开文件所属的类别。\n[0091] 其中,该当前打开文件可能属于某一个子类别,该子类别还属于某一母类别,则该服务器可以按照推荐精度需求的不同,确定该当前打开文件所属的指定类别。\n[0092] 如当前打开文件的名称为“恒大夺冠”,属于体育类别中的足球类别,则该服务器可以计算该关键词“夺冠”在足球类别的文件名称中的出现频率,以为该关键词“夺冠”分配权重,而不是计算该关键词“夺冠”在所有类别的文件名称中的出现频率或者在体育类别的文件名称中的出现频率。\n[0093] 进一步地,该出现频率可以为TF(Term Frequency,词频)或者DF(Document Frequency,文件频率)。\n[0094] 仍以该第一名称为“刘德华出席张学友的演唱会时穿的服装”为例,该服务器确定该第一名称属于歌手类别,则计算关键词“刘德华”、“张学友”、“演唱会”、“服装”在歌手类别的文件名称中的出现频率,如果最终计算出的关键词“刘德华”、“张学友”和“演唱会”的出现频率分别为0.3、0.2和0.1,则该服务器可以按照出现频率从高到低的顺序,为关键词“刘德华”分配权重0.5,为关键词“张学友”分配权重0.4,为关键词“演唱会”分配权重0.1,其余关键词分配权重为0。\n[0095] 进一步可选地,该服务器计算在预设时长内该服务器存储的文件名称中该每个关键词的出现频率。其中,该预设时长可以由该服务器预先设定。\n[0096] 上述步骤205和步骤(1)是分别根据该第一关键词集合中每个关键词的类型对应的权重级别和每个关键词的出现频率分配权重,事实上,该服务器还可以通过综合考虑每个关键词的类型对应的权重级别以及出现频率来分配权重。即在本发明实施例提供的又一实施例中,该步骤205还可以由以下步骤(2)代替:\n[0097] (2)根据该每个关键词的类型对应的权重级别,按照权重级别从高到低的顺序为该每个关键词分配权重,使得权重级别高的关键词所分配的权重大于权重级别低的关键词所分配的权重;根据该每个关键词的出现频率,对该每个关键词所分配的权重进行调整。\n[0098] 在实际应用中,可以认为出现频率高的关键词更为热门,但是出现频率高的关键词对应的第二名称与该第一名称的相关度可能很低,用户并不一定对该热门的第二名称所指示的文件感兴趣。而在本发明实施例中,该服务器还可以在按照每个关键词的类型对应的权重级别,为该每个关键词分配权重后,按照该每个关键词的出现频率,对该每个关键词所分配的权重进行调整。通过综合考虑该第二名称与该第一名称的相关度以及该第二名称的出现频率,既可以提高最终确定的待推荐的第二名称与该第一名称的相关度,也可以优先选择出现频率较高的文件推荐给用户。\n[0099] 进一步地,该步骤(2)中的“根据该每个关键词的出现频率,对该每个关键词所分配的权重进行调整”,可以采用以下任一种方式:\n[0100] (2-1)根据该每个关键词的出现频率,确定调整幅度,按照确定的调整幅度,对该每个关键词所分配的权重进行相应的增大或减小。\n[0101] 如,该服务器为关键词“刘德华”、“张学友”、“演唱会”、“服装”、“出席”分配的权重为0.3、0.3、0.2、0.1、0.1,并计算出在时装周期间关键词“刘德华”、“张学友”、“演唱会”、“服装”和“出席”的出现频率分别为0.3、0.2、0.1、0.2和0.01,则确定关键词“刘德华”、“张学友”、“演唱会”、“服装”和“出席”的调整幅度为0.025、0.025、-0.1、0.15、-0.1,则根据该调整幅度,对该每个关键词进行调整后,最终确定分配的权重为0.275、0.275、0.1、0.25、0。\n[0102] (2-2)根据该每个关键词的出现频率,将出现频率大于等于预设阈值的关键词所分配的权重增加预设调整权重,将出现频率小于预设阈值的关键词所分配的权重减少所述预设调整权重。\n[0103] 如,该服务器确定该预设阈值为0.2,该预设调整权重为0.05,则当该服务器为关键词“刘德华”、“张学友”、“演唱会”、“服装”、“出席”分配的权重为0.3、0.3、0.2、0.1、0.1,并计算出关键词“刘德华”、“张学友”、“演唱会”、“服装”和“出席”的出现频率分别为0.3、\n0.2、0.1、0.2和0.01时,将出现频率大于等于0.2的关键词“刘德华”、“张学友”、“服装”所分配的权重增加0.05,将出现频率小于0.2的关键词“演唱会”、“出席”所分配的权重减少\n0.05,则最终确定分配的权重为0.25、0.25、0.15、0.15、0.05。\n[0104] 需要说明的是,本发明实施例以该步骤205在该步骤204之后执行为例进行说明,实际上,该步骤205只需在该步骤201之后、该步骤206之前执行即可,即该步骤205还可以在该步骤204之前执行,或者与该步骤204同时执行,本发明实施例对该步骤205的执行时机不做限定。\n[0105] 206、该服务器获取该每个第二名称所包括的匹配关键词在该第一名称中的权重。\n[0106] 在本发明实施例中,该服务器已确定该第一关键词集合中每个关键词在该第一名称中的权重,也即是已确定每个匹配关键词在该第一名称中的权重,则该服务器确定每个第二名称包括的匹配关键词,以及每个第二名称包括的匹配关键词在该第一名称中的权重。\n[0107] 基于表1,假设该第一名称为“刘德华出席张学友的演唱会时穿的服装”,且该服务器为关键词“刘德华”分配权重0.3,为关键词“张学友”分配权重0.3,为关键词“演唱会”分配权重0.2,为关键词“服装”分配权重0.1,为关键词“出席”分配权重0.1,其余关键词分配权重0,则该服务器确定的每个第二名称包括的匹配关键词在该第一名称中的权重可以如表2所示。\n[0108] 表2\n[0109]\n[0110] 207、该服务器根据该每个第二名称所指示文件的发布时间,确定该每个第二名称的时间权重,按照预设比例,对该每个第二名称包括的匹配关键词在该第一名称中的权重的和值以及该时间权重进行加权计算,得到加权和值,将该加权和值确定为该每个第二名称的权重。\n[0111] 在本发明实施例中,第二名称所指示文件可能为最新发布的文件,也可能为早已发布的文件,而文件的发布时间不同,用户感兴趣的程度也不同,即发布时间会影响到用户感兴趣的程度,进而影响到推荐成功率。因此,在确定该待推荐的第二名称时,需要考虑到该每个第二名称所指示文件的发布时间。\n[0112] 具体地,该服务器计算该每个第二名称包括的匹配关键词在该第一名称中的权重的和值,并按照该每个第二名称所指示文件的发布时间,对该每个第二名称进行排序,按照排列顺序,为该每个第二名称分配时间权重,使得发布时间晚的第二名称的时间权重高于发布时间早的第二名称的时间权重。该服务器按照该预设比例,对该和值和该时间权重进行加权计算,得到加权和值,即为每个第二名称的权重。\n[0113] 其中,该预设比例是指该和值和该时间权重之间的比例,根据该比例,可以确定在进行加权计算时该和值和该时间权重的加权系数。该预设比例可以由该服务器预先设定,也可以由该服务器在使用过程中进行调整,如当前打开文件的发布时间较早时,该时间权重所占比例较小,而当前打开文件为“新闻”等时效性较强的类型的文件时,该时间权重所占比例较大,本发明实施例对此不做限定。\n[0114] 基于表2,该第二名称为“刘德华演唱会全集”,假设该服务器为该第二名称分配的时间权重为0.4,且该预设比例为6:4,则该服务器计算该第二名称包括的匹配关键词的权重和值为0.5,计算该第二名称的权重即为0.5*0.6+0.4*0.4=0.46。\n[0115] 进一步地,该服务器可以预先设定发布时间和当前时间之间的时间间隔与时间权重的对应关系,即确定每个时间间隔所对应的时间权重,则该服务器可以计算该每个第二名称所指示文件的发布时间与当前时间之间的时间间隔,根据该预先设定的对应关系,确定该每个第二名称的时间权重。\n[0116] 如,该服务器预先设定该时间间隔为1天的第二名称的时间权重为0.9,该时间间隔为2天的第二名称的时间权重为0.8……则对于一个第二名称来说,该服务器确定该第二名称所指示的文件的发布时间与当前时间之间的时间间隔为4天时,确定该第二名称的时间权重为0.6。\n[0117] 需要说明的是,上述步骤207为可选步骤,该服务器还可以不考虑文件发布时间的影响,而仅按照每个第二名称所包括的匹配关键词在该第一名称中的权重,确定每个第二名称的权重,即在本发明实施例提供的另一实施例中,该步骤207可以由以下步骤代替:将该每个第二名称包括的匹配关键词在该第一名称中的权重的和值确定为该每个第二名称的权重。如基于表2,该第二名称为“刘德华演唱会全集”,则该服务器计算该第二名称包括的匹配关键词的权重和值为0.5,即确定该第二名称的权重为0.5。\n[0118] 208、该服务器按照该每个第二名称的权重从大到小的顺序,将预设数目的第二名称确定为该待推荐的第二名称。\n[0119] 其中,该预设数目可以由该服务器预先设定,或者由该服务器根据当前打开文件的显示界面中的推荐区域能显示的文件数目确定,本发明实施例对此不做限定。\n[0120] 具体地,该服务器按照权重从大到小的顺序,对该每个第二名称进行排序,并在排在前预设数目的第二名称确定为该待推荐的第二名称,以便将排在前预设数目的第二名称所指示的文件推荐给用户。\n[0121] 209、该服务器推荐该确定的第二名称所指示的文件。\n[0122] 在本发明实施例中,该服务器推荐该确定的第二名称所指示的文件时,可以在当前打开文件的显示界面上提供该确定的第二名称的链接地址,该链接地址用于跳转至该确定的第二名称所指示的文件。另外,该服务器还可以显示该确定的第二名称所指示的文件生成的缩略图,或者显示发布者、发布时间等相关信息等,本发明实施例对此不做限定。\n[0123] 进一步地,对于多个该确定的第二名称来说,可以按照权重顺序依次进行推荐,还可以按照发布时间依次进行推荐,本发明实施例对此均不做限定。\n[0124] 本发明实施例提供的方法,通过对当前打开文件的第一名称进行处理,得到多个备选的第二名称,根据该第一名称对每个第二名称进行匹配,确定每个第二名称包括的匹配关键词,并根据匹配关键词的词性确定权重,从而根据权重从多个备选的第二名称中确定待推荐的第二名称,并推荐该确定的第二名称所指示的文件,提高了最终推荐的文件名称与当前打开文件的名称的相关度,提高了推荐成功率。进一步地,考虑到文件的发布时间的因素,通过计算该每个第二名称的时间权重来确定该待推荐的第二名称,进一步提高了推荐成功率。\n[0125] 图3是本发明实施例提供的一种文件推荐装置结构示意图,参见图3,该装置包括:\n第一分词模块301、第二集合获取模块302、匹配模块303、权重获取模块304、名称确定模块\n305、推荐模块306,\n[0126] 其中,第一分词模块301,用于对第一名称进行分词,得到第一关键词集合,该第一名称为当前打开文件的名称,该第一关键词集合包括该第一名称分词得到的至少一个关键词;\n[0127] 第二集合获取模块302与第一分词模块301连接,用于根据预设对应关系,获取至少一个第二名称和该至少一个第二名称对应的第二关键词集合,该第二名称为该第一关键词集合中的关键词对应的文件名称,该预设对应关系包括关键词与包含该关键词的文件名称之间的对应关系;\n[0128] 匹配模块303与第二集合获取模块302连接,用于获取该第一关键词集合和每个第二名称对应的第二关键词集合中相同的关键词,将该相同的关键词作为匹配关键词;\n[0129] 权重获取模块304与匹配模块303连接,用于获取该每个第二名称包括的匹配关键词在该第一名称中的权重;\n[0130] 名称确定模块305与权重获取模块304连接,用于根据该每个第二名称包括的匹配关键词在该第一名称中的权重,确定待推荐的第二名称;\n[0131] 推荐模块306与名称确定模块305连接,用于推荐该确定的第二名称所指示的文件。\n[0132] 可选地,该第二集合获取模块302包括:\n[0133] 第二名称获取单元,用于根据该预设对应关系,获取该至少一个第二名称;\n[0134] 第二分词单元,用于对于该至少一个第二名称中的每个第二名称,对该第二名称进行分词,得到第二关键词集合,该第二关键词集合包括该第二名称分词得到的至少一个关键词。\n[0135] 可选地,该装置还包括:\n[0136] 第一权重获取模块,用于根据该第一关键词集合中每个关键词的类型和出现频率中的至少一项,获取该每个关键词在该第一名称中的权重。\n[0137] 可选地,该第一权重获取模块包括:\n[0138] 第一权重获取单元,用于根据该每个关键词的类型对应的权重级别,按照权重级别从高到低的顺序为该每个关键词分配权重,使得权重级别高的关键词所分配的权重大于权重级别低的关键词所分配的权重;或,\n[0139] 第二权重获取单元,用于按照该每个关键词的出现频率从高到低的顺序为该每个关键词分配权重,使得出现频率高的关键词所分配的权重大于出现频率低的关键词所分配的权重;或,\n[0140] 第三权重获取单元,用于根据该每个关键词的类型对应的权重级别,按照权重级别从高到低的顺序为该每个关键词分配权重,使得权重级别高的关键词所分配的权重大于权重级别低的关键词所分配的权重;\n[0141] 调整单元,用于根据该每个关键词的出现频率,对该每个关键词所分配的权重进行调整。\n[0142] 可选地,该关键词的类型包括名词、动词或虚词,名词的权重级别高于动词和虚词的权重级别;\n[0143] 该关键词的出现频率为该关键词在已存储的文件名称中出现的频率,或者,该关键词的出现频率为该关键词在已存储的指定类别的文件名称中出现的频率,该指定类别为该当前打开文件所属的类别。\n[0144] 可选地,名词中姓名的权重级别高于其他名词的权重级别。\n[0145] 可选地,该名称确定模块305包括:\n[0146] 权重确定单元,用于根据该每个第二名称包括的匹配关键词在该第一名称中的权重,确定该每个第二名称的权重;\n[0147] 待推荐名称确定单元,用于按照该每个第二名称的权重从大到小的顺序,将预设数目的第二名称确定为该待推荐的第二名称。\n[0148] 可选地,该权重确定单元用于将该每个第二名称包括的匹配关键词在该第一名称中的权重的和值确定为该每个第二名称的权重;或,\n[0149] 该权重确定单元用于根据该每个第二名称所指示文件的发布时间,确定该每个第二名称的时间权重,按照预设比例,对该每个第二名称包括的匹配关键词在该第一名称中的权重的和值以及该时间权重进行加权计算,得到加权和值,将该加权和值确定为该每个第二名称的权重。\n[0150] 本发明实施例提供的装置,通过对当前打开文件的第一名称进行处理,得到多个备选的第二名称,根据该第一名称对每个第二名称进行匹配,确定每个第二名称包括的匹配关键词,并根据匹配关键词的词性确定权重,从而根据权重从多个备选的第二名称中确定待推荐的第二名称,并推荐该确定的第二名称所指示的文件,提高了最终推荐的文件名称与当前打开文件的名称的相关度,提高了推荐成功率。\n[0151] 需要说明的是:上述实施例提供的文件推荐装置在推荐文件时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将服务器的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的文件推荐装置与文件推荐方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。\n[0152] 图4是本发明实施例提供的一种服务器结构示意图,该服务器400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)422(例如,一个或一个以上处理器)和存储器432,一个或一个以上存储应用程序442或数据444的存储介质430(例如一个或一个以上海量存储设备)。其中,存储器432和存储介质430可以是短暂存储或持久存储。存储在存储介质430的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器422可以设置为与存储介质430通信,在服务器400上执行存储介质430中的一系列指令操作。\n[0153] 服务器400还可以包括一个或一个以上电源426,一个或一个以上有线或无线网络接口450,一个或一个以上输入输出接口458,和/或,一个或一个以上操作系统441,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。\n[0154] 上述实施例中所述的由服务器所执行的步骤可以基于该图4所示的服务器结构。\n[0155] 本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。\n[0156] 以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
法律信息
- 2018-12-28
- 2016-06-29
实质审查的生效
IPC(主分类): G06F 17/30
专利申请号: 201310652678.3
申请日: 2013.12.05
- 2015-06-10
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2012-10-31
|
2011-04-25
| | |
2
| |
2012-11-21
|
2011-05-16
| | |
3
| |
2012-11-28
|
2011-05-25
| | |
4
| |
2013-06-19
|
2011-12-08
| | |
5
| |
2013-10-23
|
2012-04-01
| | |
6
| |
2013-12-04
|
2012-05-21
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |