著录项信息
专利名称 | 基于爬虫的贴音乐标签方法及系统 |
申请号 | CN201610044080.X | 申请日期 | 2016-01-22 |
法律状态 | 授权 | 申报国家 | 暂无 |
公开/公告日 | 2016-06-29 | 公开/公告号 | CN105718575A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F16/9535 | IPC分类号 | G;0;6;F;1;6;/;9;5;3;5;;;G;0;6;F;1;6;/;6;3;5查看分类表>
|
申请人 | 华南理工大学 | 申请人地址 | 广东省广州市天河区五山路381号
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 华南理工大学 | 当前权利人 | 华南理工大学 |
发明人 | 郭泽豪;王振宇;戴瑾如 |
代理机构 | 广州市华学知识产权代理有限公司 | 代理人 | 罗观祥 |
摘要
本发明提供了一种基于爬虫的贴音乐标签的方法及系统,本发明在爬虫爬取多个音乐网站的音乐标签记录的基础上,通过对音乐标签记录进行预处理,提高了音乐标签记录的可用性,同时保证了来自不同音乐网站的音乐标签记录具有统一的格式;另外通过歌单标签可信值计算,将歌单标签转化为歌曲标签;利用编辑距离算法,将爬虫爬取到的音乐标签记录中的歌曲名与未贴标签的曲库中的歌曲名进行模糊匹配,建立对应关系,提高了爬虫音乐标签记录的利用率,在保证标签准确性的前提下,最大限度地给曲库贴上更多的音乐标签;同时根据多个音乐网站的音乐标签构建一套完整的音乐标签体系,以音乐标签体系的标签为基准,进行标签融合。
1.一种基于爬虫的贴音乐标签的方法,其特征在于,所述方法包括以下步骤:
S1、针对来自不同音乐网站的爬虫音乐标签记录进行预处理使其具有统一的格式;
S2、通过歌单标签可信值计算,将歌单标签转化为歌曲标签;
其中,所述步骤S2通过歌单标签可信值计算,将歌单标签转化为歌曲标签具体包括:
S21、针对每一小类标签,统计其在全部歌单标签记录中的出现频次;
S22、针对每一歌曲,统计其包含的小类标签以及对应的频次;
S23、针对每一歌曲,算出其每个歌单标签的可信值;
所述步骤S23中某一歌曲关于歌单标签的可信值的计算过程具体为:
设歌单标签记录包含n个小类标签,小类标签ti i=1,2,3,...,n在全部歌单标签记录中的频次为Fi,某一歌曲包含歌单标签tk,该歌曲被贴上该歌单标签的频次为fk,利用公式fk*(0.4+0.6*(Fi-Fmin)/(Fmax-Fmin)),其中Fmax是指F1,F2,...Fn的最大值,Fmin是指F1,F2,...Fn的最小值,计算该歌曲包含的歌单标签tk的可信值;
S24、筛选出该歌曲可信值较高的歌单标签作为该歌曲的歌曲标签;
S25、判断是否还有其他歌曲,若是执行步骤S23,否则结束;
S3、利用编辑距离算法,将爬虫音乐标签记录与曲库音乐记录进行模糊匹配建立对应关系;
S4、以音乐标签体系的标签为基准,构建标签融合规则,对曲库音乐记录进行标签融合,其中,所述融合规则如下:
统计爬虫音乐标签记录中的全部小类标签的频次,剔除频次低的小众标签,根据筛选后的小类标签,通过人工的方式构建音乐标签体系,对表述不同但是意义相同的标签构建映射规则,生成音乐标签体系的小类标签。
2.根据权利要求1所述的基于爬虫的贴音乐标签的方法,其特征在于,所述步骤S3利用编辑距离算法,将爬虫音乐标签记录与曲库音乐记录进行模糊匹配建立对应关系具体包括:
S31、根据所述爬虫音乐标签记录中的歌手名搜索曲库;
S32、判断搜索结果是否为空,若是执行步骤S37,否则执行步骤S33;
S33、将该爬虫音乐标签记录中的歌曲名与搜索结果中的歌曲名进行模糊匹配,计算匹配相似值;
S34、判断匹配相似值是否大于门限阀值,若是执行步骤S35,否则执行步骤S36;
S35、构建该爬虫音乐标签记录与曲库该匹配上的音乐记录的对应关系;
S36、判断是否有下一条搜索结果,若是执行步骤S33,否则执行步骤S37;
S37、判断是否有下一条爬虫音乐标签记录,若是执行步骤S31,否则执行结束。
3.根据权利要求1所述的基于爬虫的贴音乐标签的方法,其特征在于,所述步骤S4以音乐标签体系的标签为基准,构建标签融合规则对曲库音乐记录进行标签融合具体包括:
S41、根据音乐标签体系构建标签融合规则;
S42、根据模糊匹配对应关系,找到曲库音乐对应的音乐标签;
S43、判断该对应标签是否需要融合,若是执行步骤S44,否则执行步骤S45;
S44、根据标签融合规则进行标签融合;
S45、给曲库音乐贴上标签;
S46、判断是否有下一条对应关系,若是执行步骤S42,否则执行步骤S47;
S47、根据标签筛选规则,对全部贴上标签的曲库音乐进行标签筛选。
4.根据权利要求3所述的基于爬虫的贴音乐标签的方法,其特征在于,
所述爬虫音乐标签记录是指通过爬虫爬取到的音乐记录,所述音乐记录的内容包括歌手名、歌曲名、大类标签、小类标签、歌单名称和网站来源,其中,所述大类标签包括语种、风格、心情、场景、主题,所述小类标签为隶属于所述大类标签的标签,包括英语、流行、伤感、学习、歌曲标签和歌单标签。
5.根据权利要求2所述的基于爬虫的贴音乐标签的方法,其特征在于,所述步骤S33将该爬虫音乐标签记录中的歌曲名与搜索结果中的歌曲名进行模糊匹配,计算匹配相似值的具体过程为:
设爬虫音乐标签记录的歌曲名字符串为S1,曲库搜索结果的歌曲名字符串为S2,通过编辑距离算法计算出S1与S2的编辑距离L,通过(S1-L)/S1计算出S1与S2匹配相似值。
6.根据权利要求4所述的基于爬虫的贴音乐标签的方法,其特征在于,所述标签筛选规则是指在每个所述大类标签下选择所述小类标签的规则。
7.一种基于爬虫的贴音乐标签系统,其特征在于,所述系统包括:
数据预处理模块,用于针对来自不同音乐网站的爬虫音乐标签记录进行预处理使其具有统一的格式;
标签转化模块,用于通过歌单标签可信值计算,将歌单标签转化为歌曲标签;所述的标签转化模块工作过程如下:
针对每一小类标签,统计其在全部歌单标签记录中的出现频次;
针对每一歌曲,统计其包含的小类标签以及对应的频次;
针对每一歌曲,算出其每个歌单标签的可信值;
其中某一歌曲关于歌单标签的可信值的计算过程具体为:
设歌单标签记录包含n个小类标签,小类标签ti(i=1,2,3,...,n)在全部歌单标签记录中的频次为Fi,某一歌曲包含歌单标签tk,该歌曲被贴上该歌单标签的频次为fk,利用公式fk*(0.4+0.6*(Fi-Fmin)/(Fmax-Fmin)),其中Fmax是指F1,F2,...Fn的最大值,Fmin是指F1,F2,...Fn的最小值,计算该歌曲包含的歌单标签tk的可信值;
筛选出该歌曲可信值较高的歌单标签作为该歌曲的歌曲标签;
判断是否还有其他歌曲,若是继续针对每一歌曲,算出其每个歌单标签的可信值,否则结束;
标签模糊匹配模块,用于利用编辑距离算法,将爬虫音乐标签记录与曲库音乐记录进行模糊匹配建立对应关系;
标签融合模块,用于以音乐标签体系的标签为基准,构建标签融合规则对曲库音乐记录进行标签融合,其中,所述融合规则如下:
统计爬虫音乐标签记录中的全部小类标签的频次,剔除频次低的小众标签,根据筛选后的小类标签,通过人工的方式构建音乐标签体系,对表述不同但是意义相同的标签构建映射规则,生成音乐标签体系的小类标签。
基于爬虫的贴音乐标签方法及系统\n技术领域\n[0001] 本发明属于数据获取和可信度计算技术领域,更具体涉及一种基于爬虫的贴音乐标签方法及系统。\n背景技术\n[0002] 随着数字音乐市场的不断扩大,数字音乐的特征化标注成为现阶段研究的一个热点,而音乐标签则是最重要的特征化标注。音乐标签具有丰富的语义,但是这种标注方式的前提是有一个活跃的音乐社区,拥有大量较高黏性的用户;另一方面,音乐标签具有随意性和离散性,容易形成“冷启动”(Cold Start),新推出的音乐因缺乏标签将很难被用户检索到,导致“流行偏见”(Popularity Bias),受先标注用户的影响,后来用户的选择将追随之前的流行趋势,从而使得大多数用户只听了极少数热门音乐,而大部分音乐将处于长尾区而被忽略掉;大众的早期评价并不一定都符合后来者的感知,少数“灰色绵羊”的独特用户无法从这种大众潮流中获取满意的信息,且标签的随意性也带来了标签预处理的困难。\n[0003] 目前,国外主要的音乐社区包括lastfm、pandora,国内主要的音乐社区包括网易云音乐,QQ音乐,百度音乐,酷狗音乐,酷我音乐,虾米音乐等,这些音乐社区拥有大量的用户,同时拥有丰富的歌单标签以及歌曲标签。对于目前带有歌曲标签的音乐网站来说,基本上有两种贴标签的方法,一种是通过人工的方法为每首歌曲贴上标签,另一种是列出尽可能多的歌曲标签,然后让用户自己为自己的歌单选择合适的标签。这两种方法都有自己的优缺点,人工贴标签的方法准确度显然会比较高,但是工作量很大,消耗的成本很高,对于曲库来说一般歌曲数量比较大,显然无法采用这种方法;第二种方法的优点是成本非常低,但是缺点也很明显,就是准确度不高。\n[0004] 另外一种具有探究意义的贴标签的方法,是通过分类算法学习音乐的音频特征,音频特征是从歌曲本身提取的诸如音高、节拍、节奏等信息,能够客观反映歌曲要素。目前支持向量机分类算法比较好地拟合音乐特征的相似度,但是标签的质量也不是很高。\n[0005] 综上,音乐标签具有丰富的语义,具有很大的研究价值。国内外音乐社区拥有大量的黏性用户,同时拥有丰富的歌单标签或者歌曲标签,这些丰富的标签可以高效、高质量给未贴标签的曲库贴上标签。然而,在贴音乐标签中,现在还没有一种全面、高效、高质量地给曲库贴音乐标签的技术方案。\n发明内容\n[0006] (一)要解决的技术问题\n[0007] 本发明要解决的技术问题是如何全面、高效、高质量地给曲库贴音乐标签。\n[0008] (二)技术方案\n[0009] 为了解决上述技术问题,本发明第一方面提供一种基于爬虫的贴音乐标签方法,所述方法包括以下步骤:\n[0010] S1、针对来自不同音乐网站的爬虫音乐标签记录进行预处理使其具有统一的格式;\n[0011] S2、通过歌单标签可信值计算,将歌单标签转化为歌曲标签;\n[0012] S3、利用编辑距离算法,将爬虫音乐标签记录与曲库音乐记录进行模糊匹配建立对应关系;\n[0013] S4、以音乐标签体系的标签为基准,构建标签融合规则对曲库音乐记录进行标签融合。\n[0014] 优选的,所述步骤S2通过歌单标签可信值计算,将歌单标签转化为歌曲标签具体包括:\n[0015] S21、针对每一小类标签,统计其在全部歌单标签记录中的出现频次;\n[0016] S22、针对每一歌曲,统计其包含的小类标签以及对应的频次;\n[0017] S23、针对每一歌曲,算出其每个歌单标签的可信值;\n[0018] S24、筛选出该歌曲可信值较高的歌单标签作为该歌曲的歌曲标签;\n[0019] S25、判断是否还有其他歌曲,若是执行步骤S23,否则结束。\n[0020] 优选的,所述步骤S3利用编辑距离算法,将爬虫音乐标签记录与曲库音乐记录进行模糊匹配建立对应关系具体包括:\n[0021] S31、根据所述爬虫音乐标签记录中的歌手名搜索曲库;\n[0022] S32、判断搜索结果是否为空,若是执行步骤S37,否则执行步骤S33;\n[0023] S33、将该爬虫音乐标签记录中的歌曲名与搜索结果中的歌曲名进行模糊匹配,计算匹配相似值;\n[0024] S34、判断匹配相似值是否大于门限阀值,若是执行步骤S35,否则执行步骤S36;\n[0025] S35、构建该爬虫音乐标签记录与曲库该匹配上的音乐记录的对应关系;\n[0026] S36、判断是否有下一条搜索结果,若是执行步骤S33,否则执行步骤S37;\n[0027] S37、判断是否有下一条爬虫音乐标签记录,若是执行步骤S31,否则执行结束。\n[0028] 优选的,所述步骤S4以音乐标签体系的标签为基准,构建标签融合规则对曲库音乐记录进行标签融合具体包括:\n[0029] S41、根据音乐标签体系构建标签融合规则;\n[0030] S42、根据模糊匹配对应关系,找到曲库音乐对应的音乐标签;\n[0031] S43、判断该对应标签是否需要融合,若是执行步骤S44,否则执行步骤S45;\n[0032] S44、根据标签融合规则进行标签融合;\n[0033] S45、给曲库音乐贴上标签;\n[0034] S46、判断是否有下一条对应关系,若是执行步骤S42,否则执行步骤S47;\n[0035] S47、根据标签筛选规则,对全部贴上标签的曲库音乐进行标签筛选。\n[0036] 优选的,所述爬虫音乐标签记录是指通过爬虫爬取到的音乐记录,所述音乐记录的内容包括歌手名、歌曲名、大类标签、小类标签、歌单名称和网站来源,其中,所述大类标签包括语种、风格、心情、场景、主题,所述小类标签为隶属于所述大类标签的标签,包括英语、流行、伤感、学习、歌曲标签和歌单标签。\n[0037] 优选的,所述步骤S23中某一歌曲关于歌单标签的可信值的计算过程具体为:\n[0038] 设歌单标签记录包含n个小类标签,小类标签ti(i=1,2,3,...,n)在全部歌单标签记录中的频次为Fi,某一歌曲包含歌单标签tk,该歌曲被贴上该歌单标签的频次为fk,利用公式fk*(0.4+0.6*(Fi-Fmin)/(Fmax-Fmin)),其中Fmax是指F1,F2,...Fn的最大值,Fmin是指F1,F2,...Fn的最小值,计算该歌曲包含的歌单标签tk的可信值。\n[0039] 优选的,所述步骤S33、将该爬虫音乐标签记录中的歌曲名与搜索结果中的歌曲名进行模糊匹配,计算匹配相似值的具体过程为:\n[0040] 设爬虫音乐标签记录的歌曲名字符串为S1,曲库搜索结果的歌曲名字符串为S2,通过编辑距离算法计算出S1与S2的编辑距离L,通过(S1-L)/S1计算出S1与S2匹配相似值。\n[0041] 优选的,所述步骤S41根据音乐标签体系构建标签融合规则的具体过程为:\n[0042] 统计爬虫音乐标签记录中的全部小类标签的频次,剔除频次低的小众标签,根据筛选后的小类标签,通过人工的方式构建音乐标签体系,对表述不同但是意义相同的标签构建映射规则,生成音乐标签体系的小类标签。\n[0043] 优选的,所述标签筛选规则是指在每个所述大类标签下选择所述小类标签的规则。\n[0044] 为了解决上述技术问题,本发明第二方面提供一种基于爬虫的贴音乐标签系统,所述系统包括:\n[0045] 数据预处理模块,用于针对来自不同音乐网站的爬虫音乐标签记录进行预处理使其具有统一的格式;\n[0046] 标签转化模块,用于通过歌单标签可信值计算,将歌单标签转化为歌曲标签;\n[0047] 标签模糊匹配模块,用于利用编辑距离算法,将爬虫音乐标签记录与曲库音乐记录进行模糊匹配建立对应关系;\n[0048] 标签融合模块,用于以音乐标签体系的标签为基准,构建标签融合规则对曲库音乐记录进行标签融合。\n[0049] (三)有益效果\n[0050] 1、本发明在爬虫爬取多个音乐网站的音乐标签记录的基础上,对音乐标签记录进行预处理,提高了音乐标签记录的可用性,同时保证了来自不同音乐网站的音乐标签记录具有统一的格式。\n[0051] 2、另外通过歌单标签可信值计算,将歌单标签转化为歌曲标签,提高了标签的可信度。\n[0052] 3、利用编辑距离算法,将爬虫爬取到的音乐标签记录中的歌曲名与未贴标签的曲库中的歌曲名进行模糊匹配,建立对应关系,提高了爬虫音乐标签记录的利用率,在保证标签准确性的前提下,最大限度地给曲库贴上更多的音乐标签。\n[0053] 4、同时根据多个音乐网站的音乐标签构建一套完整的音乐标签体系,以音乐标签体系的标签为基准,构建标签融合规则进行标签融合,解决了来源不同的音乐标签的统一化问题。\n[0054] 5、本发明能够持续不断地为曲库中的音乐贴上全面、高质量的音乐标签,具有很好的可用性。\n附图说明\n[0055] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。\n[0056] 图1为本发明的一个较佳实施例的基于爬虫的贴音乐标签方法流程图;\n[0057] 图2为本发明的将歌单标签转化为歌曲标签方法流程图。\n[0058] 图3为本发明的标签模糊匹配方法流程图。\n[0059] 图4为本发明的标签融合方法流程图。\n具体实施方式\n[0060] 下面结合附图和实施例对本发明作进一步详细描述。以下实施例用于说明本发明,但不能用来限制本发明的范围。\n[0061] 实施例一\n[0062] 请参见图1至图4,图1是本实施例一中公开的基于爬虫的贴音乐标签方法及各个相应步骤的流程图。如图1至图4所示,所述方法包括以下步骤:\n[0063] S1、针对来自不同音乐网站的爬虫音乐标签记录进行预处理;\n[0064] S2、将歌单标签转化为歌曲标签;\n[0065] 其中所述步骤S2中歌单标签转化步骤具体为:\n[0066] S21、针对每一小类标签,统计其在全部歌单标签记录中的出现频次;\n[0067] S22、针对每一歌曲,统计其包含的小类标签以及对应的频次;\n[0068] S23、针对每一歌曲,算出其每个歌单标签的可信值;\n[0069] S24、筛选出该歌曲可信值较高的歌单标签作为该歌曲的歌曲标签;\n[0070] S25、判断是否还有其他歌曲,若是执行步骤S23,否则结束。\n[0071] S3、将爬虫音乐标签记录与曲库音乐记录进行模糊匹配建立对应关系;其中所述步骤S3中模糊匹配步骤具体为:\n[0072] S31、根据爬虫音乐标签记录中的歌手名搜索曲库;\n[0073] S32、判断搜索结果是否为空,若是执行步骤S37,否则执行步骤S33;\n[0074] S33、将该爬虫音乐标签记录中的歌曲名与搜索结果中的歌曲名进行模糊匹配,计算匹配相似值;\n[0075] S34、判断匹配相似值是否大于0.8,若是执行步骤S35,否则执行步骤S36;\n[0076] S35、构建该爬虫音乐标签记录与曲库该匹配上的音乐记录的对应关系;\n[0077] S36、判断是否有下一条搜索结果,若是执行步骤S33,否则执行步骤S37;\n[0078] S37、判断是否有下一条爬虫音乐标签记录,若是执行步骤S31,否则执行结束。\n[0079] S4、根据对应关系按照标签融合规则进行标签融合;其中所述步骤S4中标签融合步骤具体为:\n[0080] S41、根据音乐标签体系构建标签融合规则;\n[0081] S42、根据模糊匹配对应关系,找到曲库音乐对应的音乐标签;\n[0082] S43、判断该对应标签是否需要融合,若是执行步骤S44,否则执行步骤S45;\n[0083] S44、根据标签融合规则进行标签融合;\n[0084] S45、给曲库音乐贴上标签;\n[0085] S46、判断是否有下一条对应关系,若是执行步骤S42,否则执行步骤S47;\n[0086] S47、根据标签筛选规则,对全部贴上标签的曲库音乐进行标签筛选。\n[0087] 上述方法是在爬虫爬取多个音乐网站的音乐标签记录的基础上,对音乐标签记录进行预处理,提高了音乐标签记录的可用性,同时保证了来自不同音乐网站的音乐标签记录具有统一的格式;另外通过歌单标签可信值计算,将歌单标签转化为歌曲标签,提高了标签的可信度;利用编辑距离算法,将爬虫爬取到的音乐标签记录中的歌曲名与未贴标签的曲库中的歌曲名进行模糊匹配,建立对应关系,提高了爬虫音乐标签记录的利用率,在保证标签准确性的前提下,最大限度地给曲库贴上更多的音乐标签;同时根据多个音乐网站的音乐标签构建一套完整的音乐标签体系,以音乐标签体系的标签为基准,构建标签融合规则对曲库音乐记录进行标签融合,解决了来源不同的音乐标签的统一化问题,本发明能够持续不断地为曲库中的音乐贴上全面、高质量的音乐标签,具有很好的可用性。\n[0088] 其中,爬虫音乐标签记录是指通过爬虫爬取到的音乐记录,音乐记录的内容包括歌手名、歌曲名、大类标签、小类标签、歌单名称和网站来源。\n[0089] 进一步地,所述大类标签包括语种、风格、心情、场景、主题等标签。\n[0090] 进一步地,所述小类标签是指属于所述大类标签的标签,包括英语、流行、伤感、学习等标签。所述歌曲标签和歌单标签都属于小类标签。\n[0091] 进一步地,所述预处理包括去除所述爬虫音乐标签记录中的无关字符,将多个歌手的连接符统一为加号等。其中,上述无关字符包括歌曲名中的书名号,$符号,~符号,html转义符号等。\n[0092] 进一步地,小类标签还包括歌单标签和歌曲标签,所述歌单标签是用户创建完歌单后,为歌单贴上的标签,而不是针对歌单内的每首歌曲,所述歌曲标签是指用户听完一首歌曲后,为歌曲贴上的标签。\n[0093] 某一首歌曲可能出现在多个歌单中,多个歌单可能会贴上相同的所述歌单标签,从而该歌曲会贴上多次相同的所述歌单标签,贴上相同的所述歌单标签越多,则该歌曲贴上该所述歌单标签的可信值越高。但是不同的所述歌单标签流行趋势不同,例如流行这个小类标签出现频次很高,由于该标签具有普适性,不足以说明该标签可信值高,所以需要统计所述歌单标签在全部小类标签的占比,对比重比较大的所述歌单标签做惩罚。\n[0094] 进一步地,计算某一歌曲关于歌单标签的可信值,具体步骤为:\n[0095] 设歌单标签记录包含n个小类标签,小类标签ti(i=1,2,3,...,n)在全部歌单标签记录中的频次为Fi,某一歌曲包含歌单标签tk,该歌曲被贴上该歌单标签的频次为fk,利用公式fk*(0.4+0.6*(Fi-Fmin)/(Fmax-Fmin)),其中Fmax是指F1,F2,...Fn的最大值,Fmin是指F1,F2,...Fn的最小值,计算该歌曲包含的歌单标签tk的可信值。\n[0096] 进一步地,所述曲库音乐记录是指存在某种存储介质中没有贴标签的音乐记录。\n[0097] 进一步地,所述模糊匹配采用编辑距离算法来计算歌曲名之间的匹配相似值。\n[0098] 进一步地,所述计算匹配相似值,具体步骤为:\n[0099] 设爬虫音乐标签记录的歌曲名字符串为S1,曲库搜索结果的歌曲名字符串为S2,通过编辑距离算法计算出S1与S2的编辑距离L,通过(S1-L)/S1计算出S1与S2匹配相似值。\n[0100] 示例性的,例如kitten转为sitting,需要将k转为s,e转为i,最后在末尾再添加g,故编辑距离为3。通过上述举例可知,所述编辑距离算法是指两个字符串中,其中一个字符串转化成另一个字符串的编辑次数,编辑次数越少,相似度越大。\n[0101] 进一步地,所述音乐标签体系包含大类标签,小类标签以及大类标签和小类标签之间的隶属关系。\n[0102] 进一步地,所述标签融合规则是指表述不同但是意义相同的标签之间的映射规则,包括快乐->开心,悲伤->伤感等。该步骤通过人工的方式建立映射规则。\n[0103] 进一步地,所述标签融合是指将不同表述但是意义相同的标签按照所述标签融合规则融合成统一的标签。\n[0104] 进一步地,所述根据音乐标签体系构建标签融合规则,具体步骤为:\n[0105] 统计所述爬虫音乐标签记录中的全部所述小类标签的频次,剔除一些频次比较低的小众标签,根据筛选后的所述小类标签,通过人工的方式构建所述音乐标签体系,对表述不同但是意义相同的标签构建映射规则生成所述音乐标签体系的所述小类标签。\n[0106] 其中,所述标签筛选规则是指在每个所述大类标签下选择所述小类标签的规则。\n[0107] 上述公开的基于爬虫的贴音乐标签方法可以持续不断地为曲库中的音乐贴上全面、高质量的音乐标签,具有很好的可用性。\n[0108] 实施例二\n[0109] 对应于上述方法存在一种基于爬虫的贴音乐标签系统,所述系统包括:\n[0110] 数据预处理模块,用于针对来自不同音乐网站的爬虫音乐标签记录进行预处理使其具有统一的格式;包括去除所述无关字符,将多个歌手的连接符统一为加号等。\n[0111] 标签转化模块,用于通过歌单标签可信值计算,将歌单标签转化为歌曲标签。具体为:将一歌曲的所述歌单标签转化为所述歌曲标签,所述标签转化模块用于针对每一个所述小类标签,统计其在全部所述歌单标签记录中的出现频次,另外针对一歌曲,统计其包含的所述小类标签以及该标签对应的频次,计算该歌曲包含的每个所述歌单标签的可信值,根据可信值筛选出可信值较高的所述歌单标签作为该歌曲的所述歌曲标签。\n[0112] 标签模糊匹配模块,用于利用编辑距离算法,将爬虫音乐标签记录与曲库音乐记录进行模糊匹配建立对应关系。具体为:将所述爬虫音乐标签记录与所述曲库音乐记录根据歌曲名进行所述模糊匹配建立对应关系,所述标签模糊匹配模块用于根据一所述爬虫音乐标签记录的歌手名搜索曲库,判断搜索结果是否为空,若搜索结果为空,则所述标签模糊匹配模块还用于判断是否有下一条所述爬虫音乐标签记录,若搜索结果不为空,则将该爬虫音乐标签记录中的歌曲名与曲库每个搜索结果的歌曲名进行所述模糊匹配;所述标签模糊匹配模块还用于判断所述匹配相似值是否大于0.8,若大于0.8,则构建该爬虫音乐标签记录与曲库该匹配上的音乐记录的对应关系,若不大于0.8,则所述标签模糊匹配模块还用于判断是否有下一条搜索结果.\n[0113] 标签融合模块,用于以音乐标签体系的标签为基准,构建标签融合规则对曲库音乐记录进行标签融合。具体为:将标签按照所述标签融合规则进行融合,所述标签融合模块用于根据所述音乐标签体系建立所述标签融合规则,根据一所述模糊匹配的对应关系,找到曲库音乐的对应的标签;所述标签融合模块还用于判断该对应标签是否需要融合,若需要融合,则根据所述标签融合规则进行所述标签融合后给曲库音乐贴上标签,若不需要融合,则给曲库音乐直接贴上标签;所述标签融合模块还用于判断是否有下一条对应关系,若有下一条对应关系,则根据下一条对应关系进行所述标签融合,若没有下一条对应关系,则根据所述标签筛选规则,对全部贴上标签的曲库音乐进行标签筛选。\n[0114] 进一步地,基于爬虫的贴音乐标签系统还包括:数据持久化模块,用于从持久化介质中根据歌手名查询曲库音乐记录,同时还用于数据持久化存储。\n[0115] 上述系统可以持续不断地为曲库中的音乐贴上全面、高质量的音乐标签,具有很好的可用性。\n[0116] 值得注意的是,上述系统实施例中,所包括的各个模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各装模块的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。\n[0117] 所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。\n[0118] 以上实施方式仅用于说明本发明,而非对本发明的限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行各种组合、修改或者等同替换,都不脱离本发明技术方案的精神和范围,均应涵盖在本发明的权利要求范围当中。
法律信息
- 2019-01-29
- 2016-07-27
实质审查的生效
IPC(主分类): G06F 17/30
专利申请号: 201610044080.X
申请日: 2016.01.22
- 2016-06-29
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2015-12-09
|
2015-09-06
| | |
2
| |
2012-09-05
|
2011-03-01
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |