著录项信息
专利名称 | 用于网络热词与对象的关联度的数据处理方法和装置 |
申请号 | CN201410665109.7 | 申请日期 | 2014-11-19 |
法律状态 | 暂无 | 申报国家 | 中国 |
公开/公告日 | 2015-03-11 | 公开/公告号 | CN104408102A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/30 | IPC分类号 | G;0;6;F;1;7;/;3;0查看分类表>
|
申请人 | 北京国双科技有限公司 | 申请人地址 | 北京市海淀区北四环中路229号海泰大厦4层南401号
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 北京国双科技有限公司 | 当前权利人 | 北京国双科技有限公司 |
发明人 | 陈俊宏;余德乐;杨韬 |
代理机构 | 北京康信知识产权代理有限责任公司 | 代理人 | 李志刚;吴贵明 |
摘要
本发明公开了一种用于网络热词与对象的关联度的数据处理方法和装置。其中,该用于网络热词与对象的关联度的数据处理方法包括:获取目标对象的对象信息;根据对象信息获取目标热词,目标热词为与对象信息的共现频率大于第一预设频率的词语,共现频率为目标热词与对象信息同时出现的频率;从目标热词中滤除常规热词,得到过滤后的目标热词,常规热词为预先设定的词语;以及确定目标对象与过滤后的目标热词的关联度。通过本发明,解决了相关技术中难以判断出高频词语与对象之间的真实关联度的问题。
1.一种用于网络热词与对象的关联度的数据处理方法,其特征在于,包括:
获取目标对象的对象信息;
根据所述对象信息获取目标热词,所述目标热词为与所述对象信息的共现频率大于第一预设频率的词语,所述共现频率为所述目标热词与所述对象信息同时出现的频率;
从所述目标热词中滤除常规热词,得到过滤后的目标热词,所述常规热词为预先设定的词语;以及
确定所述目标对象与所述过滤后的目标热词的关联度,
其中,根据以下公式确定所述关联度:
关联度=共现频率/独现频率,所述独现频率为过滤后的目标热词在文本信息中单独出现的频率。
2.根据权利要求1所述的用于网络热词与对象的关联度的数据处理方法,其特征在于,从所述目标热词中滤除所述常规热词,得到过滤后的目标热词包括:
获取所述常规热词;以及
判断所述目标热词中是否存在所述常规热词;以及
如果判断出所述目标热词中存在所述常规热词,则从所述目标热词中滤除所述常规热词,得到所述过滤后的目标热词。
3.根据权利要求2所述的用于网络热词与对象的关联度的数据处理方法,其特征在于,通过以下方式确定所述常规热词:
获取所述目标热词的独现频率,所述独现频率为所述目标热词独立出现的频率;
判断所述目标热词的所述独现频率是否大于第二预设频率;以及
如果判断出所述目标热词的所述独现频率大于所述第二预设频率,则将所述目标热词作为所述常规热词。
4.根据权利要求1所述的用于网络热词与对象的关联度的数据处理方法,其特征在于,所述对象信息包括所述目标对象的关键词,根据所述对象信息获取目标热词包括:
获取预先设置的网络爬虫;
利用所述预先设置的网络爬虫爬取目标网站上的文本信息;以及
根据所述关键词从所述文本信息中获取所述目标热词。
5.根据权利要求1所述的用于网络热词与对象的关联度的数据处理方法,其特征在于,在从所述目标热词中滤除常规热词,得到过滤后的目标热词之后,所述数据处理方法还包括:
确定所述过滤后的目标热词的情绪属性;以及
根据所述共现频率显示所述过滤后的目标热词和所述对象信息,和/或根据所述关联度显示所述过滤后的目标热词和所述对象信息,和/或根据所述情绪属性显示所述过滤后的目标热词和所述对象信息。
6.一种用于网络热词与对象的关联度的数据处理装置,其特征在于,包括:
第一获取单元,用于获取目标对象的对象信息;
第二获取单元,用于根据所述对象信息获取目标热词,所述目标热词为与所述对象信息的共现频率大于第一预设频率的词语,所述共现频率为所述目标热词与所述对象信息同时出现的频率;
过滤单元,用于从所述目标热词中滤除常规热词,得到过滤后的目标热词,所述常规热词为预先设定的词语;以及
第一确定单元,用于确定所述目标对象与所述过滤后的目标热词的关联度,其中,所述第一确定单元根据以下公式确定所述关联度:
关联度=共现频率/独现频率,所述独现频率为过滤后的目标热词在文本信息中单独出现的频率。
7.根据权利要求6所述的用于网络热词与对象的关联度的数据处理装置,所述过滤单元包括:
第一获取模块,用于获取所述常规热词;
第一判断模块,用于判断所述目标热词中是否存在所述常规热词;以及
过滤模块,用于在判断出所述目标热词中存在所述常规热词时,从所述目标热词中滤除所述常规热词,得到所述过滤后的目标热词。
8.根据权利要求7所述的用于网络热词与对象的关联度的数据处理装置,其特征在于,所述数据处理装置还包括第二确定单元,所述第二确定单元用于确定所述常规热词,其中,所述第二确定单元包括:
第二获取模块,用于获取所述目标热词的独现频率,所述独现频率为所述目标热词独立出现的频率;
第二判断模块,用于判断所述目标热词的所述独现频率是否大于第二预设频率;以及确定模块,用于在判断出所述目标热词的所述独现频率大于所述第二预设频率时,将所述目标热词作为所述常规热词。
9.根据权利要求6所述的用于网络热词与对象的关联度的数据处理装置,其特征在于,所述对象信息包括所述目标对象的关键词,所述第二获取单元包括:
第三获取模块,用于获取预先设置的网络爬虫;
爬取模块,用于利用所述预先设置的网络爬虫爬取目标网站上的文本信息;
以及
第四获取模块,用于根据所述关键词从所述文本信息中获取所述目标热词。
10.根据权利要求6所述的用于网络热词与对象的关联度的数据处理装置,其特征在于,所述数据处理还包括:
第三获取单元,用于在从所述目标热词中滤除常规热词,得到过滤后的目标热词之后,确定所述过滤后的目标热词的情绪属性;以及
显示单元,用于根据所述共现频率显示所述过滤后的目标热词和所述对象信息,和/或根据所述关联度显示所述过滤后的目标热词和所述对象信息,和/或根据所述情绪属性显示所述过滤后的目标热词和所述对象信息。
用于网络热词与对象的关联度的数据处理方法和装置\n技术领域\n[0001] 本发明涉及数据处理领域,具体而言,涉及一种用于网络热词与对象的关联度的\n数据处理方法和装置。\n背景技术\n[0002] 目前,随着媒体营销渠道的社会化发展,各商家开始重视并分析网民在网络渠道\n上发出的声音,希望将其转化为自身的商业效益。\n[0003] 在相关技术中,为了分析网民在网络渠道上发出的声音:首先采用机器爬虫的方\n式来爬取互联网网页上的文本信息,对机器而言,这些文本信息是由大量的词语构成的;然\n后,当确定一个对象时,根据所爬取的文本信息可以统计出与该对象同时出现的高频词语,\n进而可以判断出这些高频词语与该对象之间的关联度。\n[0004] 然而,由于受“我”“的”“这”等常规高频词的影响,根据上述技术方案,难以判断出这些热词与该对象之间的真实关联度。\n[0005] 针对相关技术中难以判断出热词与对象之间的真实关联度的问题,目前尚未提出\n有效的解决方案。\n发明内容\n[0006] 本发明的主要目的在于提供一种用于网络热词与对象的关联度的数据处理方法\n和装置,以解决相关技术中难以判断出高频词语与对象之间的真实关联度问题。\n[0007] 为了实现上述目的,根据本发明的一个方面,提供了一种用于网络热词与对象的\n关联度的数据处理方法。该方法可以包括:获取目标对象的对象信息;根据上述对象信息获\n取目标热词,上述目标热词为与上述对象信息的共现频率大于第一预设频率的词语,上述\n共现频率为上述目标热词为与上述对象信息同时出现的频率;从上述目标热词中滤除常规\n热词,得到过滤后的目标热词,上述常规热词为预先设定的词语;以及确定上述目标对象与\n上述过滤后的目标热词的关联度。\n[0008] 进一步地,从上述目标热词中滤除上述常规热词,得到过滤后的目标热词可以包\n括:获取上述常规热词;以及判断上述目标对象热词中是否存在上述常规热词,其中,如果\n判断出上述目标对象热词中存在上述常规热词,则从上述目标热词中滤除上述常规热词,\n得到上述过滤后的目标热词。\n[0009] 进一步地,可以通过以下方式确定上述常规热词:获取上述目标热词的独现频率,\n上述独现频率为上述目标热词独立出现的频率;判断上述目标热词的上述独现频率是否大\n于第二预设频率;以及如果判断出上述目标热词的上述独现频率大于上述第二预设频率,\n则将上述目标热词作为上述常规热词。\n[0010] 进一步地,上述对象信息可以包括上述目标对象的关键词,根据上述对象信息获\n取目标热词可以包括:获取预先设置的网络爬虫;利用上述预先设置的网络爬虫爬取目标\n网站上的文本信息;以及根据上述关键词从上述文本信息中获取上述目标热词。\n[0011] 进一步地,在从上述目标热词中滤除常规热词,得到过滤后的目标热词之后,上述\n数据处理方法还可以包括:确定上述过滤后的目标热词的情绪属性;以及根据上述共现频\n率显示上述过滤后的目标热词和上述对象信息,和/或根据上述关联度显示上述过滤后的\n目标热词和上述对象信息,和/或根据上述情绪属性显示上述过滤后的目标热词和上述对\n象信息。\n[0012] 为了实现上述目的,根据本发明的另一方面,提供了一种用于网络热词与对象的\n关联度的数据处理装置。该装置包括:第一获取单元,用于获取目标对象的对象信息;第二\n获取单元,用于根据上述对象信息获取目标热词,上述目标热词为与上述对象信息的共现\n频率大于第一预设频率的词语,上述共现频率为上述目标热词与上述对象信息同时出现的\n频率;过滤单元,用于从上述目标热词中滤除常规热词,得到过滤后的目标热词,上述常规\n热词为预先设定的词语;以及第一确定单元,用于确定上述目标对象与上述过滤后的目标\n热词的关联度。\n[0013] 进一步地,上述过滤单元包括:第一获取模块,用于获取上述常规热词;第一判断\n模块,用于判断上述目标热词中是否存在上述常规热词;以及过滤模块,用于在判断出上述\n目标热词中存在上述常规热词时,从上述目标热词中滤除上述常规热词,得到上述过滤后\n的目标热词。\n[0014] 进一步地,上述数据处理装置还包括第二确定单元,上述第二确定单元用于确定\n上述常规热词,其中,上述第二确定单元包括:第二获取模块,用于获取上述目标热词的独\n现频率,上述独现频率为上述目标热词独立出现的频率;第二判断模块,用于判断上述目标\n热词的上述独现频率是否大于第二预设频率;确定模块,用于在判断出上述目标热词的上\n述独现频率大于上述第二预设频率时,将上述目标热词作为上述常规热词。\n[0015] 进一步地,上述对象信息包括上述目标对象的关键词,上述第二获取单元包括:第\n三获取模块,用于获取预先设置的网络爬虫;爬取模块,用于利用上述预先设置的网络爬虫\n爬取目标网站上的文本信息;以及第四获取模块,用于根据上述关键词从上述文本信息中\n获取上述目标热词。\n[0016] 进一步地,上述数据处理还包括:第三获取单元,用于在从上述目标热词中滤除常\n规热词,得到过滤后的目标热词之后,确定上述过滤后的目标热词的情绪属性;以及显示单\n元,用于根据上述共现频率显示上述过滤后的目标热词和上述对象信息,和/或根据上述关\n联度显示上述过滤后的目标热词和上述对象信息,和/或根据上述情绪属性显示上述过滤\n后的目标热词和上述对象信息。\n[0017] 通过本发明,采用获取目标对象的对象信息;根据对象信息获取目标热词,目标热\n词为与对象信息的共现频率大于第一预设频率的词语,共现频率为目标热词为与对象信息\n同时出现的频率;从目标热词中滤除常规热词,得到过滤后的目标热词,常规热词为预先设\n定的词语;以及确定目标对象与过滤后的目标热词的关联度,解决了相关技术中难以判断\n出高频词语与对象之间的真实关联度的问题,进而达到了提高高频词语与对象之间的关联\n度的准确性效果。\n附图说明\n[0018] 构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实\n施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:\n[0019] 图1是根据本发明第一实施例的用于网络热词与对象的关联度的数据处理方法的\n流程图;\n[0020] 图2是根据本发明第二实施例的用于网络热词与对象的关联度的数据处理方法的\n流程图;\n[0021] 图3是根据本发明第一实施例的用于网络热词与对象的关联度的数据处理装置的\n示意图;以及\n[0022] 图4是根据本发明第二实施例的用于网络热词与对象的关联度的数据处理装置的\n示意图。\n具体实施方式\n[0023] 需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相\n互组合。下面将参考附图并结合实施例来详细说明本发明。\n[0024] 为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的\n附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是\n本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人\n员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范\n围。\n[0025] 需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第\n二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用\n的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的\n过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清\n楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。\n[0026] 根据本发明的实施例,提供了一种用于热词与对象的关联度的数据处理方法,该\n用于热词与对象的关联度的数据处理方法用于确定网页中热词与对象的关联度。该用于热\n词与对象的关联度的数据处理方法可以运行在计算机处理设备上。\n[0027] 图1是根据本发明第一实施例的用于网络热词与对象的关联度的数据处理方法的\n流程图。如图1所示,该方法可以包括步骤S102至步骤S108:\n[0028] 步骤S102,获取目标对象的对象信息。\n[0029] 目标对象也即待分析的对象,该目标对象的对象信息可以包括用于描述该目标对\n象的数据信息,例如,其可以为目标对象的关键词。\n[0030] 在实施时,可以预先通过多种途径获取目标对象的对象信息,例如,可以接收用户\n输入的目标对象的关键词,并将该关键词作为该目标对象的对象信息。以下以对象信息为\n关键词为例详细阐述本发明。\n[0031] 步骤S104,根据对象信息获取目标热词。\n[0032] 目标热词为与对象信息的共现频率大于第一预设频率的词语,共现频率为目标热\n词与对象信息同时出现的频率。\n[0033] 在执行步骤S104之前,可以预先通过搜索引擎,利用网络爬虫自动爬取目标网站\n上的文本信息,并将爬取到的文本信息存入数据库中,其中,该文本信息包含目标对象的关\n键词及与该关键词对应的全部热词。这样,在分析目标对象及其热词的关联度时,可以从数\n据库中查询目标热词(也即,与目标对象相关联的热词)。\n[0034] 例如,可以根据目标对象的关键词获取与该关键词相关联的目标热词,其中,目标\n热词为与该关键词的共现频率大于第一预设频率的词语,共现频率可以为目标热词与关键\n词同时出现的频率。具体地,可以从存储在上述数据库中的文本信息中筛选共现频率大于\n第一预设频率的目标热词。\n[0035] 步骤S106,从目标热词中滤除常规热词,得到过滤后的目标热词。\n[0036] 常规热词为预先设定的词语,例如,其可以包括“我”“的”“这”等。由于常规热词的出现频率并不完全依赖于目标对象的关键词,也即,不管目标对象是什么,这些常规热词的\n出现频率都可能保持大于第一预设频率的频率值。因此,在做关联度分析时,如果不对这些\n常规热词进行过滤处理,则会影响分析结果的准确度,进而影响用户的网络数据投放行为。\n因而,从目标热词中滤除常规热词,得到过滤后的目标热词,也即,得到真正的目标热词,这样,由于过滤后的目标热词可以真实的反映其与关键词的关联度,因而其可以对用户的网\n络数据投放行为起到准确的导向作用。\n[0037] 具体地,在从网路爬虫爬取的文本信息中获取目标热词之后,可以再从数据列表\n中获取预先设定的常规热词,然后,将所有的目标热词与所有的常规热词逐一对比,如果某\n个目标热词与某个常规热词一致,则将其滤除,否则,如果某个目标热词与任何一个常规热\n词都不一致,则保留该目标热词,其中,被保留下来的目标热词即为过滤后的目标热词。\n[0038] 步骤S108,确定目标对象与过滤后的目标热词的关联度。\n[0039] 也即,确定目标对象的关键词与过滤后的目标热词的关联度。其中,关联度=共现\n频率/独现频率,独现频率可以为过滤后的目标热词在文本信息中单独出现的频率。\n[0040] 例如,在实施时,假设目标对象为“可口可乐”,那么相应的“可口可乐”的对象信息可以为“可口可乐”这4个字,而与“可口可乐”关联的目标热词可以包括:“刘翔”、“姚明”、“百事可乐”、“巴菲特”、“果汁”、“雾霾”、“金秀贤”、“麦当劳”、“肯德基”以及“的”、“了”、“代言”、“明星”等等。显然,“的”、“了”、“代言”、“明星”并不是“可口可乐”的真正的目标热词,例如,即使目标对象换为“百事可乐”,“的”、“了”、“代言”、“明星”等的共现频率也会超出第一预设频率,也即,“的”、“了”、“代言”、“明星”是常规热词,因此,执行本发明的上述步骤,可以将“的”、“了”、“代言”、“明星”等常规热词滤除,从而可以确定“可口可乐”的真正的目标热词为“刘翔”、“姚明”、“百事可乐”、“巴菲特”、“果汁”、“雾霾”、“金秀贤”、“麦当劳”、“肯德基”,并得到“可口可乐”与这些真正的目标热词的关联度。\n[0041] 通过本发明实施例,由于从目标热词中滤除了常规热词,避免了常规热词的干扰,\n过滤后的目标热词能够更加准确地反映目标对象与过滤后的目标热词的关联度,达到了提\n高高频词语与对象之间的关联度的准确性效果。\n[0042] 图2是根据本发明第二实施例的用于网络热词与对象的关联度的数据处理方法的\n流程图。该实施例可以作为图1所示实施例的优选实施方式。该用于热词与对象的关联度的\n数据处理方法包括如下的步骤S202至步骤S212:\n[0043] 步骤S202和步骤S204,分别同图1所示实施例的步骤S102和步骤S104,在此不再赘\n述。\n[0044] 步骤S206,获取常规热词。\n[0045] 常规热词为预先设定的词语,无论对象是谁,这些常规热词的出现频率都会大于\n第一预设频率。具体地,可以从数据库列表中获取预先设定的常规热词。\n[0046] 步骤S208,判断目标热词中是否存在常规热词。\n[0047] 可以将所有的目标热词与所有的常规热词逐一对比,如果某个目标热词与某个常\n规热词一致,则判断出该目标热词是常规热词;否则,如果某个目标热词与任何一个常规热\n词都不一致,则判断出该目标热词不是常规热词。\n[0048] 步骤S210,如果判断出目标热词中存在常规热词,则从目标热词中滤除常规热词,\n得到过滤后的目标热词。\n[0049] 步骤S212,同图1所示实施例的步骤S104,在此不再赘述。\n[0050] 通过本发明实施例,由于预先建立了常规热词的词库,并将其存储在相应的数据\n库列表中,便于目标热词与该词库中的常规热词进行对比。\n[0051] 优选地,在本发明实施例中,可以通过以下方式确定常规热词:\n[0052] S2,获取目标热词的独现频率,独现频率为目标热词独立出现的频率,也即,目标\n热词不依附于目标对象的关键词而单独出现的频率。\n[0053] S4,判断目标热词的独现频率是否大于第二预设频率。第二预设频率可以与前述\n的第一预设频率相同。\n[0054] S6,如果判断出目标热词的独现频率大于第二预设频率,则将目标热词作为常规\n热词。\n[0055] 优选地,根据本发明实施例,对象信息可以包括目标对象的关键词,根据对象信息\n获取目标热词可以包括:\n[0056] S8,获取预先设置的网络爬虫。\n[0057] 该网络爬虫可以是定向抓取相关网页资源,自动下载网页程序,它根据既定的抓\n取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。它将目标定为抓\n取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。\n[0058] S10,利用预先设置的网络爬虫爬取目标网站上的文本信息。这里,网络爬虫爬取\n的信息可以为目标对象所在的文本信息。\n[0059] S12,根据关键词从文本信息中获取目标热词。\n[0060] 通过本发明实施例,采用网络爬虫的手段,当确定一个对象的对象信息(如,关键\n词)时,可以从互联网的网页上爬取到与该关键词对应的所有的文本信息,其中,该文本信\n息由大量的词语构成,根据爬取的文本信息确定与该对象同时出现的目标热词。\n[0061] 优选地,在本发明实施例中,在从目标热词中滤除常规热词,得到过滤后的目标热\n词之后,该数据处理方法还可以包括:\n[0062] S14,确定过滤后的目标热词的情绪属性。可以通过语义分析技术分析过滤后的目\n标热词的情绪属性,其中,情绪属性包含正、负情绪属性以及中性情绪属性。例如,在实施\n时,可以预先设定词语的情绪属性,并将这些词语存储在预先设定的情绪属性列表中,这\n样,在确定过滤后的目标热词的情绪属性时,可以将目标热词与情绪属性列表中的词语进\n行逐一匹配,如果匹配成功,则目标热词的情绪属性即为所匹配的词语的情绪属性。\n[0063] S16,根据共现频率显示过滤后的目标热词和对象信息;和/或,根据关联度显示过\n滤后的目标热词和对象信息;和/或,根据情绪属性显示过滤后的目标热词和对象信息。\n[0064] 例如,在根据情绪属性显示过滤后的目标热词和对象信息(如,关键词)时,可以以\n气泡、词云等形式进行显示,使得目标热词与目标对象的关联度更直观、更形象。\n[0065] 例如,可以将目标热词的情绪属性展示在图形上,并通过左右分布来区分不同情\n绪的目标热词,以及通过目标热词与坐标原点的距离来表现关联度的大小。例如,正面情绪\n的目标热词可以以气泡的形式展现在示意图的右边,负面情绪的目标热词可以以气泡的形\n式展现在示意图的左边。气泡的大小表示目标热词的共现频率,气泡到坐标原点的距离表\n示关联度大小,其中,坐标原点即表示对象信息(如,关键词),距离坐标原点越近,目标热词与对象信息(如,关键词)的关联度越大;反之,距离坐标原点越远,目标热词与对象信息\n(如,关键词)的关联度越小。\n[0066] 需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的\n计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不\n同于此处的顺序执行所示出或描述的步骤。\n[0067] 根据本发明的实施例,提供了一种用于热词与对象的关联度的数据处理装置,该\n用于热词与对象的关联度的数据处理装置用于确定网页中热词与对象的关联度。需要说明\n的是,本发明实施例所提供的用于热词与对象的关联度的数据处理方法可以通过本发明实\n施例的用于热词与对象的关联度的数据处理装置来执行,本发明实施例的用于热词与对象\n的关联度的数据处理装置也可以用于执行本发明实施例的用于热词与对象的关联度的数\n据处理方法。\n[0068] 图3是根据本发明第一实施例的用于网络热词与对象的关联度的数据处理装置的\n示意图。如图3所示,该装置包括:第一获取单元10、第二获取单元20、过滤单元30和第一确定单元40。\n[0069] 第一获取单元10用于获取目标对象的对象信息。目标对象也即待分析的对象,该\n目标对象的对象信息可以包括用于描述该目标对象的数据信息,例如,其可以为目标对象\n的关键词。在实施时,可以预先通过多种途径获取目标对象的对象信息,例如,可以接收用\n户输入的目标对象的关键词,并将该关键词作为该目标对象的对象信息。以下对象信息为\n关键词为例详细阐述本发明。\n[0070] 第二获取单元20用于根据对象信息获取目标热词,目标热词为与对象信息的共现\n频率大于第一预设频率的词语,共现频率为目标热词与对象信息同时出现的频率。目标热\n词为与对象信息的共现频率大于第一预设频率的词语,共现频率为目标热词与对象信息同\n时出现的频率。\n[0071] 在执行第二获取单元20的功能之前,可以预先通过搜索引擎,利用网络爬虫自动\n爬取目标网站上的文本信息,并将爬取到的文本信息存入数据库中,其中,该文本信息包含\n目标对象的关键词及与该关键词对应的全部热词。这样,在分析目标对象及其热词的关联\n度时,可以从数据库中查询目标热词(也即,与目标对象相关联的热词)。\n[0072] 例如,可以根据目标对象的关键词获取与该关键词相关联的目标热词,其中,目标\n热词为与该关键词的共现频率大于第一预设频率的词语,共现频率可以为目标热词与关键\n词同时出现的频率。具体地,可以从存储在上述数据库中的文本信息中筛选共现频率大于\n第一预设频率的目标热词。\n[0073] 过滤单元30用于从目标热词中滤除常规热词,得到过滤后的目标热词,常规热词\n为预先设定的词语。常规热词为预先设定的词语,例如,其可以包括“我”“的”“这”等。由于常规热词的出现频率并不完全依赖与目标对象的关键词,也即,不管目标对象是什么,这些\n常规热词的出现频率都可能保持大于第一预设频率的频率值。因此,在做关联度分析时,如\n果不对这些常规热词进行过滤处理,则会影响分析结果的准确度,进而影响用户的网络数\n据投放行为。因而,从目标热词中滤除常规热词,得到过滤后的目标热词,也即,得到真正的目标热词,这样,由于过滤后的目标热词可以真实的反映其与关键词的关联度,因而其可以\n对用户的网络数据投放行为起到准确的导向作用。\n[0074] 具体地,在从网路爬虫爬取的文本信息中获取目标热词之后,可以再从数据列表\n中获取预先设定的常规热词,然后,将所有的目标热词与所有的常规热词逐一对比,如果某\n个目标热词与某个常规热词一致,则将其滤除,否则,如果某个目标热词与任何一个常规热\n词都不一致,则保留该目标热词,其中,被保留下来的目标热词即为过滤后的目标热词。\n[0075] 第一确定单元40用于确定目标对象与过滤后的目标热词的关联度。也即,确定目\n标对象的关键词与过滤后的目标热词的关联度。其中,关联度=共现频率/独现频率,独现\n频率可以为过滤后的目标热词在文本信息中单独出现的频率。\n[0076] 通过本发明实施例,由于从目标热词中滤除了常规热词,避免了常规热词的干扰,\n过滤后的目标热词能够更加真确地反映目标对象与过滤后的目标热词的关联度,达到了提\n高高频词语与对象之间的关联度的准确性效果。\n[0077] 图4是根据本发明第二实施例的用于网络热词与对象的关联度的数据处理装置的\n示意图。如图4所示,该装置包括:第一获取单元10、第二获取单元20、过滤单元30和第一确定单元40,其中,过滤单元30包括:第一获取模块301、第一判断模块302和过滤模块303。\n[0078] 第一获取单元10、第二获取单元20和第一确定单元40的作用与前述实施例中的相\n同,在此不再赘述。\n[0079] 第一获取模块301用于获取常规热词。常规热词为预先设定的词语,无论对象是\n谁,这些常规热词的出现频率都会大于第一预设频率。具体地,可以从数据库列表中获取预\n先设定的常规热词。\n[0080] 第一判断模块302用于判断目标热词中是否存在常规热词。可以将所有的目标热\n词与所有的常规热词逐一对比,如果某个目标热词与某个常规热词一致,则判断出该目标\n热词是常规热词;否则,如果某个目标热词与任何一个常规热词都不一致,则判断出该目标\n热词不是常规热词。\n[0081] 过滤模块303用于在判断出目标热词中存在常规热词时,从目标热词中滤除常规\n热词,得到过滤后的目标热词。\n[0082] 通过本发明实施例,由于预先建立了常规热词的词库,并将其存储在相应的数据\n库列表中,便于目标热词与该词库中的常规热词进行对比。\n[0083] 优选地,在本发明实施例中,该数据处理装置还可以包括:第二确定单元。第二确\n定单元用于确定常规热词,其中,第二确定单元可以包括:第二获取模块、第二判断模块和\n确定模块。第二获取模块用于获取目标热词的独现频率,独现频率为目标热词独立出现的\n频率,也即,目标热词不依附于目标对象的关键词而单独出现的频率。第二判断模块用于判\n断目标热词的独现频率是否大于第二预设频率。第二预设频率可以与前述的第一预设频率\n相同。确定模块用于在判断出目标热词的独现频率大于第二预设频率时,将目标热词作为\n常规热词。\n[0084] 优选地,根据本发明实施例,对象信息包括目标对象的关键词,第二获取单元可以\n包括:第三获取模块、爬取模块和第四获取模块。\n[0085] 第三获取模块用于获取预先设置的网络爬虫。该网络爬虫可以是定向抓取相关网\n页资源,自动下载网页程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关\n的链接,获取所需要的信息。它将目标定为抓取与某一特定主题内容相关的网页,为面向主\n题的用户查询准备数据资源。爬取模块用于利用预先设置的网络爬虫爬取目标网站上的文\n本信息。这里,网络爬虫爬取的信息可以为目标对象所在的文本信息。第四获取模块,用于\n根据关键词从文本信息中获取目标热词。\n[0086] 通过本发明实施例,采用网络爬虫的手段,当确定一个对象的对象信息(如,关键\n词)时,可以从互联网的网页上爬取到与该关键词对应的所有的文本信息,其中,该文本信\n息由大量的词语构成,根据爬取的文本信息确定与该对象同时出现的目标热词。\n[0087] 优选地,在本发明实施例中,该数据处理还可以包括:第三获取单元和显示单元。\n第三获取单元用于在从目标热词中滤除常规热词,得到过滤后的目标热词之后,确定过滤\n后的目标热词的情绪属性。可以通过语义分析技术分析过滤后的目标热词的情绪属性,其\n中,情绪属性包含正、负情绪属性以及中性情绪属性。例如,在实施时,可以预先设定词语的情绪属性,并将这些词语存储在预先设定的情绪属性列表中,这样,在确定过滤后的目标热\n词的情绪属性时,可以将目标热词与情绪属性列表中的词语进行逐一匹配,如果匹配成功,\n则目标热词的情绪属性即为所匹配的词语的情绪属性。\n[0088] 显示单元用于根据共现频率显示过滤后的目标热词和对象信息;和/或,根据关联\n度显示过滤后的目标热词和对象信息;和/或,根据情绪属性显示过滤后的目标热词和对象\n信息。例如,在根据情绪属性显示过滤后的目标热词和对象信息(如,关键词)时,可以以气\n泡、词云等形式进行显示,使得目标热词与目标对象的关联度更直观、更形象。\n[0089] 显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用\n的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成\n的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储\n在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们\n中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的\n硬件和软件结合。\n[0090] 以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技\n术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修\n改、等同替换、改进等,均应包含在本发明的保护范围之内。
法律信息
- 2020-01-14
专利权人的姓名或者名称、地址的变更
专利权人由北京国双科技有限公司变更为北京国双科技有限公司
地址由100086 北京市海淀区双榆树小区知春路76号翠宫饭店8层A间变更为100083 北京市海淀区北四环中路229号海泰大厦4层南401号
- 2017-11-21
- 2015-04-08
实质审查的生效
IPC(主分类): G06F 17/30
专利申请号: 201410665109.7
申请日: 2014.11.19
- 2015-03-11
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2013-07-03
|
2013-04-03
| | |
2
| |
2014-06-11
|
2012-12-01
| | |
3
| |
2013-05-15
|
2012-08-03
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |