著录项信息
专利名称 | 网络信息数据的处理方法及装置 |
申请号 | CN201210371420.1 | 申请日期 | 2012-09-28 |
法律状态 | 授权 | 申报国家 | 中国 |
公开/公告日 | 2013-02-27 | 公开/公告号 | CN102945246A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/30 | IPC分类号 | G;0;6;F;1;7;/;3;0查看分类表>
|
申请人 | 北界创想(北京)软件有限公司 | 申请人地址 | 北京市朝阳区朝外大街乙6号朝外SOHOC座0929
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 北界创想(北京)软件有限公司 | 当前权利人 | 北界创想(北京)软件有限公司 |
发明人 | 李学科 |
代理机构 | 北京三友知识产权代理有限公司 | 代理人 | 吕俊刚 |
摘要
本发明实施例提供一种网络信息数据处理方法及装置,涉及计算机技术领域。其中,被处理的每条信息数据包括关于该信息相关内容的一项或多项信息项目,该网络信息数据处理方法包括:针对各预定分类采集多条初始信息数据,从初始信息数据中获取分别与每个预定分类相对应的一项或多项信息项目作为用于将待分类信息数据进行分类的分类项目,并获取对应于分类项目的一个或多个关键词作为将待分类信息数据归类到相应的预定分类中的依据;采集待分类信息数据;将分类项目中包含与分类项目对应的关键词的待分类信息数据归类到相应的预定分类中;按照预定分类发布信息数据。通过本发明能够有效利用有限的带宽资源进而使用户高效地获取其需要的信息。
1.一种网络信息数据处理方法,其中,被处理的每条信息数据包括关于该信息相关内容的多项信息项目,其特征在于,所述方法包括:
针对各预定分类采集多条初始信息数据,从所述初始信息数据中获取分别与每个所述预定分类相对应的一项或多项信息项目作为用于将待分类信息数据进行分类的分类项目,并获取对应于所述分类项目的一个或多个关键词作为将待分类信息数据归类到相应的预定分类中的依据;
采集所述待分类信息数据;
将所述分类项目中包含与所述分类项目对应的所述关键词的所述待分类信息数据归类到相应的预定分类中;
按照所述预定分类发布信息数据。
2.根据权利要求1所述的网络信息数据处理方法,其特征在于,从所述初始信息数据中获取所述分类项目及所述关键词的步骤包括:
从所述初始信息数据中筛选符合预定分类的信息数据;
针对各预定分类的所述初始信息数据的每个信息项目应用分词技术获取多个词组;
在每个信息项目中分别统计该多个词组在所述初始信息数据中的出现频率;
根据统计结果选取所述分类项目及关键词。
3.根据权利要求2所述的网络信息数据处理方法,其特征在于,根据统计结果选取所述分类项目及关键词的步骤包括:
在每个信息项目中计算所有词组出现频率的中位数;
选取预定数量的出现频率高于中位数的所述词组作为关键词,并选取包含出现频率高于所述中位数的词组的一项或多项信息项目为所述分类项目。
4.根据权利要求2所述的网络信息数据处理方法,其特征在于,根据统计结果选取所述分类项目获取所述关键词的步骤包括:
计算每个信息项目中所述多个词组中每一个词组的出现频率与该信息项目中所拆分出的全部词组的数目的比值;
将所述多个信息项目中的全部词组按照所述比值排序;
选取比值排序位于前预定数目的词组对应的一项或多项信息项目为所述分类项目,选取所述词组作为关键词。
5.根据权利要求1所述的网络信息数据处理方法,其中,被处理的每条信息数据包括反映所述信息数据的发布及状态的一个或多个信息参数,其特征在于,所述方法还包括:
根据所述预定分类中各项信息参数及信息文本内容的预定权重对各预定分类中的每条信息数据进行排序。
6.根据权利要求5所述的网络信息数据处理方法,其特征在于,根据所述预定分类中各项信息参数的预定权重对各预定分类中的每条信息数据进行排序的步骤包括:
根据文本内容、评论、转发、图片和发布时间中的一个或多个的预定权重为各预定分类中的信息数据评分;
根据所述评分对数据进行排序。
7.根据权利要求5所述的网络信息数据处理方法,其特征在于,还包括过滤掉排序后的信息数据中重复信息数据的步骤,该步骤包括:
提取信息数据中的图片;
将所述图片转换为直方图,并计算每两张直方图的相似系数;
若所述相似系数大于预定阈值,则删除所述两张直方图对应的两条信息数据中排序靠后的信息数据。
8.一种网络信息数据处理装置,其中,被所述网络信息数据处理装置处理的每条信息数据包括关于该信息相关内容的多项信息项目,其特征在于,该网络信息数据处理装置包括:
分类项目及关键词获取模块,用于针对各预定分类采集多条初始信息数据,从所述初始信息数据中获取分别与每个所述预定分类相对应的一项或多项信息项目作为用于将待分类信息数据进行分类的分类项目,并获取对应于所述分类项目的一个或多个关键词作为将待分类信息数据归类到相应的预定分类中的依据;
采集模块,用于所述待分类信息数据;
分类模块,用于将所述分类项目中包含与所述分类项目对应的所述关键词的所述待分类信息数据归类到相应的预定分类中;
发布模块,按照所述预定分类发布信息数据。
9.根据权利要求8所述的网络信息数据处理装置,其特征在于,所述分类项目及关键词获取模块包括:
初筛单元,用于从所述初始信息数据中筛选符合预定分类的信息数据;
分词单元,用于针对各预定分类的所述初始信息数据的每个信息项目应用分词技术获取多个词组;
统计单元,用于在每个信息项目中分别统计该多个词组在所述初始信息数据中的出现频率;
选取单元,用于根据统计结果选取所述分类项目及关键词。
10.根据权利要求9所述的网络信息数据处理装置,其特征在于,所述选取单元包括:
第一计算子单元,用于在每个信息项目中计算所有词组出现频率的中位数;
第一分类项目及关键词选取子单元,用于选取预定数量的出现频率高于中位数的所述词组作为关键词,并选取包含出现频率高于所述中位数的词组的一项或多项信息项目为所述分类项目。
11.根据权利要求9所述的网络信息数据处理装置,其特征在于,所述选取单元包括:
第二计算子单元,用于计算每个信息项目中所述多个词组中每一个词组的出现频率与该信息项目中所拆分出的全部词组的数目的比值;
排序子单元,用于将所述多个信息项目中的全部词组按照所述比值排序;
第二分类项目及关键词选取子单元,用于选取包含比值排序位于前预定数目的词组对应的一项或多项信息项目为所述分类项目,选取所述词组作为关键词。
12.根据权利要求8所述的网络信息数据处理装置,其中,被处理的每条信息数据包括反映所述信息数据的发布及状态的一个或多个信息参数,其特征在于,所述网络信息数据处理装置还包括:
排序模块,用于根据所述预定分类中各项信息参数的预定权重对各预定分类中的每条信息数据进行排序。
13.根据权利要求12所述的网络信息数据处理装置,其特征在于,所述排序模块包括:
评分单元,用于根据文本内容、评论、转发、图片和发布时间中的一个或多个的预定权重为各分类中的数据评分;
排序单元,用于根据所述评分对数据进行排序。
14.根据权利要求12所述的网络信息数据处理装置,其特征在于,还包括过滤模块,用于过滤掉排序后的信息数据中重复的信息数据,所述过滤模块包括:
图片提取单元,用于提取数据中的图片;
计算单元,用于将所述图片转换为直方图,并计算每两张直方图的相似系数;
删除单元,若所述相似系数大于预定阈值,用于删除所述两张直方图对应的两条信息数据中排序靠后的信息数据。
网络信息数据的处理方法及装置\n技术领域\n[0001] 本发明涉及计算机技术领域,特别涉及一种网络信息数据的处理方法和装置。\n背景技术\n[0002] 随着信息化进程不断加快,诸如微博类媒体的迅猛发展,网络用户的阅读需求越来越高,网上的信息成几何级数增长。人们迫切需要一个内容聚合平台,能让他们看到更新、更好、更有针对性的信息。\n[0003] 例如,目前有许多电子杂志,都是对各类网络信息例如微博、RSS等进行聚合,聚合方式多种多样。例如通过API接口采集数据、将数据分类到不同的频道等。\n[0004] 大多数电子杂志类客户端、网站在聚合和筛选两个方面都不完善。例如,在聚合阶段,根据内容的某个维度聚合(如作者),这样聚合出的内容往往不能保证内容的一致性(比如一个作者可能会同时发布不同类型的内容)。又例如,在筛选阶段,使用内容的评论数,转发数,发表日期作为评判内容质量的标准。这样做有时并不会筛选出优质的内容。另外,如果聚合阶段和筛选阶段的问题同时发生,最终的结果产生的误差可能更大。这样,有效利用有限的带宽资源使用户高效地获取其需要的信息成为业界亟需解决的问题。\n发明内容\n[0005] 本发明实施例提供一种网络信息数据的处理方法和装置,以改善用户体验。\n[0006] 其中,本发明实施例提供一种网络信息数据的处理方法,其中,被处理的每条信息数据包括关于该信息相关内容的多项信息项目,该方法包括:针对各预定分类采集多条初始信息数据,从初始信息数据中获取分别与每个预定分类相对应的一项或多项信息项目作为用于将待分类信息数据进行分类的分类项目,并获取对应于分类项目的一个或多个关键词作为将待分类信息数据归类到相应的预定分类中的依据;采集待分类信息数据;将分类项目中包含与分类项目对应的关键词的待分类信息数据归类到相应的预定分类中;按照预定分类发布信息数据。在一个实施例中,从初始信息数据中获取分类项目及关键词的步骤包括:从初始信息数据中筛选符合预定分类的信息数据;针对各预定分类的初始信息数据的每个信息项目应用分词技术获取多个词组;在每个信息项目中分别统计该多个词组在初始信息数据中的出现频率;根据统计结果选取分类项目及关键词。\n[0007] 在一个实施例中,根据统计结果选取分类项目及关键词的步骤包括:在每个信息项目中计算所有词组出现频率的中位数;选取预定数量的出现频率高于中位数的词组作为关键词,并选取包含出现频率高于中位数的词组的一项或多项信息项目为分类项目。\n[0008] 在一个实施例中,根据统计结果选取分类项目获取关键词的步骤包括:计算每个信息项目中多个词组中每一个词组的出现频率与该信息项目中所拆分出的全部词组的数目的比值;将多个信息项目中的全部词组按照比值排序;选取比值排序位于前预定数目的词组对应的一项或多项信息项目为分类项目,选取该一个或多个词组作为关键词。\n[0009] 在一个实施例中,被处理的每条信息数据包括反映信息数据的发布及状态的一个或多个信息参数,网络信息数据处理方法还包括:根据预定分类中各项信息参数的预定权重对各预定分类中的每条信息数据进行排序。\n[0010] 在一个实施例中,根据预定分类中各项信息参数的预定权重对各预定分类中的每条信息数据进行排序的步骤包括:根据文本内容、评论、转发、图片和发布时间中的一个或多个的预定权重为各预定分类中的信息数据评分;根据评分对数据进行排序。\n[0011] 在一个实施例中,网络信息数据处理方法还包括过滤掉排序后的数据中重复的数据的步骤,该步骤包括:提取数据中的图片;将图片转换为直方图,并计算每两张直方图的相似系数;若该相似系数大于预定阈值,则删除两张直方图对应的两条信息数据中排序靠后的信息数据。\n[0012] 本发明实施例还提供一种网络信息数据的处理装置,其中,被网络信息数据处理装置处理的每条信息数据包括关于该信息相关内容的多项信息项目包括:该网络信息数据处理装置包括:分类项目及关键词获取模块,用于针对各预定分类采集多条初始信息数据,从初始信息数据中获取分别与每个预定分类相对应的一项或多项信息项目作为用于将待分类信息数据进行分类的分类项目,并获取对应于分类项目的一个或多个关键词作为将待分类信息数据归类到相应的预定分类中的依据;采集模块,用于待分类信息数据;分类模块,用于将分类项目中包含与分类项目对应的关键词的待分类信息数据归类到相应的预定分类中;发布模块,按照预定分类发布信息数据。\n[0013] 在一个实施例中,分类项目及关键词获取模块包括:初筛单元,用于从初始信息数据中筛选符合预定分类的信息数据;分词单元,用于针对各预定分类的初始信息数据的每个信息项目应用分词技术获取多个词组;统计单元,用于在每个信息项目中分别统计该多个词组在初始信息数据中的出现频率;选取单元,用于根据统计结果选取分类项目及关键词。\n[0014] 在一个实施例中,选取单元包括:第一计算子单元,用于在每个信息项目中计算所有词组出现频率的中位数;第一分类项目及关键词选取子单元,用于选取预定数量的出现频率高于中位数的词组作为关键词,并选取包含出现频率高于中位数的词组的一项或多项信息项目为分类项目。\n[0015] 在一个实施例中,选取单元包括:第二计算子单元,用于计算每个信息项目中多个词组中每一个词组的出现频率与该信息项目中所拆分出的全部词组的数目的比值;排序子单元,用于将多个信息项目中的全部词组按照比值排序;第二分类项目及关键词选取子单元,用于选取包含比值最高的词组的一项信息项目为分类项目,选取词组作为关键词。\n[0016] 在一个实施例中,被处理的每条信息数据包括反映信息数据的发布及状态的一个或多个信息参数,网络信息数据处理装置还包括:排序模块,用于根据预定分类中各项信息参数的预定权重对各预定分类中的每条信息数据进行排序。\n[0017] 在一个实施例中,排序模块包括:评分单元,用于根据文本、评论、转发、图片和发布时间中的一个或多个的预定权重为各分类中的数据评分;排序单元,用于根据评分对数据进行排序。\n[0018] 在一个实施例中,网络信息数据处理装置还包括过滤模块,用于过滤掉处理后的数据中重复的数据,过滤模块包括:图片提取单元,用于提取数据中的图片;计算单元,用于将图片转换为直方图,并计算每两张直方图的相似系数;删除单元,若该相似系数大于预定阈值,用于删除两张直方图对应的两条信息数据中排序靠后的信息数据。\n[0019] 本发明实施例的有益效果在于,通过以上技术方案中对数据的采集、准确分类和排序,能够有效利用有限的带宽资源进而使用户高效地获取其需要的信息。\n附图说明\n[0020] 此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。在附图中:\n[0021] 图1是根据本发明实施例的应用场景的示意图;\n[0022] 图2是根据本发明实施例的网络信息数据处理方法的流程图;\n[0023] 图3是根据本发明另一实施例的网络信息数据处理方法的流程图;\n[0024] 图4是根据本发明实施例的获取关键词的方法的流程图;\n[0025] 图5是根据本发明实施例的对数据进行分类的示意图;\n[0026] 图6是根据本发明实施例的对数据进行排序的方法的流程图;\n[0027] 图7是根据本发明实施例的网络信息数据处理装置的结构示意图;\n[0028] 图8是根据本发明实施例的分类项目及关键词获取模块的结构示意图;\n[0029] 图9是根据本发明另一实施例的网络信息数据处理装置的结构示意图;\n[0030] 图10是是根据本发明又一实施例的网络信息数据处理装置的结构示意图。\n具体实施方式\n[0031] 为使本发明的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例作进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。\n[0032] 现在将参考附图进一步详细描述本发明。本发明可以许多不同的形式来实现,不应该被理解为仅限于此处所阐述的实施例。这些实施例只作为示例提供,以便为本领域技术人员提供对本发明的完全理解。\n[0033] 图1是根据本发明实施例的应用场景的示意图。在图1的场景中可以包括数据采集服务器102、数据存储服务器104、数据聚合服务器106、数据发布平台108。\n[0034] 其中,数据采集服务器102可以用于以预定周期采集各种网络信息数据,并将采集到的数据存储于数据存储服务器104中。一条网络信息数据可包含一项或多项信息项目及一项或多项信息参数。其中,信息项目包括但不限于:正文文本、评论文本、用户分组等。\n信息参数包括但不限于转发数、评论数、信息数据发表时间等。\n[0035] 数据聚合服务器106可以用于对采集到的数据进行聚合。例如,从初始采集的数据中获取与预定分类相对应的分类项目及关键词,将属于分类项目的信息项目中包含有关键词的信息数据归类到相应的预定分类中。在一个实施例中,可以根据该条信息数据包含的文本内容及信息参数,按照该预定分类对文本内容及各项信息参数的预定权重对各分类中的数据分别进行排序。预定分类例如:笑话频道、科技频道、星座频道等。在一个实施例中,数据聚合服务器106还可以对排序后的数据进行过滤,删除重复的数据。数据发布平台\n108可以用于发布经处理的数据。\n[0036] 根据本发明的实施例,上述各服务器可以是单独的服务器也可以是包括多台服务器的群组。\n[0037] 图2是根据本发明实施例的网络信息数据处理方法200的流程图。其中,被处理的每条信息数据包括关于该信息相关内容的一项或多项信息项目,例如:正文文本、评论文本、用户分组等。\n[0038] 在步骤202中,针对各预定分类采集多条初始信息数据,从初始信息数据中获取分别与每个预定分类相对应的一项或多项信息项目作为用于将待分类信息数据进行分类的分类项目,并获取对应于分类项目的一个或多个关键词作为将待分类信息数据归类到相应的预定分类中的依据。\n[0039] 在步骤204中,采集待分类信息数据。\n[0040] 在步骤206中,将分类项目中包含与分类项目对应的关键词的待分类信息数据归类到相应的预定分类中。\n[0041] 在步骤208中,按照预定分类发布信息数据。\n[0042] 图3是根据本发明另一实施例的网络信息数据处理方法300的流程图。\n[0043] 在步骤302中,从初始信息数据中获取分类项目及关键词。针对各预定分类采集多条初始信息数据,从初始信息数据中获取分别与每个预定分类相对应的一项或多项信息项目作为用于将待分类信息数据进行分类的分类项目,并获取对应于分类项目的一个或多个关键词作为将待分类信息数据归类到相应的预定分类中的依据。其中,预定分类可以包括但不限于笑话、科技、星座等。在一个实施例中,获取分类项目及关键词的方法的具体步骤可以为如图4所示的各步骤。图4是根据本发明实施例的获取关键词的方法的流程图。\n[0044] 在步骤401中,从初始信息数据中筛选符合预定分类的信息数据。\n[0045] 在步骤402中,针对各预定分类的初始信息数据的每个信息项目应用分词技术获取多个词组。可以获取预定数量的信息数据,该信息数据可以包括关于该信息相关内容的一项或多项信息项目,例如正文文本、评论文本、用户分组等。对这些信息数据中各信息项目应用分词技术,例如,对找到的数据信息中所有的正文或评论以词组为单位进行拆分。在一个实施例中,分词技术可以包括正向最大匹配算法、反向最大匹配法、最短路径分词法等。\n[0046] 在步骤404中,在每个信息项目中分别统计该多个词组在初始信息数据中的出现频率。\n[0047] 在步骤406中,根据统计结果选取分类项目及关键词。\n[0048] 在一个实施例中,可以在每个信息项目中计算所有词组出现频率的中位数;选取预定数量的出现频率高于中位数的词组作为关键词,并选取包含出现频率高于中位数的词组的一项或多项信息项目为分类项目。例如,针对笑话频道筛选的初始信息数据为100条笑话。分别针对上述100条笑话的评论、正文等信息项目对词组进行拆分,并在每个信息项目中,根据拆分出的多个词组统计各词组出现的频率。例如在信息项目评论中,统计拆分出的“好笑”、“偷笑”、“呵呵”等所有词组的出现频率。在信息项目“正文”中,统计拆分出的所有词组的出现频率。若在信息项目“评论”中,存在出现频率高于中位数的一个或多个词组,则将该信息项目选择为该预定分类的分类项目,将该一个或多个词组选取为关键词。例如,100条笑话的评论中,“好笑”和“偷笑”出现频率均为100次,大于评论中词组出现频率的中位数60次,则将评论选择为笑话类别的分类项目,将“好笑”和“偷笑”选择为关键词。\n如若同时,正文中“笑”的出现频率也大于本类别出现频率中位数,则正文也同时被选择为笑话类别的分类项目,“笑”被选择为该类别的分类关键词。\n[0049] 在一个实施例中,可设定每个信息项目中分类关键词的上限数,当超出词频中位数的词组超出分类关键词的上限数时,可以只取频率最高的前N个词组为关键词,N等于上限数。\n[0050] 在另一个实施例中,可以计算每个信息项目中多个词组中每一个词组的出现频率与词组数目的比值;将多个信息项目中的全部词组按照比值排序;选取包含存在比值排序位于前预定数目的词组对应的一项或多项信息项目为分类项目,选取词组作为关键词。例如,针对上述100条笑话的评论、正文、分组等信息项目对词组进行拆分,并在每个信息项目中,根据拆分出的多个词组统计各词组出现的频率。例如,100条笑话的评论中,共计拆分出1000个词组。其中,“好笑”出现频率最高,为100次。则“好笑”一词词频与词组数目的比值为0.1。正文中,共计拆分出10000个词组。其中,“笑”出现频率最高,为300次。则“笑”一词词频与词组数目的比值为0.03。将各个信息项目的比值排序,并预先定义排序前\n3位的词组作为项目关键词。若“好笑”、“偷笑”、“呵呵”排在前3项,则此3个词所在的信息项目为笑话频道的分类项目,此3个词为笑话频道的关键词。\n[0051] 当分类项目及分类关键词为多个时,信息数据分类时可以参照多个分类关键词以“与”或者“或”的方式进行分类。也即,同时满足所有分类关键词条件的信息数据才能进入预定分类,或者,仅满足一个分类关键词条件的信息数据即可进入预定分类。\n[0052] 通过分类项目和关键词的获取,可以在采集数据以及将数据进行分类的步骤中利用该分类项目和关键词。比如可以将其相应分类项目包含关键词的信息数据准确的归类到相应的预定分类中。又例如,每条微博都存储了正文、评论、用户分组和/或文本分类等的属性,这些属性可以作为查询条件单独使用或组合使用,这样不同的频道(即分类)就可以使用不同的聚合规则,能够准确快速的采集最适合该频道的内容并对其进行准确分类。\n[0053] 回到图3,在步骤304中,可以预定周期通过网络采集各种待分类的信息数据,例如,微博、新闻、论坛发帖等。\n[0054] 在步骤306中,将分类项目中包含与分类项目对应的关键词的待分类信息数据归类到相应的预定分类中。例如,预定分类可以包括笑话、科技、星座等。以微博为例,对信息数据的分类具体可以为如图5所示。通过本发明的实施例,不同的频道(即分类)可以使用不同的聚合规则,这样能够准确快速的采集最适合该频道的内容并对其进行准确分类。例如,对于“笑话”频道和“星座”频道,可以将评论(即分类项目)中包含相应关键词的微博归类到其中;对于“科技”频道,可以根据正文的文本分类(即分类项目)对信息数据进行归类。\n[0055] 在步骤308中,根据预定分类中各项信息参数的预定权重对各预定分类中的每条信息数据进行排序。在一个实施例中,对数据进行排序的方法的具体步骤可以为如图6所示的各步骤。图6是根据本发明实施例的对数据进行排序的方法的流程图。\n[0056] 在步骤602中,根据每个预定分类中每条数据信息的文本内容以及一项或多项信息参数对该预定分类中的数据信息进行排序。信息参数可包括:评论数、转发数、图片和发布时间。跟据信息的文本内容以及信息参数中的一个或多个的预定权重可为各分类中的每条信息数据进行评分。例如,评分项可以包括文本内容对应的文本分,以及各项信息参数对应的评论分,转发分,图片分,时间分。每个评分项都可以对应相应的权重。数据(如各微博、新闻等)的各项得分乘以对应权重之和为最终评分结果。\n[0057] 以微博为例,文本分可以利用该信息中项目关键词在信息文本中出现的次数进行计算,比如文档中出现项目关键词次数越多,文本分越高。\n[0058] 同时,文本分也可有其余的参考因子。例如:倒排文档频率,即包含越不常规出现的词,文本分得分越高;在有多个项目关键词的情况下,也可将多个项目关键词作为一个查询条件,包含了查询条件中较多的项目关键词的文档将比另一篇包含更少项目关键词的文档获得更高的分数。\n[0059] 例如,文本评分可以使用Lucene的下述公式进行计算:\n[0060] \n[0061] Lucene是apache软件基金会4jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,关于Lucene的公式,可参见以下网址中的详细描述:\n[0062] http://lucene.apache.org/core/old_versioned_docs/versions/2_9_1/api/all/org/apache/lucene/search/Similarity.html#formula_tf\n[0063] 评论分可以为:本条微博评论数/最大微博评论数。\n[0064] 转发分可以为:本条微博转发数/最大微博转发数。\n[0065] 图片分可以为:有图片记1,无图片记0。\n[0066] 时间分可以为:(该微博发表时刻-本频道最早一条微博发布时刻)/计算时间分的当前时刻-本频道最早一条微博发布时刻)。\n[0067] 对于各个频道,可以根据频道的属性对其进行权重设置及修改。例如:笑话频道中,笑话本身的文本分为决定好笑与否的关键参数,评论次数、转发次数次之,而发文时间和图片则基本对笑话没有影响。对于归类为星座的信息数据,默认为文本内容即为频道最相关,所以文本权重值较低。而星座频道时效性非常关键,所以时间权重可以较高。资讯为主的频道,时效性最为关键,所以时间权重可以最高。\n[0068] 以下为各频道权重的一个示例性说明:\n[0069] “笑话”频道:文本权重=0.5,评论权重=0.2,转发权重=0.2,图片权重=0,时间权重=0。\n[0070] “星座”频道:文本权重=0,评论权重=0.2,转发权重=0.2,图片权重=0,时间权重=0.5。\n[0071] “科技”频道:文本权重=0,评论权重=0,转发权重=0,图片权重=0,时间权重=1。\n[0072] 在步骤604中,根据评分对数据进行排序。\n[0073] 再回到图3,在步骤310中,获取排序靠前的N条数据。\n[0074] 在步骤312中,过滤掉排序后的数据中重复的数据。在一个实施例中,该步骤可以包括对文本的过滤。例如,可以将聚合后的结果以倒排索引的方式保存,遍历所有记录,使用相似文档搜索(如lucene)检索出所有相似文档,并得出相似度得分,分数大于阀值(如经验值)的一组信息中,除排名最高的第一条信息外,其余信息均标识为垃圾信息并予以删除。在另一个实施例中,步骤312还包括对图片的过滤。取出经步骤310排序后的前N条数据中每条数据所包含的图片(如果存在),将所有图片转化为直方图,利用交叉归一化算法计算每两张直方图的相似系数。如该相似系数大于阀值(经验值),则将该对图片对应的信息中数据排序靠后的信息标识为垃圾信息并予以删除。在一种实施方式中,计算相似系数的归一化函数可以为:\n[0075] \n[0076] 其中,n为图片转化为直方图后的颜色数(0~255);Xi为前一个图第i个颜色像素点个数;Yi为后一个图第i个颜色像素点个数。通过进行每两张直方图中每个颜色像素点个数的逐一对比,可得到两张直方图的相似系数。\n[0077] 在步骤314中,发布信息数据。\n[0078] 图7是根据本发明实施例的网络信息数据处理装置700的结构示意图。网络信息数据处理装置700包括:分类项目及关键词获取模块702、采集模块704、分类模块706和发布模块708。\n[0079] 分类项目及关键词获取模块702,用于针对各预定分类采集多条初始信息数据,从初始信息数据中获取分别与每个预定分类相对应的一项或多项信息项目作为用于将待分类信息数据进行分类的分类项目,并获取对应于分类项目的一个或多个关键词作为将待分类信息数据归类到相应的预定分类中的依据。\n[0080] 采集模块704,用于采集待分类信息数据。\n[0081] 分类模块706,用于将分类项目中包含与分类项目对应的关键词的待分类信息数据归类到相应的预定分类中。\n[0082] 发布模块708,按照预定分类发布信息数据。\n[0083] 图8是根据本发明实施例的分类项目及关键词获取模块702的结构示意图。分类项目及关键词获取模块702包括初筛单元802、分词单元804、统计单元806和选取单元\n808。\n[0084] 初筛单元802,用于从初始信息数据中筛选符合预定分类的信息数据。\n[0085] 分词单元804,用于针对各预定分类的初始信息数据的每个信息项目应用分词技术获取多个词组。\n[0086] 统计单元806,用于在每个信息项目中分别统计该多个词组在初始信息数据中的出现频率。\n[0087] 选取单元808,用于根据统计结果选取分类项目及关键词。\n[0088] 在一个实施例中,选取单元808可以包括第一计算子单元和第一分类项目及关键词选取子单元。其中,第一计算子单元,用于在每个信息项目中计算所有词组出现频率的中位数;第一分类项目及关键词选取子单元,用于选取预定数量的出现频率高于中位数的词组作为关键词,并选取包含出现频率高于中位数的词组的一项或多项信息项目为分类项目。\n[0089] 在另一个实施例中,选取单元808可以包括第二计算子单元、排序子单元和第二分类项目及关键词选取子单元。其中,第二计算子单元,用于计算每个信息项目中多个词组中每一个词组的出现频率与该信息项目中所拆分出的全部词组的数目的比值;排序子单元,用于将多个信息项目中的全部词组按照比值排序;第二分类项目及关键词选取子单元,用于选取取比值排序位于前预定数目的词组对应的一项或多项信息项目为分类项目,选取该一个或多个词组作为关键词。\n[0090] 图9是根据本发明另一实施例的网络信息数据处理装置900的结构示意图。图\n9所示的网络信息数据处理装置900所包括的分类项目及关键词获取模块902、采集模块\n904、分类模块906和发布模块908与图7所示的相应模块类似,此处不再赘述,仅对不同处进行详细描述。\n[0091] 图9所示的网络信息数据处理装置900还另外包括排序模块907,用于根据预定分类中各项信息数据的文本内容以及信息参数的预定权重对各预定分类中的每条信息数据进行排序。在一个实施例中,排序模块907可以包括评分单元和排序单元。其中,评分单元,用于根据文本内容、评论、转发、图片和发布时间中的一个或多个的预定权重为各分类中的数据评分;排序单元,用于根据评分对数据进行排序。\n[0092] 图10是根据本发明又一实施例的网络信息数据处理装置1000的结构示意图。图\n10所示的网络信息数据处理装置1000所包括的分类项目及关键词获取模块1002、采集模块1004、分类模块1006、排序模块1007和发布模块1008与图9所示的相应模块类似,此处不再赘述,仅对不同处进行详细描述。\n[0093] 图10所示的网络信息数据处理装置1000还另外包括过滤模块1009,用于过滤掉处理后的数据中重复的数据。过滤模块1009可以对重复的文本和图片等进行过滤。过滤模块1009可以包括图片提取单元、计算单元和删除单元。其中,图片提取单元,用于提取数据中的图片;计算单元,用于将图片转换为直方图,并计算每两张直方图的相似系数;删除单元,若该相似系数大于预定阈值,用于删除两张直方图对应的两条信息数据中排序靠后的信息数据。\n[0094] 专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。\n[0095] 结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。\n[0096] 以上的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
法律信息
- 2015-12-02
- 2013-03-27
实质审查的生效
IPC(主分类): G06F 17/30
专利申请号: 201210371420.1
申请日: 2012.09.28
- 2013-02-27
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2006-08-23
|
2006-02-14
| | |
2
| |
2006-01-11
|
2004-07-09
| | |
3
| |
2008-03-05
|
2006-09-01
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |