著录项信息
专利名称 | 基于大数据的地区舆情监控及决策辅助系统和方法 |
申请号 | CN201510255995.0 | 申请日期 | 2015-05-19 |
法律状态 | 授权 | 申报国家 | 中国 |
公开/公告日 | 2015-09-23 | 公开/公告号 | CN104933093A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/30 | IPC分类号 | G;0;6;F;1;7;/;3;0;;;G;0;6;F;1;7;/;2;7查看分类表>
|
申请人 | 武汉泰迪智慧科技有限公司 | 申请人地址 | 湖北省武汉市东湖新技术开发区高新大道999号A5北2-509
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 武汉泰迪智慧科技有限公司 | 当前权利人 | 武汉泰迪智慧科技有限公司 |
发明人 | 刘丽君;李成华 |
代理机构 | 北京超凡志成知识产权代理事务所(普通合伙) | 代理人 | 许洪洁 |
摘要
一种基于大数据的地区舆情监控及决策辅助系统信息采集存储模块,用于对采集的舆情源信息进行结构化存储管理,形成实时更新的地区大数据舆情知识库;数据预处理模块,用于对地区大数据舆情知识库中的数据进行预处理,形成完整有序的数据集;大数据舆情分析模块,用于对指定条件的热点话题等进行舆情分析及趋势预测得到舆情分析及趋势预测结果;舆情监控预警、决策辅助模块,用于对预定义的敏感词库中的敏感词对挖掘和分析的定制舆情进行实时的监控跟踪、管理和疏导;通过站内消息、短信、邮件方式将定制舆情通知给决策者;后台管理模块,用于对舆情信息分类管理、用户与权限管理、关键词管理、采集管理、内容管理、专题管理及分析报告管理。
1.一种基于大数据的地区舆情监控及决策辅助系统,其特征在于,其包括如下模块:
信息采集存储模块,用于实时采集特定区域内的舆情源信息,并对采集的舆情源信息进行结构化存储管理,形成实时更新的地区大数据舆情知识库;
数据预处理模块,用于对地区大数据舆情知识库中的数据进行预处理,形成完整有序的数据集,为后续的大数据舆情分析模块提供可用的待分析的数据,包括对地区大数据舆情知识库中的数据进行IP定位、网址有效性检查,然后通过网页解析、自动识别、相关度计算、文件编码处理网络舆情提取技术进行舆情信息提取;再经过文章自动去重与文章相似度分析判别步骤自动去掉重复数据;通过正文自动识别与提取技术、标题自动识别与提取技术智能获取舆情正文、智能摘要和关键词;通过垃圾信息过滤、停用词过滤步骤进行数据的预处理;
大数据舆情分析模块,用于根据地区舆情监控分析的特点,针对舆情相关的影响因子,建立分析组件库、分析模型库,通过分析模型库中配置器进行数据模型配置,并通过数据挖掘算法对配置的数据模型进行挖掘分析,对指定条件的热点话题、媒体类型传播角度、媒体报道重要角度、媒体正负面声音角度、媒体间的转载关系角度、媒体区域分布角度进行舆情分析及趋势预测得到舆情分析及趋势预测结果;
舆情监控预警、决策辅助模块,用于预定义敏感词库中的敏感词,根据预定义的敏感词库中的敏感词对地区舆情分析所关注的各个方面的定制舆情进行定向挖掘、分析;并根据舆情分析及趋势预测结果,预定义的敏感词库中的敏感词对挖掘和分析的定制舆情进行实时的监控跟踪、管理和疏导;并用于通过站内消息、短信、邮件方式将定制舆情通知给决策者;
后台管理模块,用于舆情信息分类管理、用户与权限管理、关键词管理、采集管理、内容管理、专题管理及分析报告管理。
2.如权利要求1所述的基于大数据的地区舆情监控及决策辅助系统,其特征在于:
信息采集存储模块中特定区域内的舆情源信息的来源包括新闻评论、BBS、博客、聚合新闻、贴吧、社区网络媒体、微博、QQ群、电子报刊、微信公共号、新闻移动应用程序;采集方式包括元搜索技术、利用通过搜索引擎自定义URL来源及采样频率,搜索爬取互联网上特定舆情源信息。
3.如权利要求1所述的基于大数据的地区舆情监控及决策辅助系统,其特征在于:
大数据舆情分析模块包括:
信息抽取单元,用于根据地区舆情监控分析的特点,针对舆情相关的影响因子,通过中文分词、元数据抽取、自动摘要对指定条件的热点话题进行信息抽取;
舆情研判单元,用于通过主体检测、热点话题提取、敏感话题识别对抽取的信息进行舆情研判;
负面判断单元,用于通过褒贬分析,对舆情研判结果进行负面判断;
自动分类单元,用于遗传算法类别分析相关算法对负面判断结果进行自动分类;
专题分析单元,用于对自动分类单元进行专题分析;
热点聚类单元,用于通过自动智能聚类、突发事件分析网络舆情热点发现与追踪技术进行热点聚类;
扩展分析单元,用于传播走势分析、倾向性分析、媒体分布/重要性分析、地区分布分析网络舆情倾向性分析技术进行扩展挖掘分析,得出对未来情况的概率性预测,得到舆情分析及趋势预测结果。
4.一种基于大数据的地区舆情监控及决策辅助方法,其特征在于,其包括如下步骤:
S1、实时采集特定区域内的舆情源信息,并对采集的舆情源信息进行结构化存储管理,形成实时更新的地区大数据舆情知识库;
S2、对地区大数据舆情知识库中的数据进行预处理,形成完整有序的数据集,为后续的大数据舆情分析模块提供可用的待分析的数据,包括对地区大数据舆情知识库中的数据进行IP定位、网址有效性检查,然后通过网页解析、自动识别、相关度计算、文件编码处理网络舆情提取技术进行舆情信息提取;再经过文章自动去重与文章相似度分析判别步骤自动去掉重复数据;通过正文自动识别与提取技术、标题自动识别与提取技术智能获取舆情正文、智能摘要和关键词;通过垃圾信息过滤、停用词过滤步骤进行数据的预处理;
S3、根据地区舆情监控分析的特点,针对舆情相关的影响因子,建立分析组件库、分析模型库,通过分析模型库中配置器进行数据模型配置,并通过数据挖掘算法对配置的数据模型进行挖掘分析,对指定条件的热点话题、媒体类型传播角度、媒体报道重要度角度、媒体正负面声音角度、媒体间的转载关系角度、媒体区域分布角度进行舆情分析及趋势预测得到舆情分析及趋势预测结果;
S4、预定义敏感词库中的敏感词,根据预定义的敏感词库中的敏感词对地区舆情分析所关注的各个方面的定制舆情进行定向挖掘、分析;并根据舆情分析及趋势预测结果,预定义的敏感词库中的敏感词对挖掘和分析的定制舆情进行实时的监控跟踪、管理和疏导;并用于通过站内消息、短信、邮件方式将定制舆情通知给决策者;
S5、对舆情信息分类管理、用户与权限管理、关键词管理、采集管理、内容管理、专题管理及分析报告管理。
5.如权利要求4所述的基于大数据的地区舆情监控及决策辅助方法,其特征在于:
步骤S1中特定区域内的舆情源信息的来源包括新闻评论、BBS、博客、聚合新闻、贴吧、社区网络媒体、微博、QQ群、电子报刊、微信公共号、新闻移动应用程序;采集方式包括元搜索技术,利用通用搜索引擎自定义URL来源及采样频率,搜索爬取互联网上特定舆情源信息。
6.如权利要求4所述的基于大数据的地区舆情监控及决策辅助方法,其特征在于:
步骤S3包括:
S31、根据地区舆情监控分析的特点,针对舆情相关的影响因子,通过中文分词、元数据抽取、自动摘要对指定条件的热点话题进行信息抽取;
S32、通过主体检测、热点话题提取、敏感话题识别对抽取的信息进行舆情研判;
S33、通过褒贬分析,对舆情研判结果进行负面判断;
S34、遗传算法类别分析相关算法对负面判断结果进行自动分类;
S35、对自动分类单元进行专题分析;
S36、通过自动智能聚类、突发事件分析网络舆情热点发现与追踪技术进行热点聚类;
S37、传播走势分析、倾向性分析、媒体分布/重要性分析、地区分布分析网络舆情倾向性分析技术进行扩展挖掘分析,得出对未来情况的概率性预测,得到舆情分析及趋势预测结果。
基于大数据的地区舆情监控及决策辅助系统和方法\n技术领域\n[0001] 本发明涉及舆情分析技术领域,特别涉及一种基于大数据的地区舆情监控及决策辅助系统和方法。\n背景技术\n[0002] 随着互联网技术带来网络传播的兴起,由于网络本身的虚拟性、隐蔽性、发散性、渗透性和随意性等特点,更多的人们愿意采用网络这种渠道来表现真实的想法。\n[0003] 网络已被公认为是继报纸、广播、电视之后的“第四媒体”,成为反映社会舆情的主要载体之一。由于互联网具有虚拟性、隐蔽性、发散性、渗透性和随意性等特点,越来越多的网民乐意通过BBS论坛、博客、新闻跟贴、转贴等渠道来表达观点、传播思想并加以强化。网络自由舆论的形成、不加控制的信息传播、大众传媒职业道德建设的滞后造成网络信息流量的失控已对社会的稳定产生负面的影响。\n[0004] 如果引导不善,负面的网络舆情将对社会公共安全形成较大威胁。对相关部门来说,如何加强对网络舆论的及时监测、有效引导,以及对网络舆论危机的积极化解,对维护社会稳定、促进国家发展具有重要的现实意义。\n[0005] 随着中国互联网的快速发展,地区舆情监测工作已经成为舆情分析工作内容中重要的一部分。该种基于大数据的地区舆情监控及决策辅助方法和系统,就是要使用舆情技术对特定地区及人群进行舆情监测分析,提前发现特定地区及人群的舆情危机,及时处理危机公关。对于有些会对社会产生影响的舆论舆情,进行舆情监测,可以及时的了解事件的动态,对这些错误、失实的舆论进行正确的引导。实施地区舆情监测还可以掌握特定地区社会民意,通过了解该地区各个阶层民众的情绪、态度、看法以及意见和行为倾向,然后对事件做出正确的决定。\n[0006] 国外研究现状\n[0007] 美国的TDT话题检测与跟踪(Topic Detection and Tracking)系统是最知名的网络舆情分析系统,这个概念最早产生于1996年,当时美国国防高级研究计划署(DARPA)根据现实的需求,提出要开发一种能在没有人工干预的情况下自动判断新闻数据流主题的需求。在1997年,研究者开始此需求进行初步研究,并取得了一些初步成果,包括建立了一个针对TDT研究的预研语料库,研究的内容包括寻找内在主题一致的文本片断,也就是给出一段连续的数据流(文本或语音),让系统判断两个事件之间的分界,并且能自动判断新事件的出现以及旧事件的再现。从1998年开始,在DARPA支持下,美国国家标准技术研究所[0008] (NIST)每年都要举办话题检测与跟踪国际会议,并进行相应的系统评测。\n[0009] TDT主要涉及了5个子任务,分别是:报道切分,新报道识别,关联识别,话题识别和话题跟踪。通过这5个子任务之间的相辅相成,有机的整体就组成了,TDT项目在研究中积累的丰富的文本分类算法给目前解决网络舆情分析中的话题发现和追踪问题做了很好的引导作用。\n[0010] 现有的互联网舆情监测系统的实际使用效果并不理想,主要原因是现有系统对采集到的评论文本的情感倾向性分析不足、没有建立很好的解决方案。监测系统中如果没有对评论文本的情感倾向的分析,将使其不能有效地对互联网舆情进行自动分析而不能建立起有效且快速的舆情监测预警机制,进而不能有效阻止各种负面信息在互联网中的蔓延。\n另一方面,目前舆情监控分析的系统虽多,但是基于大数据的专门针对地区,地域的舆情监控及决策系统却没有。现有的舆情监控系统在没有针对性的考虑地区舆情各个影响因子的情况下,并不能得到有针对性的、准确的舆情监控结果并提供有效的决策辅助信息。\n发明内容\n[0011] 为了解决现有的舆情监控系统在没有针对性的考虑地区舆情各个影响因子的情况下,并不能得到有针对性的、准确的舆情监控结果并提供有效的决策辅助信息的缺点,提出一种基于大数据的地区舆情监控及决策辅助系统和方法。\n[0012] 一种基于大数据的地区舆情监控及决策辅助系统,其包括如下模块:\n[0013] 信息采集存储模块,用于实时采集特定区域内的舆情源信息,并对采集的舆情源信息进行结构化存储管理,形成实时更新的地区大数据舆情知识库;\n[0014] 数据预处理模块,用于对地区大数据舆情知识库中的数据进行预处理,形成完整有序的数据集,为后续的大数据舆情分析模块提供可用的待分析的数据;\n[0015] 大数据舆情分析模块,用于根据地区舆情监控分析的特点,针对舆情相关的影响因子,建立分析组件库、分析模型库,通过分析模型库中配置器进行数据模型配置,并通过数据挖掘算法对配置的数据模型进行挖掘分析,对指定条件的热点话题、媒体类型传播角度、媒体报道重要度角度、媒体正负面声音角度、媒体间的转载关系角度、媒体区域分布角度等进行舆情分析及趋势预测得到舆情分析及趋势预测结果;\n[0016] 舆情监控预警、决策辅助模块,用于预定义敏感词库中的敏感词,根据预定义的敏感词库中的敏感词对地区舆情分析所关注的各个方面的定制舆情进行定向挖掘、分析;并根据舆情分析及趋势预测结果,预定义的敏感词库中的敏感词对挖掘和分析的定制舆情进行实时的监控跟踪、管理和疏导;并用于通过站内消息、短信、邮件方式将定制舆情通知给决策者;\n[0017] 后台管理模块,用于对舆情信息分类管理、用户与权限管理、关键词管理、采集管理、内容管理、专题管理及分析报告管理。\n[0018] 一种基于大数据的地区舆情监控及决策辅助方法,其包括如下步骤:\n[0019] S1、实时采集特定区域内的舆情源信息,并对采集的舆情源信息进行结构化存储管理,形成实时更新的地区大数据舆情知识库;\n[0020] S2、对地区大数据舆情知识库中的数据进行预处理,形成完整有序的数据集,为后续的大数据舆情分析模块提供可用的待分析的数据;\n[0021] S3、根据地区舆情监控分析的特点,针对舆情相关的影响因子,建立分析组件库、分析模型库,通过分析模型库中配置器进行数据模型配置,并通过数据挖掘算法对配置的数据模型进行挖掘分析,对指定条件的热点话题、媒体类型传播角度、媒体报道重要度角度、媒体正负面声音角度、媒体间的转载关系角度、媒体区域分布角度等进行舆情分析及趋势预测得到舆情分析及趋势预测结果;\n[0022] S4、预定义敏感词库中的敏感词,根据预定义的敏感词库中的敏感词对地区舆情分析所关注的各个方面的定制舆情进行定向挖掘、分析;并根据舆情分析及趋势预测结果,预定义的敏感词库中的敏感词对挖掘和分析的定制舆情进行实时的监控跟踪、管理和疏导;并用于通过站内消息、短信、邮件方式将定制舆情通知给决策者;\n[0023] S5、对舆情信息分类管理、用户与权限管理、关键词管理、采集管理、内容管理、专题管理及分析报告管理。\n[0024] 本发明提供的基于大数据的地区舆情监控及决策辅助系统和方法具有以下有益效果:\n[0025] 1.通过信息采集存储,提高了数据采集、系统运行效率,解决系统的可扩展性和稳定性。可以自动的数据采集,自动识别语言和网站编码,支持对多种网页格式、多种字符集编码的采集。通过数据预处理,有效的保证了在数据量日益剧增的情况下,系统高速计算的效率。同时,大数据并行存储的方式,还解决了系统的可扩展性,实时性及稳定性。\n[0026] 2.提高对事件反应的及时性,提供决策辅助支持。通过大数据舆情分析,解决了现有的舆情分析系统采集的舆情信息,对于地区舆情监控分析工作,针对性不足所带来的“无用信息”过多,而导致的当一个事件最初发生的时候,未能及时发现并加以处理,最终使事态变得严重,处理的代价变的昂贵的情况。本发明的舆情监控预警功能,保证了可以及时的了解事件的动态,第一时间最快速预警负面舆情,对错误、失实的舆论进行正确的引导。决策辅助功能,可以达到掌握社会民意,通过了解特定地区居民的情绪、态度、看法、意见和行为倾向,对各种决策提供辅助支持。\n[0027] 3.提高地区舆情信息获取的覆盖率、全面性和准确性。目前的舆情系统采集的信息,往往是比较通用化信息,用来做地区舆情分析难免片面,而只通过传统采集得到的数据分析,虽然保证了一定的公平性,但由于并未考虑足够的影响因子,效果相对于本发明的考虑了更多影响因子的全局数据还是会差很多。所以,本发明能够提高信息获取的全面性,提高数据的覆盖率及分析的准确性。\n附图说明\n[0028] 图1是本发明实施的基于大数据的地区舆情监控及决策辅助系统结构框图;\n[0029] 图2是图1中大数据舆情分析模块的结构框图;\n[0030] 图3是本发明实施的基于大数据的地区舆情监控及决策辅助方法流程图;\n[0031] 图4是图3中步骤S3的子流程图。\n具体实施方式\n[0032] 如图1所示,一种基于大数据的地区舆情监控及决策辅助系统,其特征在于,其包括如下模块:\n[0033] 信息采集存储模块,用于实时采集特定区域内的舆情源信息,并对采集的舆情源信息进行结构化存储管理,形成实时更新的地区大数据舆情知识库。\n[0034] 可选地,信息采集存储模块中特定区域内的舆情源信息的来源包括新闻评论、BBS、博客、聚合新闻、贴吧、社区网络媒体、微博、QQ群、电子报刊、微信公共号、新闻移动应用程序;采集方式包括元搜索技术,利用通用搜索引擎自定义URL来源及采样频率,搜索爬取互联网上特定舆情源信息。\n[0035] 网络环境下的舆情信息的主要来源有:新闻评论、BBS、博客、聚合新闻(RSS)等。该发明的信息采集存储模块,主要采用元搜索技术,利用通用搜索引擎自定义URL来源及采样频率,广泛搜索爬取互联网上特定舆情源信息。访问穿透需要注册、登录的各类型网站、论坛、博客,多文档自动文摘,全面采集;通过元搜索采集、RSS采集和指定站点采集等多种采集途径,实现采集全网覆盖;通过自动识别语言和网站编码,支持对多种网页格式、多种字符集编码的采集。\n[0036] 专为地区舆情监测定制,实时定向的采集,全网监测,以精准的信息自动采集引擎为核心,全面立体实时监控新闻、论坛、贴吧、博客、社区等网络媒体,同时对微博、QQ群、电子报刊、微信公共号、新闻移动app等新兴媒体进行数据采集。并基于可整合的现有数据,提高舆情监管的质量和效率。对于新产生的舆情信息,或者已有舆情产生了新的转载,新的跟帖等变化,第一时间采集,并反馈,实时动态更新。大数据Hadoop并行存储技术为基础,进行数据的高效索引的结构化存储管理,整合已有数据和网络采集的相关数据,形成实时更新的地区大数据舆情知识库;主动发现并搜集特定地区相关舆情,结合可整合的现有数据,支撑地区大数据舆情监控及决策辅助方法和系统的运行。多种检索方式可以直观提供舆情监控预警。\n[0037] 数据预处理模块,用于对地区大数据舆情知识库中的数据进行预处理,形成完整有序的数据集,为后续的大数据舆情分析模块提供可用的待分析的数据。\n[0038] 可选地,数据预处理模块中对地区大数据舆情知识库中的数据进行预处理包括:\n[0039] 对地区大数据舆情知识库中的数据进行IP定位、网址有效性检查,然后通过网页解析、自动识别、相关度计算、文件编码处理网络舆情提取技术进行舆情信息提取;再经过文章自动去重与文章相似度分析判别步骤自动去掉重复数据;通过正文自动识别与提取技术、标题自动识别与提取技术智能获取舆情正文、智能摘要和关键词;通过垃圾信息过滤、停用词过滤步骤进行数据的预处理。\n[0040] 可以过滤掉垃圾信息,留下有用的信息。\n[0041] 大数据舆情分析模块,用于根据地区舆情监控分析的特点,针对舆情相关的影响因子,建立分析组件库、分析模型库,通过分析模型库中配置器进行数据模型配置,并通过数据挖掘算法对配置的数据模型进行挖掘分析,对指定条件的热点话题、媒体类型传播角度、媒体报道重要度角度、媒体正负面声音角度、媒体间的转载关系角度、媒体区域分布角度等进行舆情分析及趋势预测得到舆情分析及趋势预测结果。\n[0042] 如图2所示,可选地,大数据舆情分析模块包括:\n[0043] 信息抽取单元,用于根据地区舆情监控分析的特点,针对舆情相关的影响因子,通过中文分词、元数据抽取、自动摘要对指定条件的热点话题进行信息抽取。\n[0044] 舆情研判单元,用于通过主体检测、热点话题提取、敏感话题识别对抽取的信息进行舆情研判。\n[0045] 负面判断单元,用于通过褒贬分析,对舆情研判结果进行负面判断。\n[0046] 自动分类单元,用于遗传算法类别分析相关算法对负面判断结果进行自动分类。\n[0047] 专题分析单元,用于对自动分类单元进行专题分析。\n[0048] 热点聚类单元,用于通过自动智能聚类、突发事件分析网络舆情热点发现与追踪技术进行热点聚类。\n[0049] 扩展分析单元,用于传播走势分析、倾向性分析、媒体分布/重要性分析、地区分布分析等网络舆情倾向性分析技术进行扩展挖掘分析,得出对未来情况的概率性预测,得到舆情分析及趋势预测结果。\n[0050] 大数据舆情分析模块可以动态跟踪情报,发现趋势,发现热点,可以多角度形成分析,大大增加了分析结果的准确性和全面性。\n[0051] 大数据舆情分析模块的实现是自然语言智能处理技术和大数据深度挖掘技术的产品化和实用化。该模块将根据地区舆情监控分析的特点,针对特定地区政策变动、时事政治、特定地区经济生活、社会民生、反腐败、社会道德、居民人口就业等各种地区舆情相关的影响因子,建立分析组件库、分析模型库,通过分析模型配置器进行模型配置,并通过数据挖掘算法对配置的数据模型进行挖掘分析,对指定条件的热点话题、媒体类型传播角度、媒体报道重要度角度、媒体正负面声音角度、媒体间的转载关系角度、媒体区域分布角度等进行舆情分析及趋势预测。\n[0052] 大数据舆情分析流程如图三所示,通过信息抽取、舆情研判、负面判断、自动分类、专题分析、热点聚类及扩展分析等步骤逐一实现。\n[0053] 舆情监控预警、决策辅助模块,用于预定义敏感词库中的敏感词,根据预定义的敏感词库中的敏感词对地区舆情分析所关注的各个方面的定制舆情进行定向挖掘、分析;并根据舆情分析及趋势预测结果,预定义的敏感词库中的敏感词对挖掘和分析的定制舆情进行实时的监控跟踪、管理和疏导;并用于通过站内消息、短信、邮件方式将定制舆情通知给决策者。\n[0054] 该模块将对重点舆情通过站内消息、手机短信、邮件通知等方式预警,并最终形成舆情分析报告,为决策层全面掌握舆情动态,做出正确舆论引导,提供分析依据,做到及时监测、辅助监管,为经济支撑等相关政策的制定提供辅助决策支持。\n[0055] 后台管理模块,用于对舆情信息分类管理、用户与权限管理、关键词管理、采集管理、内容管理、专题管理及分析报告管理。\n[0056] 后台管理模块主要包括分类管理、用户与权限管理、关键词管理、采集管理、内容管理、专题管理及分析报告管理这七个不同的功能。这七个不同的功能可根据需要,灵活配置当前任务,在后台自动运行。其中分析报告管理模块,支持舆情的后期加工处理,提供舆情简报、图表及历史舆情简报的分类管理。\n[0057] 本实施例可以针对目前现有通用化的舆情监控系统中,舆情监控影响因子等切入点没有针对性,分析结果不够准确实用的局限性,提出了一种垂直细分的基于大数据的地区舆情监控及决策辅助的方法和系统,解决了地区舆情监测工作难以完全自动化的难题。\n本发明使用大数据存储及深度挖掘技术,对地区舆情监控及决策辅助,以提前发现地域性舆情危机,及时处理危机公关,这一相对较薄弱的舆情监控方向进行了有益的补充。\n[0058] 如图3所示,本发明实施例还提供一种基于大数据的地区舆情监控及决策辅助方法,其包括如下步骤:\n[0059] S1、实时采集特定区域内的舆情源信息,并对采集的舆情源信息进行结构化存储管理,形成实时更新的地区大数据舆情知识库。\n[0060] 可选地,步骤S1中特定区域内的舆情源信息的来源包括新闻评论、BBS、博客、聚合新闻、贴吧、社区网络媒体、微博、QQ群、电子报刊、微信公共号、新闻移动应用程序;采集方式包括元搜索技术,利用通用搜索引擎自定义URL来源及采样频率,搜索爬取互联网上特定舆情源信息。\n[0061] S2、对地区大数据舆情知识库中的数据进行预处理,形成完整有序的数据集,为后续的大数据舆情分析模块提供可用的待分析的数据。\n[0062] 可选地,步骤S2中对地区大数据舆情知识库中的数据进行预处理包括:\n[0063] 对地区大数据舆情知识库中的数据进行IP定位、网址有效性检查,然后通过网页解析、自动识别、相关度计算、文件编码处理网络舆情提取技术进行舆情信息提取;再经过文章自动去重与文章相似度分析判别步骤自动去掉重复数据;通过正文自动识别与提取技术、标题自动识别与提取技术智能获取舆情正文、智能摘要和关键词;通过垃圾信息过滤、停用词过滤步骤进行数据的预处理。\n[0064] S3、根据地区舆情监控分析的特点,针对舆情相关的影响因子,建立分析组件库、分析模型库,通过分析模型库中配置器进行数据模型配置,并通过数据挖掘算法对配置的数据模型进行挖掘分析,对指定条件的热点话题、媒体类型传播角度、媒体报道重要度角度、媒体正负面声音角度、媒体间的转载关系角度、媒体区域分布角度等进行舆情分析及趋势预测得到舆情分析及趋势预测结果。\n[0065] 可选地,如图4所示,步骤S3包括:\n[0066] S31、根据地区舆情监控分析的特点,针对舆情相关的影响因子,通过中文分词、元数据抽取、自动摘要对指定条件的热点话题进行信息抽取。\n[0067] S32、通过主体检测、热点话题提取、敏感话题识别对抽取的信息进行舆情研判。\n[0068] S33、通过褒贬分析,对舆情研判结果进行负面判断。\n[0069] S34、遗传算法类别分析相关算法对负面判断结果进行自动分类。\n[0070] S35、对自动分类单元进行专题分析。\n[0071] S36、通过自动智能聚类、突发事件分析网络舆情热点发现与追踪技术进行热点聚类。\n[0072] S37、传播走势分析、倾向性分析、媒体分布/重要性分析、地区分布分析等网络舆情倾向性分析技术进行扩展挖掘分析,得出对未来情况的概率性预测,得到舆情分析及趋势预测结果。\n[0073] S4、预定义敏感词库中的敏感词,根据预定义的敏感词库中的敏感词对地区舆情分析所关注的各个方面的定制舆情进行定向挖掘、分析;并根据舆情分析及趋势预测结果,预定义的敏感词库中的敏感词对挖掘和分析的定制舆情进行实时的监控跟踪、管理和疏导;并用于通过站内消息、短信、邮件方式将定制舆情通知给决策者。\n[0074] S5、对舆情信息分类管理、用户与权限管理、关键词管理、采集管理、内容管理、专题管理及分析报告管理。\n[0075] 结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机储存器、内存、只读存储器、电可编程ROM、电可檫除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其他形式的存储介质中。\n[0076] 可以理解的是,对于本领域的普通技术人员来说,可以根据本发明的技术构思做出其它各种相应的改变与变形,而所有这些改变与变形都应属于本发明权利要求的保护范围。
法律信息
- 2018-08-07
- 2015-10-21
实质审查的生效
IPC(主分类): G06F 17/30
专利申请号: 201510255995.0
申请日: 2015.05.19
- 2015-09-23
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有引用任何外部专利数据! |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |