著录项信息
专利名称 | 一种基于微博的事件实时监测方法及系统 |
申请号 | CN201410168703.5 | 申请日期 | 2014-04-24 |
法律状态 | 授权 | 申报国家 | 中国 |
公开/公告日 | 2014-07-30 | 公开/公告号 | CN103955505A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/30 | IPC分类号 | G06F17/30查看分类表>
|
申请人 | 中国科学院信息工程研究所 | 申请人地址 | 北京市海淀区闵庄路甲***
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 中国科学院信息工程研究所 | 当前权利人 | 中国科学院信息工程研究所 |
发明人 | 李凌云;张鹏;曹亚男;乔治;敖吉;谭建龙;郭莉 |
代理机构 | 北京轻创知识产权代理有限公司 | 代理人 | 杨立 |
摘要
本发明涉及一种基于微博的事件实时监测方法及系统,所述方法包括:异常事件检测步骤,输入事件关键词,统计与事件关键词相关的微博数量,采用波峰识别方法将统计的微博数量以曲线图展示,将曲线图中的波峰时间作为事件的异常时间点,将存在异常时间点的事件作为异常事件;地理位置定位步骤,在与异常事件相关的微博文本内容中,抽取出地理位置实体,并采用聚类方法从抽取的地理位置实体中筛选出异常事件发生的地理位置。此外,还包括有相关事件推荐步骤和/或事件相关度分析步骤。本发明对用户所关心的事件进行实时监测,监控该事件在微博平台上的传播和发展趋势,能精准地挖掘出事件发生的异常时间点和地理位置,并推荐给用户其感兴趣的话题。
1.一种基于微博的事件实时监测方法,其特征在于,包括:
异常事件检测步骤:输入事件关键词,统计与事件关键词相关的微博数量,采用波峰识别方法将统计的微博数量以曲线图展示,将曲线图中的波峰时间作为事件的异常时间点,将存在异常时间点的事件作为异常事件;
所述异常事件检测步骤具体包括:
步骤A1,输入事件关键词,获取与事件关键词相关的微博,并对获取的所有微博进行数据量化,产生一组数据,并初始化该组数据的平均值mean和方差meandev;
步骤A2,对于产生的一组数据中的点Ci,判断是否满足以下条件:
且Ci>Ci-1
式中,i>1,且i小于该组数据的数组长度,τ为事先设定的阈值;
步骤A3,若Ci满足该条件,则基于点Ci存在一个波峰区间,否则基于点Ci不存在波峰区间,需更新平均值和方差,并重复步骤A2;
步骤A4,将存在波峰区间的点Ci作为异常事件;
地理位置定位步骤:在与异常事件相关的微博文本内容中,抽取出地理位置实体,并采用聚类方法从抽取的地理位置实体中筛选出异常事件发生的地理位置;
所述地理位置定位步骤具体包括:
步骤B1,抽取每一条与异常事件相关的微博文本内容中的地理位置实体,并对抽取出的地理位置实体进行分析,获得事件发生的地理位置集合;
步骤B11,选取一条与异常事件相关的微博文本内容进行中文分词,并抽取其中所有的地理位置实体,同时记录事件的关键词与抽取的地理位置实体在微博文本中的位置索引;
步骤B12,根据步骤B11记录的位置索引,计算抽取到的地理位置实体与事件关键词之间的距离,保存与事件关键词最近的地理实体位置的距离;
步骤B13,对步骤B11抽取到的每个地理位置实体附加权重,权重取值为事件关键词与该地理实体位置之间的距离;
步骤B14,根据实际的地理位置级别关系,整理步骤B11抽取出的地理位置实体,只保留最细粒度的地理位置实体,且不改变步骤B13为其附加的权重;
步骤B15,从保留的最细粒度的地理位置实体中,选取事件发生的地理位置;
步骤B16,对每一条与异常事件相关的微博文本内容,重复步骤B11到步骤B15,获得事件发生的地理位置集合;
步骤B2,采用聚类的方式从事件发生的地理位置集合中筛选出群体性地理位置实体;
步骤B3,将筛选出的群体性地理位置实体转变为便于展示的信息格式。
2.根据权利要求1所述的事件实时监测方法,其特征在于,所述步骤A3中,当基于点Ci存在一个波峰区间时,该波峰区间的起点索引为i-1,终点索引需要先使用贪心算法得到伪终点索引,然后再通过对该伪终点索引进行修正而得到真正的终点索引。
3.根据权利要求1所述的事件实时监测方法,其特征在于,对于步骤B12,若抽取到的地理位置实体与事件关键词之间存在标点符号,则增大该地理位置实体与事件关键词之间的距离。
4.根据权利要求1所述的事件实时监测方法,其特征在于,所述步骤B2具体包括:
步骤B21,设置频度阈值,过滤事件发生的地理位置集合中小于频度阈值的地理位置实体;
步骤B22,获取经过滤后剩下的地理位置实体的经纬度信息;
步骤B23,根据地理位置实体间的经纬度信息,两两计算地理位置实体之间的空间距离,再利用层次聚类的单链接算法对经步骤B21过滤后的地理位置实体聚类,提取出概率大的聚类簇作为群体性地理位置。
5.根据权利要求1至4中任一所述的事件实时监测方法,其特征在于,还包括相关事件推荐步骤和/或事件相关度分析步骤:
相关事件推荐步骤:构建热点事件数据库,用于实时收集微博平台上的热点事件,遍历该热点事件数据库,抽取与输入的事件关键词相关的若干热点事件,并计算事件关键词与抽取的热点事件的相关度,再按相关度从大到小的顺序将热点事件返回给用户;
事件相关度分析步骤:分析与异常事件相关的微博文本内容,过滤微博文本内容中与事件无关联的微博文本数据,再对过滤后的结果进行相关度分析,按相关度大小进行排序。
法律信息
- 2017-09-26
- 2014-08-27
实质审查的生效
IPC(主分类): G06F 17/30
专利申请号: 201410168703.5
申请日: 2014.04.24
- 2014-07-30
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2008-01-23
|
2007-08-21
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |