一种自动分析互联网上热点主题传播过程的方法及系统

发明专利有效专利

申请号：
CN200710062944.1
IPC分类号：G06F17/30
申请日期：
2007-01-22
申请人：
北大方正集团有限公司;北京大学;北京北大方正技术研究院有限公司

基础信息

权利要求

说明书

PDF全文

法律信息

引证文献

著录项信息

专利名称	一种自动分析互联网上热点主题传播过程的方法及系统
申请号	CN200710062944.1	申请日期	2007-01-22
法律状态	授权	申报国家	中国
公开/公告日	2008-07-30	公开/公告号	CN101231641
优先权	暂无	优先权号	暂无
主分类号	G06F17/30 ? IPC结构图谱： G 物理 G0 仪器 G06 计算；推算；计数 G06F 电数字数据处理（基于特定计算模型的计算机系统入G06N） G06F17/00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法〔6〕 G06F17/30 信息检索；及其数据库结构〔6〕	IPC分类号	G;0;6;F;1;7;/;3;0查看分类表>
申请人	北大方正集团有限公司;北京大学;北京北大方正技术研究院有限公司	申请人地址	北京市海淀区成府路298号中关村方正大厦513 变更专利地址、主体等相关变化，请及时变更，防止失效
权利人	北大方正集团有限公司,北京大学,北京北大方正技术研究院有限公司	当前权利人	北大方正集团有限公司,北京大学,北京北大方正技术研究院有限公司
发明人	万小军;王栋;黄小江;余军;杨建武;吴於茜
代理机构	北京同达信恒知识产权代理有限公司	代理人	李欣

摘要

本发明涉及一种自动分析互联网上热点主题传播过程的方法及系统，属于智能信息处理技术。由于互联网上文本信息的不断增长，自动从海量文本中检测与分析热点或敏感主题是文本挖掘和信息检索领域的一个重要课题，具有重大的实用价值。本发明利用自然语言处理方法，自动分析给定热点或敏感主题中的文档信息传播过程：对主题中的文档按照时间排序之后，从第一篇文档开始对当前文档利用模式匹配方法搜索其转载出处，如果未发现其转载出处，则进一步利用文档相似度比较方法判断其转载出处，同时获取对应的源文档。最后将转载关系以图形化的方式直观地呈现给用户。本方法可广泛应用于互联网智能信息处理、舆情分析与监控等。

1.一种自动分析互联网上热点主题传播过程的方法，包括以下步骤：
(1)读入属于同一热点主题的文档集，抽取文档元数据；
(2)按照文档发表时间将文档排序，得到序列d1，d2，...，dn，n为文档数量；
(3)从序列中第一篇文档开始，计算当前文档di的转载出处；并获取该文档对应的源文档，其中利用文本模式匹配的方法搜索当前文档di的转载出处，包括：
3.1对于新闻文档，如果步骤(1)获取的文档元数据中已经得到其转载站点，那么用该站点名作为该文档的转载出处，否则进行下一步；对于其他类型的文档直接进行下一步；
3.2在该文档di的长度为L1的前缀文本上根据定义的匹配模式搜索转载出处，其中L1为正整数；
3.3如果步骤3.2未找到转载出处，则在该文档di的长度为L2的后缀文本上根据定义的匹配模式搜索转载出处，其中L2为正整数。
2.如权利要求1所述的自动分析互联网上热点主题传播过程的方法，其特征在于，步骤(1)中热点主题通过主题检测系统获取，敏感主题通过全文检索系统获取，每一个主题内均包括具有共性的1个或多个Web文档；所述文档元数据主要包括文档发布站点以及文档的发表时间，文档发布站点为该文档的下载站点，文档发表时间通过简单的模板匹配得到，在无法得到文档发表时间的情况下，由网页的更新时间替代。
3.如权利要求1所述的自动分析互联网上热点主题传播过程的方法，其特征在于，步骤3.2和3.3中的匹配模式指根据观察自定义的一些匹配规则，定义如下：
模式1：[线索词].{0，k}[网站名]
模式2：[线索符号][网站名]
模式1中[线索词]匹配任意一个自定义的指示词，包括以下词汇：
转载、转贴、转发、转自、出自、发自、来自、引自、源自、来源、出处、zt、zz、from、zz from
模式1和模式2中[网站名]匹配任意一个网站的名字，这些名字由人工收集统计得到，覆盖面较广；
模式1中“.”表示任意一个字符，k为正整数；
模式2中[线索符号]匹配下列任意一个符号：[、【、(、〔、『、*、-、—、``、‘、“；
模式1表示匹配任一线索词开头的网站名，线索词和网站名之间允许间隔最多k个字符的位置；模式2表示匹配任意线索符号开头的网站名，线索符号和网站名之间无间隔位置；通过模式1或模式2匹配到的网站名作为转载出处；如果匹配到多个网站名，那么以模式1匹配到的网站名作为转载出处；如果利用同一模式匹配到多个网站名，对于步骤3.2，以更接近文本开始的网站名作为转载出处，而对于步骤3.3，以更接近文本结尾的网站名作为转载出处。
4.如权利要求3所述的自动分析互联网上热点主题传播过程的方法，其特征在于，对文本搜索转载出处时，前缀文本长度L1为20个字符，每个汉字作为一个字符；后缀文本长度L2为20个字符，每个汉字作为一个字符。
5.如权利要求1所述的自动分析互联网上热点主题传播过程的方法，其特征在于，当步骤(3)如能搜索到当前文档di的转载出处时，所述方法还包括：利用文本相似性比较方法获取其对应的源文档，获取其对应的源文档包括以下步骤：
6.1将当前文档di与序列中排在该文档前面并且发布站点等于文档di的转载出处的每一篇文档dj计算相似度值，其中dj属于{d1，d2，...，di-1}；
6.2找到文档di的最相似文档dk及对应的最大相似度值，如果该相似度值大于设定的阈值T1，那么当前文档di对应的源文档为文档dk；
如未找到当前文档di的转载出处，利用文本相似性比较方法寻找其转载出处，包括以下步骤：
6.A将当前文档di与序列中排在该文档前面的每一篇文档dj计算相似度值，其中dj属于{d1，d2，...，di-1}；
6.B从这些相似度值中找到最大相似度值，如果该相似度值大于设定的阈值T2，那么当前文档di的转载出处为与当前文档最相似的文档dk的发布站点名，也就是SourceSite(di)＝PublishSite(dk)，di对应的源文档为dk。
6.如权利要求1所述的自动分析互联网上热点主题传播过程的方法，其特征在于，计算文档之间的相似度值时，可采用余弦公式(Cosine)进行计算，也可采用Jaccard公式，Dice公式、编辑距离(Edit Distance)方法进行计算，其中利用余弦公式计算文档di和dj之间的相似度值时，首先以中心向量与表示主题，然后利用如下公式进行计算：

sim (d_{i}, d_{j}) = \cos ({\vec{d}}_{i}, {\vec{d}}_{j}) = \frac{{\vec{d}}_{i} \cdot {\vec{d}}_{j}}{| | {\vec{d}}_{i} | | \cdot | | {\vec{d}}_{j} | |}

其中1≤i，j≤n，i≠j，每个中心向量的每一维为主题中的一个词，n为词的个数，词t权重为tft*idft，tft为词t在文档中的频率，idft为词t的倒排文档频率，注意对文本进行向量化的时候，所有的词均加以保留，包括停用词在内。
7.如权利要求6所述的自动分析互联网上热点主题传播过程的方法，其特征在于，根据最大相似度值判断当前文档对应的源文档时，阈值T1的选择跟所采用的相似度计算方法有关，当采用余弦公式计算文档相似度值时，阈值T1的范围为(0.5，1)，一般取0.9；同样利用文本相似性比较方法寻找当前文档转载出处时，阈值T2的选择跟所采用的相似度计算方法有关，当采用余弦公式计算文档相似度值时，阈值T2的范围为(0.5，1)，一般取0.9。
8.如权利要求1所述的自动分析互联网上热点主题传播过程的方法，其特征在于，还包括绘制该热点主题的信息传播过程图的步骤，具体方法为：根据获取的文档的转载出处以及源文档信息，绘制信息传播过程图时，对信息传播图的基本绘制要求如下：按照传播关系的时间先后顺序，每次绘制一次文档转载过程，每个站点用一个图片表示，上面标注有站点名字，站点之间的文档转载用带箭头的连线表示；传播源站点布局在左上角，其他站点随机分布，不允许相互重叠，传播枢纽站点是被转载的文档数量最多的站点，也就是向外连线最多的站点，以和普通站点不同的颜色加以显示；站点是可拖拽的，可由用户改变站点的布局；鼠标点击每个站点可显示该站点转载和被转载的文档标题，鼠标移到连线上方可显示通过该连线转载的文档标题；此外，信息传播图在文本框中实时显示当前绘制的转载关系的有关信息，包括转载出处，发布站点，源文档，当前文档；并且可由用户自定义在图上绘制的转载关系的最大数量。
9.一种自动分析互联网上热点主题传播过程的系统，包括以下装置：文档输入处理装置，文档排序装置，文档转载出处搜索装置，源文档计算装置，绘图装置；
其中，文档输入处理装置用于读入属于同一热点或敏感主题的文档集，抽取文档元数据；
文档排序装置，用于按照文档时间将文档排序；
文档转载出处搜索装置，用于搜索文档转载出处，此装置利用文本模式匹配方法进行搜索；
源文档计算装置，用于对文档转载出处搜索装置搜索到的文档转载出处计算其源文档的装置，此装置利用文本相似性比较方法计算其对应的源文档；对于未搜索到转载出处的文档，此装置则利用文本相似性比较方法同时计算该文档的转载出处和对应的源文档，
绘图装置，用于根据获得的文档转载关系，绘制该主题的信息传播过程图，供用户浏览与查看。
10.如权利要求9所述的自动分析互联网上热点主题传播过程的系统，其特征在于，将文档输入处理装置，文档排序装置，文档转载出处搜索装置运行在服务器上，而将源文档计算装置，绘图装置运行在客户端上。

技术领域\n本发明属于智能信息处理技术领域，具体涉及一种自动分析互联网上热点主题传播过程的方法及系统。\n背景技术\n近年来，互联网上文本信息呈爆炸性增长，包括新闻，论坛，博客(blog)等多种形式。互联网上文本信息的一个特点就是并非所有文本信息都是原创的，其中很多文本信息都是从别的网站转载的，例如，新浪网上的大部分新闻都是从别的网站或媒体转载而来，并且可能经过简单的编辑加工。论坛上的热门帖子也有很多是从别的网站或媒体转载而来。这种互联网上文本信息之间大量转载的现象被称之为互联网信息传播。人们通过主题检测与全文检索可以找到热点主题与敏感主题，而通过分析某个主题在互联网上信息传播过程，可以了解该主题的传播源头以及传播枢纽，对该主题进行监控跟踪，从而辅助决策。传播源头指信息的始发站点，也就是第一次发表的站点。传播枢纽则指向外转载最多信息的地点，也就是出度最大的站点。通过综合分析大量主题的信息传播过程，可以获取互联网上信息传播的整体趋势，从宏观角度找到互联网核心网站。本发明重点在于针对某个特定热点或敏感主题，分析其信息传播过程，方便用户跟踪监控。\n目前对互联网信息传播过程的研究一般都基于传播学理论，从宏观角度分析探讨适合描述互联网信息传播过程的各种模型。其中疾病传播模型是最早被广泛接受的一种模型，能够较好地和互联网信息传播过程进行吻合，参见书籍The mathematical theory of infectious diseases and its applications(作者为N.Bailey，第二版，出版于1975年)和文章A simple model of epidemics withpathogen mutation(作者为M.Girvan等，发表于2002年出版的期刊：Phys.Rev.E)。近些年，不少文章提出和探讨了基于社会网络分析的传播模型，包括文章Epidemics and percolation in small-world networks(作者为C.Moore和M.E.J.Newman，发表于2000年出版的期刊：Phys.Rev.E)、文章Collective dynamicsof‘small-world’networks(作者为D.Watts和S.Strogatz，发表于1998年出版的期刊：Nature)以及文章Epidemic spreading in scale-free networks(作者为R.Pasto-Satorras和A.Vespignani，发表于2001年出版的期刊：Phys.Rev.Letters)。此外，有文章专门针对博客提出了不同的信息传播模型，包括文章On the bursty evolution of blogspace(作者为R.Kumar等，发表于2003年出版的论文集：Proceedings of WWW)和文章Information diffusion through blogspace(作者为D.Gruhl等，发表于2004年出版的论文集：Proceedings of WWW)。\n以上模型都从宏观角度描述互联网信息传播特性，无法分析特定主题的信息传播过程，而用户往往需要监控跟踪热点主题或敏感主题的信息传播过程，进而做出决策。本发明的方法可以满足用户从微观层面上对信息传播过程监控的需求。\n发明内容\n为了满足用户跟踪监控特定主题的信息传播过程的需求，本发明通过综合利用模式匹配方法和相似性比较方法对属于该主题内的文档逐一查找其转载出处以及对应的源文档，最终绘制出信息传播过程图。具体说来，对于站点B上的文档b，采用本发明的方法可以获取文档b的转载出处A以及对应的源文档a，记作站点A(文档a)->站点B(文档b)，站点A与B分别成为文档a与b的发布站点(PublishSite)，站点A是文档b的转载出处(SourceSite)，文档a是文档b的源文档(SourceDoc)。该方法具有高效性、鲁棒性等优点，具有很大的实用价值。\n为达到以上目的，本发明采用的技术方案是：一种自动分析互联网上热点主题传播过程的方法，包括以下步骤：\n(1)读入属于同一热点主题的文档集，抽取文档元数据；\n(2)按照文档发表时间将文档排序，得到序列d1，d2，...，dn，n为文档数量；\n(3)从序列中第一篇文档开始，计算当前文档di的转载出处；并获取该文档对应的源文档，其中利用文本模式匹配的方法搜索当前文档di的转载出处，包括：\n3.1对于新闻文档，如果步骤(1)获取的文档元数据中已经得到其转载站点，那么用该站点名作为该文档的转载出处，否则进行下一步；对于其他类型的文档直接进行下一步；\n3.2在该文档di的长度为L1的前缀文本上根据定义的匹配模式搜索转载出处，其中L1为正整数；\n3.3如果步骤3.2未找到转载出处，则在该文档di的长度为L2的后缀文本上根据定义的匹配模式搜索转载出处，其中L2为正整数。\n进一步，为使本发明获得更好的发明效果，步骤(1)中热点主题可通过主题检测系统获取，敏感主题可通过全文检索系统获取。每一个主题内均包括具有共性的1个或多个Web文档。本发明的方法对给定主题类型及其文档类型不加任何限制，主题类型可以是除热点主题和敏感主题之外的其他主题，文档类型可以是新闻文本，也可以是论坛、博客等其它形式的文本。对于给定的任一文档集合，采用本发明的方法可进行同样处理。文档元数据主要包括文档发布站点以及文档的发表时间(PublishTime)，文档发布站点为该文档的下载站点，文档发表时间通过简单的模板匹配得到，在无法得到文档发表时间的情况下，由网页的更新时间替代。此外，对于新闻文本，文档元数据还包括利用人工定制的模板抽取得到的新闻转载站点，这主要是因为新闻文本比较正规，普遍具有明确的标记指明该篇文档转载自哪个新闻网站。最后由于网页文本包含很多的HTML标记，以及广告、导航条等无关信息，因此需要对下载的网页要进行HTML标记过滤等预处理过程，尽可能地获得网页的重要文本内容。\n进一步，为使本发明获得更好的发明效果，按照发表的文档时间按照自然时间顺序排序，得到序列d1，d2，...，dn，n为文档数量。序列中靠前的文档具有较早的时间。\n进一步，为使本发明获得更好的发明效果，所述匹配模式指根据观察自定义的一些匹配规则，定义如下：\n模式1：[线索词].{0，k}[网站名]\n模式2：[线索符号][网站名]\n模式1中[线索词]匹配任意一个自定义的指示词，包括以下词汇：\n转载、转贴、转发、转自、出自、发自、来自、引自、源自、来源、出处、zt、zz、from、zz from\n模式1和模式2中[网站名]匹配任意一个网站的名字，这些名字由人工收集统计得到，覆盖面较广。\n模式1中“.”表示任意一个字符(包括汉字)，k为正整数。\n模式2中[线索符号]匹配下列任意一个符号：[、【、(、〔、『、*、-、—、″、‘、“；\n模式1表示匹配任一线索词开头的网站名，线索词和网站名之间允许间隔最多k个字符的位置。模式2表示匹配任意线索符号开头的网站名，线索符号和网站名之间无间隔位置。通过模式1或模式2匹配到的网站名作为转载出处。如果匹配到多个网站名，那么以模式1匹配到的网站名作为转载出处；如果利用同一模式匹配到多个网站名，那么对于步骤3.2，以更接近文本开始的网站名作为转载出处，而对于步骤3.3，以更接近文本结尾的网站名作为转载出处。\n对文本搜索转载出处时，前缀文本长度L1为20个字符，每个汉字作为一个字符；后缀文本长度L2为20个字符，每个汉字作为一个字符。\n进一步，如能搜索到当前文档di的转载出处，利用文本相似性比较方法获取其对应的源文档，获取其对应的源文档包括以下步骤：\nA1将当前文档di与序列中排在该文档前面并且发布站点等于文档di的转载出处的每一篇文档dj计算相似度值，其中dj属于{d1，d2，...，di-1}；\nA2找到文档di的最相似文档dk及对应的最大相似度值，如果该相似度值大于设定的阈值T1，那么当前文档di对应的源文档为文档dk；\n如未找到当前文档di的转载出处，利用文本相似性比较方法寻找其转载出处，包括以下步骤：\nB1将当前文档di与序列中排在该文档前面的每一篇文档dj计算相似度值，其中dj属于{d1，d2，...，di-1}；\nB2从这些相似度值中找到最大相似度值，如果该相似度值大于设定的阈值T2，那么当前文档di的转载出处为与当前文档最相似的文档dk的发布站点名，di对应的源文档为dk。\n进一步，计算文档之间的相似度值时，采用余弦公式Cosine进行计算，或采用Jaccard公式，Dice公式、编辑距离Edit Distance方法进行计算，其中利用余弦公式计算文档di和dj之间的相似度值时，首先以中心向量与表示主题，然后利用如下公式进行计算：\n

sim (d_{i}, d_{j}) = \cos ({\vec{d}}_{i}, {\vec{d}}_{j}) = \frac{{\vec{d}}_{i} \cdot {\vec{d}}_{j}}{| | {\vec{d}}_{i} | | \cdot | | {\vec{d}}_{j} | |} - - - (1)

\n其中1≤i，j≤n，i≠j，每个中心向量的每一维为主题中的一个词，n为词的个数，词t权重为tft*idft，tft为词t在文档中的频率，idft为词t的倒排文档频率。注意对文本进行向量化的时候，所有的词均加以保留，包括停用词在内。\n进一步，根据最大相似度值判断当前文档对应的源文档时，阈值T1的选择跟所采用的相似度计算方法有关，当采用余弦公式计算文档相似度值时，阈值T1的范围为(0.5，1)；同样利用文本相似性比较方法寻找当前文档转载出处时，阈值T2的选择跟所采用的相似度计算方法有关。当采用余弦公式计算文档相似度值时，阈值T2的范围为(0.5，1)。\n进一步，还包括绘制该热点主题的信息传播过程图的步骤，具体方法为：根据获取的文档的转载出处以及源文档信息，绘制信息传播过程图时，对信息传播图的基本绘制要求如下：按照传播关系的时间先后顺序，每次绘制一次文档转载过程，每个站点用一个图片表示，上面标注有站点名字，站点之间的文档转载用带箭头的连线表示；传播源站点布局在左上角，其他站点随机分布，不允许相互重叠。传播枢纽站点(出度最大的站点)是被转载的文档数量最多的站点，也就是向外连线最多的站点，以和普通站点不同的颜色加以显示；站点是可拖拽的，可由用户改变站点的布局；鼠标点击每个站点可显示该站点转载和被转载的文档标题，鼠标移到连线上方可显示通过该连线转载的文档标题；此外，信息传播图在文本框中实时显示当前绘制的转载关系的有关信息，包括转载出处，发布站点，源文档，当前文档；并且可由用户自定义在图上绘制的转载关系的最大数量。\n本发明还提供一种自动分析互联网上热点主题传播过程的系统，用于对特定主题的信息传播过程进行分析与展示，包括以下装置：文档输入处理装置，文档排序装置，文档转载出处搜索装置，源文档计算装置，绘图装置；\n其中，文档输入处理装置用于读入属于同一热点或敏感主题的文档集，抽取文档元数据；\n文档排序装置，用于按照文档时间将文档排序；\n文档转载出处搜索装置，用于搜索文档转载出处，此装置利用文本模式匹配方法进行搜索；\n源文档计算装置，用于对文档转载出处搜索装置搜索到的文档转载出处计算其源文档的装置，此装置利用文本相似性比较方法计算其对应的源文档；对于未搜索到转载出处的文档，此装置则利用文本相似性比较方法同时计算该文档的转载出处和对应的源文档。\n绘图装置，用于根据获得的文档转载关系，绘制该主题的信息传播过程图，供用户浏览与查看。\n进一步，将文档输入处理装置，文档排序装置，文档转载出处搜索装置运行在服务器上，而将源文档计算装置，绘图装置运行在客户端上。\n本发明的效果在于：综合利用模式匹配方法与相似性比较方法查找文档的转载出处，两种方法相互补充，具有高效性；以可视化的界面将给定主题的整个信息传播过程呈现给用户，具有直观性和用户友好性；采用的计算方法直接，将计算任务分担给服务器和客户端，减少了服务器的计算压力，具有实时性和很强的实用性。\n附图说明\n图1是本发明所述方法的流程图。\n图2-图4是利用Flash绘制出的针对主题“北京一村庄连发爆炸纵火案”的信息传播过程图实例，其中：\n图2显示了绘制结束后整个信息传播过程图；\n图3显示了鼠标移到连线上显示了其传播的文档标题；\n图4显示了鼠标点击网站名后显示了该网站转载(传入)和被转载(传出)的文档标题。\n具体实施方式\n下面结合实施例和附图进一步阐明本发明所述的技术方案：\n为了满足用户跟踪监控特定主题的信息传播过程的需求，本发明通过综合利用模式匹配方法和相似性比较方法对属于该主题内的文档逐一查找其转载出处以及对应的源文档，最终绘制出信息传播过程图。具体说来，对于站点B上的文档b，采用本发明的方法可以获取文档b的转载出处A以及对应的源文档a，记作站点A(文档a)->站点B(文档b)，站点A与B分别成为文档a与b的发布站点(PublishSite)，站点A是文档b的转载出处(SourceSite)，文档a是文档b的源文档(SourceDoc)。该方法具有高效性、鲁棒性等优点，具有很大的实用价值。\n如图1所示，一种对互联网上热点或敏感主题的传播过程进行自动分析的方法，包括以下步骤：\n(1)读入属于同一热点主题的文档集，抽取文档元数据；\n本实施例中的热点主题通过主题检测系统获取，敏感主题通过全文检索系统获取。每一个主题内均包括具有共性的1个或多个Web文档。本实施例中文档类型包括新闻、论坛、博客等多种形式的文本。对每种类型的文本进行同样处理。文档元数据主要包括文档发布站点以及文档的发表时间(PublishTime)，文档发布站点为该文档的下载站点，文档发表时间通过简单的模板匹配得到，在无法得到文档发表时间的情况下，由网页的更新时间等替代。对于新闻文本，文档元数据还包括利用人工定制的模板抽取得到的新闻转载站点，这主要是因为新闻文本比较正规，普遍具有明确的标记指明该篇文档转载自哪个新闻网站。最后由于网页文本包含很多的HTML标记，以及广告、导航条等无关信息，因此对下载的网页要进行HTML标记过滤等预处理过程，获得网页的重要文本内容。\n(2)按照文档发表时间将文档排序，得到序列d1，d2，...，dn，n为文档数量；\n发表的文档时间按照自然时间顺序排序，得到序列d1，d2，...，dn，n为文档数量，序列中靠前的文档具有较早的时间。\n(3)从序列中第一篇文档开始，计算当前文档di的转载出处；并获取该文档对应的源文档。\n此处利用文本模式匹配的方法搜索当前文档di的转载出处，具体包括以下步骤：\n3.1对于新闻文档，如果步骤(1)获取的文档元数据中已经得到其转载站点，那么用该站点名作为该文档的转载出处，否则进行下一步；对于其他类型的文档直接进行下一步；\n3.2在该文本di的长度为L1的前缀文本上根据定义的匹配模式搜索转载出处，其中L1为正整数，本实施例中L1为20个字符，每个汉字作为一个字符；\n本步骤中匹配模式指根据观察自定义的一些匹配规则，定义如下：\n模式1：[线索词].{0，k}[网站名]\n模式2：[线索符号][网站名]\n模式1中[线索词]匹配任意一个自定义的指示词，包括以下词汇：\n转载、转贴、转发、转自、出自、发自、来自、引自、源自、来源、出处、zt、zz、from、zz from\n模式1和模式2中[网站名]匹配任意一个网站的名字，例如新浪网、新华网、水木社区、网易社区等，这些名字由人工收集统计得到，覆盖面较广。\n模式1中“.”表示任意一个字符(包括汉字)，k为正整数，一般为0-3，本实施例中为2。\n模式2中[线索符号]匹配下列任意一个符号：[、【、(、〔、『、*、-、—、″、‘、“。\n模式1表示匹配任一线索词开头的网站名，线索词和网站名之间允许间隔最多k个字符的位置。模式2表示匹配任意线索符号开头的网站名，线索符号和网站名之间无间隔位置。通过模式1或模式2匹配到的网站名作为转载出处。\n3.3如果上一步未找到转载出处，则在该文本di的长度为L2的后缀文本上根据定义的匹配模式搜索转载出处，其中L2为正整数，本实施例中L2为20个字符，每个汉字作为一个字符；本步骤中文本模式的定义与匹配方法跟上一步相同。\n步骤3.2和3.3中如果利用不同模式匹配到多个网站名，那么以模式1匹配到的网站名作为转载出处；如果利用同一模式匹配到多个网站名，那么对于步骤3.2，以更接近文本开始的网站名作为转载出处，而对于步骤3.3，以更接近文本结尾的网站名作为转载出处。\n对于当前文档di，如果在上述步骤中找到其转载出处，则利用文本相似性比较方法判断其对应的源文档；\n利用文本相似性比较方法判断当前文档对应的源文档时，具体方法如下：\na)将当前文档di与序列中排在该文档前面并且发布站点等于文档di的转载出处的每一篇文档dj计算相似度值，其中dj属于{d1，d2，...，di-1}并且任意dj均有PublishSite(dj)＝SourceSite(di)；\n计算文档之间的相似度值时，一般采用余弦公式(Cosine)进行计算，也可采用Jaccard公式，Dice公式、编辑距离(Edit Distance)等方法进行计算。本实施例利用余弦公式计算文档di和dj之间的相似度值时，首先以中心向量与表示主题，然后利用如下公式进行计算：\n

sim (d_{i}, d_{j}) = \cos ({\vec{d}}_{i}, {\vec{d}}_{j}) = \frac{{\vec{d}}_{i} \cdot {\vec{d}}_{j}}{| | {\vec{d}}_{i} | | \cdot | | {\vec{d}}_{j} | |} - - - (1)

\n其中1≤i，j≤n，i≠j，每个中心向量的每一维为主题中的一个词，n为词的个数，词t权重为tft*idft，tft为词t在文档中的频率，idft为词t的倒排文档频率。注意对文本进行向量化的时候，所有的词均加以保留，包括停用词在内，这主要是因为该步骤中着重比较文本的文字相似性，而非主题相似性。\nb)找到文档di的最相似文档dk及对应的最大相似度值，如果该相似度值大于设定的阈值T1，那么当前文档di对应的源文档为文档dk，也就是SourceDoc(di)＝dk；本实施例中阈值T1的取值为0.9。\n对于当前文档di，如果上述步骤未找到其转载出处，则利用文本相似性比较方法继续寻找其转载出处，同时获取源文档；\n利用文本相似性比较方法继续寻找当前文档转载出处时，具体方法如下：\nc)将当前文档di与序列中排在该文档前面的每一篇文档dj计算相似度值，其中dj属于{d1，d2，...，di-1}；计算文档之间的相似度值时，一般采用余弦公式(Cosine)进行计算，也可采用Jaccard公式，Dice公式、编辑距离(Edit Distance)等方法进行计算。本实施例利用余弦公式计算文档之间的相似度值。\nd)从这些相似度值中找到最大相似度值，如果该相似度值大于设定的阈值T2，那么当前文档di的转载出处为与当前文档最相似的文档dk的发布站点名，也就是SourceSite(di)＝PublishSite(dk)，di对应的源文档为dk；阈值T2的选择跟所采用的相似度计算方法有关。阈值T2的范围为(0.5，1)，本实施例中取0.9。\n上述过程中，如果存在相似度值不满足大于设定的阈值的情况，也就是说如果模式匹配和文本相似性比较两种方法都找不到其转载出处，那么就认为无转载出处；也存在无法认定源文档的可能。\n(4)为了更加明显的显示出互联网上热点主题传播过程，此发明还可以绘制该主题的信息传播过程图的操作。\n本实施例中采用的画图显示程序为Flash。对信息传播图的基本绘制说明如下：按照传播关系的时间先后顺序，每次绘制一次文档转载过程，每个站点用一个图片表示，上面标注有站点名字，站点之间的文档转载用带箭头的连线表示，例如“站点A(文档a)->站点B(文档b)”表示将站点A中的文档a传播到站点B中的文档b，文档a允许为空。传播源站点(始发站点)布局在左上角，其他站点随机分布，不允许相互重叠。传播枢纽站点(出度最大的站点)是被转载的文档数量最多的站点，也就是向外连线最多的站点，以和普通站点不同的颜色加以显示。站点是可拖拽的，可有用户改变站点的布局。鼠标点击每个站点可显示该站点转载和被转载的文档标题，鼠标移到连线上方可显示通过该连线转载的文档标题。此外，信息传播图在文本框中实时显示当前绘制的转载关系的有关信息，包括转载出处，发布站点，源文档，当前文档。并且可由用户自定义在图上绘制的转载关系的最大数量。\n附图中图2至图4显示了最终绘制出的信息传播过程图，图中可以看到“新华网”既是传播源点又是传播枢纽。\n本发明的方法分析获得的主题信息传播过程图通过用户分析和评价，传播关系基本准确，能够较好地反映热点或敏感主题的信息传播过程，方便用户跟踪监控，辅助用户决策，在实际应用中深受用户好评。\n本发明还提供一种自动分析互联网上热点主题传播过程的系统，用于对特定主题的信息传播过程进行分析与展示，包括以下装置：文档输入处理装置，文档排序装置，文档转载出处搜索装置，源文档计算装置，绘图装置；\n其中，文档输入处理装置用于读入属于同一热点或敏感主题的文档集，抽取文档元数据；\n文档排序装置，用于按照文档时间将文档排序；\n文档转载出处搜索装置，用于搜索文档转载出处，此装置利用文本模式匹配方法进行搜索；\n源文档计算装置，用于对文档转载出处搜索装置搜索到的文档转载出处计算其源文档的装置，此装置利用利用文本相似性比较方法计算其对应的源文档；对于未搜索到转载出处的文档，此装置则利用文本相似性比较方法同时计算该文档的转载出处和对应的源文档。\n绘图装置，用于根据获得的文档转载关系，绘制该主题的信息传播过程图，供用户浏览与查看。\n进一步，将文档输入处理装置，文档排序装置，文档转载出处搜索装置等运行在服务器上，而将源文档计算装置，绘图装置运行在客户端上。\n该系统各装置的功能与上述方法一一对应。\n这样大大提高系统运行的效率，减少用户等待的时间。\n本发明的效果在于：综合利用模式匹配方法与相似性比较方法查找文档的转载出处以及获取对应的源文档，两种方法相互补充，具有高效性；以可视化的界面将给定主题的整个信息传播过程呈现给用户，具有直观性和用户友好性；采用的计算方法直接，将计算任务分担给服务器和客户端，减少了服务器的计算压力，具有实时性和很强的实用性。\n本发明所述的方法并不限于具体实施方式中所述的实施例，步骤(3)中定义的匹配模式不仅仅限于模式1和模式2，还包括模式1及模式2的改进和变形。计算文档之间的相似度值时，除了采用余弦公式(Cosine)进行计算之外，也可采用Jaccard公式，Dice公式、编辑距离(Edit Distance)等方法进行计算。绘制主题信息传播过程图时除了使用Flash之外，还可以使用Java Applet等客户端图形显示程序，或者直接将主题信息传播过程图生成图片。\n显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
1	CN1536483A	2004-10-13	2003-04-04	网络信息抽取及处理的方法及系统无效专利	陈文中
2	CN1770159A	2006-05-10	2005-10-28	一种网络内容引用自动发现的方法有效专利	北大方正集团有限公司;北京北大方正技术研究院有限公司;北京大学
3	CN1790321A	2006-06-21	2005-10-28	一种用于海量文本快速相似搜索的方法无效专利	北大方正集团有限公司;北京北大方正技术研究院有限公司;北京大学

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
1	CN103578035A	2012-08-06	2012-08-06	一种基于新闻事件的报道和监控的方法及系统无效专利	北大方正集团有限公司;北京北大方正电子有限公司

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供