著录项信息
专利名称 | 一种中文文字标签云自动生成方法及装置 |
申请号 | CN201310319948.9 | 申请日期 | 2013-07-26 |
法律状态 | 授权 | 申报国家 | 中国 |
公开/公告日 | 2013-12-11 | 公开/公告号 | CN103440256A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/30 | IPC分类号 | G;0;6;F;1;7;/;3;0;;;G;0;6;F;1;7;/;2;7查看分类表>
|
申请人 | 中国科学院深圳先进技术研究院 | 申请人地址 | 广东省深圳市南山区西丽大学城学苑大道1068号
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 中国科学院深圳先进技术研究院 | 当前权利人 | 中国科学院深圳先进技术研究院 |
发明人 | 汪云海;华博;丹尼尔·科恩;陈宝权 |
代理机构 | 深圳市科进知识产权代理事务所(普通合伙) | 代理人 | 宋鹰武;沈祖锋 |
摘要
本发明属于标签提取技术领域,尤其涉及一种中文文字标签云自动生成方法和装置。本发明中文文字标签云自动生成方法,包括:步骤a:对待分析文本数据利用汉语词法分析进行分词和词性标注;步骤b:根据分词及词性标注结果提取出待分析文本数据的关键词和词频;步骤c:将提取到的关键词以及其词频作为输入数据,使用标签云生成算法生成标签云。本发明的中文文字标签云自动生成方法和装置将中文分词和标签云算法结合并优化,填补了中文标签云生成算法的空白,为新闻要点提取,舆论分析等工作提供了有利的工具。
1.一种中文文字标签云自动生成方法,包括:
步骤a:对待分析文本数据利用汉语词法分析进行分词和词性标注;在所述步骤a中,所述汉语词法分析采用基于层叠隐马模型的汉语词法分析,所述汉语词法分析包括:在预处理阶段,采用N-最短路径粗分方法,得到能覆盖歧义的最佳N个粗切分结果;在粗分结果集上,采用低层隐马模型结合词典语料库识别出普通无嵌套的人名、地名,并依据识别出的结果采用高层隐马模型结合词典语料库识别出嵌套了人名、地名的复杂地名和机构名;将识别出的未登录词以计算出来的概率加入到基于类的切分隐马模型中,未登录词与歧义均不作为特例,与普通词一起参与候选结果的竞争;在全局优化的分词结果上进行词性的隐马标注得到词法分析结果;
步骤b:根据分词及词性标注结果提取出待分析文本数据的关键词和词频;
步骤c:将提取到的关键词以及其词频作为输入数据,使用标签云生成算法生成标签云;在所述步骤c中,标签云生成算法基于几何结构对关键词进行布局,所述标签云生成算法包括:选择生成的布局方式,将标签按照选择的布局方式进行初始放置后,遍历所有标签,在出现标签相互遮挡时使用贪心算法围绕着尺寸小的标签中心寻找新的放置位置。
2.根据权利要求1所述的中文文字标签云自动生成方法,其特征在于,所述词典语料库进行相应更新,更新方式包括:利用网络爬虫技术对搜索引擎或新闻网站更新的新词进行抓取,并收集新词相关的新闻;将收集到新词相关的新闻加入语料库进行训练,对新词加以词性标注,将词性标注后的新词加入词典,并更新词典和语料库。
3.根据权利要求1所述的中文文字标签云自动生成方法,其特征在于,所述布局方式包括:放射式布局和线性布局,所述放射布局是将所有标签由内向外呈放射形放置,所述线性布局是将所有标签随着扫描线放置。
4.一种中文文字标签云自动生成装置,其特征在于,包括:分词和词性标注模块、关键词和词频提取模块和标签云生成模块,所述分词和词性标注模块、关键词和词频提取模块和标签云生成模块依次相连,所述分词和词性标注模块用于对待分析文本数据利用汉语词法分析进行分词和词性标注,所述关键词和词频提取模块用于根据分词及词性标注结果提取出待分析文本数据的关键词和词频,所述标签云生成模块用于将提取到的关键词以及其词频作为输入数据,使用标签云生成算法生成标签云;
所述分词和词性标注模块采用基于层叠隐马模型的汉语词法分析,具体包括:在预处理阶段,采用N-最短路径粗分方法,得到能覆盖歧义的最佳N个粗切分结果;在粗分结果集上,采用低层隐马模型结合词典语料库识别出普通无嵌套的人名、地名,并依据识别出的结果采用高层隐马模型结合词典语料库识别出嵌套了人名、地名的复杂地名和机构名;将识别出的未登录词以计算出来的概率加入到基于类的切分隐马模型中,未登录词与歧义均不作为特例,与普通词一起参与候选结果的竞争;在全局优化的分词结果上进行词性的隐马标注得到词法分析结果;
所述标签云生成模块基于几何结构对关键词进行布局,所述布局方式包括:放射式布局和线性布局,所述放射布局是将所有标签由内向外呈放射形放置,所述线性布局是将所有标签随着扫描线放置,所述标签云生成模块生成标签云包括:选择生成的布局方式,将标签按照选择的布局方式进行初始放置后,遍历所有标签,在出现标签相互遮挡时使用贪心算法围绕着尺寸小的标签中心寻找新的放置位置。
5.根据权利要求4所述的中文文字标签云自动生成装置,其特征在于,所述词典语料库进行相应更新,更新方式包括:利用网络爬虫技术对搜索引擎或新闻网站更新的新词进行抓取,并收集新词相关的新闻;将收集到新词相关的新闻加入语料库进行训练,对新词加以词性标注,将词性标注后的新词加入词典,并更新词典和语料库。
一种中文文字标签云自动生成方法及装置\n技术领域\n[0001] 本发明属于标签提取技术领域,尤其涉及一种中文文字标签云自动生成方法及装置。\n背景技术\n[0002] 随着科学技术的发展,特别是计算机技术的迅猛发展,人类产生和获取数据的能力成数量级地增加。其中新闻、网络和报纸有大量的新信息产生,对于这些中文文本数据的收集、分析与挖掘一直以来是研究人员工作的重点,通常采用标签来对文本数据进行标记,标定出关键字词,方便查找或定位。标签云是关键词的视觉化描述,用于汇总用户生成的标签或一个网站的文字内容。现有的中文文本的标签云生成方法通过分词技术提取出关键词,并根据Wordle算法来生成无互相遮挡的文字标签云,现有的中文文本的标签云生成方法的缺点是:分词技术受到每日更新的新词以及文本语法不规范等问题,不能根据一则文本数据准确地进行词法分析;另外,现有的标签云生成方法主要针对英文文本,所生成的标签云不能很好适应中文文字的结构。\n发明内容\n[0003] 本发明提供了一种中文文字标签云自动生成方法及装置,旨在解决现有的标签云生成方法不能根据一则文本数据准确地进行词法分析,以及其主要针对英文文本,所生成的标签云不能很好适应中文文字结构的技术问题。\n[0004] 本发明提供的技术方案为:一种中文文字标签云自动生成方法,包括:\n[0005] 步骤a:对待分析文本数据利用汉语词法分析进行分词和词性标注;\n[0006] 步骤b:根据分词及词性标注结果提取出待分析文本数据的关键词和词频;\n[0007] 步骤c:将提取到的关键词以及其词频作为输入数据,使用标签云生成算法生成标签云。\n[0008] 本发明的技术方案还包括:在所述步骤a中,所述汉语词法分析采用基于层叠隐马模型的汉语词法分析,所述汉语词法分析包括:在预处理阶段,采用N-最短路径粗分方法,得到能覆盖歧义的最佳N个粗切分结果;在粗分结果集上,采用低层隐马模型结合词典语料库识别出普通无嵌套的人名、地名,并依据识别出的结果采用高层隐马模型结合词典语料库识别出嵌套了人名、地名的复杂地名和机构名;将识别出的未登录词以计算出来的概率加入到基于类的切分隐马模型中,未登录词与歧义均不作为特例,与普通词一起参与候选结果的竞争;在全局优化的分词结果上进行词性的隐马标注得到词法分析结果。\n[0009] 本发明的技术方案还包括:所述词典语料库进行相应更新,更新方式包括:利用网络爬虫技术对搜索引擎或新闻网站更新的新词进行抓取,并收集新词相关的新闻;将收集到新词相关的新闻加入语料库进行训练,对新词加以词性标注,将词性标注后的新词加入词典,并更新词典和语料库。\n[0010] 本发明的技术方案还包括:在所述步骤c中,标签云生成算法基于几何结构对关键词进行布局。\n[0011] 本发明的技术方案还包括:所述布局方式包括:放射式布局和线性布局,所述放射布局是将所有标签由内向外呈放射形放置,所述线性布局是将所有标签随着扫描线放置。\n[0012] 本发明的技术方案还包括:所述标签云生成算法包括:选择生成的布局方式,将标签按照选择的布局方式进行初始放置后,遍历所有标签,在出现标签相互遮挡时使用贪心算法围绕着尺寸小的标签中心寻找新的放置位置。\n[0013] 本发明提供的另一技术方案为:一种中文文字标签云自动生成装置,包括:分词和词性标注模块、关键词和词频提取模块和标签云生成模块,所述分词和词性标注模块、关键词和词频提取模块和标签云生成模块依次相连,所述分词和词性标注模块用于对待分析文本数据利用汉语词法分析进行分词和词性标注,所述关键词和词频提取模块用于根据分词及词性标注结果提取出待分析文本数据的关键词和词频,所述标签云生成模块用于将提取到的关键词以及其词频作为输入数据,使用标签云生成算法生成标签云。\n[0014] 本发明的技术方案还包括:所述分词和词性标注模块采用基于层叠隐马模型的汉语词法分析,具体包括:在预处理阶段,采用N-最短路径粗分方法,得到能覆盖歧义的最佳N个粗切分结果;在粗分结果集上,采用低层隐马模型结合词典语料库识别出普通无嵌套的人名、地名,并依据识别出的结果采用高层隐马模型结合词典语料库识别出嵌套了人名、地名的复杂地名和机构名;将识别出的未登录词以计算出来的概率加入到基于类的切分隐马模型中,未登录词与歧义均不作为特例,与普通词一起参与候选结果的竞争;在全局优化的分词结果上进行词性的隐马标注得到词法分析结果。\n[0015] 本发明的技术方案还包括:所述词典语料库进行相应更新,更新方式包括:利用网络爬虫技术对搜索引擎或新闻网站更新的新词进行抓取,并收集新词相关的新闻;将收集到新词相关的新闻加入语料库进行训练,对新词加以词性标注,将词性标注后的新词加入词典,并更新词典和语料库。\n[0016] 本发明的技术方案还包括:所述标签云生成模块基于几何结构对关键词进行布局,所述布局方式包括:放射式布局和线性布局,所述放射布局是将所有标签由内向外呈放射形放置,所述线性布局是将所有标签随着扫描线放置,所述标签云生成模块生成标签云包括:选择生成的布局方式,将标签按照选择的布局方式进行初始放置后,遍历所有标签,在出现标签相互遮挡时使用贪心算法围绕着尺寸小的标签中心寻找新的放置位置。\n[0017] 本发明的技术方案具有如下优点或有益效果:本发明实施例的中文文字标签云自动生成方法和装置对分词系统所使用的词典进行改进,使其能够根据每天产生新的语料进行自我更新,并加入情绪分析功能;再根据提取出的关键词的词频以及关键词的情绪色彩生成更具空间结构、色彩更合理的标签云;另外,将中文分词和标签云算法结合并优化,填补了中文标签云生成算法的空白,为新闻要点提取,舆论分析等工作提供了有利的工具。\n附图说明\n[0018] 附图1是本发明实施例的中文文字标签云自动生成方法的流程图;\n[0019] 附图2本发明实施例的中文文字标签云自动生成方法的汉语词法分析算法流程图;\n[0020] 附图3是本发明实施例的中文文字标签云自动生成方法的词典、语料库自我更新流程;\n[0021] 附图4是本发明实施例的中文文字标签云自动生成方法的关键词布局方式示意图;\n[0022] 附图5本发明实施例的中文文字标签云自动生成方法应用贪心算法解决标签遮挡的应用示意图;\n[0023] 附图6为本发明实施例的中文文字标签云自动生成方法应用网易新闻的示意图;\n[0024] 附图7为本发明实施例的中文文字标签云自动生成方法对网易新闻回帖的标签云生成示意图;\n[0025] 附图8为本发明实施例的中文文字标签云自动生成装置的结构示意图。\n具体实施方式\n[0026] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。\n[0027] 请参阅图1,为本发明实施例的中文文字标签云自动生成方法的流程图。本发明实施例的中文文字标签云自动生成方法包括:\n[0028] 步骤100:对待分析文本数据利用汉语词法分析进行分词和词性标注;\n[0029] 在步骤100中,待分析文本数据包括新闻、网络和报纸等数据;请一并参阅2,图2是本发明实施例的中文文字标签云自动生成方法的汉语词法分析算法流程图。汉语词法分析是把一串连续的字符切分成单个的词;并正确地判断每个词的词性。在本发明实施例中,汉语词法分析采用基于层叠隐马模型的汉语词法分析,具体包括:在预处理阶段,采用N-最短路径粗分方法,快速地得到能覆盖歧义的最佳N个粗切分结果;在粗分结果集上,采用低层隐马模型结合词典语料库识别出普通无嵌套的人名、地名,并依据识别出的结果采用高层隐马模型结合词典语料库识别出嵌套了人名、地名的复杂地名和机构名;将识别出的未登录词以科学计算出来的概率加入到基于类的切分隐马模型中,未登录词与歧义均不作为特例,与普通词一起参与候选结果的竞争;在全局优化的分词结果上进行词性的隐马标注得到词法分析结果。\n[0030] 在步骤100中,为了提高关键词提取的准确性,本发明实施例的中文文字标签云自动生成方法对原有汉语词法分析算法所使用的词典进行改进,并且扩充了原有的语料库。\n具体方法包括:利用网络爬虫技术对每日百度、搜狗等搜索引擎或新闻网站更新的新词进行抓取,并收集新词相关的新闻,将收集到新词相关的新闻加入语料库进行训练,对新词加以词性标注,将词性标注后的新词加入词典,并更新词典和语料库,具体流程如图3。\n[0031] 步骤200:根据分词及词性标注结果提取出待分析文本数据的关键词和词频;\n[0032] 步骤300:将提取到的关键词以及其词频作为输入数据,使用标签云生成算法生成标签云。\n[0033] 在步骤300中,标签云生成算法基于几何结构对关键词进行布局,保持关键字之间的Orthogonal Ordering(正交排序)特性。生成标签云具体流程包括:选择生成的布局方式,其中,布局方式包括:放射式布局和线性布局,放射布局是将所有标签由内向外呈放射形放置,线性布局是将所有标签随着扫描线放置,布局如图4;在将标签按照两种布局放置之一进行初始放置后,遍历所有标签,当出现两个标签遮挡的情况时使用贪心算法围绕着尺寸小的标签中心寻找新的放置位置解决遮挡问题,图5为本发明实施例的中文文字标签云自动生成方法应用贪心算法解决标签遮挡的应用示意图。贪心算法具体包括:当有遮挡发生时,对于包含多个目标的合并前景块,根据合并检测模块和遮挡前的跟踪结果,可获得前景块内发生遮挡的目标数量、标号、颜色、形状等先验特征,定位时,依次遍历所有未被定位的目标,计算每一个目标的观测概率,并将观测概率最高的目标所在位置作为该目标的定位结果输出,同时将被该目标覆盖的像素添加到集合中,对合并前景快中的像素集合进行更新,重复上述过程,直到获得所有遮挡目标在前景块中的定位结果。\n[0034] 在步骤300中,布局方式选择放射式布局,则需要重新确定整体布局的几何中心;\n遍历完全部标签,完成标签云的生成。\n[0035] 请一并参阅图6和图7,图6为本发明实施例的中文文字标签云自动生成方法应用网易新闻的示意图,图7为本发明实施例的中文文字标签云自动生成方法对网易新闻回帖的标签云生成示意图。本发明实施例的中文文字标签云自动生成方法可以对大规模中文文本数据进行关键词提取以及中文标签云生成操作,利用该系统对网易新闻的用户回帖数据进行标签云生成,根据提取出的关键词的词频以及关键词的情绪色彩生成更具空间结构、色彩更合理的标签云\n[0036] 请参阅图8,为本发明实施例的中文文字标签云自动生成装置的结构示意图。本发明实施例的中文文字标签云自动生成装置包括:分词和词性标注模块、关键词和词频提取模块和标签云生成模块,其中,分词和词性标注模块、关键词和词频提取模块和标签云生成模块依次相连。\n[0037] 分词和词性标注模块:用于对待分析文本数据利用汉语词法分析进行分词和词性标注。待分析文本数据包括新闻、网络和报纸等数据,汉语词法分析是把一串连续的字符切分成单个的词;并正确地判断每个词的词性。在本发明实施例中,汉语词法分析采用基于层叠隐马模型的汉语词法分析,具体包括:在预处理阶段,采用N-最短路径粗分方法,快速地得到能覆盖歧义的最佳N个粗切分结果;在粗分结果集上,采用低层隐马模型结合词典语料库识别出普通无嵌套的人名、地名,并依据识别出的结果采用高层隐马模型结合词典语料库识别出嵌套了人名、地名的复杂地名和机构名;将识别出的未登录词以科学计算出来的概率加入到基于类的切分隐马模型中,未登录词与歧义均不作为特例,与普通词一起参与候选结果的竞争;在全局优化的分词结果上进行词性的隐马标注得到词法分析结果。\n[0038] 为了提高关键词提取的准确性,本发明实施例的中文文字标签云自动生成装置对原有汉语词法分析算法所使用的词典进行改进,并且扩充了原有的语料库。具体方法包括:\n利用网络爬虫技术对每日百度、搜狗等搜索引擎或新闻网站更新的新词进行抓取,并收集新词相关的新闻,将收集到新词相关的新闻加入语料库进行训练,对新词加以词性标注,将词性标注后的新词加入词典,并更新词典和语料库,具体流程如图3。\n[0039] 关键词和词频提取模块用于根据分词及词性标注结果提取出待分析文本数据的关键词和词频。\n[0040] 标签云生成模块用于将提取到的关键词以及其词频作为输入数据,使用标签云生成算法生成标签云。标签云生成模块基于几何结构对关键词进行布局,保持关键字之间的Orthogonal Ordering(正交排序)特性。标签云生成模块生成标签云具体方式包括:选择生成的布局方式,其中,布局方式包括:放射式布局和线性布局,放射布局是将所有标签由内向外呈放射形放置,线性布局是将所有标签随着扫描线放置,布局如图4;在将标签按照两种布局放置之一进行初始放置后,遍历所有标签,当出现两个标签遮挡的情况时使用贪心算法围绕着尺寸小的标签中心寻找新的放置位置解决遮挡问题,图5为本发明实施例的中文文字标签云自动生成方法应用贪心算法解决标签遮挡的应用示意图。贪心算法具体包括:当有遮挡发生时,对于包含多个目标的合并前景块,根据合并检测模块和遮挡前的跟踪结果,可获得前景块内发生遮挡的目标数量、标号、颜色、形状等先验特征,定位时,依次遍历所有未被定位的目标,计算每一个目标的观测概率,并将观测概率最高的目标所在位置作为该目标的定位结果输出,同时将被该目标覆盖的像素添加到集合中,对合并前景快中的像素集合进行更新,重复上述过程,直到获得所有遮挡目标在前景块中的定位结果。\n[0041] 在标签云生成模块生成标签云具体方式中,布局方式选择放射式布局,则需要重新确定整体布局的几何中心;遍历完全部标签,完成标签云的生成。\n[0042] 本发明的技术方案具有如下优点或有益效果:本发明实施例的中文文字标签云自动生成方法和装置对分词系统所使用的词典进行改进,使其能够根据每天产生新的语料进行自我更新,并加入情绪分析功能;再根据提取出的关键词的词频以及关键词的情绪色彩生成更具空间结构、色彩更合理的标签云;另外,将中文分词和标签云算法结合并优化,填补了中文标签云生成算法的空白,为新闻要点提取,舆论分析等工作提供了有利的工具。\n[0043] 以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
法律信息
- 2016-11-30
- 2014-01-08
实质审查的生效
IPC(主分类): G06F 17/30
专利申请号: 201310319948.9
申请日: 2013.07.26
- 2013-12-11
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2009-06-24
|
2009-01-12
| | |
2
| |
2013-07-03
|
2013-04-03
| | |
3
| |
2012-09-05
|
2011-03-02
| | |
4
| |
2011-12-21
|
2011-09-20
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |