著录项信息
专利名称 | 为文档添加标签的方法及装置 |
申请号 | CN201310254851.4 | 申请日期 | 2013-06-24 |
法律状态 | 授权 | 申报国家 | 中国 |
公开/公告日 | 2014-12-24 | 公开/公告号 | CN104239373A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F16/35 | IPC分类号 | G;0;6;F;1;6;/;3;5查看分类表>
|
申请人 | 腾讯科技(深圳)有限公司 | 申请人地址 | 广东省深圳市福田区振兴路赛格科技园2栋东403室
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 腾讯科技(深圳)有限公司 | 当前权利人 | 腾讯科技(深圳)有限公司 |
发明人 | 王佳强 |
代理机构 | 广州华进联合专利商标代理有限公司 | 代理人 | 何平;邓云鹏 |
摘要
一种为文档添加标签的方法,包括:获取输入的文档集合,对所述文档集合中的文档进行分词得到与所述文档对应的单词集合;根据潜在狄利克雷分配模型将与所述文档对应的单词集合聚合成主题集合;获取所述主题集合中主题包含的单词的全局词频,根据所述全局词频选取单词设置为所述主题的属性词;获取所述文档集合中的文档包含的属性词的概率信息,根据所述概率信息选取属性词生成所述文档的标签。上述为文档添加标签的方法及装置能够提高信息检索的操作效率。
为文档添加标签的方法及装置\n技术领域\n[0001] 本发明涉及互联网技术领域,特别是涉及一种为文档添加标签的方法及装置。\n背景技术\n[0002] 随着互联网技术的发展,社交网络类型的互联网应用已代替传统的新闻发布式网站成为主流,网络信息资源的发布已由传统的由网站管理员发布转变成由网站的访问者自行编辑发布。例如,在微博应用中,用户可自行撰写或编辑微博发布,从而将信息分享给其关注者;在电商应用中,用户也可根据其自身的商品使用经验为商品编写评论。\n[0003] 然而,发明人经研究发现,现有技术中至少存在以下问题:用户在搜索微博或商品评论等文档信息时,通常需要手动输入多个关键字,且需要根据其自身的需求选择合适的关键词才能在众多文档信息中查找到其希望获取的信息,因此,对用户而言,输入的步骤较繁琐且需要一定经验才能确定较准确的关键词,使得信息检索的操作效率较低。\n发明内容\n[0004] 基于此,有必要提供一种能提高信息检索的操作效率的为文档添加标签的方法。\n[0005] 一种为文档添加标签的方法,包括:\n[0006] 获取输入的文档集合,对所述文档集合中的文档进行分词得到与所述文档对应的单词集合;\n[0007] 根据潜在狄利克雷分配模型将与所述文档对应的单词集合聚合成主题集合;\n[0008] 获取所述主题集合中主题包含的单词的全局词频,根据所述全局词频选取单词设置为所述主题的属性词;\n[0009] 获取所述文档集合中的文档包含的属性词的概率信息,根据所述概率信息选取属性词生成所述文档的标签。\n[0010] 此外,还有必要提供一种能提高信息检索的操作效率的为文档添加标签的装置。\n[0011] 一种为文档添加标签的装置,包括:\n[0012] 文档分词模块,用于获取输入的文档集合,对所述文档集合中的文档进行分词得到与所述文档对应的单词集合;\n[0013] 主题生成模块,用于根据潜在狄利克雷分配模型将与所述文档对应的单词集合聚合成主题集合;\n[0014] 主题选词模块,用于获取所述主题集合中主题包含的单词的全局词频,根据所述全局词频选取单词设置为所述主题的属性词;\n[0015] 标签添加模块,用于获取所述文档集合中的文档包含的属性词的概率信息,根据所述概率信息选取属性词生成所述文档的标签。\n[0016] 上述为文档添加标签的方法及装置,对文档分词后得到的单词集合进行聚合得到主题集合,每个主题包含了相关性较强的多个单词,然后再根据单词的全局词频为主题选取单词作为属性词,最后根据文档包含的属性词的概率信息选取属性词作为文档的标签,使得文档与标签产生关联,用户在检索时,无需手动输入关键词,仅需根据相应的标签即可查找到相应的文档,从而提高了信息检索的操作效率。\n附图说明\n[0017] 图1为一个实施例中为文档添加标签的方法的流程图;\n[0018] 图2为一个实施例中检索界面展示图;\n[0019] 图3为一个实施例中为文档添加标签的装置的结构示意图;\n[0020] 图4为另一个实施例中为文档添加标签的装置的结构示意图。\n具体实施方式\n[0021] 在一个实施例中,如图1所示,一种为文档添加标签的方法,该方法完全依赖于计算机程序,该计算机程序可运行于基于冯洛伊曼体系的计算机系统上,该方法包括:\n[0022] 步骤S102,获取输入的文档集合,对文档集合中的文档进行分词得到与文档对应的单词集合。\n[0023] 文档可以是微博的文本信息、微博中评论的文本信息、电商网站商品评论的文本信息、论坛中帖子内的文本内容信息、问答网站中的问题或答案的文本信息等。一份文档即一条微博或一条评论,输入的文档集合即为需要进行聚类并根据聚类的主题添加标签的多份文档构成的集合。\n[0024] 在一个实施例中,获取输入的文档集合的步骤可具体为:获取输入的类型信息,根据类型信息检索得到对应的文档集合。在本实施例中,文档均存储在全局数据库中。例如,微博数据均存储在数据库中相应的数据表内。类型信息即为需要进行聚类并添加标签的文档所属的类型。例如,类型信息可以是与手机相关的多个关键字,可将该多个关键字以或连接后在微博数据对应的数据表中进行检索,得到的检索结果即为与类型信息“手机”对应的文档集合。\n[0025] 例如,在一个应用场景中,用户可输入“手机”、“小米”、“iphone”、“黑莓”和“htc”等关键字,然后将该多个关键字或连接后在数据库中与微博数据对应的数据表中检索,即可得到与类型信息“手机”对应的文档集合。\n[0026] 在本实施例中,进一步的,根据类型信息检索得到对应的文档集合的步骤可具体为:\n[0027] 获取停用词集合,停用词表包含停用词,根据类型信息检索与类型信息匹配的但不包含停用词的文档集合。\n[0028] 如上例中,预设的停用词集合中可包括“小米粥”、“苹果or斤”等停用词,从而可排除检索到的文档集合中与类型信息“手机”在语义上并无相关性的文档。\n[0029] 在本实施例中,对文档集合中的文档进行分词得到与文档对应的单词集合可具体为:\n[0030] 遍历文档集合中的文档,对文档进行分词,优选地,仅提取分词后的名词和动词得到单词集合。\n[0031] 例如,微博信息:“小米手机待机时间长,续航给力”经分词并过滤后得到的单词集合即为:“小米、手机、待机时间、续航”。\n[0032] 步骤S104,根据潜在狄利克雷分配模型将与文档对应的单词集合聚合成主题集合。\n[0033] 潜在狄利克雷分配模型即LDA(Latent Dirichlet Allocation)模型,也成为三层贝叶斯概率模型。LDA模型是一种非监督机器学习技术,可以用来识别文档集合中潜藏的主题信息。主题即为聚类后得到的多个单词聚合成的集合,文档可以对应多个主题,即属于多个类型;主题中可包含多个单词,每个单词具有相应的概率。\n[0034] 在本实施例中,可将与文档对应的单词集合转换成如下格式:\n[0035] n,word1:n1,word2:n2,word3:n3…,\n[0036] 例如,对于微博信息“手机待机时间对比分析,小米手机的待机时间为24小时,苹果手机的待机时间为24小时”,进行分词后得到如下格式的单词集合:\n[0037] 7,手机:3,待机时间:3,小米:1,苹果:1…\n[0038] 对文档集合中所有的文档各自对应的单词集合进行如上例转换后,输入LDA模型,通过该模型的无监督学习即可得到多个主题,即主题集合。每个主题对应多个单词,每个单词对应相应的概率(由LDA模型计算得到)。\n[0039] 通过LDA模型得到包含多个主题的主题集合后,可遍历主题集合,通过阈值将主题集合中的主题包含的概率较小的单词过滤掉。过滤掉后每个主题即包含较少的单词。概率较小的单词通常为与主题相关性较弱的词,将其过滤掉既可提高处理速度,也可提高准确性。\n[0040] 进一步的,可根据知网中文词库对所述主题集合中主题包含的单词进行扩充。\n[0041] 知网中文词库即HowNet库,其中提供了支持中文的大量的同义词或近义词,可根据HowNet库通过同义词扩展或近义词扩展扩充主题包含的单词,即通过HowNet库获取由LDA模型得到的主题包含的单词对应的同义词或近义词,并将其添加到主题中。使用知网中文词库对主题进行扩充,可以在语义上对主题包含的单词进行扩展,从而提高在对中文文档处理时的准确性。\n[0042] 进一步的,根据潜在狄利克雷分配模型将与文档集合聚合生成主题集合的步骤之前还包括:\n[0043] 获取与文档对应的单词集合中单词对应的词频和逆向文件频率;根据词频和逆向文件频率对与文档对应的单词集合中单词进行过滤。\n[0044] 词频(Term Frequency,TF)指的是文档中某一个单词在该文档中出现的次数或单位文字内出现的次数。\n[0045] 逆向文件频率(Inverse Document Frequency,IDF)即包含该单词的文档的数目与所有文档的数目的比值。例如,若检索到的评论共有10000条,其中有2000条包含了单词“小米”,则单词小米对应的IDF值为0.2。\n[0046] 在本实施例中,可计算单词对应的TF值与IDF值的乘积,若该乘积小于阈值,则将该单词由其文档对应的单词集合中过滤掉。TF值与IDF值的乘积较小的单词,通常为文档阅读者不关心的词,将其移除既可提高处理速度,也可提高准确性。\n[0047] 步骤S106,获取主题集合中主题包含的单词的全局词频,根据全局词频选取单词设置为主题的属性词。\n[0048] 如前所述,主题包含多个单词,每个单词的全局词频即为该单词在文档中出现的总次数。在本实施例中,可选取全局词频最大的单词作为该主题的属性词。\n[0049] 例如,若某主题经过扩展后包含的单词为:“小米、待机时间、续航”,而“小米”在所有微博信息中出现了10000次(在累加统计得到全局词频时,若某微博中“小米”出现2次,则全局词频累加数也为2,下同),“待机时间”在所有微博信息中出现了8000次,“续航”在所有微博信息中出现了1000次。则该主题的属性词即为“小米”。\n[0050] 步骤S108,获取文档集合中的文档包含的属性词的概率信息,根据概率信息选取属性词生成文档的标签。\n[0051] 文档可包含多个主题的属性词,主题的属性词的概率信息即为文档包含的某个属性词的个数与文档总共包含的属性词的个数的比值。例如,若某文档中,小米主题的属性词“小米”在文档中共出现了3次,待机时间主题的属性词“待机时间”在文档中共出现了1次,而该文档中再不包含其他主题的属性词,则“小米”对应的概率信息即为75%,而“待机时间”对应的概率信息即为25%。\n[0052] 在本实施例中,可将概率信息大于阈值的属性词作为文档的标签。如上例中,若阈值预设为20%,则该文档对应的标签则包括“小米”和“待机时间”两个;若阈值预设为30%,则该文档对应的标签仅包括“小米”。\n[0053] 在一个实施例中,根据所述概率信息选取属性词生成文档的标签的步骤还包括:\n[0054] 根据知网中文词库提取选取到的属性词在文档中对应的正向或负向情感信息;根据属性词和提取到的相应的正向或负向情感信息生成文档的标签。\n[0055] 可获取属性词在文档上下文中的修饰性定语分词,并根据前述的HowNet库分辨该修饰性定语分词为褒义词还是贬义词,若是则褒义词,则可提取到正向情感信息(可用positive标识表示),若为贬义词则可提取到负向情感信息(可用negative标识表示)。\n[0056] 在本实施例中,可根据预设的映射表将属性词和正向或负向情感信息映射为标签。例如,若评论中内容为“小米手机用着很舒服”,且经前述步骤得到的该评论的可作为标签的属性词为“小米手机”,经HowNet库提取到的“小米手机”为正向情感信息,则生成标签“小米手机好”,并将其设置为该评论的标签。\n[0057] 在一个实施例中,输入的文档集合根据输入的类型信息检索得到。相应的,根据文档集合中的文档包含的属性词的概率信息选取属性词生成相应文档的标签的步骤之后还可建立生成的标签与类型信息的对应关系。\n[0058] 在本实施例中,为文档集合中的文档添加标签(可以是多个)后,可在数据库中遍历文档集合中包含的文档,建立文档和标签的对应关系,例如,可在文档对应的数据表中的标签字段内加入与该文档对应的标签的标识。还可获取类型信息对应的数据表,在类型信息对应的数据表中添加与类型信息对应的标签。\n[0059] 例如,在一个应用场景中,分别对类型信息为“手机”、“电脑”、“笔记本”和“耳机”进行了如步骤S102至步骤S108的操作,则分别得到类型信息“手机”、“电脑”、“笔记本”和“耳机”各自对应的标签。例如,类型信息“手机”可对应“手机”,“待机时间”、“续航”、“屏幕尺寸”等标签,而检索得到的与“手机”相关的文档可包括以上标签,例如,可有N条检索得到的与“手机”相关的文档具有“待机时间”标签,可有M条检索得到的与“手机”相关的文档具有“续航”标签。可建立数据库表,在该新建的数据库表中创建数据项,用于存储类型信息“手机”、“电脑”、“笔记本”和“耳机”分别与其对应的标签的对应关系。\n[0060] 进一步的,在本实施例中,还可获取输入的关键词,获取与关键词匹配的类型信息;获取与类型信息对应的标签,并展示标签;获取标签选取请求,获取标签选取请求对应的标签;获取包含标签的文档。\n[0061] 在一个应用场景中,如图2所示,用户可在搜索框中输入关键词“苹果”,则获取到的与“苹果”匹配的类型信息可包括“手机”、“笔记本”、“平板电脑”,且以选项卡的形式展示在界面中,用户可在选项卡之间切换,选项卡内则分别展示“手机”、“笔记本”和“平板电脑”对应的标签。若用户希望了解与手机相关的且与待机时间相关的微博或评论信息,则可点击“待机时间”的标签。检索结果页则展示所有包含了待机时间的微博或评论信息。\n[0062] 优选地,展示标签时还可一并展示具有该标签的文档的数目。优选地,还可根据标签对应的文档的数目调节标签的展示区域的大小(如图中的标签对应的椭圆形图标的展示区域)。一并展示标签对应的文档的数目可方便用户直观的了解当前热门的话题是什么以及某个产品需要重点关注的属性是什么,从而方便用户进行决策,而不用繁琐地输入关键词去查找,提高了操作效率。\n[0063] 在一个实施例中,如图3所示,一种为文档添加标签的装置,包括:\n[0064] 文档分词模块102,用于获取输入的文档集合,对文档集合中的文档进行分词得到与文档对应的单词集合。\n[0065] 主题生成模块104,用于根据潜在狄利克雷分配模型将与文档对应的单词集合聚合成主题集合。\n[0066] 主题选词模块106,用于获取主题集合中主题包含的单词的全局词频,根据全局词频选取单词设置为主题的属性词。\n[0067] 标签添加模块108,用于获取文档集合中的文档包含的属性词的概率信息,根据概率信息选取属性词生成文档的标签。\n[0068] 在一个实施例中,文档分词模块102还用于获取与文档对应的单词集合中单词对应的词频和逆向文件频率;根据词频和逆向文件频率对与文档对应的单词集合中单词进行过滤。\n[0069] 在一个实施例中,主题生成模块104还用于根据知网中文词库对主题集合中主题包含的单词进行扩充。\n[0070] 在一个实施例中,标签添加模块108还用于根据知网中文词库提取选取到的属性词在文档中对应的正向或负向情感信息;根据属性词和提取到的相应的正向或负向情感信息生成文档的标签。\n[0071] 在一个实施例中,文档分词模块102还用于获取输入的类型信息,根据类型信息检索得到对应的文档集合;\n[0072] 在本实施例中,如图4所示,为文档添加标签的装置还包括数据映射模块110,用于建立生成的标签与类型信息的对应关系。\n[0073] 在一个实施例中,如图4所示,为文档添加标签的装置还包括检索模块112,用于获取输入的关键词,获取与关键词匹配的类型信息;获取与类型信息对应的标签,并展示标签;获取标签选取请求,获取标签选取请求对应的标签;获取包含标签的文档。\n[0074] 在一个实施例中,文档分词模块102还用于获取停用词集合,停用词表包含停用词;根据类型信息检索与类型信息匹配的但不包含停用词的文档集合。\n[0075] 上述为文档添加标签的方法及装置,对文档分词后得到的单词集合进行聚合得到主题集合,每个主题包含了相关性较强的多个单词,然后再根据单词的全局词频为主题选取单词作为属性词,最后根据文档包含的属性词的概率信息选取属性词作为文档的标签,使得文档与标签产生关联,用户在检索时,无需手动输入关键词,仅需根据相应的标签即可查找到相应的文档,从而提高了信息检索的操作效率。\n[0076] 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。\n[0077] 以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
法律信息
- 2019-02-01
- 2015-09-23
实质审查的生效
IPC(主分类): G06F 17/30
专利申请号: 201310254851.4
申请日: 2013.06.24
- 2014-12-24
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2012-10-31
|
2011-04-29
| | |
2
| |
2008-01-30
|
2007-08-11
| | |
3
| |
2010-12-01
|
2010-05-12
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |