一种短文本分类方法及装置

发明专利有效专利

申请号：
CN201610285420.8
IPC分类号：G06F16/35;G06K9/62
申请日期：
2016-04-29
申请人：
国家计算机网络与信息安全管理中心

基础信息

权利要求

说明书

PDF全文

法律信息

引证文献

著录项信息

专利名称	一种短文本分类方法及装置
申请号	CN201610285420.8	申请日期	2016-04-29
法律状态	授权	申报国家	中国
公开/公告日	2016-08-31	公开/公告号	CN105912716A
优先权	暂无	优先权号	暂无
主分类号	G06F16/35	IPC分类号	G;0;6;F;1;6;/;3;5;;;G;0;6;K;9;/;6;2查看分类表>
申请人	国家计算机网络与信息安全管理中心	申请人地址	北京市朝阳区裕民路甲3号变更专利地址、主体等相关变化，请及时变更，防止失效
权利人	国家计算机网络与信息安全管理中心	当前权利人	国家计算机网络与信息安全管理中心
发明人	佟玲玲;杜翠兰;钮艳;李鹏霄;易立;段东圣;查奇文;刘晓辉;柳毅
代理机构	工业和信息化部电子专利中心	代理人	田卫平

摘要

本发明公开了一种短文本分类方法及装置。该方法包括：对待分类的短文本进行分词预处理，并获取分词得到的每个词语的扩展词；根据预先构建的词项集获取每个词语及其扩展词的权重值；根据权重值，利用多个类别SVM分类模型获取短文本所属每个类别的概率；根据预设的概率分类模型确定短文本的所属类别。本发明所提供的短分本分类方法，克服了短文本特征稀疏的问题，有效降低采用多分类模型的复杂度，更符合实际应用。

1.一种短文本分类方法，其特征在于，包括：
对待分类的短文本进行分词预处理，并获取分词得到的每个词语的扩展词；
根据预先构建的词项集获取每个词语及其扩展词的权重值；
根据所述权重值，利用多个类别SVM分类模型获取所述短文本所属每个类别的概率；
根据预设的概率分类模型确定所述短文本的所属类别；
所述根据预设的概率分类模型确定所述短文本的所属类别，包括：
步骤1，若所述短文本所属某个类别的概率在[S1，1]之间，则将所述类别作为短文本所属类别，否则，执行步骤2；其中，S1∈[0.5，1)；
步骤2，设置S2＝S1-0.1；
步骤3，判断S2与0.5的大小：
若S2≥0.5，且所述短文本所属某个类别的概率在[S2，S1]之间，则将所述类别作为短文本所属类别，否则，令S1＝S2，并执行步骤2；
若S2＜0.5，且所述短文本所属某个类别的概率在[0.4，S1]之间，则将概率值最大的类别作为短文本所属类别；否则判定所述短文本没有所属类别。
2.如权利要求1所述的方法，其特征在于，根据词向量空间模型获取分词得到的每个词语的扩展词。
3.如权利要求1所述的方法，其特征在于，预先构建所述词项集时，包括：
对标注样本集中所有的短文本进行分词预处理，并获取分词得到的每个词语的扩展词；
计算每一个词语以及扩展词语的权重值，并将词语、扩展词语及权重值保存至所述词项集中。
4.如权利要求1或3所述的方法，其特征在于，所述权重值为TF-IDF值。
5.一种短文本分类装置，其特征在于，包括：
预处理单元，用于对待分类的短文本进行分词预处理；
第一获取单元，用于获取分词得到的每个词语的扩展词；
构建单元，用于预先构建词项集；
第二获取单元，用于根据所述构建单元构建的词项集获取每个词语及其扩展词的权重值；
第三获取单元，用于根据所述权重值，利用多个类别SVM分类模型获取所述短文本所属每个类别的概率；
确定单元，用于根据预设的概率分类模型确定所述短文本的所属类别；
所述确定单元具体用于：
步骤1，若所述短文本所属某个类别的概率在[S1，1]之间，则将所述类别作为短文本所属类别，否则，执行步骤2；其中，S1∈[0.5，1)；
步骤2，设置S2＝S1-0.1；
步骤3，判断S2与0.5的大小：
若S2≥0.5，且所述短文本所属某个类别的概率在[S2，S1]之间，则将所述类别作为短文本所属类别，否则，令S1＝S2，并执行步骤2；
若S2＜0.5，且所述短文本所属某个类别的概率在[0.4，S1]之间，则将概率值最大的类别作为短文本所属类别；否则判定所述短文本没有所属类别。
6.如权利要求5所述的装置，其特征在于，所述第一获取单元具体用于根据词向量空间模型获取分词得到的每个词语的扩展词。
7.如权利要求5所述的装置，其特征在于，所述构建单元具体用于：
对标注样本集中所有的短文本进行分词预处理，并获取每个词语的扩展词；
计算每一个词语以及扩展词语的权重值，并将词语、扩展词语及权重值保存至所述词项集中。

一种短文本分类方法及装置\n技术领域\n[0001] 本发明涉及计算机自然语言处理领域，尤其涉及一种短文本分类方法及装置。\n背景技术\n[0002] 随着网络技术的迅速发送，互联网已经成为海量信息的载体，用户创建的内容已经成为互联网上一个重要数据源。尤其是微博、微信、购物等移动应用推广之后，基于微博、微信、QQ聊天及商品评论等短文本的数量正在呈爆炸式增长。各种形式的短文本已经成为我国各阶层的信息沟通渠道和情感交流手段，深刻改变了亿万中国人的沟通方式和生活习惯。\n[0003] 短文本数据量异常庞大，数据中包含人们对社会各种现象的各种观点和立场，话题涉及政治、经济、军事、娱乐、生活等各个领域。然而如何从短文本中挖掘出有价值的信息成为当前的一个非常关键的问题。短文本在很多方面都有广泛应用，例如帮助用户快速了解产品的优劣，选择满意的商品，再例如，追踪社会舆论趋势，发现社会热点问题，帮助政府把握社会态势等。因此，短文本分类具有很强的应用价值。\n[0004] 短文本分类的显著特征是受其长度的限制，所包含的词语和上下文信息不足，因此基于统计量的传统的文本表示方法和分类模型面临数据稀疏性问题。因此，准确的进行短文本的语义特征表示并实现自动分类，是一项极具挑战性而且亟待研究的技术问题。\n发明内容\n[0005] 本发明提供了一种高效的短文本分类方法及装置，用以解决现有技术中短文本特征稀疏、噪声大导致分类不准确的技术问题。\n[0006] 依据本发明的一个方面，本发明提供一种短文本分类方法，包括：\n[0007] 对待分类的短文本进行分词预处理，并获取分词得到的每个词语的扩展词；\n[0008] 根据预先构建的词项集获取每个词语及其扩展词的权重值；\n[0009] 根据所述权重值，利用多个类别SVM分类模型获取所述短文本所属每个类别的概率；\n[0010] 根据预设的概率分类模型确定所述短文本的所属类别。\n[0011] 进一步地，根据词向量空间模型获取分词得到的每个词语的扩展词。\n[0012] 进一步地，预先构建所述词项集时，包括：\n[0013] 对标注样本集中所有的短文本进行分词预处理，并获取每个词语的扩展词；\n[0014] 计算每一个词语以及扩展词语的权重值，并将词语、扩展词语及权重值保存至所述词项集中。\n[0015] 进一步地，所述权重值为TF-IDF值。\n[0016] 进一步地，所述根据预设的概率分类模型确定所述短文本的所属类别，包括：\n[0017] 步骤1，若所述短文本所属某个类别的概率在[S1，1]之间，则将所述类别作为短文本所属类别，否则，执行步骤2；其中，S1∈[0.5，1)；\n[0018] 步骤2，设置S2＝S1-0.1；\n[0019] 步骤3，判断S2与0.5的大小：\n[0020] 若S2≥0.5，且所述短文本所属某个类别的概率在[S2，S1]之间，则将所述类别作为短文本所属类别，否则，S1＝S2，并执行步骤2；\n[0021] 若S2＜0.5，且所述短文本所属某个类别的概率在[0.4，S1]之间，则将概率值最大的类别作为短文本所属类别；否则没有所属类别。\n[0022] 依据本发明的一个方面，本发明提供一种短文本分类装置，包括：\n[0023] 预处理单元，用于对待分类的短文本进行分词预处理；\n[0024] 第一获取单元，用于获取分词得到的每个词语的扩展词；\n[0025] 构建单元，用于预先构建词项集；\n[0026] 第二获取单元，用于根据所述构建单元构建的词项集获取每个词语及其扩展词的权重值；\n[0027] 第三获取单元，用于根据所述权重值，利用多个类别SVM分类模型获取所述短文本所属每个类别的概率；\n[0028] 确定单元，用于根据预设的概率分类模型确定所述短文本的所属类别。\n[0029] 进一步地，所述第一获取单元具体用于根据词向量空间模型获取分词得到的每个词语的扩展词。\n[0030] 进一步地，所述构建单元具体用于：\n[0031] 对标注样本集中所有的短文本进行分词预处理，并获取每个词语的扩展词；\n[0032] 计算每一个词语以及扩展词语的权重值，并将词语、扩展词语及权重值保存至所述词项集中。\n[0033] 进一步地，所述确定单元具体用于：\n[0034] 步骤1，若所述短文本所属某个类别的概率在[S1，1]之间，则将所述类别作为短文本所属类别，否则，执行步骤2；其中，S1∈[0.5，1)；\n[0035] 步骤2，设置S2＝S1-0.1；\n[0036] 步骤3，判断S2与0.5的大小：\n[0037] 若S2≥0.5，且所述短文本所属某个类别的概率在[S2，S1]之间，则将所述类别作为短文本所属类别，否则，令S1＝S2，并执行步骤2；\n[0038] 若S2＜0.5，且所述短文本所属某个类别的概率在[0.4，S1]之间，则将概率值最大的类别作为短文本所属类别；否则判定所述短文本没有所属类别。\n[0039] 本发明具有以下有益效果：\n[0040] 本发明所提供的短分本分类方法及装置，引入词向量模型对短文本进行扩充，克服了短文本的特征稀疏的问题；同时通过多个类别的SVM模型，有效降低采用多分类模型的复杂度；以及根据概率分类模型，使得同一短文本可以属于多个类别，更符合实际应用。\n[0041] 上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。\n附图说明\n[0042] 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。\n[0043] 图1为本发明实施例中短文本分类方法的流程图；\n[0044] 图2为本发明实施例中采用的短文本分类模型的示意图；\n[0045] 图3为本发明实施例中短文本分类装置的结构框图。\n具体实施方式\n[0046] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。\n[0047] 本发明实施例提供一种短文本分类方法，包括如下步骤：\n[0048] 步骤1，对待分类的短文本进行分词预处理，并获取分词得到的每个词语的扩展词；\n[0049] 步骤2，根据构建的词项集获取每个词语及其扩展词的权重值；\n[0050] 步骤3，根据权重值，利用多个类别SVM分类模型获取所属每个类别的概率；\n[0051] 步骤4，根据预设的概率分类模型确定所述短文本的所属类别。\n[0052] 本发明所提供的短文本分类方法，对每个短文本进行分词处理后，将映射到高维空间的向量，向量的每一维代表某种潜在语义。越相似词语之间的向量距离越接近，这样可以将每个词语进行语义扩展，有效克服了短文本的特征稀疏问题。通过SVM分类模型获取短文本所属每个类别的概率，根据预设的概率分类模型确定该短文本所属的类别，有效解决了文本信息因噪声大导致分类不准确的问题。\n[0053] 下面结合附图1和具体实施例对本发明的技术内容做进一步地详细说明。\n[0054] 本发明的执行环境采用一台具有2.4G赫兹中央处理器和8G字节内存的奔腾4计算机并用JAVA语言编制了短文本分类方法，还可以采用其他的执行环境，在此不再赘述。\n[0055] 参见图1中的测试过程，首先对待分类的短文本进行分词预处理，并获取每个词语的扩展词。\n[0056] 本发明实施例中利用NLPIR的分词工具将一个短文本切割为一个个独立的词语，那么一个短文本就可以表示为[词1，词2……词n]，其中n为该短文本的词语数目。预处理工作除了进行分词外，还包括去除短文本中的“|”、“||”等特殊符号，以达到去除一定的干扰的目的。本发明对训练短文本集中数据的特殊字符的干扰，进行针对性的判别，提高了分类的精度。\n[0057] 在该步骤中，根据训练的词向量空间模型对分词后的短文本进行扩充。本发明实施例中采用word2vec词向量空间模型，可以将短文本扩展成指定数目或满足特定相似度的向量，表示为：\n[0058] 对每一个词语特征扩展后，可以得到一段短文本的特征扩展。\n[0059]\n[0060] 本发明通过引入词向量模型对短文本进行扩充，可以有效克服短文本的特征稀疏的问题。\n[0061] 接着，根据词项集获取每个词语及其扩展词的权重值。\n[0062] 本发明实施例中，在构建词项集时(图1中标注文本集的过程)，按照上述的预处理的方法对标注样本集中所有的短文本进行分词以及词语扩展处理，并计算每一个词语以及扩展词语的权重值。其中，权重值采用词频来表示，现在比较常用的特征权重的计算方式为TF*IDF，TF*RF。本发明实施例采用TF-IDF值，计算公式如下：\n[0063]\n[0064] 其中，|D|表示标注样本集中的文本总数，|Di|表示包含词语i的文本总数，表示词语在文本i中出现的次数。\n[0065] 根据标注文本集中的词语、词语的扩展词语、以及根据每个词语的TF-IDF值生成词项集。在进行分类时，对待分类的短文本进行分词以及词语扩展处理后，从词项集中获取每个词语对应的词语权重值。\n[0066] 然后，根据权重值，利用多个类别SVM分类模型获取所属每个类别的概率。\n[0067] 当权重值确定后，利用分类算法进行训练和预测分类模型。现在文本分类的算法很多，常见的有Naive Bayes，SVM，KNN，Logistic回归等。本发明实施例中优选采用SVM(Support Vector Model，支持向量机)分类模型，对于支持向量机属于本领域技术人员所熟知的技术，这里不再进行详细介绍。本发明实施例中，对于n个类别，只有n个SVM分类模型。本发明中的SVM分类模型不是判断属于正负类别，而是输出属于各类别的概率，最终可以得到分类结果的可信度量化数值。根据每个所属类别的量化值，在进一步判断该短文本的所属类别。通过采用多个单类别的分类模型，在一定程度上有效减少了多分类模型的运算复杂度。\n[0068] 最后，根据预设的概率分类模型确定短文本的所属类别。\n[0069] 参见图2，本发明实施例采用的概率分类模型，假设有n个类别，每个待分类文本输入n个类别的SVM分类模型，得到属于各类别的概率，利用概率分类模型，确定最终分类。本发明的实施例中采用的概率分类模型，具体包括如下步骤：\n[0070] 步骤1，若所属某个类别的概率在[S1，1]之间，则将所述类别作为短文本所属类别，否则，执行步骤2；其中，S1∈[0.5，1)；\n[0071] 步骤2，设置S2＝S1-0.1；\n[0072] 步骤3，判断S2与0.5的大小：\n[0073] 若S2≥0.5，且短文本所属某个类别的概率在[S2，S1]之间，则将类别作为短文本所属类别，否则，令S1＝S2，并执行步骤2；\n[0074] 若S2＜0.5，且短文本所属某个类别的概率在[0.4，S1]之间，则将概率值最大的类别作为短文本所属类别；否则判定短文本没有所属类别。\n[0075] 本发明实施例提供的概率分类模型，可以取出概率高的类别，极端情况下，模型判断不属于该类别，所有类别概率都小于0.5的情况下，也有可能取到正确类别；此外，最终的输出结果是文本所属类别或者类别集合，同一段文本可以属于不同类别，更符合实际应用。\n[0076] 参见图3，本发明实施例还提供一种短文本分类装置，用于实现上述的短文本分类方法，具体包括：\n[0077] 预处理单元，用于对待分类的短文本进行分词预处理；\n[0078] 第一获取单元，用于获取分词得到的每个词语的扩展词；\n[0079] 构建单元，用于预先构建词项集；\n[0080] 第二获取单元，用于根据构建单元构建的词项集获取每个词语及其扩展词的权重值；\n[0081] 第三获取单元，用于根据权重值，利用多个类别SVM分类模型获取短文本所属每个类别的概率；\n[0082] 确定单元，用于根据预设的概率分类模型确定短文本的所属类别。\n[0083] 进一步地，第一获取单元具体用于根据词向量空间模型获取分词得到的每个词语的扩展词。\n[0084] 进一步地，构建单元具体用于：\n[0085] 对标注样本集中所有的短文本进行分词预处理，并获取每个词语的扩展词；\n[0086] 计算每一个词语以及扩展词语的权重值，并将词语、扩展词语及权重值保存至词项集中。\n[0087] 进一步地，确定单元具体用于：\n[0088] 步骤1，若短文本所属某个类别的概率在[S1，1]之间，则将类别作为短文本所属类别，否则，执行步骤2；其中，S1∈[0.5，1)；\n[0089] 步骤2，设置S2＝S1-0.1；\n[0090] 步骤3，判断S2与0.5的大小：\n[0091] 若S2≥0.5，且所述短文本所属某个类别的概率在[S2，S1]之间，则将所述类别作为短文本所属类别，否则，令S1＝S2，并执行步骤2；\n[0092] 若S2＜0.5，且所述短文本所属某个类别的概率在[0.4，S1]之间，则将概率值最大的类别作为短文本所属类别；否则判定所述短文本没有所属类别。\n[0093] 综上所述，本发明所提供的短分本分类方法及装置，通过引入词向量模型对短文本进行扩充，可以有效克服了短文本的特征稀疏的问题；同时通过多个单类别的SVM分类模型，有效降低采用多分类模型的运算复杂度；同时由于该SVM分类模型获取的是所属类别概率，因此分类结果是可信度量化值，可以有效提高了分类精度；根据概率分类模型，取出概率较高的类别，使得同一短文本可以同时属于多个类别，使得该分类方法更具有实际意义。\n[0094] 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。\n[0095] 虽然通过实施例描述了本申请，本领域的技术人员知道，本申请有许多变形和变化而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
1	CN104765769A	2015-07-08	2015-03-06	一种基于词矢量的短文本查询扩展及检索方法有效专利	大连理工大学
2	CN101599126A	2009-12-09	2009-04-22	利用全局互信息加权的支持向量机分类器有效专利	哈尔滨工业大学
3	CN102955856A	2013-03-06	2012-11-09	一种基于特征扩展的中文短文本分类方法失效专利	北京航空航天大学
4	CN103955701A	2014-07-30	2014-04-15	多层次结合的多视合成孔径雷达图像目标识别方法有效专利	浙江工业大学

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
该专利没有被任何外部专利所引用！

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供