首页专利查询专利详情

*来源于国家知识产权局数据，仅供参考，实际以国家知识产权局展示为准

融合关键词学习的支持向量机文本分类增量训练学习方法

发明专利有效专利

申请号：
CN03145419.4
IPC分类号：G06F17/21G06F17/16
申请日期：
2003-06-13
申请人：
北京大学计算机科学技术研究所;北京北大方正技术研究院有限公司

基础信息

权利要求

说明书

PDF全文

法律信息

引证文献

著录项信息

专利名称	融合关键词学习的支持向量机文本分类增量训练学习方法
申请号	CN03145419.4	申请日期	2003-06-13
法律状态	授权	申报国家	中国
公开/公告日	2003-12-10	公开/公告号	CN1460947
优先权	暂无	优先权号	暂无
主分类号	G06F17/21 ? IPC结构图谱： G 物理 G0 仪器 G06 计算；推算；计数 G06F 电数字数据处理（基于特定计算模型的计算机系统入G06N） G06F17/00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法〔6〕 G06F17/20 处理自然语言数据的（语言分析或综合入G10L）〔6〕 G06F17/21 文本处理（G06F 17/27、G06F 17/28优先）〔6〕	IPC分类号	G06F17/21;G06F17/16查看分类表>
申请人	北京大学计算机科学技术研究所;北京北大方正技术研究院有限公司	申请人地址	北京市海淀区北京大学计算机科学技术*** 变更专利地址、主体等相关变化，请及时变更，防止失效
权利人	北京大学计算机科学技术研究所,北京北大方正技术研究院有限公司	当前权利人	北京大学计算机科学技术研究所,北京北大方正技术研究院有限公司
发明人	孙晋文
代理机构	北京英赛嘉华知识产权代理有限责任公司	代理人	田明;王达佐

摘要

本发明属于智能信息处理技术，具体涉及一种融合关键词学习的支持向量机文本分类增量训练学习方法。现有的方法忽略了随着增量训练而应有的文档关键词的学习问题，使得增量训练效果要低于非增量的一次性训练。本发明针对关键词在训练中的重要作用，提出了同步考虑关键词“增量”学习的方法，在增量训练过程中，同时进行分类关键词的学习与调节，从而消除了增量训练相对于一次性训练的不足。本发明所提出的融合关键词学习的增量训练方法可获得与一次性训练相一致的分类精度，优于没有进行关键词学习的方法。

一种具有芳香效果的速干纺织面料

实用新型

立即咨询

一种来源于氨氧化假诺卡氏单胞菌的R-转氨酶及其合成方法

发明授权

立即咨询

一种具有防护性的储能逆变器

实用新型

立即咨询

一种带有可触摸式液晶屏的储能逆变器

实用新型

立即咨询

一种具有防护性的储能逆变器

实用新型

立即咨询

一种带有可触摸式液晶屏的储能逆变器

实用新型

立即咨询

一种具有散热功能的储能逆变器机柜

实用新型

立即咨询

一种建筑外伸造型支撑用横梁连接结构

实用新型

立即咨询

一种建筑施工用铁丝捆扎装置

实用新型

立即咨询

一种建筑工程模板支撑装置

实用新型

立即咨询

一种建筑工程用防护装置

实用新型

立即咨询

一种建筑工程质量安全风险管理装置

实用新型

立即咨询

一种建筑设计装置

实用新型

立即咨询

一种建筑工程用的斜坡防护装置

实用新型

立即咨询

一种用于建筑学的勘测装置

实用新型

立即咨询

一种建筑学预应力钢筋混凝土迭合板

实用新型

立即咨询

一种排水管道雨污分流装置

实用新型

立即咨询

一种英语词汇课文教学架

实用新型

立即咨询

一种新型英语翻译笔

实用新型

立即咨询

一种室外建筑装饰用幕墙结构

实用新型

立即咨询

1.一种融合关键词学习的支持向量机文本分类增量训练学习方法，其特征在于包括以下步骤：
第一、类别关键词的学习与调整
将增量训练学习分为分类关键词学习与支持向量优化训练两个方面，在获得用于增量训练的文档后，进行文档切分、关键词提取，然后结合以前的关键词集合，进行相应的关键词学习与调整，步骤如下：
1)若增量训练文档中的关键词tk已存在于原关键词集合中，则将该关键词对应的所出现的训练文档数nk加1；若为新关键词，则将该关键词增加到关键词集合中，并将其相应的所出现的训练文档数置设为1；
2)所有用于增量训练的文档进行步骤1)的关键词调整完成后，将新增的训练文档数与原总训练文档数相加，作为新的总训练文档数N；
3)对调整后的关键词集合中相应的关键词倒排文档频率(idf)进行重新计算；
第二、支持向量的权重调整
关键词的学习完毕后，需要对原支持向量进行权重调整，具体方法是用新的关键词倒排文档频率(idf′)替换旧的关键词倒排文档频率(idf)：

w_{j}^{'} = \frac{w_{j} * id f_{j}^{'}}{id f_{j}}

其中，wj代表关键词tj的权重；
第三、支持向量机优化训练
将新增加的增量训练文档向量与调整后的原支持向量集合中的支持向量进行合并，重新进行支持向量机方法的二次规划优化训练，以获得新的分类模型及新的支持向量集合，用于新的分类处理。
2.如权利要求1所述的一种融合关键词学习的支持向量机文本分类增量训练学习方法，其特征在于：第一步中，根据增量训练文档及其关键词调整分类关键词及其特征，该特征包括关键词的倒排文档频率、训练文档总数，其中，相应的关键词倒排文档频率(idf)进行计算的方法可以为

{idf}_{k} = \log \frac{N}{n_{k}},

也可以采用其它不同形式的倒排文档频率计算方法，该计算式中，N为增加了新增量训练文档数的总训练文档数，nk为调整后的关键词tk的所出现的训练文档数。
3.如权利要求1、2所述的一种融合关键词学习的支持向量机文本分类增量训练学习方法，其特征在于：该方法还可以通过对分类关键词进行一定形式的特征词提取后，用提取后的特征词进行学习调整及分类处理。

技术领域
本发明属于智能信息处理技术，更进一步是关于文本的分类处理的技术，具体涉及一种融合关键词学习的支持向量机文本分类增量训练学习方法。
背景技术
随着网络、信息化技术的快速发展，数字化文档信息的极大丰富，对文本、资料、网页等的分类处理已成为信息处理的在重要技术手段。对于文本分类来说，支持向量机方法(support vector machine，SVM)是目前最有效的方法之一，1998年Joachims在文献“Text Categorization with Support Vector Machines：Learning with Many Relevant Features”(In Proceedings of the European Conference on Machine Learning，Berlin，Springer，1998)中验证了其在文本分类中的优异性能，对于支持向量机这一新的机器学习方法来说，相对于其性能的有效性同时，也具有训练过程复杂，对内存等资源占用大等缺点，因此，从其提出开始，人们就研究各种不同改进训练算法来改进其训练过程。
相对于传统一次性训练来说，增量训练技术是对其在应用中的进一步发展，正逐步受到更广泛的研究与关注，增量训练方法将传统的一次性集中训练转化为增量式、渐进式的训练学习，克服了一次性训练对内存资源占用大、没有持续训练学习能力等缺点，因而，增量训练学习方法大大扩展了分类模型的能力，提高了训练的灵活性与适应性，以及在实际应用中的学习能力。并且，相比于其它机器学习技术，支持向量机方法具有更良好的扩展性，及一般模型所不具备的优秀的增量学习的能力，这为支持向量机增量训练技术的研究应用提供了巨大的前景。1999年，Nadeem等在“Incremental Learning with Support Vector Machines.(In Proc.of the Int.Joint Conf.on Artificial Intelligence(IJCAI)，1999)中采用增量学习方法对两类支持向量机分类进行了研究，在每次增量时将上一次训练获得的支持向量与新增训练文档一起进行训练优化，实验获得了与非增量训练基本相近但略低的分类精度，2001年 Cauwenberghs等在“Incremental and Decremental Support Vector Machine Learning，”(Adv.Neural Information Processing Systems，Cambridge MA： MIT Press，Vol.13，2001)从理论上分析了进行增量训练时支持向量全局优化的方法，同年，Ralaivola在“Incremental Support Vector Machine Learning” (a Local Approach.In Proceedings of ICANN′01，Springer，2001)中探讨了一种采用径向基函数(RBF)为核函数的支持向量机进行局部增量训练的优化策略，在该研究中仅仅采用新增训练数据周围数据作为工作子集的方法来进行优化训练，避免对全部数据参数的再学习，以上研究的重点都是集中在支持向量重新优化的问题上，是基于SVM本身的增量训练特性的研究。
发明内容
本方法是针对目前SVM文本分类增量训练中，由于仅仅考虑支持向量本身优化的问题，而导致增量训练效果比一次性训练分类精度略低这一现象，结合增量训练与一次性训练在分类关键词上所存在的差异，提出在增量学习过程中，同时进行文档关键词“增量”学习的方法，以达到消除二者的差异，从而使增量训练达到与一次性训练相一致的分类精度的目的。
为达到以上发明目的，本发明采用的技术内容是：一种融合关键词学习的支持向量机文本分类增量训练学习方法，包括以下步骤：
第一、类别关键词的学习与调整。
将增量训练学习分为分类关键词学习与支持向量优化训练两个方面。在获得用于增量训练的文档后，对它们进行文档切分、关键词提取，然后读取以前的关键词集合，进行相应的关键词学习与调整，步骤如下：
1)若增量训练文档中的关键词tk已存在于原关键词集合中，则将该关键词对应的所出现的训练文档数nk加1；若为新关键词，则将该关键词增加到关键词集合中，并将其相应的所出现的训练文档数置为1。
2)所有用于增量训练文档进行步骤1)的关键词调整完成后，将新增的训练文档数与原总训练文档数相加，作为新的总训练文档数N。
3)对调整后的关键词集合中相应的关键词倒排文档频率(idf)进行重新计算。
第二、支持向量的权重调整
关键词的学习完毕后，接下来在进行支持向量的优化调整前还需要进行原支持向量的权重调整。其原因在于：经过了关键词的学习后，关键词的倒排文档频率(idf)已发生了变化，而支持向量中的关键词权重是通过tf*idf方式获得，因此，也需要进行调整，具体方法是用新的关键词倒排文档频率(idf′) 替换旧的关键词倒排文档频率(idf)：

w_{j}^{'} = \frac{w_{j} * id f_{j}^{'}}{{idf}_{j}}

其中，wj代表关键词tj的权重。
第三、支持向量机优化训练
将新增加的增量训练文档向量与调整后的原支持向量集合中的支持向量进行合并，重新进行支持向量机方法的二次规划优化训练，以获得新的分类模型及新的支持向量集合，用于新的分类处理。
上述第一步中，根据增量训练文档及其关键词调整分类关键词及其特征，该特征包括关键词的倒排文档频率、训练文档总数，其中，相应的关键词倒排文档频率(idf)进行计算的方法可以为

{idf}_{k} = \log \frac{N}{n_{k}}

，也可以采用其它不同形式的倒排文档频率计算方法，该计算式中，N为增加了新增量训练文档数的总训练文档数，nk为调整后的关键词tk的所出现的训练文档数。
该方法还可以通过对分类关键词进行一定形式的特征词提取后，用提取后的特征词进行学习调整及分类处理。
本发明的效果在于：通过本方法，使增量训练与一次性训练在分类关键词上保持了一致性，因此也就消除了因关键词的不同或关键词特性的不一致而造成的分类精度上的差异。根据采用本方法所进行的实验也表明：本发明所提出的方法在进行文本分类时，达到了与一次性训练相一致的分类精度，而优于不进行关键词学习的方法。
附图说明
图1融合关键词学习的sVM增量分类训练学习流程图；
图2实验数据集1的实验结果比较示意图；
图3实验数据集2的实验结果比较示意图。
具体实施方式
下面以实施例的方式并结合附图对本发明作进一步的描述：
如图1所示，一种融合关键词学习的支持向量机文本分类增量训练学习方法，包括以下步骤：
第一、通过计算机及相关软件读入增量训练文档，并对文档进行文档切分处理。
第二、根据文档中的词频特性，提取文档的关键词。
第三、进行关键词的学习与调整，对每篇新的增量训练文档，根据新的增量文档中的关键词更新原关键词集合，步骤如下：
1)若增量训练文档中的关键词tk已存在于原关键词集合中，则将该关键词对应的所出现的训练文档数nk加1；若为新关键词，则将该关键词增加到关键词集合中，并将其相应的所出现的训练文档数置为1。
2)所有用于增量训练文档进行步骤1)的关键词调整完成后，将新增的训练文档数与原总训练文档数相加，作为新的总训练文档数N。
3)对调整后的关键词集合中相应的关键词倒排文档频率(idf)进行重新计算，本实施例采取的计算形式为：

{idf}_{k} = \log \frac{N}{n_{k}},

其中，N为增加了新增量训练文档数后的总训练文档数，nk为调整后的关键词tk的所出现的训练文档数。当然，还可以采取其他的计算形式来计算。
第四、据更新后的新的关键词集合，生成新的增量训练文档向量。
第五、支持向量权重调整，从分类模型中读取原支持向量，并根据新的关键词的倒排文档频率(idf)进行支持向量权重的更新。
第六、将增量文档向量与进行了权重更新后的支持向量进行合并，作为新的增量训练文档向量集。
第七、在多类分类处理时，需要进行多类两类的转换；
第八、进行两类SVM支持向量优化训练，获得新的分类训练模型。本实施例中实验数据的来源为人民网2001年、2002年新闻分类语料，共一万多篇，分为体育、信息技术、军事、文娱、科教、环保、经济共七大类别，为实验的充分性，分别从中随机抽取2800篇和7700篇分别组成实验数据集 1和数据集2；并且，数据在各个类别中均匀分布，通过随机抽取，每个集合内又分为训练集合与测试集合，同时，为了进行增量训练的需要，训练集合部分又随机分别等分成12和9部分，用于增量训练，具体划分情况见表1、
表2。
表1实验数据集   体育   信息技   术   军事   文娱   科教   环保   经济   总计   数据集   1   训练集   300   300   300   300   300   300   300   2800   测试集   100   100   100   100   100   100   100   数据集   2   训练集   900   900   900   900   900   900   900   7700   测试集   200   200   200   200   200   200   200
表2增量实验训练数据分配   初始   训练   集   增量   1   增量   2   增量   3   增量   4   增量   5   增量   6   增量   7   增量   8   增量   9   增量   10   增量   11   数据   集1   175   175   175   175   175   175   175   175   175   175   175   175   数据   集2   700   700   700   700   700   700   700   700   700
为了验证本发明所提出方法的在实际分类中的效果，分别将本文提出的有关键词学习的增量训练学习与无关键词学习的增量训练以及非增量的一次性训练进行实验比较，为表述方便，将本文提出的具有关键词学习的增量学习方法记为I-SVM-KL(Incremental SVM with Keyword Learning)方法，而无关键词学习的增量训练学习方法，即普通的增量训练方法记作I-SVM，非增量的一次性训练方法记作batch-SVM具体实验数据结果分别见表3、表4，图2、图3分别是上述实验结果的实验数据曲线，其中分类精度为各个类别精度的平均值。
表3 数据集1的实验数据结果   分类精度   I-SVM-KL   I-SVM   batch-SVM   初始集   79.571   79.571   79.571   增量1   增量2   增量3   增量4   增量5   增量6   增量7   增量8   增量9   增量10   增量11   85.429   85.714   86.571   87.429   87.429   88.143   88   88   88.143   88.714   88.714   84.429   85.714   86.286   87.143   87.429   88.143   87.571   86.714   87   87.571   87.286   85   85.571   86.429   87.857   87.571   88.286   88   87.857   88.429   88.429   88.714
表4 数据集2的实验结果   分类精度   I-SVM-KL   I-SVM   batch-SVM   初始集   增量1   增量2   增量3   增量4   增量5   增量6   增量7   增量8   88.643   90.857   91.071   91.857   91.643   91.857   92.357   92.286   92.357   88.643   89.714   90.786   90.857   90.786   91.286   91.786   91.857   91.643   88.643   90.571   91.143   92.071   91.786   91.857   92.214   92.286   92.5
由以上数据可以看出，本发明的效果在于：
1、本发明所提出的融合关键词学习与调整的增量学习方法确实进一步提高了增量训练的性能，大大优于不进行关键词学习而仅仅进行支持向量优化选择的方法。
2、本发明与以前研究者的研究结果相一致，即不进行关键词学习的增量训练学习方法，则只获得了略低的性能，并且，随着增量数据集的增加，其局限性逐渐明显。
3、从实验可以看出，在多数实验数据点，本发明所提出的方法与一次性训练获得了完全相同或基本相同的结果；并且，从二者的实验数据及性能曲线中可以明显看出，本文提出的改进的增量训练方法在分类精度上达到了与一次性训练相一致的效果，实现了一次性训练的增量式实现。

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
该专利没有引用任何外部专利数据！

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
1	TWI482038B	2012-12-12	2012-12-12	近似複本之偵測方法有效专利	國立中山大學;NATIONAL SUN YAT-SEN UNIVERSITY
2	CN101067808B	2007-05-24	2007-05-24	文本关键词的提取方法失效专利	上海大学