1.一种融合关键词学习的支持向量机文本分类增量训练学习方法,其特 征在于包括以下步骤:
第一、类别关键词的学习与调整
将增量训练学习分为分类关键词学习与支持向量优化训练两个方面,在 获得用于增量训练的文档后,进行文档切分、关键词提取,然后结合以前的 关键词集合,进行相应的关键词学习与调整,步骤如下:
1)若增量训练文档中的关键词tk已存在于原关键词集合中,则将该关键 词对应的所出现的训练文档数nk加1;若为新关键词,则将该关键词增加到 关键词集合中,并将其相应的所出现的训练文档数置设为1;
2)所有用于增量训练的文档进行步骤1)的关键词调整完成后,将新增 的训练文档数与原总训练文档数相加,作为新的总训练文档数N;
3)对调整后的关键词集合中相应的关键词倒排文档频率(idf)进行重新 计算;
第二、支持向量的权重调整
关键词的学习完毕后,需要对原支持向量进行权重调整,具体方法是用 新的关键词倒排文档频率(idf′)替换旧的关键词倒排文档频率(idf):
其中,wj代表关键词tj的权重;
第三、支持向量机优化训练
将新增加的增量训练文档向量与调整后的原支持向量集合中的支持向量 进行合并,重新进行支持向量机方法的二次规划优化训练,以获得新的分类模 型及新的支持向量集合,用于新的分类处理。
2.如权利要求1所述的一种融合关键词学习的支持向量机文本分类增量 训练学习方法,其特征在于:第一步中,根据增量训练文档及其关键词调整分 类关键词及其特征,该特征包括关键词的倒排文档频率、训练文档总数,其中, 相应的关键词倒排文档频率(idf)进行计算的方法可以为 也可以 采用其它不同形式的倒排文档频率计算方法,该计算式中,N为增加了新增量 训练文档数的总训练文档数,nk为调整后的关键词tk的所出现的训练文档数。
3.如权利要求1、2所述的一种融合关键词学习的支持向量机文本分类增 量训练学习方法,其特征在于:该方法还可以通过对分类关键词进行一定形式 的特征词提取后,用提取后的特征词进行学习调整及分类处理。
技术领域\n本发明属于智能信息处理技术,更进一步是关于文本的分类处理的技术, 具体涉及一种融合关键词学习的支持向量机文本分类增量训练学习方法。\n背景技术\n随着网络、信息化技术的快速发展,数字化文档信息的极大丰富,对文 本、资料、网页等的分类处理已成为信息处理的在重要技术手段。对于文本 分类来说,支持向量机方法(support vector machine,SVM)是目前最有效的 方法之一,1998年Joachims在文献“Text Categorization with Support Vector Machines:Learning with Many Relevant Features”(In Proceedings of the European Conference on Machine Learning,Berlin,Springer,1998)中验证了其 在文本分类中的优异性能,对于支持向量机这一新的机器学习方法来说,相 对于其性能的有效性同时,也具有训练过程复杂,对内存等资源占用大等缺 点,因此,从其提出开始,人们就研究各种不同改进训练算法来改进其训练 过程。\n相对于传统一次性训练来说,增量训练技术是对其在应用中的进一步发 展,正逐步受到更广泛的研究与关注,增量训练方法将传统的一次性集中训 练转化为增量式、渐进式的训练学习,克服了一次性训练对内存资源占用大、 没有持续训练学习能力等缺点,因而,增量训练学习方法大大扩展了分类模 型的能力,提高了训练的灵活性与适应性,以及在实际应用中的学习能力。 并且,相比于其它机器学习技术,支持向量机方法具有更良好的扩展性,及 一般模型所不具备的优秀的增量学习的能力,这为支持向量机增量训练技术 的研究应用提供了巨大的前景。1999年,Nadeem等在“Incremental Learning with Support Vector Machines.(In Proc.of the Int.Joint Conf.on Artificial Intelligence(IJCAI),1999)中采用增量学习方法对两类支持向量机分类进行了 研究,在每次增量时将上一次训练获得的支持向量与新增训练文档一起进行 训练优化,实验获得了与非增量训练基本相近但略低的分类精度,2001年 Cauwenberghs等在“Incremental and Decremental Support Vector Machine Learning,”(Adv.Neural Information Processing Systems,Cambridge MA: MIT Press,Vol.13,2001)从理论上分析了进行增量训练时支持向量全局优化 的方法,同年,Ralaivola在“Incremental Support Vector Machine Learning” (a Local Approach.In Proceedings of ICANN′01,Springer,2001)中探讨了一 种采用径向基函数(RBF)为核函数的支持向量机进行局部增量训练的优化 策略,在该研究中仅仅采用新增训练数据周围数据作为工作子集的方法来进 行优化训练,避免对全部数据参数的再学习,以上研究的重点都是集中在支 持向量重新优化的问题上,是基于SVM本身的增量训练特性的研究。\n发明内容\n本方法是针对目前SVM文本分类增量训练中,由于仅仅考虑支持向量本 身优化的问题,而导致增量训练效果比一次性训练分类精度略低这一现象, 结合增量训练与一次性训练在分类关键词上所存在的差异,提出在增量学习 过程中,同时进行文档关键词“增量”学习的方法,以达到消除二者的差异, 从而使增量训练达到与一次性训练相一致的分类精度的目的。\n为达到以上发明目的,本发明采用的技术内容是:一种融合关键词学习 的支持向量机文本分类增量训练学习方法,包括以下步骤:\n第一、类别关键词的学习与调整。\n将增量训练学习分为分类关键词学习与支持向量优化训练两个方面。在 获得用于增量训练的文档后,对它们进行文档切分、关键词提取,然后读取 以前的关键词集合,进行相应的关键词学习与调整,步骤如下:\n1)若增量训练文档中的关键词tk已存在于原关键词集合中,则将该关键 词对应的所出现的训练文档数nk加1;若为新关键词,则将该关键词增加到 关键词集合中,并将其相应的所出现的训练文档数置为1。\n2)所有用于增量训练文档进行步骤1)的关键词调整完成后,将新增的 训练文档数与原总训练文档数相加,作为新的总训练文档数N。\n3)对调整后的关键词集合中相应的关键词倒排文档频率(idf)进行重新 计算。\n第二、支持向量的权重调整\n关键词的学习完毕后,接下来在进行支持向量的优化调整前还需要进行 原支持向量的权重调整。其原因在于:经过了关键词的学习后,关键词的倒 排文档频率(idf)已发生了变化,而支持向量中的关键词权重是通过tf*idf方 式获得,因此,也需要进行调整,具体方法是用新的关键词倒排文档频率(idf′) 替换旧的关键词倒排文档频率(idf):\n\n其中,wj代表关键词tj的权重。\n第三、支持向量机优化训练\n将新增加的增量训练文档向量与调整后的原支持向量集合中的支持向量 进行合并,重新进行支持向量机方法的二次规划优化训练,以获得新的分类模 型及新的支持向量集合,用于新的分类处理。\n上述第一步中,根据增量训练文档及其关键词调整分类关键词及其特征, 该特征包括关键词的倒排文档频率、训练文档总数,其中,相应的关键词倒 排文档频率(idf)进行计算的方法可以为 ,也可以采用其它不同 形式的倒排文档频率计算方法,该计算式中,N为增加了新增量训练文档数 的总训练文档数,nk为调整后的关键词tk的所出现的训练文档数。\n该方法还可以通过对分类关键词进行一定形式的特征词提取后,用提取 后的特征词进行学习调整及分类处理。\n本发明的效果在于:通过本方法,使增量训练与一次性训练在分类关键 词上保持了一致性,因此也就消除了因关键词的不同或关键词特性的不一致 而造成的分类精度上的差异。根据采用本方法所进行的实验也表明:本发明 所提出的方法在进行文本分类时,达到了与一次性训练相一致的分类精度, 而优于不进行关键词学习的方法。\n附图说明\n图1融合关键词学习的sVM增量分类训练学习流程图;\n图2实验数据集1的实验结果比较示意图;\n图3实验数据集2的实验结果比较示意图。\n具体实施方式\n下面以实施例的方式并结合附图对本发明作进一步的描述:\n如图1所示,一种融合关键词学习的支持向量机文本分类增量训练学习 方法,包括以下步骤:\n第一、通过计算机及相关软件读入增量训练文档,并对文档进行文档切 分处理。\n第二、根据文档中的词频特性,提取文档的关键词。\n第三、进行关键词的学习与调整,对每篇新的增量训练文档,根据新的 增量文档中的关键词更新原关键词集合,步骤如下:\n1)若增量训练文档中的关键词tk已存在于原关键词集合中,则将该关键词对 应的所出现的训练文档数nk加1;若为新关键词,则将该关键词增加到关键 词集合中,并将其相应的所出现的训练文档数置为1。\n2)所有用于增量训练文档进行步骤1)的关键词调整完成后,将新增的训练 文档数与原总训练文档数相加,作为新的总训练文档数N。\n3)对调整后的关键词集合中相应的关键词倒排文档频率(idf)进行重新计算, 本实施例采取的计算形式为: 其中,N为增加了新增量训练文档 数后的总训练文档数,nk为调整后的关键词tk的所出现的训练文档数。当然, 还可以采取其他的计算形式来计算。\n第四、据更新后的新的关键词集合,生成新的增量训练文档向量。\n第五、支持向量权重调整,从分类模型中读取原支持向量,并根据新的 关键词的倒排文档频率(idf)进行支持向量权重的更新。\n第六、将增量文档向量与进行了权重更新后的支持向量进行合并,作为 新的增量训练文档向量集。\n第七、在多类分类处理时,需要进行多类两类的转换;\n第八、进行两类SVM支持向量优化训练,获得新的分类训练模型。 本实施例中实验数据的来源为人民网2001年、2002年新闻分类语料,共一 万多篇,分为体育、信息技术、军事、文娱、科教、环保、经济共七大类别, 为实验的充分性,分别从中随机抽取2800篇和7700篇分别组成实验数据集 1和数据集2;并且,数据在各个类别中均匀分布,通过随机抽取,每个集合 内又分为训练集合与测试集合,同时,为了进行增量训练的需要,训练集合 部分又随机分别等分成12和9部分,用于增量训练,具体划分情况见表1、\n表2。\n表1实验数据集 体育 信息技 术 军事 文娱 科教 环保 经济 总计 数据集 1 训练集 300 300 300 300 300 300 300 2800 测试集 100 100 100 100 100 100 100 数据集 2 训练集 900 900 900 900 900 900 900 7700 测试集 200 200 200 200 200 200 200\n表2增量实验训练数据分配 初始 训练 集 增量 1 增量 2 增量 3 增量 4 增量 5 增量 6 增量 7 增量 8 增量 9 增量 10 增量 11 数据 集1 175 175 175 175 175 175 175 175 175 175 175 175 数据 集2 700 700 700 700 700 700 700 700 700\n为了验证本发明所提出方法的在实际分类中的效果,分别将本文提出的有关 键词学习的增量训练学习与无关键词学习的增量训练以及非增量的一次性训 练进行实验比较,为表述方便,将本文提出的具有关键词学习的增量学习方 法记为I-SVM-KL(Incremental SVM with Keyword Learning)方法,而无关 键词学习的增量训练学习方法,即普通的增量训练方法记作I-SVM,非增量 的一次性训练方法记作batch-SVM具体实验数据结果分别见表3、表4,图2、 图3分别是上述实验结果的实验数据曲线,其中分类精度为各个类别精度的 平均值。\n表3 数据集1的实验数据结果 分类精度 I-SVM-KL I-SVM batch-SVM 初始集 79.571 79.571 79.571 增量1 增量2 增量3 增量4 增量5 增量6 增量7 增量8 增量9 增量10 增量11 85.429 85.714 86.571 87.429 87.429 88.143 88 88 88.143 88.714 88.714 84.429 85.714 86.286 87.143 87.429 88.143 87.571 86.714 87 87.571 87.286 85 85.571 86.429 87.857 87.571 88.286 88 87.857 88.429 88.429 88.714\n表4 数据集2的实验结果 分类精度 I-SVM-KL I-SVM batch-SVM 初始集 增量1 增量2 增量3 增量4 增量5 增量6 增量7 增量8 88.643 90.857 91.071 91.857 91.643 91.857 92.357 92.286 92.357 88.643 89.714 90.786 90.857 90.786 91.286 91.786 91.857 91.643 88.643 90.571 91.143 92.071 91.786 91.857 92.214 92.286 92.5\n由以上数据可以看出,本发明的效果在于:\n1、本发明所提出的融合关键词学习与调整的增量学习方法确实进一步提 高了增量训练的性能,大大优于不进行关键词学习而仅仅进行支持向量优化 选择的方法。\n2、本发明与以前研究者的研究结果相一致,即不进行关键词学习的增量 训练学习方法,则只获得了略低的性能,并且,随着增量数据集的增加,其 局限性逐渐明显。\n3、从实验可以看出,在多数实验数据点,本发明所提出的方法与一次性 训练获得了完全相同或基本相同的结果;并且,从二者的实验数据及性能曲 线中可以明显看出,本文提出的改进的增量训练方法在分类精度上达到了与 一次性训练相一致的效果,实现了一次性训练的增量式实现。
法律信息
- 2006-03-15
- 2004-02-25
- 2003-12-10
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有引用任何外部专利数据! |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 1 | | 2012-12-12 | 2012-12-12 | | |
2 | | 2007-05-24 | 2007-05-24 | | |