加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

基于关键词特征的电子文档自动分类方法及系统

发明专利有效专利
  • 申请号:
    CN201810017865.7
  • IPC分类号:G06F16/35;G06K9/62;G06N20/10
  • 申请日期:
    2018-01-09
  • 申请人:
    国网福建省电力有限公司;国家电网公司;国网福建省电力有限公司信息通信分公司
著录项信息
专利名称基于关键词特征的电子文档自动分类方法及系统
申请号CN201810017865.7申请日期2018-01-09
法律状态授权申报国家中国
公开/公告日2018-05-04公开/公告号CN107992633A
优先权暂无优先权号暂无
主分类号G06F16/35IPC分类号G;0;6;F;1;6;/;3;5;;;G;0;6;K;9;/;6;2;;;G;0;6;N;2;0;/;1;0查看分类表>
申请人国网福建省电力有限公司;国家电网公司;国网福建省电力有限公司信息通信分公司申请人地址
福建省福州市鼓楼区五四路257号 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人国网福建省电力有限公司,国家电网公司,国网福建省电力有限公司信息通信分公司当前权利人国网福建省电力有限公司,国家电网公司,国网福建省电力有限公司信息通信分公司
发明人蔡宇翔;叶勇;苏运东;付婷;肖琦敏;潘丹;张航;倪时龙;苏江文;刘心
代理机构福州元创专利商标代理有限公司代理人蔡学俊;薛金才
摘要
本发明公开了一种基于关键词特征的电子文档自动分类方法及系统,该方法提出通过构建企业的领域词汇表,采用企业级搜索引擎对分类语料库进行逐个词汇搜索,计算词汇与文档的相关度,将所有文档特征化为相关度最大的前100个关键词的相关度组成的特征向量,基于训练集文档的特征向量利用不同的机器学习算法构建分类器,利用测试集文档对构建的分类器进行评估,最终选择最优的分类器进行部署应用,调用最优分类器的接口对新增的文档进行自动分类。本发明结合企业电子文档特点,采用关键词为特征,能够显著减少生成的特征向量中的无关信息,大大减少了特征向量的维度,提升了特征抽取阶段对文档重要语义的保留,提升了企业电子文档的自动分类效果。

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供