加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

一种文档分类模型训练的方法和相关装置

发明专利有效专利
  • 申请号:
    CN201910907014.4
  • IPC分类号:G06F16/35;G06K9/62;G06N3/02
  • 申请日期:
    2019-09-24
  • 申请人:
    北京国双科技有限公司
著录项信息
专利名称一种文档分类模型训练的方法和相关装置
申请号CN201910907014.4申请日期2019-09-24
法律状态实质审查申报国家中国
公开/公告日2021-04-09公开/公告号CN112632269A
优先权暂无优先权号暂无
主分类号G06F16/35IPC分类号G;0;6;F;1;6;/;3;5;;;G;0;6;K;9;/;6;2;;;G;0;6;N;3;/;0;2查看分类表>
申请人北京国双科技有限公司申请人地址
北京市海淀区北四环中路229号海泰大厦4层南401号 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人北京国双科技有限公司当前权利人北京国双科技有限公司
发明人任卓
代理机构北京集佳知识产权代理有限公司代理人刘晓菲
摘要
本申请公开了一种文档分类模型训练的方法和相关装置,该方法包括:基于文档中词语的上下文、词语的向量和文档的标识,利用无监督学习算法获得文档的特征向量;将标记分类标签的文档作为训练文档,基于多个训练文档的特征向量和分类标签,利用二分类算法训练获得文档分类模型;分类标签为目标类别标签或非目标类别标签。可见,将文档中词语的上下文和文档的标识作为输入,将词语的向量作为输出,基于无监督算法提取文档的特征向量,考虑词语的上下文语境以及同一文档中上下文语境之间的关联性,提高文档的特征向量的通用性;使得训练获得的文档分类模型对未标记分类标签的文档的实际分类效果较好,从而提高文档分类模型的分类准确率。

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供