加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

一种基于迁移学习的低资源领域分词器训练方法及分词方法

发明专利无效专利
  • 申请号:
    CN201711026810.4
  • IPC分类号:G06F17/27;G06K9/62;G06N3/04
  • 申请日期:
    2017-10-27
  • 申请人:
    北京大学
著录项信息
专利名称一种基于迁移学习的低资源领域分词器训练方法及分词方法
申请号CN201711026810.4申请日期2017-10-27
法律状态驳回申报国家中国
公开/公告日2018-04-27公开/公告号CN107967253A
优先权暂无优先权号暂无
主分类号G06F17/27IPC分类号G;0;6;F;1;7;/;2;7;;;G;0;6;K;9;/;6;2;;;G;0;6;N;3;/;0;4查看分类表>
申请人北京大学申请人地址
北京市海淀区颐和园路5号北京大学 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人北京大学当前权利人北京大学
发明人孙栩;许晶晶;李炜;马树铭
代理机构北京君尚知识产权代理事务所(普通合伙)代理人司立彬
摘要
本发明公开了一种基于迁移学习的低资源领域分词器训练方法及分词方法。本方法为:1)在目标领域和各设定领域分别训练生成对应的分词器;2)利用各领域的分词器对目标领域的语料分词处理,获得各分词器在该目标领域的语料上每个字xi的隐层表示;3)计算各分词器在字xi的隐层表示与目标领域的分词器t在字xi的隐层表示的相关度,然后根据相关度得到各领域分词器对字xi的权重向量;4)根据权重向量对各分词器得到的隐层表示进行加权求和,得到一最终的隐层表示,并以该最终的隐层表示计算字xi的标签;5)根据各字的预测标签与标准结果训练得到该目标领域的分词器。本发明的分词器大大提高了低资源领域语料的分词效果。

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供