加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

一种领域语料库构建方法及系统

发明专利有效专利
  • 申请号:
    CN202011473992.1
  • IPC分类号:G06F16/31;G06F16/35;G06N7/00;G06N20/00;G06N20/10
  • 申请日期:
    2020-12-14
  • 申请人:
    福建正孚软件有限公司
著录项信息
专利名称一种领域语料库构建方法及系统
申请号CN202011473992.1申请日期2020-12-14
法律状态实质审查申报国家中国
公开/公告日2021-03-16公开/公告号CN112507060A
优先权暂无优先权号暂无
主分类号G06F16/31IPC分类号G;0;6;F;1;6;/;3;1;;;G;0;6;F;1;6;/;3;5;;;G;0;6;N;7;/;0;0;;;G;0;6;N;2;0;/;0;0;;;G;0;6;N;2;0;/;1;0查看分类表>
申请人福建正孚软件有限公司申请人地址
福建省福州市鼓楼区软件大道89号福州软件园C区38号楼三楼 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人福建正孚软件有限公司当前权利人福建正孚软件有限公司
发明人倪时龙;张怀刚;罗建新;陈颖华;郑敏;钱新红
代理机构福州市景弘专利代理事务所(普通合伙)代理人徐剑兵;林祥翔
摘要
本发明公开一种领域语料库构建方法及系统,其中方法包括如下步骤:术语发现步骤:在自然语料库中提取与领域相关的术语;概念发现步骤:从与领域相关的公文、单据和报告中,提取与领域有关的术语;短语发现步骤:从预设的大规模文档中采用监督机器学习算法或半监督机器学习算法获取可以表达概念的短语集合;概念归类步骤:对短语集合的短语进行归类,将归类后的短语和提取后的术语作为语料库的语料存到数据库中。本发明可以实现对特定业务领域的语料库的构建,解决现有特定业务领域的语料库构建问题。

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供