加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

分词词库的构建方法、分词方法、装置及存储介质

发明专利有效专利
  • 申请号:
    CN202010218109.8
  • IPC分类号:G06F40/242;G06F40/289;G06N3/04;G06N3/08
  • 申请日期:
    2020-03-25
  • 申请人:
    苏州蓝海彤翔系统科技有限公司
著录项信息
专利名称分词词库的构建方法、分词方法、装置及存储介质
申请号CN202010218109.8申请日期2020-03-25
法律状态实质审查申报国家中国
公开/公告日2020-07-17公开/公告号CN111428475A
优先权暂无优先权号暂无
主分类号G06F40/242IPC分类号G;0;6;F;4;0;/;2;4;2;;;G;0;6;F;4;0;/;2;8;9;;;G;0;6;N;3;/;0;4;;;G;0;6;N;3;/;0;8查看分类表>
申请人苏州蓝海彤翔系统科技有限公司申请人地址
江苏省苏州市高新区科技城锦峰路158号101park8幢 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人苏州蓝海彤翔系统科技有限公司当前权利人苏州蓝海彤翔系统科技有限公司
发明人齐全;陈道远;王博
代理机构北京三友知识产权代理有限公司代理人周达;刘飞
摘要
本说明书实施例提供一种分词词库的构建方法、分词方法、装置及存储介质。所述方法包括:将待分词文本划分为多个子文本;获取第一候选字符串集合;其中,所述第一候选字符串集合包括所述多个子文本中长度小于预设值的字符串;根据通用词库对所述第一候选字符串集合中的字符串进行筛选,得到第二候选字符串集合;将所述第二候选字符串集合输入至预设的模型中,得到候选分词词库;其中,所述候选分词词库包括多个候选词和所述多个候选词对应的权值;根据所述候选分词词库构建分词词库,从而提高未登录词和歧义识别的准确性,提高分词的准确率。

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供