加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

一种文本抽取方法、装置、设备及介质

发明专利有效专利
  • 申请号:
    CN202210840213.X
  • IPC分类号:G06F40/295
  • 申请日期:
    2022-07-18
  • 申请人:
    达而观信息科技(上海)有限公司
著录项信息
专利名称一种文本抽取方法、装置、设备及介质
申请号CN202210840213.X申请日期2022-07-18
法律状态公开申报国家暂无
公开/公告日2022-10-25公开/公告号CN115238694A
优先权暂无优先权号暂无
主分类号G06F40/295IPC分类号G;0;6;F;4;0;/;2;9;5查看分类表>
申请人达而观信息科技(上海)有限公司申请人地址
上海市浦东新区中国(上海)自由贸易试验区亮秀路112号B座301、303、304室 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人达而观信息科技(上海)有限公司当前权利人达而观信息科技(上海)有限公司
发明人蹇智华;卢书洋;陈祥龙;纪传俊;纪达麒;陈运文
代理机构北京品源专利代理有限公司代理人李礼
摘要
本发明公开了一种文本抽取方法、装置、设备及介质。文本抽取方法,包括将待处理文本中的各文本分词与抽取关键词集合进行匹配;在待处理文本中,获取命中抽取关键词集合的各目标文本分词,并获取各目标文本分词在待处理文本中的目标文本位置;在待处理文本中,以各目标文本位置为起点,前序和/或后序扩展预设数量的文本字符,形成与各目标文本分词分别匹配的目标短文本;在各目标短文本中进行命名实体识别,生成分别与各目标文本分词对应的实体抽取结果。本发明实施例能够在无需构造正则表达式的前提下,灵活准确的提取文本信息,并提高文本信息的提取效率。

专利服务由北京酷爱智慧知识产权代理公司提供