加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

文本类型识别方法及装置

发明专利有效专利
  • 申请号:
    CN202110967393.3
  • IPC分类号:G06F40/289;G06F16/28;G06F40/216;G06F40/30
  • 申请日期:
    2021-08-23
  • 申请人:
    上海浦东华宇信息技术有限公司
著录项信息
专利名称文本类型识别方法及装置
申请号CN202110967393.3申请日期2021-08-23
法律状态授权申报国家中国
公开/公告日2021-11-19公开/公告号CN113673243A
优先权暂无优先权号暂无
主分类号G06F40/289IPC分类号G;0;6;F;4;0;/;2;8;9;;;G;0;6;F;1;6;/;2;8;;;G;0;6;F;4;0;/;2;1;6;;;G;0;6;F;4;0;/;3;0查看分类表>
申请人上海浦东华宇信息技术有限公司申请人地址
上海市浦东新区中国(上海)自由贸易试验区祖冲之路899号2幢4层 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人上海浦东华宇信息技术有限公司当前权利人上海浦东华宇信息技术有限公司
发明人杨一帆;刘悦华
代理机构北京中索知识产权代理有限公司代理人胡大成
摘要
本申请提供一种文本类型识别方法及装置,用于解决现有技术中文本类型识别准确度低的技术问题。其中,一种文本类型识别方案,包括获取语料数据;去除所述语料数据中的无效信息,生成预处理语料数据;对所述预处理语料数据的文本内容进行分词,生成由若干分词单元组成的若干句子集合;计算若干句子集合中各句子与模板句的语义相似度,选取语义相似度超过第一判断阈值的句子,记为关键句;识别关键句中的关键词组,确定文本类型。本发明通过识别语料数据中的关键句、关键词,确定文本类型。并且通过去除语料数据中的无效信息,避免了无效信息被误判为关键信息,从而提高了文本类型识别的准确度。

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供