加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

文本数据清洗方法、装置、终端及存储介质

发明专利有效专利
  • 申请号:
    CN202110901889.0
  • IPC分类号:G06F16/35;G06F16/30;G06F40/289
  • 申请日期:
    2021-08-06
  • 申请人:
    中科恒运股份有限公司
著录项信息
专利名称文本数据清洗方法、装置、终端及存储介质
申请号CN202110901889.0申请日期2021-08-06
法律状态公开申报国家中国
公开/公告日2021-11-26公开/公告号CN113704468A
优先权暂无优先权号暂无
主分类号G06F16/35IPC分类号G;0;6;F;1;6;/;3;5;;;G;0;6;F;1;6;/;3;0;;;G;0;6;F;4;0;/;2;8;9查看分类表>
申请人中科恒运股份有限公司申请人地址
河北省石家庄市新石北路368号物联网大厦北楼1001-1020室 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人中科恒运股份有限公司当前权利人中科恒运股份有限公司
发明人吴少颖;薛少童
代理机构石家庄国为知识产权事务所代理人付晓娣
摘要
本发明提供一种文本数据清洗方法、装置、终端及存储介质。该方法包括:获取文本数据,并对文本数据进行分词预处理得到文本数据的多个分类词集;对于每个分类词集,根据该分类词集中分类词的信息量确定该分类词集的数据类型;数据类型包括标准数据或者非标准数据;将所有标准数据形成集合,作为标准数据集;将所有非标准数据形成集合,作为非标准数据集;根据标准数据集和非标准数据集确定文本数据清洗后的干净数据,并将干净数据发送至指定数据库进行存储。本发明能够提高数据清洗的可靠性。

专利服务由北京酷爱智慧知识产权代理公司提供