文本中不良文字信息的过滤方法及过滤系统

发明专利无效专利

申请号：
CN201511027950.4
IPC分类号：G06F17/27
申请日期：
2015-12-31
申请人：
武汉鸿瑞达信息技术有限公司

基础信息

权利要求

说明书

PDF全文

法律信息

引证文献

著录项信息

专利名称	文本中不良文字信息的过滤方法及过滤系统
申请号	CN201511027950.4	申请日期	2015-12-31
法律状态	驳回	申报国家	中国
公开/公告日	2016-04-06	公开/公告号	CN105468584A
优先权	暂无	优先权号	暂无
主分类号	G06F17/27 ? IPC结构图谱： G 物理 G0 仪器 G06 计算；推算；计数 G06F 电数字数据处理（基于特定计算模型的计算机系统入G06N） G06F17/00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法〔6〕 G06F17/20 处理自然语言数据的（语言分析或综合入G10L）〔6〕 G06F17/27 自动分析的，例如语法分析、正射校正的〔6〕	IPC分类号	G;0;6;F;1;7;/;2;7查看分类表>
申请人	武汉鸿瑞达信息技术有限公司	申请人地址	湖北省武汉市东湖新技术开发区光谷大道35号银久科技产业园一期4幢3层3号变更专利地址、主体等相关变化，请及时变更，防止失效
权利人	武汉鸿瑞达信息技术有限公司	当前权利人	武汉鸿瑞达信息技术有限公司
发明人	高玉环;喻西香;朱山;朱光喜
代理机构	北京汇信合知识产权代理有限公司	代理人	夏静洁

摘要

本发明涉及文本处理技术领域，具体涉及文本中不良文字信息的过滤方法及过滤系统。该过滤方法包括：步骤1，提取待过滤文本；步骤2，利用词典中词条长度动态确定最大匹配算法中词长Maxlen的值，通过Mexlen对待过滤文本进行分词；步骤3，循环判断分词后的每个词汇是否为敏感词汇，如果是敏感词汇，采用非敏感词汇替换敏感词汇后，输出替换敏感词汇后的文本。本发明解决了分词过程中MaxLen初始值不变所带来的长词被切分错误和时间长、效率低的问题。随后对分词后的词串进行敏感判断，并根据判断结果输出文本。由于采用了改进的分词方式，因此提高了整体过滤速度和过滤准确度。

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
该专利没有引用任何外部专利数据！

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
该专利没有被任何外部专利所引用！

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供