加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

一种基于网页文本的新词查找系统及方法

发明专利无效专利
  • 申请号:
    CN201210276483.9
  • IPC分类号:G06F17/30
  • 申请日期:
    2012-08-03
  • 申请人:
    人民搜索网络股份公司
著录项信息
专利名称一种基于网页文本的新词查找系统及方法
申请号CN201210276483.9申请日期2012-08-03
法律状态撤回申报国家中国
公开/公告日2013-05-15公开/公告号CN103106227A
优先权暂无优先权号暂无
主分类号G06F17/30IPC分类号G;0;6;F;1;7;/;3;0查看分类表>
申请人人民搜索网络股份公司申请人地址
北京市朝阳区东三环中路1号环球金融中心西塔16层 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人人民搜索网络股份公司当前权利人人民搜索网络股份公司
发明人杨青;张爱琦;崔世起
代理机构北京汇泽知识产权代理有限公司代理人刘淑敏
摘要
本发明公开了一种基于网页文本的新词查找系统及方法,包括网页文本选取模块、网页文本预处理模块、新词发现模块和新词生成模块;其通过:A、选取网页文本的步骤;B、网页文本预处理的步骤;C、新词发现的实现步骤,包括进行串频统计、计算词串变化率、计算词串共现率以及进行父子串归并;D、实现新词过滤和剪枝策略的步骤,对生成的候选新词集合进行过滤,去除垃圾串。采用本发明,能够根据一段时间内词串出现频率的变化情况及词串的共现率,辅以过滤策略,不需构建语料库和特殊规则,即可简便易行地从网页文本中发现新词,以实现增量式新词发现。

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供