加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

基于并行编程模式的相似网页去重系统

发明专利无效专利
  • 申请号:
    CN200910061694.9
  • IPC分类号:G06F17/30
  • 申请日期:
    2009-04-17
  • 申请人:
    华中科技大学
著录项信息
专利名称基于并行编程模式的相似网页去重系统
申请号CN200910061694.9申请日期2009-04-17
法律状态权利终止申报国家中国
公开/公告日2010-02-10公开/公告号CN101645082
优先权暂无优先权号暂无
主分类号G06F17/30IPC分类号G;0;6;F;1;7;/;3;0查看分类表>
申请人华中科技大学申请人地址
湖北省武汉市洪山区珞喻路1037号 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人华中科技大学当前权利人华中科技大学
发明人李瑞轩,丁益斌,文坤梅,陈珊珊,辜希武,卢正鼎,靳延安,郑鹏,赵勇
代理机构华中科技大学专利中心代理人曹葆青
摘要
本发明提出的基于并行编程模式的相似网页去重系统,包括网页内容预处理模块、网页特征向量提取模块、网页特征指纹计算模块、网页指纹在线去重模块、网页指纹分布式批处理去重模块、基于特定分布式计算平台。该系统能够完成对网络爬虫爬行获得的网页进行文本内容编码的统一转换、文档结构的规范化、舍弃网页噪声内容和分析识别网页的主题内容、连续文本内容的词项切分等环节、形成能够代表网页的特征向量。针对该向量可以使用相关的算法得到代表网页特征的网页指纹。本发明设计提出的系统在互联网海量数据量的情况下,准确、快速地探测由于网站镜像和网络文档转载等因素造成的网页内容完全重复或近似重复,并完成相应的去重工作,从无提高搜索引擎的存储效率,给搜索引擎带来更好的用户体验。

专利服务由北京酷爱智慧知识产权代理公司提供