加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

平行网页获取方法及装置

发明专利无效专利
  • 申请号:
    CN201310174218.4
  • IPC分类号:G06F17/30
  • 申请日期:
    2013-05-10
  • 申请人:
    清华大学
著录项信息
专利名称平行网页获取方法及装置
申请号CN201310174218.4申请日期2013-05-10
法律状态撤回申报国家中国
公开/公告日2013-08-21公开/公告号CN103258032A
优先权暂无优先权号暂无
主分类号G06F17/30IPC分类号G;0;6;F;1;7;/;3;0查看分类表>
申请人清华大学申请人地址
北京市海淀区信箱82分箱清华大学专利办公室 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人清华大学当前权利人清华大学
发明人刘奇;刘洋;孙茂松
代理机构西安智大知识产权代理事务所代理人贾玉健
摘要
一种平行网页获取方法及装置,属于文本信息处理领域,所述方法包括:使用HTML结构信息实现对平行网站中平行网页的同步递归访问,使用URL命名模式优化遍历平行网站的路径,对候选平行网页,使用分类器进行判定,对判定为平行网页的网页对,学习其URL对应的命名模式,抽取平行网页对中的双语文本和指向的下级候选平行网页链接对,利用学习到的URL模式构建候选平行网页链接对优先队列;对是否应该终止平行网页发现进行判定,最终完成对一个平行网站中的平行网页的发现和双语文本的挖掘,本发明相应地提供了获取装置,本发明结合URL命名模式及HTML结构信息,实现了高效准确的平行网页发现和获取,同时提高了处理速度,减少了带宽消耗。

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供