加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

一种面向web双语平行语料资源的分布式采集系统

发明专利无效专利
  • 申请号:
    CN201210464713.4
  • IPC分类号:--
  • 申请日期:
    2012-11-16
  • 申请人:
    哈尔滨工业大学
著录项信息
专利名称一种面向web双语平行语料资源的分布式采集系统
申请号CN201210464713.4申请日期2012-11-16
法律状态撤回申报国家中国
公开/公告日2013-04-03公开/公告号CN103020043A
优先权暂无优先权号暂无
主分类号暂无IPC分类号暂无查看分类表>
申请人哈尔滨工业大学申请人地址
黑龙江省哈尔滨市南岗区西大直街92号 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人哈尔滨工业大学当前权利人哈尔滨工业大学
发明人徐志明;张志超;韩啸天
代理机构哈尔滨市松花江专利商标事务所代理人王艳萍
摘要
一种面向web双语平行语料资源的分布式采集系统,它涉及语料获取技术领域。本发明克服了现有系统爬取规模较小,获得语料渠道较少,爬取效率较低的问题。本发明所述的系统包括链接存储库模块、筛选过滤器模块、网页爬行器模块、原始网页库模块、双语探测模块、黑名单模块、双语网页库模块和链接抽取器模块。本发明克服了现有技术领域的技术偏见,将互联网作为语料获取对象,通过应用本发明所描述的系统,可以有效地解决分布式系统资源的占有矛盾问题;可以为双语平行语料采集系统,提供一个通用的设计架构;可以不断动态的将非双语站点加入黑名单,能够高效的抓取互联网中双语平行语料;可以极大幅度的提高双语语料抓取的效率。

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供