加载中...
首页专利查询专利详情

*来源于国家知识产权局数据,仅供参考,实际以国家知识产权局展示为准

由网页中提取双语平行正文的方法和系统

发明专利有效专利
  • 申请号:
    CN201210442487.X
  • IPC分类号:G06F17/30
  • 申请日期:
    2012-11-08
  • 申请人:
    哈尔滨工业大学
著录项信息
专利名称由网页中提取双语平行正文的方法和系统
申请号CN201210442487.X申请日期2012-11-08
法律状态暂无申报国家暂无
公开/公告日2013-02-13公开/公告号CN102930031A
优先权暂无优先权号暂无
主分类号G06F17/30IPC分类号G;0;6;F;1;7;/;3;0查看分类表>
申请人哈尔滨工业大学申请人地址
黑龙江省哈尔滨市松北区创新路1616号16号楼206-12室 变更 专利地址、主体等相关变化,请及时变更,防止失效
权利人哈尔滨工业大学人工智能研究院有限公司当前权利人哈尔滨工业大学人工智能研究院有限公司
发明人李文强;刘飞;张宇;刘挺
代理机构哈尔滨市松花江专利商标事务所代理人张宏威
摘要
由网页中提取双语平行正文的方法和系统,涉及语料获取技术领域。本发明克服了现有的语料库收集效率低和规模不足的问题。本发明所述的系统包括用于存储大规模随机爬取的网页及其属性的网页数据库;用于提取每个网页的标签字符串、正文内容及相关信息的正文信息提取模块;用于根据网页数据库中的所有网页的正文内容确定混合网页或单语种网页的网页类型判别模块;用于对混合网页中的双语文本进行互译判别、将判定为互译文本的双语文本保存至双语语料库的混合网页处理模块;用于针对每一个未标识匹配的单语种网页遍历网页数据库中的其它单语种网页,获得存有互译文本的两个单语种网页,并将两个网页中的正文内容保存至双语语料库单语种网页处理模块。