专利名称 | 由网页中提取双语平行正文的方法和系统 | ||
申请号 | CN201210442487.X | 申请日期 | 2012-11-08 |
法律状态 | 暂无 | 申报国家 | 暂无 |
公开/公告日 | 2013-02-13 | 公开/公告号 | CN102930031A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/30 | IPC分类号 | G;0;6;F;1;7;/;3;0查看分类表> |
申请人 | 哈尔滨工业大学 | 申请人地址 | 黑龙江省哈尔滨市松北区创新路1616号16号楼206-12室
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 哈尔滨工业大学人工智能研究院有限公司 | 当前权利人 | 哈尔滨工业大学人工智能研究院有限公司 |
发明人 | 李文强;刘飞;张宇;刘挺 | ||
代理机构 | 哈尔滨市松花江专利商标事务所 | 代理人 | 张宏威 |
、或 、或 、或 、或 专利权的转移 登记生效日: 2021.06.17
专利权人由哈尔滨极座科技合伙企业(有限合伙)变更为哈尔滨工业大学人工智能研究院有限公司
地址由150028 黑龙江省哈尔滨市松北区创新路1616号16号楼206-10室变更为150028 黑龙江省哈尔滨市松北区创新路1616号16号楼206-12室
专利权人由哈尔滨工业大学资产经营有限公司 变更为空 专利权的转移 登记生效日: 2021.04.19
专利权人由哈尔滨工业大学变更为哈尔滨极座科技合伙企业(有限合伙)
地址由150001 黑龙江省哈尔滨市南岗区西大直街92号变更为150028 黑龙江省哈尔滨市松北区创新路1616号16号楼206-10室
专利权人变更为哈尔滨工业大学资产经营有限公司 授权 实质审查的生效 IPC(主分类): G06F 17/30
专利申请号: 201210442487.X
申请日: 2012.11.08 公开 该专利没有被任何外部专利所引用! 我浏览过的专利 专利服务由北京酷爱智慧知识产权代理公司提供 专属管家一对一服务 专利专业答疑和建议 已经帮助解决过 0个专利相关的问题 残忍拒绝
商标进度查询
风险动态监测预警
免责声明:本网站部分内容由用户自行上传,如权利人发现存在误传其作品情形,请及时与本站联系删除:chatm@zbj.com
时,继续提取该网页中的正文信息。
3.根据权利要求1所述的由网页中提取双语平行正文的系统,其特征在于,正文信息提取模块,还用于在提取正文内容之后,判断正文内容的长度,并在所述长度大于30~80个字符的情况下,继续记录相应信息,否则记录该网页的URL,并将该网页从网页数据库中删除。
4.根据权利要求1所述的由网页中提取双语平行正文的系统,其特征在于,所述互译判别的方法为:利用字典遍历获得互译双语文本中的词语,并将这些词语作为锚点,判断它们在双语文本中位置是否匹配,如果匹配率大于设定值,所述设定值的取值范围是0.3~
0.7,则判定所述双语文本为互译文本。
5.由网页中提取双语平行正文的方法,其特征在于,该方法包括如下步骤:
存储大规模随机爬取的网页及其属性至网页数据库的步骤;
通过对已存储的网页的URL进行基于字符的散列处理,并将处理之后的所有网页按照其域名的相近程度分类存储的步骤,该步骤具体包括:计算每个网页的域名中的主域名和每个子域的哈希值步骤,将主域名的哈希值相同的所有网页存在一个大类中的步骤,将该大类中所有网页中下一级子域名的哈希值相同的所有网页再划分到一个子类中的步骤,以此类推,将所有网页分类存储的步骤;
提取每个网页的标签字符串的步骤;
提取该网页中的正文内容的步骤;记录提取的标签字符串以及相应网页正文内容的编码类型和正文长度,并存储至网页数据库的步骤;
对网页数据库中的所有网页的正文内容进行语言种类判断的步骤,该步骤进一步包括:当判定所述正文内容中存在规模相当的双语文本时,判定该网页为混合网页的步骤,否则判断该网页为单语种网页的步骤;
对混合网页中的双语文本进行互译判别的步骤,该步骤进一步包括:当判定为互译文本时,将该网页中的双语文本整理成双语平行文本格式并保存至双语语料库的步骤;
遍历网页数据库中的每一个未标识匹配的单语种网页进行处理的步骤,对每个单语种网页的处理过程包括:将该单语种网页中的正文内容与网页数据库中其它未标识匹配的单语种网页的正文内容进行互译判别的步骤,该步骤中选择其它未标识匹配单语种网页的原则是优先选择位于同一个子类中的单语种网页;将判定是互译文本的两个单语种网页中的正文内容整理成双语平行文本保存至双语语料库,并将所述两个单语种网页均标识为匹配的步骤。
6.根据权利要求5所述的由网页中提取双语平行正文的方法,其特征在于,所述网页属性包括网页的URL地址和爬取的时间。
7.根据权利要求5所述的由网页中提取双语平行正文的方法,其特征在于,所述提取每个网页的标签字符串的步骤还包括;对提取的网页的标签字符串进行判断的步骤,当所述标签字符串为、、、 时,继续提取该网页中的正文内容的步骤。
8.根据权利要求5所述的由网页中提取双语平行正文的方法,其特征在于,提取该网页中的正文内容的步骤进一步包括:在提取正文内容之后,判断正文内容的长度的步骤,并在所述长度大于30~80个字符的情况下,继续记录相应信息,否则记录该网页的URL,并将该网页从网页数据库中删除的步骤。
9.根据权利要求5所述的由网页中提取双语平行正文的方法,其特征在于,所述互译判别的方法包括如下步骤:利用字典遍历获得互译双语文本中的词语,并将这些词语作为锚点的步骤,判断它们在双语文本中位置是否匹配的步骤,如果匹配率大于设定值,所述设定值的取值范围是0.3~0.7,则判定所述双语文本为互译文本的步骤。由网页中提取双语平行正文的方法和系统\n技术领域\n[0001] 本发明涉及语料获取技术领域,具体涉及双语平行语料的获取技术领域。\n背景技术\n[0002] 统计机器翻译是机器翻译的方法之一,基本思想是通过对大量的平行语料进行统计分析,构建统计翻译模型,进而使用此模型进行翻译。近十年来,统计机器翻译的研究取得了很大进展,统计方法逐渐成为国际上机器翻译研究的主流方法。目前常用的机器翻译系统大多采用统计方法,比如Google翻译、Bing翻译和百度翻译。\n[0003] 在统计机器翻译技术中,平行语料库起到了至关重要的作用。有充足数量和良好质量的平行语料,是建立高性能统计机器翻译系统的必要条件。\n[0004] 目前的平行语料都有特定来源,它们的规模有限。\n发明内容\n[0005] 本发明所要解决的技术问题是提供一种从网页中提取双语平行语料的方法与系统,以克服现有的语料库收集效率低和规模不足的问题。本发明提供了由网页中提取双语平行正文的方法和系统。\n[0006] 本发明所述的由网页中提取双语平行正文的系统包括:\n[0007] 网页数据库,用于存储大规模随机爬取的网页及其属性;还用于通过网页的URL进行基于字符的散列处理,并将处理之后的所有网页按照其域名的相近程度分类存储;将所有网页按照其域名的相近程度分类存储是指:将每个网页的域名中的主域名和每个子域名计算获得相应的哈希值,将主域名的哈希值相同的所有网页存在一个大类中,将该大类中下一级子域名的哈希值相同的所有网页再划分到一个子类中,以此类推,将所有网页分类存储;\n[0008] 正文信息提取模块,用于提取每个网页的标签字符串,还用于提取该网页中的正文内容,并且记录所述标签字符串以及该网页正文内容的编码类型和正文长度,并存储至网页数据库;\n[0009] 网页类型判别模块,用于对网页数据库中的所有网页的正文内容进行语言种类判断,如果所述正文内容中存在规模相当的双语文本,则判定该混合网页为混合网页,否则判断该网页为单语种网页;\n[0010] 混合网页处理模块,用于对混合网页中的双语文本进行互译判别,当判定为互译文本时,将该网页中的双语文本整理成双语平行文本格式并保存至双语语料库。\n[0011] 单语种网页处理模块,用于遍历网页数据库中的每一个未标识匹配的单语种网页进行处理,对每个单语种网页的处理过程为:将该单语种网页中的正文内容与网页数据库中其它未标识匹配的单语种网页的正文内容进行互译判别,选择其它未标识匹配单语种网页的原则是优先选择位于同一个子类中的单语种网页,将判定是互译文本的两个单语种网页中的正文内容整理成双语平行文本保存至双语语料库,并将所述两个单语种网页均标识为匹配。\n[0012] 本发明所述的由网页中提取双语平行正文的方法包括如下步骤:\n[0013] 存储大规模随机爬取的网页及其属性至网页数据库的步骤;\n[0014] 通过对已存储的网页的URL进行基于字符的散列处理,并将处理之后的所有网页按照其域名的相近程度分类存储的步骤,该步骤具体包括:计算每个网页的域名中的主域名和每个子域的哈希值步骤,将主域名的哈希值相同的所有网页存在一个大类中的步骤,将该大类中所有网页中下一级子域名的哈希值相同的所有网页再划分到一个子类中的步骤,以此类推,将所有网页分类存储的步骤;\n[0015] 提取每个网页的标签字符串的步骤;\n[0016] 提取该网页中的正文内容的步骤;记录提取的标签字符串以及相应网页正文内容的编码类型和正文长度,并存储至网页数据库的步骤;\n[0017] 对网页数据库中的所有网页的正文内容进行语言种类判断的步骤,该步骤进一步包括:当判定所述正文内容中存在规模相当的双语文本时,判定该混合网页为混合网页的步骤,否则判断该网页为单语种网页的步骤;\n[0018] 对混合网页中的双语文本进行互译判别的步骤,该步骤进一步包括:当判定为互译文本时,将该网页中的双语文本整理成双语平行文本格式并保存至双语语料库的步骤;\n[0019] 遍历网页数据库中的每一个未标识匹配的单语种网页进行处理的步骤,对每个单语种网页的处理过程包括:将该单语种网页中的正文内容与网页数据库中其它未标识匹配的单语种网页的正文内容进行互译判别的步骤,该步骤中选择其它未标识匹配单语种网页的原则是优先选择位于同一个子类中的单语种网页;将判定是互译文本的两个单语种网页中的正文内容整理成双语平行文本保存至双语语料库,并将所述两个单语种网页均标识为匹配的步骤。\n[0020] 上述正文内容的长度是根据正文内容中的字符数量计算获得正文长度。\n[0021] 本发明克服了现有技术领域的技术偏见,将互联网作为语料获取对象,由此带来的技术效果有:\n[0022] 1、由于互联网中存在大量的双语平行文本,从互联网提取出双语平行文本加以训练成双语语料,获取信息量大,语种丰富。\n[0023] 2、由于互联网中的信息是不断更新的,因此将互联网作为语料获取对象获得的双语语料也能够达到持续的更新和增长的效果。\n[0024] 采用本发明获得双语语料,能够大大加快语料的收集效率,也能解决特定来源的语料规模不足的问题。\n附图说明\n[0025] 图1为本发明所述的由网页中提取双语平行正文的系统的工作原理示意图。\n具体实施方式\n[0026] 具体实施方式一、本实施方式所述的由网页中提取双语平行正文的系统包括:\n[0027] 网页数据库,用于存储大规模随机爬取的网页及其属性;还用于通过网页的URL进行基于字符的散列处理,并将处理之后的所有网页按照其域名的相近程度分类存储;将所有网页按照其域名的相近程度分类存储是指:将每个网页的域名中的主域名和每个子域名计算获得相应的哈希值,将主域名的哈希值相同的所有网页存在一个大类中,将该大类中下一级子域名的哈希值相同的所有网页再划分到一个子类中,以此类推,将所有网页分类存储;\n[0028] 正文信息提取模块,用于提取每个网页的标签字符串,还用于提取该网页中的正文内容,并且记录所述标签字符串以及该网页正文内容的编码类型和正文长度,并存储至网页数据库;\n[0029] 网页类型判别模块,用于对网页数据库中的所有网页的正文内容进行语言种类判断,如果所述正文内容中存在规模相当的双语文本,则判定该混合网页为混合网页,否则判断该网页为单语种网页;\n[0030] 混合网页处理模块,用于对混合网页中的双语文本进行互译判别,当判定为互译文本时,将该网页中的双语文本整理成双语平行文本格式并保存至双语语料库。\n[0031] 单语种网页处理模块,用于遍历网页数据库中的每一个未标识匹配的单语种网页进行处理,对每个单语种网页的处理过程为:将该单语种网页中的正文内容与网页数据库中其它未标识匹配的单语种网页的正文内容进行互译判别,选择其它未标识匹配单语种网页的原则是优先选择位于同一个子类中的单语种网页,将判定是互译文本的两个单语种网页中的正文内容整理成双语平行文本保存至双语语料库,并将所述两个单语种网页均标识为匹配。\n[0032] 所述正文内容的长度是根据正文内容中的字符数量计算获得正文长度。\n[0033] 具体实施方式二、本实施方式是对具体实施方式一所述的网页中提取双语平行正文的系统中网页属性的进一步说明,本实施方式中,所述网页属性包括网页的URL地址和爬取的时间。\n[0034] 具体实施方式三、本实施方式是对具体实施方式一所述的由网页中提取双语平行正文的系统的正文信息提取模块的进一步限定,所述正文信息提取模块还用于对提取的网页的标签字符串进行判断,当所述标签字符串为、、、 时,继续提取该网页中的正文信息。\n[0035] 本实施方式中,在正文信息提取模块中增加了判断标签字符串的功能,即:有选择型的提取网页的正文,由于在上述几种标签下的文本属于正文的可能较高,因此提取上述标签包含的内容,进而减少数据处理量、增加提取信息的可用性的几率。\n[0036] 具体实施方式四、本实施方式是对具体实施方式一所述的由网页中提取双语平行正文的系统的正文信息提取模块的进一步限定,所述正文信息提取模块还用于在提取正文内容之后,判断正文内容的长度,并在所述长度大于30~80个字符的情况下,继续记录相应信息,否则记录该网页的URL,并将该网页从网页数据库中删除。\n[0037] 具体实施方式五、本实施方式是对具体实施方式一所述的由网页中提取双语平行正文的系统中互译判别的方法的进一步说明,所述互译判别的方法为:利用字典遍历获得互译双语文本中的词语,并将这些词语作为锚点,判断它们在双语文本中位置是否匹配,如果匹配率大于设定值,所述设定值的取值范围是0.3~0.7,则判定所述双语文本为互译文本。\n[0038] 具体实施方式六、本实施方式是对具体实施方式一所述的由网页中提取双语平行正文的系统中规模相当的双语文本的进一步限定,本实施方式中所述规模相当的双语文本是指两种语言文本的长度比例在设定范围内。\n[0039] 具体实施方式七、本实施方式所的由网页中提取双语平行正文的方法包括如下步骤:\n[0040] 存储大规模随机爬取的网页及其属性至网页数据库的步骤;\n[0041] 通过对已存储的网页的URL进行基于字符的散列处理,并将处理之后的所有网页按照其域名的相近程度分类存储的步骤,该步骤具体包括:计算每个网页的域名中的主域名和每个子域的哈希值步骤,将主域名的哈希值相同的所有网页存在一个大类中的步骤,将该大类中所有网页中下一级子域名的哈希值相同的所有网页再划分到一个子类中的步骤,以此类推,将所有网页分类存储的步骤;\n[0042] 提取每个网页的标签字符串的步骤;\n[0043] 提取该网页中的正文内容的步骤;记录提取的标签字符串以及相应网页正文内容的编码类型和正文长度,并存储至网页数据库的步骤;\n[0044] 对网页数据库中的所有网页的正文内容进行语言种类判断的步骤,该步骤进一步包括:当判定所述正文内容中存在规模相当的双语文本时,判定该混合网页为混合网页的步骤,否则判断该网页为单语种网页的步骤;\n[0045] 对混合网页中的双语文本进行互译判别的步骤,该步骤进一步包括:当判定为互译文本时,将该网页中的双语文本整理成双语平行文本格式并保存至双语语料库的步骤;\n[0046] 遍历网页数据库中的每一个未标识匹配的单语种网页进行处理的步骤,对每个单语种网页的处理过程包括:将该单语种网页中的正文内容与网页数据库中其它未标识匹配的单语种网页的正文内容进行互译判别的步骤,该步骤中选择其它未标识匹配单语种网页的原则是优先选择位于同一个子类中的单语种网页;将判定是互译文本的两个单语种网页中的正文内容整理成双语平行文本保存至双语语料库,并将所述两个单语种网页均标识为匹配的步骤。\n[0047] 所述正文内容的长度是根据正文内容中的字符数量计算获得正文长度。\n[0048] 具体实施方式八、本实施方式是对具体实施方式七所述的由网页中提取双语平行正文的方法中的网页属性的进一步限定,本实施方式中,所述网页属性包括网页的URL地址和爬取的时间。\n[0049] 具体实施方式九、本实施方式是对具体实施方式七所述的由网页中提取双语平行正文的方法的进一步限定,所述提取每个网页的标签字符串的步骤还包括;对提取的网页的标签字符串进行判断的步骤,当所述标签字符串为、、、 时,继续提取该网页中的正文内容的步骤。\n[0050] 本实施方式中,在提取每个网页的标签字符串的步骤中增加了判断标签字符串的步骤,即:有选择型的提取网页的正文,由于在上述几种标签下的文本属于正文的可能较高,因此提取上述标签包含的内容,进而减少数据处理量、增加提取信息的可用性的几率。\n[0051] 具体实施方式十、本实施方式是对具体实施方式七所述的由网页中提取双语平行正文的方法中提取该网页中的正文内容的步骤的进一步限定,所述提取该网页中的正文内容的步骤进一步包括:在提取正文内容之后,判断正文内容的长度的步骤,并在所述长度大于30~80个字符的情况下,继续记录相应信息,否则记录该网页的URL,并将该网页从网页数据库中删除的步骤。\n[0052] 本实施方式中在提取该网页中的正文内容的步骤中赠加了判断正文内容长度的功能,丢弃那些长度小的网页。\n[0053] 具体实施方式十一、本实施方式是对具体实施方式七所述的由网页中提取双语平行正文的方法中的互译判别的一步限定,本实施方式中所述互译判别的方法包括如下步骤:利用字典遍历获得互译双语文本中的词语,并将这些词语作为锚点的步骤,判断它们在双语文本中位置是否匹配的步骤,如果匹配率大于设定值,所述设定值的取值范围是\n0.3~0.7,则判定所述双语文本为互译文本的步骤。\n[0054] 具体实施方式十二、本实施方式是对具体实施方式七所述的由网页中提取双语平行正文的方法中规模相当的双语文本的进一步限定,本实施方式中所述规模相当的双语文本是指两种语言文本的长度比例在设定范围内。\n[0055] 本发明上述各实施方式所述的具体技术方案是对本发明所述技术方案的详细说明,不应理解为对本发明的限制。法律信息引用专利(该专利引用了哪些专利)序号公开(公告)号公开(公告)日申请日专利名称申请人
1
2008-06-18
2007-11-28
一种双语语料库过滤方法及系统失效专利
2
暂无
2005-06-14
被引用专利(该专利被哪些专利引用)序号公开(公告)号公开(公告)日申请日专利名称申请人养殖生态鸡产蛋期用蝇蛆蛋白粉饲料发明专利
申请号:CN200810059501.1
LOC分类号:A23K1/10
一种纺涤纶长丝的可循环自动送风、回风装置实用新型专利
申请号:CN201420175700.X
LOC分类号:F24F7/08
一种嵌合PMO结构的寡核酸合成工艺发明
申请号:CN202411219890.5
LOC分类号:
基于指纹与导航键重合的手机信息安全保护系统及方法发明专利
申请号:CN201210107754.8
LOC分类号:H04M1/23
和频输出蓝光的激光装置实用新型专利
申请号:CN02237592.9
LOC分类号:
热门业务常用工具规则与服务商务合作关于我们服务热线路标网:023-88392937快申报:023-88392959工作日:9:00-12:00/13:30-18:00热搜城市北京聚集科技有限公司版权所有Copyright @ CHATM ALL Right Reserve