著录项信息
专利名称 | 汉印双语平行语料自动采集的系统及实现方法 |
申请号 | CN201510407512.4 | 申请日期 | 2015-07-13 |
法律状态 | 驳回 | 申报国家 | 中国 |
公开/公告日 | 2015-11-11 | 公开/公告号 | CN105045861A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/30 | IPC分类号 | G;0;6;F;1;7;/;3;0查看分类表>
|
申请人 | 广西达译商务服务有限责任公司;南宁市平方软件新技术有限责任公司 | 申请人地址 | 广西壮族自治区南宁市科园东五路4号508室
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 广西达译商务服务有限责任公司,南宁市平方软件新技术有限责任公司 | 当前权利人 | 广西达译商务服务有限责任公司,南宁市平方软件新技术有限责任公司 |
发明人 | 温家凯;农强;刘连芳;潘媛媛 |
代理机构 | 北京科亿知识产权代理事务所(普通合伙) | 代理人 | 张锋 |
摘要
一种汉印双语平行语料自动采集的系统及实现方法,包括汉印双语平行信息的自动发现、自动提取、自动整理,首先,制定需要采集语料的关键词组,通过搜索引擎搜索网站,采集网页得到搜索结果,对搜索结果的信息进行过滤和筛选后,将经过滤得搜索结果存储于搜索结果数据库;其次,通过访问搜索结果数据库里的网页,自动提取汉印双语平行信息;最后,针对自动提取的汉印双语平行信息,进行数据过滤,并将经过过滤处理后的汉印双语平行数据存放到汉印双语平行语料库。本发明为汉印语言研究和机器翻译应用提供重要基础数据,解决了语料采集人员和研究人员所面临的数据来源的问题,为双语语料自动采集的发展和汉印自然语言处理做出了杰出的贡献。
1.一种汉印双语平行语料自动采集的系统,包括汉印双语平行信息的自动发现模块、自动提取模块、自动整理模块,其特征在于:
(1)自动发现模块:实现汉印双语平行语料自动发现的功能,制定需要采集语料的关键词组,通过搜索引擎搜索网站,采集网页得到搜索结果,对搜索结果的信息进行过滤和筛选后,将经过滤得搜索结果存储于搜索结果数据库;
(2)自动提取模块:实现汉印双语平行语料自动提取的功能,通过访问搜索结果数据库里的网页,自动提取汉印双语平行信息;
(3)自动整理模块:针对自动提取的汉印双语平行信息,进行数据过滤,并将经过过滤处理后的汉印双语平行数据存放到汉印双语平行语料库。
2.根据权利要求1所述的汉印双语平行语料自动采集的系统,其特征在于,所述自动发现模块的汉印双语平行语料自动发现工作流程为:制定一组或多组汉印互译关键词组,通过搜索引擎获取搜索结果,分析搜索结果并以之为目标进行数据获取。
3.根据权利要求1所述的汉印双语平行语料自动采集的系统,其特征在于,所述自动发现模块的汉印双语平行语料自动发现设计原则为:
a. 所选关键词组应为特定领域范围内的汉印互译词组对;
b. 使用的第三方搜索引擎工具为开放式提供搜索服务方;
c. 通过关键词组搜索得到结果后,只保存前n页信息,n与所选关键词的热门程度关联,保存内容包括搜素结果URL地址、搜索结果标题和搜索结果摘要。
4.根据权利要求1所述的汉印双语平行语料自动采集的系统,其特征在于,所述自动提取模块的双语平行语料自动提取工作流程为:使用网页机器人对目标网页进行访问,使用对应的汉印互译关键词组对目标页面内容进行内容定位,从定位点开始,前后遍历并获取页面数据。
5.根据权利要求1所述的汉印双语平行语料自动采集的系统,其特征在于,所述自动提取模块的网络双语平行语料提取原则:
a. 规定访问的页面文件类型只能为“html”、“htm”、“shtml”以及常见的页面文件类型,对非规定类型的页面将不进行访问;
b. 访问目标网页前,网络检查目标网站的robots.txt文件,若目标页面存在于robots.txt文件上,将不对该目标网页进行访问;
c. 要多抽取完整双语数据,在抽取过程中,包含在目标语言数据里的html标签页将视为抽取对象。
6.根据权利要求1所述的汉印双语平行语料自动采集的系统,其特征在于,所述自动提取模块的工作流程主要包含以下几个步骤:
(1) 非目标语言信息过滤:分别对采集到的汉印数据进行字符过滤,主要过滤html标签、网页代码和一些非语言符号,去除采集信息中的噪音数据,得到干净的汉印双语平行数据;
(2) 汉印分词过程:使用汉语和印度尼西亚语分词工具,对汉语和印度尼西亚语数据进行分词操作,为后面的数据处理过程提供基础。
7.根据权利要求1所述的汉印双语平行语料自动采集的系统,其特征在于,所述自动整理模块的工作流程主要包含以下几个步骤:
(1) 长度比和互译匹配率计算:针对自动抽取的数据进行有效过滤,分别对抽取回来的汉印双语平行数据中的每一组双语数据进行长度比和互译匹配率的计算,将长度差距较大的数据进行过滤,并进行汉印双语平行数据的互译匹配判断,筛选出正确的平行数据;
(2)将经过处理后的汉印双语平行数据将存放入汉印双语平行语料库。
8.根据权利要求1所述的汉印双语平行语料自动采集的系统,其特征在于,所述汉印双语平行语料自动采集系统的实现方法为:设置数据采集服务器、数据处理服务器、数据存储服务器和外网交换机、内网交换机,将自动发现模块嵌入数据采集服务器,自动提取模块、自动整理模块嵌入数据处理服务器;
数据采集人员将数据采集服务器与外网交换机连接,使数据采集服务器能访问到互联网服务,数据采集人员使用外网台式计算机编排需要采集数据的相关关键词组,确定采集任务后,向数据采集服务器发送启动自动采集请求,数据采集服务器接收台式电脑传输的关键词组数据和任务启动命令后,开始运行数据自动发现程序,通过互联网获取所有关键词组的搜索结果后,将搜索结果保存到本地;数据采集人员将数据采集服务器与外网交换机断开连接,并与内网交换机连接;
数据采集人员启动数据处理服务器中的数据自动提取和自动整理程序,数据处理服务器读取存储在数据采集服务器中的搜索结果,进行数据自动提取和自动整理,程序完成工作后,将获取到的所有的双语数据保存于数据存储服务器。
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2015-03-11
|
2014-11-07
| | |
2
| |
2013-02-13
|
2012-11-08
| | |
3
| |
2005-12-14
|
2005-05-06
| | |
4
| |
2013-04-03
|
2012-11-16
| | |
5
| |
2011-05-04
|
2009-10-14
| | |
6
| |
2014-06-25
|
2012-12-19
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |