著录项信息
专利名称 | 现代汉语信息全息拉丁化汉语语音码处理法 |
申请号 | CN200610029629.4 | 申请日期 | 2006-08-01 |
法律状态 | 权利终止 | 申报国家 | 中国 |
公开/公告日 | 2008-02-06 | 公开/公告号 | CN101118539 |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/28 | IPC分类号 | G;0;6;F;1;7;/;2;8;;;G;0;6;F;3;/;0;2;3查看分类表>
|
申请人 | 苗玉水 | 申请人地址 | 江苏省苏州市太仓市科教新城健雄路20号
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 江苏华音信息科技有限公司 | 当前权利人 | 江苏华音信息科技有限公司 |
发明人 | 苗玉水 |
代理机构 | 暂无 | 代理人 | 暂无 |
摘要
本发明是一种计算机或嵌入式系统汉语语音码汉语全息信息处理方法,属于汉语信息处理技术领域。它用且仅用26个拉丁字母以词为单位对汉语信息进行处理,能够与ASCII码100%兼容。本发明能广泛应用于汉语信息处理、图书出版、汉语教学、农村地区扫盲和对外汉语教学等领域。本发明采用的汉语语音码可以直接用于表达汉语信息,特别是为不识或不习惯汉字的人学习、了解、掌握、表达汉语信息和汉语普通话提供了极大的便利。
现代汉语信息全息拉丁化汉语语音码处理法\n一、所属技术领域\n[0001] 本发明申请的技术是一种现代汉语信息全息拉丁化汉语语音码处理法,属于汉字汉语信息处理技术领域。它用且仅用26个拉丁字母以词为单位对组成汉语单词音节的声、韵、调进行全息编码并依次顺序书写、印刷、打印、储存、显示、通讯、传输等。\n二、背景技术\n[0002] 二十世纪四十年代起,计算机的飞速发展在全球范围内引起了一场以电子计算机为中心的第三次技术革命,它把人类从繁重的脑力劳动中解放出来,开创了人类智力解放的新纪元。\n[0003] 众所周知,计算机主要是通过处理128个ASCII码符号的方法来进行字符信息处理的,由于26个拉丁字母在ASCII码符集内,因此,使用以英文为代表的,以26个拉丁字母为码元的拼音文字的国家能够顺利地进行这次新技术革命,从飞跃发展的经济中得到好处。在第一次世界大战之前世界上只有60个国家用26个拉丁字母来拼写表达本国的语言信息,而第二次世界大战后使用26个字母来拼写表达本国语言信息的国家已经达到了120个,其实这也反映了我们这个星球上的大多数国家在这个问题上的价值取向。\n[0004] 由于我国长期来一直未能发明出用且仅用26个字母全息拼写表达汉语信息的技术,因此与世界极大多数国家不同,我国记录汉语语言信息仍然使用的是方块表意汉字,它不是一种拼音文字,这就给计算机的汉语和汉字信息处理带来很大的麻烦。尽管1958年中国中央人民政府颁布了《汉语拼音方案》作为表达汉语信息另一种辅助手段,但是由于受到当时历史条件的局限,从现代计算机对信息处理技术的要求来看,《汉语拼音方案》本身还存在以下几个方面的不足:第一拼式太长,第二五个声调没有字母化且不在ASCII码的范围内,第三汉语单词音节的声、韵、调没有便于计算机信息处理的从左到右的一维线性排列,而是上下排列,第四如果没有非字母化的汉语拼音隔音节符号的隔音节帮助,汉语拼音在以词为单位连写时,音节和音节之间往往容易发生混淆,产生混音现象。所有这些都不便于计算机对汉语信息的处理。一个便于计算机对汉语信息进行处理的汉语音节的语音码的理想状况是:第一每一个汉语音节必须含有声韵调全部信息,第二任意多的音节被连写在一起后,音节与音节之间不能发生混淆,产生混音现象。第三整个语音码必须采用26个拉丁字母从左到右一维线性排列,这样一方面能与ASCII码100%兼容,另一方面便于计算机信息处理;第四整个语音码必须方便地与汉语拼音、汉语语音和以词为单位的汉字的转换;\n第五该语音码本身不需要被转换成汉字或汉语拼音或汉语语音就能够方便地直接表达汉语信息,能够非常容易地被人们拼读成汉语标准语音,从而根据这汉语标准语音理解出它所要表达的汉语信息的意义。\n[0005] 为此,众多专家,学者在这方面进行了研究和探索,但是由于汉语是一种有声调的非常特别的语言,要想用且仅用26个拉丁字母,就能够对包含汉语的22个声母(含一个零声母),38个韵母,5个声调(包含一个轻声)进行编码,而且为了让任意多的音节被连写在一起后,音节与音节之间不能发生混淆,产生混音现象,每一个音节里还必须隐含一个字母化的隔音节符号,这样就使得该技术方案的难度非常大,这也可能是长期以来这个问题一直没有人有效解决的根本原因,据了解,目前只有历史上的中国的文字改革方案中和目前的微软拼音里用阿拉伯数字表示汉语音节的声调,表示汉语语音音节时采用“声母全拼+韵母全拼+数字表示的声调”的方式,这样做是比目前的汉语拼音声调写在韵母上面有进步,解决了上面提到的《汉语拼音方案》本身还存在以下几个方面的不足中的其中一个不足,即汉语单词音节的声、韵、调没有便于计算机信息处理的从左到右的一维线性排列,但上面提到的《汉语拼音方案》本身还存在以下其它几个方面的主要不足还是未能解决,从汉语信息的编码技术角度看,其实质是未能发明出用且仅用26个码元,特别是用且仅用26个拉丁字母作为码元对包含汉语的22个声母(含一个零声母),38个韵母,5个声调(含一个轻声)进行编码的技术,更不要说发明出由于仅用26个拉丁字母作为码元,汉语按词连写后的音节和音节之间的隔音节技术。\n三、发明内容\n[0006] 本发明的目的是为了通过提供一种全新的根据汉语语音特点,用且仅用26个拉丁字母对组成每一个汉语单词音节的声母、介母、韵母、声调进行科学合理的编码,汉语单词的每一个音节按照“声码+介码+韵码+调码兼隔音节符号”的顺序,以按词连写的方式进行书写、印刷、打印、储存、显示、通讯、传输等,从而达到用它来直接表达汉语信息,以克服以上不足的目的。\n[0007] 众所周知:汉语是通过语言中最小的有意义的能够自由运用的单位——汉语单词来进行信息表达和传递的,汉语单词由若干个音节组成(一般一个音节对应一个汉字,因此我们可以将单独运用的一个汉字看作为一个单音节词,以上以下均同),不管每一个音节有多复杂,它都是由声、韵、调三个部份组成。本发明采用世界上通用的26个拉丁字母,按同音同形法则对《汉语拼音方案》中的全部声母、介母、韵母、声调进行上述编码,并以一定的顺序书写、印刷、打印、储存、显示、通讯、传输,再按照汉语的组词规律将任意多个音节以词为单位,音节与音节之间不用空格连续书写、印刷、打印、储存、显示、通讯、传输就完成了汉语单词的书写、印刷、打印、储存、显示、通讯、传输,以这些书写、印刷、打印、储存、显示、通讯、传输的汉语单词(包括单音节词汉字)为基础就可以表达汉语信息了。\n[0008] 例如:我们利用本发明的方法分别表示以下汉语单词:\n[0009] 我们(wǒmen) wovmno;会(huì) huiu;\n[0010] 使用(shǐ yòng) xrvydu;汉语(hàn yǔ) hsuyyv;\n[0011] 拉丁文(lādīngwěn) laadqawnv。\n[0012] 将以上单词按照所要表达汉语意思的语序以单词为单位,词与词之间用空格隔开依次书写、印刷、打印、储存、显示、通讯、传输就可以表达一句汉语句子,该汉语句子可以有以下三种表达方式:\n[0013] 1、直接用本发明方法表达的汉语信息:\n[0014] wovmno huiu xrvydu hsuyyv laadqawnv.\n[0015] 2、用《汉拼》表达的汉语信息:\n[0016] wǒmen huì shǐyòng hàn yǔ lādīngwěn。\n[0017] 3、用汉字表达的汉语信息:\n[0018] 我们 会 使用 汉语 拉丁文。\n[0019] 同理我们可以用同样的方法书写、印刷、打印、储存、显示、通讯、传输所有的汉语单词,以这些单词为基础,我们就可以书写、印刷、打印、储存、显示、通讯、传输任何我们想要表达的汉语信息。通过以上三种用不同方式表达的汉语同一句子,我们还可以看到:\n[0020] 由于本发明的编码与《汉语拼音方案》具有一一对应关系(详见下面编码与汉拼对照表),又由于《汉语拼音方案》可以脱离汉字直接用来表达汉语信息,同理根据本发明的方法书写、印刷、打印、储存、显示、通讯、传输的汉语单词也可以脱离汉字直接用来表达汉语信息,又由于《汉语拼音方案》所表达的以词为单位的汉语信息结合前后语义与以词为单位的相对应汉字基本上具有一一对应关系,根据递推规律用本发明书写、印刷、打印、储存、显示、通讯、传输的以词为单位的汉语单词与相对应的以词为单位的汉字也具有这种一一对应关系,同时在用本发明方法书写、印刷、打印、储存、显示、通讯、传输的汉语单词码直接表达汉语信息时,其标点符号的用法和意义采用同英文相一致的方法,这样用本发明方法书写、打印、显示、通讯、传输的汉语单词码就可以脱离汉字直接以与ASCII码100%兼容的西码状态(26个拉丁字母状态)表达汉字汉语信息,同时也就决定了它可以仅在需要时转换成相对应的汉字或汉语拼音或汉语语音。这也就表明了,用本发明方法书写、印刷、打印、储存、显示、通讯、传输的汉语单词码具有全息可逆的特点。由于与汉字或汉语拼音不同,本发明方法所采用的语音码与ASCII码100%兼容,因此,所有西文软硬件资源不加改造就能用来处理用本发明方法表达的汉语信息,这些也就是与当今所有其它各类汉语信息表达方式相比本发明取得显著技术进步的地方。\n[0021] 本发明具有简单易学的特点,能广泛应用于计算机汉语、汉字信息处理,为汉语阅读机、口授机、外文翻译机的诞生奠定了基础,同时由于采用26个字母进行编码,因此世界上一切能处理26个字母的信息处理机都能处理利用本发明所表达的汉语信息。通过在实践中的不断完善和普及,用本发明方法书写、印刷、打印、储存、显示、通讯、传输的汉语单词码,还可以发展成为一种汉语的拼音文字,可以象用英文处理英语信息一样方便地处理汉语信息。\n四、具体实施方式\n[0022] 下面结合实施例对本发明的具体实施方式作进一步的说明。\n[0023] (一)汉语每一音节声、韵、调的编码方法:\n[0024] 注:括号内的符号均为汉语拼音符号,不带括号的字母为本发明的汉语每一音节声、韵、调的编码,以上以下叙述均同。\n[0025] 1、声码的编码:\n[0026] b:(b) p:(p) m:(m) f:(f) d:(d) t:(t)\n[0027] n:(n) l:(l) g:(g) k:(k) h:(h)\n[0028] j:(zh),(j) q:(ch),(q) x:(sh),(x) r:(r)\n[0029] z:(z) c:(c) s:(s) y:(y) w:(w)\n[0030] 声母除汉语拼音的(zh)、(ch)、(sh)用j、q、x编码外,其它都采用与原来汉语拼音符号相同的编码。因为在汉语音节中除(i)外,能直接与汉语拼音(j)、(q)、(x)相拼的介母、韵母都不能直接与汉语拼音的(zh)、(ch)、(sh)相拼,反之亦然。所以为了缩短拼式,将(zh)、(ch)、(sh)分别采用j、q、x进行编码,表达汉语信息时就不会产生混拼和歧义。另外,若汉语音节无声母时,书写、印刷、打印、储存、显示、通讯、传输时允许省略声码。\n[0031] 2、介码的编码:\n[0032] i:(i) u:(u) y:(ü)\n[0033] 介码除了将汉语拼音(ü)用拉丁字母y来进行编码外,其它介码的编码采用与拼音相同的符号,这样的编码主要是为了方便记忆和将语音码的码元控制在26个字母内,在书写、印刷、打印、储存、显示、通讯、传输码元时,要注意把有介母的音节将其对应的介码表示出来。另外,若汉语单词音节无介母,则书写、印刷、打印、储存、显示、通讯、传输时可省略介码。\n[0034] 3、韵码的编码:\n[0035] a:(a) o:(o) e:(e) i:(i) u:(u) y:(ü)\n[0036] k:(ao) c:(ai) s:(an) x:(ou) w:(ei) n:(en)\n[0037] z:(ua) l:(uo) b:(ang) d:(ong) p:(eng)\n[0038] q:(ing) g:(ng) er:(er)\n[0039] r:(i),只与(zh)、(ch)、(sh)相拼\n[0040] 韵码除单韵母的编码采用与原汉语拼音单韵母相同符号进行编码外(将(ü)用y进行编码),其余复合韵母的编码采用辅音字母,以缩短码元的长度,之所以采用辅音而不采用元音进行编码是为了防止汉语单词编码后,汉语单词码产生混拼和歧义。因为韵码位置的元音本身可作韵母,而辅音字母则相反。为了便于记忆,五个带后鼻音的韵母都采用字形带“o”圈的字母b、d、p、q、g进行编码,带有介母的韵母除(ua)、(uo)、(ing)采用辅音字母z、l、q进行编码外,其它都不另外进行编码,之所以要对(ua)、(uo)进行辅音字母的编码,主要是为了在轻音码省略时不引起本发明码的误读,因为(ua)、(uo)中的(a)、(o)即可以代表韵母又可代表声调,举例来说,汉语拼音(guo)(轻声),在(uo)不进行一个辅音字母编码时(guo)表示成guoo,此时轻音码“o”不能省略,否则guo会被误译成(gu)(轻声),将(uo)采用辅音字母l进行编码,则(guo)(轻声)的语音码表示为glo,此时可省略轻音码“o”语音码变成gl(guo)不会产生误拼和歧义,用辅音字母q来对(ing)进行编码是为了缩短码元的长度。其它有介母的复合韵母不再进行辅音字母的编码是为了符合人们的拼音习惯和减轻人们的记忆负担。与汉语拼音(zh)、(ch)、(sh)相拼的(i)音采用辅音字母r进行编码,以避免汉语拼音的(j)、(q)、(x)与汉语拼音的(i)相拼时相混淆,即本发明中的jr、qr、xr分别代表汉语拼音的(zhi)、(chi)、(shi),ji、qi、xi分别代表汉语拼音的(ji)、(qi)、(xi)。这里之所以选用r来进行编码该音,还有一种该音节是翘舌音的暗示,方便记忆。\n[0041] 4、调码的编码:\n[0042] a:(-)阴平e:(/)阳平v:(∨)上声u:(\)去声o:(不标)轻声\n[0043] 调码的编码除了上声(∨)用一个汉语不用的辅音字母v进行编码外,其余均采用元音字母a、e、u、o来进行编码,将声调码采用元音来进行编码而不采用辅音来进行编码,一方面是为了避免按本发明方法表示的单词码在前一音节轻音“o”省略情况下引起误拼,而辅音v例外,因为汉语中没有v这个声母,另一方面,调码只有采用元音和一个汉语不用的辅音v来进行编码,再结合前面声码、介码、韵码字母类型的科学选择和相应的编码按排及每一音节按“声码+介码+韵码+调码兼隔音节符号”的顺序依次编码,所表示的汉语单词码中的调码的隔音节作用才能得到最终实现。另外,为了缩短拼式,在不会引起误拼时,允许省略轻音调码“o”,但当一个音节中用,a、o、e、u作韵母时,后面的轻音调码“o”一般不能省略。\n[0044] (二)利用上述编码的汉语信息全息表示方法是:\n[0045] 以单词为单位,这里将单个汉字看作单音节词,根据组成该单词的每个音节的《汉语拼音方案》中的拼音,依次按“声码+介码+韵码+调码兼隔音节符号”的顺序书写、印刷、打印、储存、显示、通讯、传输,书写、印刷、打印、储存、显示、通讯、传输时同一个单词的多个音节不用空格隔开连续书写、印刷、打印、储存、显示、通讯、传输,单词与单词之间用空格隔开。\n[0046] 这里由于将独立运用的汉字看作单音节词,因此,本发明方法的汉字语音码的书写、印刷、打印、储存、显示、通讯、传输方法和汉语单词的方法相同,我们将由若干个单词组成的一组词称为词组,本发明的词组的表示方法同汉语句子表示方法相同。一般整句整篇以词为单位表示汉语信息时,理解时一般不需要进行同音字词的选择,原则上听起来不会产生歧义的句子,书写、印刷、打印、储存、显示、通讯、传输后也不会产生歧义。\n[0047] 下面例举一些用本发明方法表示的汉语单词码和相对应的以词为单位的汉字及用《汉语拼音方案》表达的相对应的汉语拼音。(带括号的是《汉拼》不带括号的是用本发明方法表示的汉语单词码和相应的汉字)。\n[0048] \n[0049]
法律信息
- 2021-07-09
未缴年费专利权终止
IPC(主分类): G06F 17/28
专利号: ZL 200610029629.4
申请日: 2006.08.01
授权公告日: 2013.07.31
- 2017-01-04
专利权的转移
登记生效日: 2016.12.13
专利权人由上海能感物联网有限公司变更为江苏华音信息科技有限公司
地址由201111 上海市闵行区曙光路280号第30幢169室变更为215411 江苏省苏州市太仓市科教新城健雄路20号
- 2013-07-31
- 2013-01-16
专利申请权的转移
登记生效日: 2012.12.12
申请人由苗玉水变更为上海能感物联网有限公司
地址由200093 上海市杨浦区控江一村44号甲105室变更为201111 上海市闵行区曙光路280号第30幢169室
- 2008-04-02
- 2008-02-06
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
1992-04-01
|
1990-09-20
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |