著录项信息
专利名称 | 补字的排序存储方法及装置、创建补充字库的方法及装置 |
申请号 | CN201310364886.3 | 申请日期 | 2013-08-20 |
法律状态 | 暂无 | 申报国家 | 中国 |
公开/公告日 | 2015-03-18 | 公开/公告号 | CN104424196A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/30 | IPC分类号 | G;0;6;F;1;7;/;3;0查看分类表>
|
申请人 | 北大方正集团有限公司;方正信息产业控股有限公司;北京北大方正电子有限公司 | 申请人地址 | 北京市海淀区成府路298号中关村方正大厦5层
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 北京北大方正电子有限公司,新方正控股发展有限责任公司,北大方正信息产业集团有限公司 | 当前权利人 | 北京北大方正电子有限公司,新方正控股发展有限责任公司,北大方正信息产业集团有限公司 |
发明人 | 高玉军 |
代理机构 | 北京天昊联合知识产权代理有限公司 | 代理人 | 罗建民;邓伯英 |
摘要
本发明提供一种补字的排序存储方法,包括如下步骤1)判断待补充字符序列中的所有待补充字符是否均未被现有国际或国家编码标准收录,如是,则执行步骤2);2)对每个待补充字符进行数据整理和字形规范处理,以得出每个待补充字符的属性信息;3)根据每个待补充字符的属性信息,分别形成与每个待补充字符相对应的排序存储序列和索引值,并根据形成的各个排序存储序列分别在用户自定义区的相应位置处存储对应的待补充字符。相应地,提供一种补字的排序存储装置、创建补充字库的方法及装置。本发明能够避免字形重复,提高存储及检索效率,且能够与其他系统进行传输、交换。
1.一种补字的排序存储方法,其特征在于,包括如下步骤:
1)判断待补充字符序列中的所有待补充字符是否均未被现有国际或国家编码标准收录,如是,则执行步骤2);
2)对每个待补充字符进行数据整理和字形规范处理,以得出每个待补充字符的属性信息;
3)根据每个待补充字符的属性信息,分别形成与每个待补充字符相对应的排序存储序列和索引值,并根据形成的各个排序存储序列分别在用户自定义区的相应位置处存储对应的待补充字符,具体为:
311)根据每个待补充字符的属性信息分别形成与每个待补充字符相对应的多个排序因子,并为每个待补充字符对应的多个排序因子分别赋予编号和优先级;
312)按照优先级从高到低的顺序分别对每个待补充字符对应的多个排序因子进行排序,以分别形成每个待补充字符对应的排序存储序列,将每个待补充字符对应的排序存储序列中各个排序因子的编号组合,以分别形成每个待补充字符的索引值;
其中,所述多个排序因子包括使用频率排序因子,所述使用频率排序因子具有最高优先级;所述使用频率排序因子分为使用频率相对较高因子和使用频率相对较低因子,且所述使用频率相对较高因子和使用频率相对较低因子分别对应唯一的编号,而且每个待补充字符的使用频率能够动态调整,其方式为,每使用一次某待补充字符,自动记录其使用次数,若该待补充字符原来对应使用频率相对较低因子,则当该补充字符的使用次数累积到预设值时,就使该待补充字符对应使用频率相对较高因子,从而动态调整该补充字符的使用频率。
2.根据权利要求1所述的方法,其特征在于,
所述步骤1)中,判断所述待补充字符序列中的所有待补充字符是否均未被现有国际或国家编码标准收录具体为:
11)逐个将所述待补充字符序列中的待补充字符与现有国际或国家编码标准中所有字符进行多次对比,以从现有国际或国家编码标准中筛选出分别与每个待补充字符类似的字符或类似的字符序列;
12)逐个将所述待补充字符序列中的待补充字符与其类似的字符或类似的字符序列中的所有字符进行二次对比,若某个待补充字符与其类似的字符或类似的字符序列中的一个字符相同,将该待补充字符从所述待补充字符序列中去除,直至待补充字符序列中的所有待补充字符分别与其类似的字符或类似的字符序列中的所有字符都不同时,执行步骤2)。
3.根据权利要求2所述的方法,其特征在于,所述对比的方法采用图片对比或字形数据对比。
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述现有国际编码标准包括ISO/IEC 10646:2003,所述现有国家编码标准包括GB18030-2000和GB13000.1-1993。
5.根据权利要求1所述的方法,其特征在于,所述步骤2)中,待补充字符的属性信息包括:待补充字符的使用频率、间架结构、部首笔画数、部首笔画顺序、除部首外剩余笔画数、除部首外剩余笔画顺序和拼音。
6.根据权利要求1所述的方法,其特征在于,
所述多个排序因子还包括间架结构排序因子、部首排序因子、除部首外剩余笔画排序因子、拼音排序因子中的一种或多种;
所述间架结构排序因子分为独体结构因子、品字形结构因子、嵌套结构因子、上下结构因子、上中下结构因子、左右结构因子、左中右结构因子、全包围结构因子和半包围结构因子,上述所有结构因子分别对应唯一的编号;
所述部首排序因子包括部首笔画数和/或部首笔画顺序,且所述部首笔画数和部首笔画顺序分别对应唯一的编号;
所述除部首外剩余笔画排序因子包括除部首外剩余笔画数和/或除部首外剩余笔画顺序,且所述除部首外剩余笔画数和除部首外剩余笔画顺序分别对应唯一的编号;
所述拼音排序因子包括拼音字符和音调,且所述拼音字符和音调共同对应唯一的编号。
7.根据权利要求6所述的方法,其特征在于,
所述步骤3)中,根据形成的各个排序存储序列分别在用户自定义区的相应位置处存储对应的待补充字符具体为:
321)将所述用户自定义区划分成多个子区域;
322)依次检测每个排序存储序列中的使用频率排序因子,将具有使用频率相对较高因子的各个排序存储序列对应的待补充字符分配至用户自定义区中位置靠前的子区域,将具有使用频率相对低高因子的各个排序存储序列对应的待补充字符分配至用户自定义区中位置靠后的子区域;
323)根据每个排序存储序列中除使用频率排序因子之外的其它排序因子,对分配至用户自定义区中位置靠前的子区域的各个待补充字符进行排序存储,和对分配至用户自定义区中位置靠后的子区域的各个待补充字符进行排序存储;且当任一待补充字符的使用频率发生变化时,其在用户自定义区中的存储位置和索引值也相应发生变化。
8.一种创建补充字库的方法,其特征在于,所述方法为:采用如权利要求1-7中任一项所述的补字的排序存储方法在用户自定义区中依次存储多个未被现有国际或国家编码标准收录的待补充字符序列,从而形成补充字库。
9.根据权利要求8所述的方法,其特征在于,所述补充字库的字库格式为TrueType字库、OpenType字库、PostScript字库或者用户自定义字库。
10.一种补字的排序存储装置,其特征在于,包括:判断单元、处理单元和排序存储单元;
所述判断单元用于判断待补充字符序列中的所有待补充字符是否均未被现有国际或国家编码标准收录,如是,则将所述待补充字符序列发送至处理单元;
所述处理单元用于对每个待补充字符进行数据整理和字形规范处理,以得出每个待补充字符的属性信息,并将每个待补充字符的属性信息发送至排序存储单元;
所述排序存储单元用于根据每个待补充字符的属性信息,分别形成与每个待补充字符相对应的排序存储序列和索引值,并根据形成的各个排序存储序列分别在用户自定义区的相应位置处存储对应的待补充字符,其具体用于:
根据每个待补充字符的属性信息分别形成与每个待补充字符相对应的多个排序因子,并为每个待补充字符对应的多个排序因子分别赋予编号和优先级;
按照优先级从高到低的顺序分别对每个待补充字符对应的多个排序因子进行排序,以分别形成每个待补充字符对应的排序存储序列,将每个待补充字符对应的排序存储序列中各个排序因子的编号组合,以分别形成每个待补充字符的索引值;
所述排序存储单元形成的多个排序因子包括使用频率排序因子,所述使用频率排序因子具有最高优先级;所述使用频率排序因子分为使用频率相对较高因子和使用频率相对较低因子,且所述使用频率相对较高因子和使用频率相对较低因子分别对应唯一的编号,而且每个待补充字符的使用频率能够动态调整,其方式为,每使用一次某待补充字符,自动记录其使用次数,若该待补充字符原来对应使用频率相对较低因子,则当该补充字符的使用次数累积到预设值时,就使该待补充字符对应使用频率相对较高因子,从而动态调整该补充字符的使用频率。
11.根据权利要求10所述的装置,其特征在于,所述判断单元具体用于:
逐个将所述待补充字符序列中的待补充字符与现有国际或国家编码标准中所有字符进行多次对比,以从现有国际或国家编码标准中筛选出分别与每个待补充字符类似的字符或类似的字符序列;
逐个将所述待补充字符序列中的待补充字符与其类似的字符或类似的字符序列中的所有字符进行二次对比,若某个待补充字符与其类似的字符或类似的字符序列中的一个字符相同,将该待补充字符从所述待补充字符序列中去除,直至待补充字符序列中的所有待补充字符分别与其类似的字符或类似的字符序列中的所有字符都不同时,将所述待补充字符序列发送至处理单元。
12.根据权利要求11所述的装置,其特征在于,所述判断单元采用的对比方法为图片对比或字形数据对比。
13.根据权利要求10-12中任一项所述的装置,其特征在于,所述判断单元采用的现有国际编码标准包括ISO/IEC 10646:2003,现有国家编码标准包括GB18030-2000和GB13000.1-1993。
14.根据权利要求10所述的装置,其特征在于,所述处理单元得出的待补充字符的属性信息包括:待补充字符的使用频率、间架结构、部首笔画数、部首笔画顺序、除部首外剩余笔画数、除部首外剩余笔画顺序和拼音。
15.根据权利要求10所述的装置,其特征在于,所述排序存储单元形成的多个排序因子还包括间架结构排序因子、部首排序因子、除部首外剩余笔画排序因子、拼音排序因子中的一种或多种;
所述间架结构排序因子分为独体结构因子、品字形结构因子、嵌套结构因子、上下结构因子、上中下结构因子、左右结构因子、左中右结构因子、全包围结构因子和半包围结构因子,上述所有结构因子分别对应唯一的编号;
所述部首排序因子包括部首笔画数和/或部首笔画顺序,且所述部首笔画数和部首笔画顺序分别对应唯一的编号;
所述除部首外剩余笔画排序因子包括除部首外剩余笔画数和/或除部首外剩余笔画顺序,且所述除部首外剩余笔画数和除部首外剩余笔画顺序分别对应唯一的编号;
所述拼音排序因子包括拼音字符和音调,且所述拼音字符和音调共同对应唯一的编号。
16.根据权利要求15所述的装置,其特征在于,所述排序存储单元还用于:
将所述用户自定义区划分成多个子区域;
依次检测每个排序存储序列中的使用频率排序因子,将具有使用频率相对较高因子的各个排序存储序列对应的待补充字符分配至用户自定义区中位置靠前的子区域,将具有使用频率相对低高因子的各个排序存储序列对应的待补充字符分配至用户自定义区中位置靠后的子区域;
根据每个排序存储序列中除使用频率排序因子之外的其它排序因子,对分配至用户自定义区中位置靠前的子区域的各个待补充字符进行排序存储,和对分配至用户自定义区中位置靠后的子区域的各个待补充字符进行排序存储;且当任一待补充字符的使用频率发生变化时,其在用户自定义区中的存储位置和索引值也相应发生变化。
17.一种创建补充字库的装置,其特征在于,其用于采用如权利要求10-16中任一项所述的补字的排序存储装置在用户自定义区中依次存储多个未被现有国际或国家编码标准收录的待补充字符序列,从而形成补充字库。
18.根据权利要求17所述的装置,其特征在于,所述创建补充字库的装置形成的补充字库的字库格式为TrueType字库、OpenType字库、PostScript字库或者用户自定义字库。
补字的排序存储方法及装置、创建补充字库的方法及装置\n技术领域\n[0001] 本发明涉及计算机字符信息处理领域,具体涉及补字的排序存储方法及装置、创建补充字库的方法及装置。\n背景技术\n[0002] 截至目前,已经颁布的国际编码标准ISO/IEC10646:2003,和国家编码标准GB13000-2010、GB18030-2005中,已收录CJK统一汉字、CJK统一汉字扩充集A和CJK统一汉字扩充集B,共计70195字,而CJK统一汉字扩充集C1正在制定过程中。然而,如此庞大的字符集仍无法满足现有的使用需求。例如,无法满足公民个人信息中姓名、住址用字的需求。也就是说,公民个人信息的姓名、住址中的冷僻字,目前仍然没有被国际或国家编码标准所收录,因而现有的符合国际或国家编码标准的字库,都不支持公民个人信息中大量冷僻字的录入、显示、打印、存储、读取、传输、交换及处理,从而导致在涉及到公民个人信息处理的领域,例如公安人口信息管理系统、第二代居民身份证制证系统、银行、保险、海关等,经常会遇到居民姓名、住址中冷僻字的处理问题。\n[0003] 目前的现状是:用户发现自己使用的输入法无法录入某些汉字时,并不清楚是国际或国家编码标准中尚未收录该汉字,还是输入法未能覆盖现有的国际或国家编码标准,且不经编码查重,就按照自己的需求随便地补入一个字形,也未经数据整理和字形规范,就随便地将该字形放入用户自定义区的某个位置。如此一来,用户自定义区内的补字没有进行分级和排序存放,不仅存储无序、杂乱无章,造成用户自定义区内存储空间的浪费及检索效率的低下。而且,由于未经查重、整理,还可能存在字形重复。更为严重的是,这样产生的补字存储序列和补字字库,很难与其它系统进行传输、交换。\n发明内容\n[0004] 本发明所要解决的技术问题是针对现有技术中所存在的上述缺陷,提供一种能够避免字形重复,提高存储及检索效率,且能够与其他系统进行传输、交换的补字的排序存储方法及装置、创建补充字库的方法及装置。\n[0005] 解决本发明技术问题所采用的技术方案:\n[0006] 所述补字的排序存储方法包括如下步骤:\n[0007] 1)判断待补充字符序列中的所有待补充字符是否均未被现有国际或国家编码标准收录,如是,则执行步骤2);\n[0008] 2)对每个待补充字符进行数据整理和字形规范处理,以得出每个待补充字符的属性信息;\n[0009] 3)根据每个待补充字符的属性信息,分别形成与每个待补充字符相对应的排序存储序列和索引值,并根据形成的各个排序存储序列分别在用户自定义区的相应位置处存储对应的待补充字符。\n[0010] 优选地,所述步骤1)中,判断所述待补充字符序列中的所有待补充字符是否均未被现有国际或国家编码标准收录具体为:\n[0011] 11)逐个将所述待补充字符序列中的待补充字符与现有国际或国家编码标准中所有字符进行多次对比,以从现有国际或国家编码标准中筛选出分别与每个待补充字符类似的字符或类似的字符序列;\n[0012] 12)逐个将所述待补充字符序列中的待补充字符与其类似的字符或类似的字符序列中的所有字符进行二次对比,若某个待补充字符与其类似的字符或类似的字符序列中的一个字符相同,将该待补充字符从所述待补充字符序列中去除,直至待补充字符序列中的所有待补充字符分别与其类似的字符或类似的字符序列中的所有字符都不同时,执行步骤\n2)。\n[0013] 优选地,所述对比的方法采用图片对比或字形数据对比。\n[0014] 优选地,所述现有国际编码标准包括ISO/IEC10646:2003,所述现有国家编码标准包括GB18030-2000和GB13000.1-1993。\n[0015] 优选地,所述步骤2)中,待补充字符的属性信息包括:待补充字符的使用频率、间架结构、部首笔画数、部首笔画顺序、除部首外剩余笔画数、除部首外剩余笔画顺序和拼音。\n[0016] 优选地,所述步骤3)中,根据每个待补充字符的属性信息,分别形成与每个待补充字符相对应的排序存储序列和索引值,具体为:\n[0017] 311)根据每个待补充字符的属性信息分别形成与每个待补充字符相对应的多个排序因子,并为每个待补充字符对应的多个排序因子分别赋予编号和优先级;\n[0018] 312)按照优先级从高到低的顺序分别对每个待补充字符对应的多个排序因子进行排序,以分别形成每个待补充字符对应的排序存储序列,将每个待补充字符对应的排序存储序列中各个排序因子的编号组合,以分别形成每个待补充字符的索引值。\n[0019] 优选地,所述多个排序因子包括使用频率排序因子,和间架结构排序因子、部首排序因子、除部首外剩余笔画排序因子、拼音排序因子中的一种或多种;所述使用频率排序因子具有最高优先级;\n[0020] 所述使用频率排序因子分为使用频率相对较高因子和使用频率相对较低因子,且所述使用频率相对较高因子和使用频率相对较低因子分别对应唯一的编号;\n[0021] 所述间架结构排序因子分为独体结构因子、品字形结构因子、嵌套结构因子、上下结构因子、上中下结构因子、左右结构因子、左中右结构因子、全包围结构因子和半包围结构因子,上述所有结构因子分别对应唯一的编号;\n[0022] 所述部首排序因子包括部首笔画数和/或部首笔画顺序,且所述部首笔画数和部首笔画顺序分别对应唯一的编号;\n[0023] 所述除部首外剩余笔画排序因子包括除部首外剩余笔画数和/或除部首外剩余笔画顺序,且所述除部首外剩余笔画数和除部首外剩余笔画顺序分别对应唯一的编号;\n[0024] 所述拼音排序因子包括拼音字符和音调,且所述拼音字符和音调共同对应唯一的编号。\n[0025] 优选地,所述步骤3)中,根据形成的各个排序存储序列分别在用户自定义区的相应位置处存储对应的待补充字符具体为:\n[0026] 321)将所述用户自定义区划分成多个子区域;\n[0027] 322)依次检测每个排序存储序列中的使用频率排序因子,将具有使用频率相对较高因子的各个排序存储序列对应的待补充字符分配至用户自定义区中位置靠前的子区域,将具有使用频率相对低高因子的各个排序存储序列对应的待补充字符分配至用户自定义区中位置靠后的子区域;\n[0028] 323)根据每个排序存储序列中除使用频率排序因子之外的其它排序因子,对分配至用户自定义区中位置靠前的子区域的各个待补充字符进行排序存储,和对分配至用户自定义区中位置靠后的子区域的各个待补充字符进行排序存储;且当任一待补充字符的使用频率发生变化时,其在用户自定义区中的存储位置和索引值也相应发生变化。\n[0029] 本发明还提供一种创建补充字库的方法,所述方法为:采用上述补字的排序存储方法在用户自定义区中依次存储多个未被现有国际或国家编码标准收录的待补充字符序列,从而形成补充字库。\n[0030] 优选地,所述补充字库的字库格式为TrueType字库、OpenType字库、PostScript字库或者用户自定义字库。\n[0031] 本发明还提供一种补字的排序存储装置,包括:判断单元、处理单元和排序存储单元;\n[0032] 所述判断单元用于判断待补充字符序列中的所有待补充字符是否均未被现有国际或国家编码标准收录,如是,则将所述待补充字符序列发送至处理单元;\n[0033] 所述处理单元用于对每个待补充字符进行数据整理和字形规范处理,以得出每个待补充字符的属性信息,并将每个待补充字符的属性信息发送至排序存储单元;\n[0034] 所述排序存储单元用于根据每个待补充字符的属性信息,分别形成与每个待补充字符相对应的排序存储序列和索引值,并根据形成的各个排序存储序列分别在用户自定义区的相应位置处存储对应的待补充字符。\n[0035] 优选地,所述判断单元具体用于:\n[0036] 逐个将所述待补充字符序列中的待补充字符与现有国际或国家编码标准中所有字符进行多次对比,以从现有国际或国家编码标准中筛选出分别与每个待补充字符类似的字符或类似的字符序列;\n[0037] 逐个将所述待补充字符序列中的待补充字符与其类似的字符或类似的字符序列中的所有字符进行二次对比,若某个待补充字符与其类似的字符或类似的字符序列中的一个字符相同,将该待补充字符从所述待补充字符序列中去除,直至待补充字符序列中的所有待补充字符分别与其类似的字符或类似的字符序列中的所有字符都不同时,将所述待补充字符序列发送至处理单元。\n[0038] 优选地,所述判断单元采用的对比方法为图片对比或字形数据对比。\n[0039] 优选地,所述判断单元采用的现有国际编码标准包括ISO/IEC10646:2003,现有国家编码标准包括GB18030-2000和GB13000.1-1993。\n[0040] 优选地,所述处理单元得出的待补充字符的属性信息包括:待补充字符的使用频率、间架结构、部首笔画数、部首笔画顺序、除部首外剩余笔画数、除部首外剩余笔画顺序和拼音。\n[0041] 优选地,所述排序存储单元具体用于:\n[0042] 根据每个待补充字符的属性信息分别形成与每个待补充字符相对应的多个排序因子,并为每个待补充字符对应的多个排序因子分别赋予编号和优先级;\n[0043] 按照优先级从高到低的顺序分别对每个待补充字符对应的多个排序因子进行排序,以分别形成每个待补充字符对应的排序存储序列,将每个待补充字符对应的排序存储序列中各个排序因子的编号组合,以分别形成每个待补充字符的索引值。\n[0044] 优选地,所述排序存储单元形成的多个排序因子包括使用频率排序因子,和间架结构排序因子、部首排序因子、除部首外剩余笔画排序因子、拼音排序因子中的一种或多种;所述使用频率排序因子具有最高优先级;\n[0045] 所述使用频率排序因子分为使用频率相对较高因子和使用频率相对较低因子,且所述使用频率相对较高因子和使用频率相对较低因子分别对应唯一的编号;\n[0046] 所述间架结构排序因子分为独体结构因子、品字形结构因子、嵌套结构因子、上下结构因子、上中下结构因子、左右结构因子、左中右结构因子、全包围结构因子和半包围结构因子,上述所有结构因子分别对应唯一的编号;\n[0047] 所述部首排序因子包括部首笔画数和/或部首笔画顺序,且所述部首笔画数和部首笔画顺序分别对应唯一的编号;\n[0048] 所述除部首外剩余笔画排序因子包括除部首外剩余笔画数和/或除部首外剩余笔画顺序,且所述除部首外剩余笔画数和除部首外剩余笔画顺序分别对应唯一的编号;\n[0049] 所述拼音排序因子包括拼音字符和音调,且所述拼音字符和音调共同对应唯一的编号。\n[0050] 优选地,所述排序存储单元还用于:\n[0051] 将所述用户自定义区划分成多个子区域;\n[0052] 依次检测每个排序存储序列中的使用频率排序因子,将具有使用频率相对较高因子的各个排序存储序列对应的待补充字符分配至用户自定义区中位置靠前的子区域,将具有使用频率相对低高因子的各个排序存储序列对应的待补充字符分配至用户自定义区中位置靠后的子区域;\n[0053] 根据每个排序存储序列中除使用频率排序因子之外的其它排序因子,对分配至用户自定义区中位置靠前的子区域的各个待补充字符进行排序存储,和对分配至用户自定义区中位置靠后的子区域的各个待补充字符进行排序存储;且当任一待补充字符的使用频率发生变化时,其在用户自定义区中的存储位置和索引值也相应发生变化。\n[0054] 本发明还提供一种创建补充字库的装置,其用于采用上述补字的排序存储装置在用户自定义区中依次存储多个未被现有国际或国家编码标准收录的待补充字符序列,从而形成补充字库。\n[0055] 优选地,所述创建补充字库的装置形成的补充字库的字库格式为TrueType字库、OpenType字库、PostScript字库或者用户自定义字库。\n[0056] 有益效果:\n[0057] 1)本发明所述补字的排序存储方法及装置经过编码查重、数据整理和字形规范处理后,按照一定顺序将待补充字符(即补字)数字化和规范化地存储于用户自定义区中,避免了字形重复,存储有序,从而提高了用户自定义区存储空间的利用率和检索效率,且方便定制针对待补充字符的各种检索方法,规范、统一了向用户自定义区中存储待补充字符的流程,还易于实现与其他系统的字符传输和交换。\n[0058] 2)经本发明所述补字的排序存储方法及装置创建的补充字库可包含现有国际或国家编码标准中未收录的大量冷僻字,能够有效解决现有信息领域,如公民个人信息中姓名、住址出现的冷僻字的录入、显示、打印、存储、读取、传输、交换及处理,从而能实现上述冷僻字在全国范围内规范化、统一化、高效化的精准存储和读取。\n附图说明\n[0059] 图1为本发明实施例1所述补字的排序存储方法的流程图;\n[0060] 图2为本发明实施例1所述补字的排序存储装置的框图。\n具体实施方式\n[0061] 为使本领域技术人员更好地理解本发明的技术方案,下面结合附图和实施例对本发明所述补字的排序存储方法及装置、创建补充字库的方法及装置作进一步详细描述。\n[0062] 需要说明的是,本发明中出现的用户自定义区指的是中国国家文字现行编码标准中的用户自定义区,是用于当国家编码标准中缺少标准字符时允许用户自行造字的区域,其码位有限,为了对其进行充分利用,本发明中,先将待补充的字符(即补字)与标准中的字符比较去重后,再按照一定顺序存入用户自定义区。\n[0063] 实施例1:\n[0064] 如图1所示,本实施例提供一种补字的排序存储方法,包括如下步骤:\n[0065] s101.判断待补充字符序列中的所有待补充字符是否均未被现有国际或国家编码标准收录,如是,则执行步骤s102。\n[0066] 优选地,所述步骤s101具体为:\n[0067] s101-1.逐个将所述待补充字符序列中的待补充字符与现有国际或国家编码标准中的所有字符进行多次对比,以从现有国际或国家编码标准中筛选出分别与每个待补充字符类似的字符或类似的字符序列。所述对比的方法采用图片对比或字形数据对比。此步骤中,可采用程序语言的方式实现所述待补充字符序列中的所有待补充字符分别与现有国际或国家编码标准中所有字符的多次自动对比。\n[0068] s101-2.逐个将所述待补充字符序列中的待补充字符与其类似的字符或类似的字符序列中的所有字符进行二次对比,若某个待补充字符与其类似的字符或类似的字符序列中的一个字符相同,将该待补充字符从所述待补充字符序列中去除,直至待补充字符序列中的所有待补充字符分别与其类似的字符或类似的字符序列中的所有字符都不同时,执行步骤s102。本步骤中,既可采用程序语言的方式实现所述待补充字符序列中的所有待补充字符分别与其类似的字符或类似的字符序列中的所有字符的自动对比,也可采用人工校对的方式实现所述待补充字符序列中的所有待补充字符分别与其类似的字符或类似的字符序列中的所有字符的人工对比。\n[0069] 其中,所述待补充字符序列包括至少一个待补充字符。所述类似的字符序列包括至少一个类似的字符。所述现有国际编码标准包括ISO/IEC10646:2003,所述现有国家编码标准包括GB18030-2000和GB13000.1-1993。\n[0070] s102.对每个待补充字符进行数据整理和字形规范处理,以得出每个待补充字符的属性信息。\n[0071] 所述待补充字符的属性信息包括:待补充字符的使用频率、间架结构、部首笔画数、部首笔画顺序、除部首外剩余笔画数、除部首外剩余笔画顺序和拼音。\n[0072] s103.根据每个待补充字符的属性信息,分别形成与每个待补充字符相对应的排序存储序列和索引值,并根据形成的各个排序存储序列分别在用户自定义区的相应位置处存储对应的待补充字符。\n[0073] 其中,根据每个待补充字符的属性信息,分别形成与每个待补充字符相对应的排序存储序列和索引值,具体为:\n[0074] s103-11.根据每个待补充字符的属性信息分别形成与每个待补充字符相对应的多个排序因子(即每个待补充字符均对应多个排序因子),并为每个待补充字符对应的多个排序因子分别赋予编号和优先级。\n[0075] s103-12.按照优先级从高到低的顺序分别对每个待补充字符对应的多个排序因子进行排序,以分别形成每个待补充字符对应的排序存储序列,即每个排序存储序列包括多个按优先级排列的排序因子;将每个待补充字符对应的排序存储序列中各个排序因子的编号组合,以分别形成每个待补充字符的索引值。\n[0076] 其中,所述编号可采用数字或字母,故所述索引值可以为数字字符串、字母字符串或数字与字母组合字符串。\n[0077] 优选地,所述多个排序因子包括使用频率排序因子,和间架结构排序因子、部首排序因子、除部首外剩余笔画排序因子、拼音排序因子中的一种或多种。所述使用频率排序因子具有最高优先级。\n[0078] 可见,虽然待补充字符的属性信息有很多,但是并不需要将所有的属性信息都形成排序因子,只需将其中一部分形成排序因子即可,至于将哪些属性信息形成排序因子可由本领域技术人员根据实际情况确定,例如根据检索需求、存储顺序等因素确定。而且,由于排序因子的数量和种类可选择,每个排序因子的优先级也可以定义,因此对于同一个待补充字符来说,可形成多种排序存储序列,不同排序存储序列中排序因子的数量、种类及先后顺序均可不同,因此对后续检索的反应速度也不同,但无论采用哪种排序存储序列,均为后续快速检索、精准定位提供了字符属性数据基础。\n[0079] 根据待补充字符的使用频率形成使用频率排序因子,所述使用频率排序因子分为使用频率相对较高因子和使用频率相对较低因子,且所述使用频率相对较高因子和使用频率相对较低因子分别对应唯一的编号。\n[0080] 也就是说,对每个待补充字符的使用频率进行分级,可分为使用频率相对较高的待补充字符和使用频率相对较低的待补充字符,且使用频率相对较高的待补充字符对应的多个排序因子中包括使用频率相对较高因子,使用频率相对较低的待补充字符对应的多个排序因子中包括使用频率相对较低因子。每个待补充字符的使用频率是可以动态调整的,例如,每使用一次某待补充字符,系统均会自动记录其使用次数,若该待补充字符原来对应使用频率相对较低因子,则当该待补充字符的使用次数累积到一定数值(该数值大于预设的平均使用次数)时,就会使该待补充字符对应使用频率相对较高因子,从而调整了该待补充字符的使用频率。\n[0081] 根据待补充字符的间架结构(如表1所示)形成间架结构排序因子,所述间架结构排序因子分为独体结构因子、品字形结构因子、嵌套结构因子、上下结构因子、上中下结构因子、左右结构因子、左中右结构因子、全包围结构因子和半包围结构因子,上述所有结构因子分别对应唯一的编号。其中,所述半包围结构因子还可分为从左包围结构因子、从左上包围结构因子、从右上包围结构因子、从左下包围结构因子、从左下包围结构因子,从上包围结构因子和从下包围结构因子。\n[0082] 表1现有汉字间架结构表\n[0083]\n[0084] 根据待补充字符的间架结构,提取其部首以对其进行归部,并得出其部首的笔画数和笔画顺序、除部首外剩余笔画数和笔画顺序,从而形成部首排序因子和除部首外剩余笔画排序因子。\n[0085] 所述部首排序因子包括部首笔画数和/或部首笔画顺序,且所述部首笔画数和部首笔画顺序分别对应唯一的编号。\n[0086] 所述除部首外剩余笔画排序因子包括除部首外剩余笔画数和/或除部首外剩余笔画顺序,且所述除部首外剩余笔画数和除部首外剩余笔画顺序分别对应唯一的编号。\n[0087] 对部首的笔画顺序/除部首外剩余笔画的笔画顺序进行编号可采用如下方法:\n[0088] 分别用序号1、2、3、4、5表示笔形一(横)、丨(竖)、丿(撇)、丶(点)、乛(折,包括、、乚和乙),然后根据部首的笔画顺序/除部首外剩余笔画的笔画顺序依次将对应的序号组合起来,就形成了编号。例如,待补充字符的部首是“韦”,则该部首的笔画顺序的编号为1152。\n[0089] 根据待补充字符的拼音形成拼音排序因子,所述拼音排序因子包括拼音字符和音调,且所述拼音字符和音调共同对应唯一的编号。\n[0090] 根据形成的各个排序存储序列分别在用户自定义区的相应位置处存储对应的待补充字符,具体为:\n[0091] s103-21.将所述用户自定义区划分成多个子区域。所述多个指的是两个或两个以上。\n[0092] s103-22.依次检测每个排序存储序列中的使用频率排序因子,将具有使用频率相对较高因子的各个排序存储序列对应的待补充字符分配至用户自定义区中位置靠前的子区域(可能包含一个或多个),将具有使用频率相对低因子的各个排序存储序列对应的待补充字符分配至用户自定义区中位置靠后的子区域(可能包含一个或多个),从而提高检索效率。\n[0093] s103-23.根据每个排序存储序列中除使用频率排序因子之外的其它排序因子,对分配至用户自定义区中位置靠前的子区域的各个待补充字符进行排序存储,和对分配至用户自定义区中位置靠后的子区域的各个待补充字符进行排序存储;且当任一待补充字符的使用频率发生变化时,其在用户自定义区中的存储位置和索引值也相应发生变化。\n[0094] 根据上述补字的排序存储方法,可进行对应的检索操作,例如针对各个待补充字符对应的排序存储序列中的多个排序因子,可进行单独条件查询(即单个排序因子查询)或组合条件查询(即多个排序因子查询)。而且,各个待补充字符对应的排序存储序列可预先存储于用户自定义区中,故检索时查询和定位的准确性和效率非常高。\n[0095] 本实施例还提供一种创建补充字库的方法,具体为:\n[0096] 采用上述补字的排序存储方法在用户自定义区中依次存储多个未被现有国际或国家编码标准收录的待补充字符序列,从而形成补充字库。\n[0097] 优选地,所述补充字库的字库格式为TrueType字库、OpenType字库、PostScript字库或者用户自定义字库。\n[0098] 如图2所示,本实施例还提供一种补字的排序存储装置,包括:判断单元、处理单元和排序存储单元;\n[0099] 所述判断单元用于判断待补充字符序列中的所有待补充字符是否均未被现有国际或国家编码标准收录,如是,则将所述待补充字符序列发送至处理单元;\n[0100] 所述处理单元用于对每个待补充字符进行数据整理和字形规范处理,以得出每个待补充字符的属性信息,并将每个待补充字符的属性信息发送至排序存储单元;\n[0101] 所述排序存储单元用于根据每个待补充字符的属性信息,分别形成与每个待补充字符相对应的排序存储序列和索引值,并根据形成的各个排序存储序列分别在用户自定义区的相应位置处存储对应的待补充字符。\n[0102] 优选地,所述判断单元具体用于:\n[0103] 逐个将所述待补充字符序列中的待补充字符与现有国际或国家编码标准中所有字符进行多次对比,以从现有国际或国家编码标准中筛选出分别与每个待补充字符类似的字符或类似的字符序列;\n[0104] 逐个将所述待补充字符序列中的待补充字符与其类似的字符或类似的字符序列中的所有字符进行二次对比,若某个待补充字符与其类似的字符或类似的字符序列中的一个字符相同,将该待补充字符从所述待补充字符序列中去除,直至待补充字符序列中的所有待补充字符分别与其类似的字符或类似的字符序列中的所有字符都不同时,将所述待补充字符序列发送至处理单元。\n[0105] 其中,所述判断单元采用的对比方法为图片对比或字形数据对比。所述判断单元采用的现有国际编码标准包括ISO/IEC10646:2003,现有国家编码标准包括GB18030-2000和GB13000.1-1993。所述处理单元得出的待补充字符的属性信息包括:待补充字符的使用频率、间架结构、部首笔画数、部首笔画顺序、除部首外剩余笔画数、除部首外剩余笔画顺序和拼音。\n[0106] 优选地,所述排序存储单元具体用于:\n[0107] 根据每个待补充字符的属性信息分别形成与每个待补充字符相对应的多个排序因子,并为每个待补充字符对应的多个排序因子分别赋予编号和优先级;\n[0108] 按照优先级从高到低的顺序分别对每个待补充字符对应的多个排序因子进行排序,以分别形成每个待补充字符对应的排序存储序列,将每个待补充字符对应的排序存储序列中各个排序因子的编号组合,以分别形成每个待补充字符的索引值。\n[0109] 其中,所述排序存储单元形成的多个排序因子包括使用频率排序因子,和间架结构排序因子、部首排序因子、除部首外剩余笔画排序因子、拼音排序因子中的一种或多种;\n所述使用频率排序因子具有最高优先级;\n[0110] 所述使用频率排序因子分为使用频率相对较高因子和使用频率相对较低因子,且所述使用频率相对较高因子和使用频率相对较低因子分别对应唯一的编号;\n[0111] 所述间架结构排序因子分为独体结构因子、品字形结构因子、嵌套结构因子、上下结构因子、上中下结构因子、左右结构因子、左中右结构因子、全包围结构因子和半包围结构因子,上述所有结构因子分别对应唯一的编号;\n[0112] 所述部首排序因子包括部首笔画数和/或部首笔画顺序,且所述部首笔画数和部首笔画顺序分别对应唯一的编号;\n[0113] 所述除部首外剩余笔画排序因子包括除部首外剩余笔画数和/或除部首外剩余笔画顺序,且所述除部首外剩余笔画数和除部首外剩余笔画顺序分别对应唯一的编号;\n[0114] 所述拼音排序因子包括拼音字符和音调,且所述拼音字符和音调共同对应唯一的编号。\n[0115] 优选地,所述排序存储单元还用于:\n[0116] 将所述用户自定义区划分成多个子区域;\n[0117] 依次检测每个排序存储序列中的使用频率排序因子,将具有使用频率相对较高因子的各个排序存储序列对应的待补充字符分配至用户自定义区中位置靠前的子区域,将具有使用频率相对低高因子的各个排序存储序列对应的待补充字符分配至用户自定义区中位置靠后的子区域;\n[0118] 根据每个排序存储序列中除使用频率排序因子之外的其它排序因子,对分配至用户自定义区中位置靠前的子区域的各个待补充字符进行排序存储,和对分配至用户自定义区中位置靠后的子区域的各个待补充字符进行排序存储;且当任一待补充字符的使用频率发生变化时,其在用户自定义区中的存储位置和索引值也相应发生变化。\n[0119] 本实施例还提供一种创建补充字库的装置,其用于采用如上述补字的排序存储装置在用户自定义区中依次存储多个未被现有国际或国家编码标准收录的待补充字符序列,从而形成补充字库。\n[0120] 优选地,所述创建补充字库的装置形成的补充字库的字库格式为TrueType字库、OpenType字库、PostScript字库或者用户自定义字库。\n[0121] 综上所述,本发明补字的排序存储方法及装置根据每个待补充字符的属性信息,得出每个待补充字符对应的排序存储序列,再根据每个待补充字符的使用频率以及用户自定义区划分的多个子区域,得出每个待补充字符在用户自定义区中特定的排序存储位置及索引值。针对各个待补充字符对应的排序存储序列进行对应的检索,再结合标准字库一起,可实现计算机信息处理设备中冷僻字的录入、显示、打印、存储、读取、传输、交换及处理,从而可快速实现对现有编码标准中未录入的待补充字符序列(也可称为缺字序列)的整理、规范、存储、检索、读取、传输、交换及处理。且采用本发明补字的排序存储方法及装置创建的补充字库可广泛地应用于涉及缺字的所有信息化领域。\n[0122] 实施例2:\n[0123] 本实施例中,待补充字符序列包括如下三个汉字: 和\n[0124] 所述补字的排序存储方法包括如下步骤:\n[0125] s201.将所述待补充字符序列中的三个汉字依次与现有国际或国家编码标准中的所有字符进行对比,确定该三个汉字均未被现有国际或国家编码标准收录。\n[0126] s202.对每个汉字进行数据整理和字形规范处理,以得出每个汉字的属性信息,包括使用频率、间架结构、部首笔画数、部首笔画顺序、除部首外剩余笔画数、除部首外剩余笔画顺序和拼音。\n[0127] s203.根据每个汉字的属性信息,分别形成与每个汉字相对应的排序存储序列和索引值,并根据形成的各个排序存储序列分别在用户自定义区中存储对应的汉字。\n[0128] 所述三个汉字的排序存储序列均包括部首排序因子、除部首外剩余笔画排序因子、拼音排序因子和使用频率排序因子。优先级从高到低依次为使用频率排序因子、部首排序因子、除部首外剩余笔画排序因子和拼音排序因子,即先按使用频率分级,对于使用频率级别相同的汉字,按部首笔画数排序,对于部首笔画数相同的汉字,按照部首笔画顺序排序,对于部首笔画顺序排序相同的汉字,按除部首外剩余笔画数排序,对于除部首外剩余笔画数相同的汉字,按照除部首外剩余笔画顺序排序,对于除部首外剩余笔画顺序相同的汉字,按拼音排序。\n[0129] 本实施例中,将用户自定义区划分为两个子区域,每个子区域的容量为总容量的\n50%,位置靠前的子区域为GB13000.1-1993双字节编码对应的用户自定义区(简称双字节区域),用于存储使用频率相对较高的待补充字符,位置靠后的子区域为GB18030-2000四字节编码对应的用户自定义区(简称四字节区域),用于存储使用频率相对较低的待补充字符。\n[0130] 所述三个汉字 和 对应的排序存储序列和索引值详见表2。\n[0131] 表2分别与所述三个汉字对应的排序存储序列和索引值\n[0132]\n[0133] 具体地,针对汉字 ,其使用频率相对较低,故存储于四字节区域,使用频率排序因子为使用频率相对较低因子,编号为“02”;部首排序因子包括部首笔画数和部首笔画顺序,汉字 的部首为“韦”,笔画数为4,笔画顺序为横、横、折、竖,部首排序因子的编号为“A04-1152”,A代表部首;除部首外剩余笔画排序因子包括除部首外剩余笔画数和除部首外剩余笔画顺序,汉字 除部首外剩余的是“毕”,笔画数为6,笔画顺序为横、折、撇、折、横、竖,除部首外剩余笔画排序因子的编号为“06-153512”;拼音排序因子包括拼音字符和音调,汉字 的拼音字符为“bi”,音调为四声,拼音排序因子编号为“012”。故汉字的索引值为“A04-1152-06-153512-012-02”。\n[0134] 针对汉字 ,其使用频率相对较高,故存储于两字节区域,使用频率排序因子为使用频率相对较高因子,编号为“01”;部首排序因子包括部首笔画数和部首笔画顺序,汉字 的部首为“韦”,笔画数为4,笔画顺序为横、横、折、竖,部首排序因子的编号为“A04-\n1152”,A代表部首;除部首外剩余笔画排序因子包括除部首外剩余笔画数和除部首外剩余笔画顺序,汉字 除部首外剩余的是“华”,笔画数为6,笔画顺序为撇、竖、撇、折、横、竖,除部首外剩余笔画排序因子的编号为“06-323512”;拼音排序因子包括拼音字符和音调,汉字 的拼音字符为“wei”,音调为三声,拼音排序因子编号为“020”。故汉字 的索引值为“A04-1152-06-323512-020-01”。\n[0135] 针对汉字 ,其使用频率相对较低,故存储于四字节区域,使用频率排序因子为使用频率相对较低因子,编号为“02”;部首排序因子包括部首笔画数和部首笔画顺序,汉字 的部首为“韦”,笔画数为4,笔画顺序为横、横、折、竖,部首排序因子的编号为“A04-\n1152”,A代表部首;除部首外剩余笔画排序因子包括除部首外剩余笔画数和除部首外剩余笔画顺序,汉字 除部首外剩余的是“军”,笔画数为6,笔画顺序为点、折、横、折、横、竖,除部首外剩余笔画排序因子的编号为“06-451512”;拼音排序因子包括拼音字符和音调,汉字 的拼音字符为“jun”,音调为一声,拼音排序因子编号为“056”。故汉字 的索引值为“A04-1152-06-451512-056-02”。\n[0136] 可见,上述三个汉字分别对应的排序存储序列中,使用频率排序因子具有最高优先级,从而首先合理分配三个汉字的存储区域,即使用频率相对较高因子对应的汉字存储于两字节区域,使用频率相对较低因子对应的汉字 和 存储于四字节区域,\n从而提高了使用频率较高的汉字的检索效率,在此基础上,依次结合部首排序因子、除部首外剩余笔画排序因子和拼音排序因子,分别对两个存储区(即两字节存储区和四字节存储区)的汉字进行排序存储。\n[0137] 本实施例中的其他方法及作用都与实施例1相同,这里不再赘述。\n[0138] 可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。
法律信息
- 2022-09-30
专利权的转移
登记生效日: 2022.09.19
专利权人由北大方正集团有限公司变更为新方正控股发展有限责任公司
地址由100871 北京市海淀区成府路298号中关村方正大厦5层变更为519031 广东省珠海市横琴新区华金街58号横琴国际金融中心大厦3007
专利权人由北大方正信息产业集团有限公司 北京北大方正电子有限公司 变更为北京北大方正电子有限公司
- 2022-09-30
专利权人的姓名或者名称、地址的变更
专利权人由北大方正集团有限公司变更为北大方正集团有限公司
地址由100871 北京市海淀区成府路298号中关村方正大厦5层变更为100871 北京市海淀区成府路298号中关村方正大厦5层
专利权人由方正信息产业控股有限公司 北京北大方正电子有限公司 变更为北大方正信息产业集团有限公司 北京北大方正电子有限公司
- 2018-05-01
- 2015-04-15
实质审查的生效
IPC(主分类): G06F 17/30
专利申请号: 201310364886.3
申请日: 2013.08.20
- 2015-03-18
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2010-09-29
|
2010-06-04
| | |
2
| |
2012-06-20
|
2011-11-17
| | |
3
| |
2006-03-01
|
2005-09-22
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |