著录项信息
专利名称 | 全字索引词典 |
申请号 | CN200910063103.1 | 申请日期 | 2009-07-10 |
法律状态 | 撤回 | 申报国家 | 中国 |
公开/公告日 | 2011-01-12 | 公开/公告号 | CN101944086A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/30 | IPC分类号 | G;0;6;F;1;7;/;3;0查看分类表>
|
申请人 | 华中科技大学 | 申请人地址 | 湖北省武汉市洪山区珞瑜路1037号
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 华中科技大学 | 当前权利人 | 华中科技大学 |
发明人 | 尹文生 |
代理机构 | 暂无 | 代理人 | 暂无 |
摘要
一种词典索引构造方法,应用于中西文词条的文字处理,特别是中文词条的分词和查询。它对词典中每个词条的字符建立索引关系而不仅仅建立首字索引关系,通过字符的内码映射到对应的字符入口,然后将每个词条的编号及组成的字所在位置记录在对应字符中的词条链中。这样在进行词条查询时,可以通过对词条组成的字符的词条链中的词条编号和位置进行比较获得所需的词条。该方法结构简单,很容易实现词典的构造、添加、删除等维护工作;能够满足中文分词对速度的要求;也可以进行中西文混合处理。此外,还可以实现其它词典索引方法比较难以实现的非首字查询和模糊查询。
1.一种词典索引构造方法,应用于计算机文字处理,其特征是:建立一个字符类对象数组,通过将所有常用字的计算机内码映射为一个字符类对象数组的下标来表示该常用字,并在每个字符类对象数组元素中记录该字符所涉及全部词条的词条组成关系信息。
2.根据权利要求1所述的词典索引构造方法,其特征是:字符类对象数组是一个
128×128的数组。
3.根据权利要求1所述的词典索引构造方法,其特征是:所有常用字为用一个和两个字节表示的符合计算机标准的字符,包括国标二级汉字、ASCII码和其他字符等。
4.根据权利要求1所述的词典索引构造方法,其特征是:西文字符的内码直接作为该西文字符的字符类对象数组的下标,而汉字字符的两个内码H和L按照公式
128×(H-0x80)+(L-0x80)映射为一个128×128内的数作为该汉字字符的字符类对象数组的下标。
5.根据权利要求1所述的词典索引构造方法,其特征是:每个字符类对象包含该字符的机内码及表示词条组成关系的词条链。
6.根据权利要求5所述的词典索引构造方法,其特征是:每个词条链是由若干个词条链节首尾相连而成。
7.根据权利要求6所述的词典索引构造方法,其特征是:每个词条链节中包含词条的编号、当前字符在词条中的位置以及下一个词条链的指针。
8.根据权利要求5所述的词典索引构造方法,其特征是:每个字符类对象中的词条链按照该字符在词条中的位置分成5类,分别表示该字符处在词条第一、第二、第三、第四以及其他位置时的情况。
9.根据权利要求8所述的词典索引构造方法,其特征是:在分类的词条链中,词条链节按照词条的编号大小进行排序。
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有引用任何外部专利数据! |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 1 | | 2012-09-18 | 2012-09-18 | | |
2 | | 2013-09-16 | 2013-09-16 | | |
3 | | 2011-04-27 | 2011-04-27 | | |