著录项信息
专利名称 | 全文检索设备及全文检索方法 |
申请号 | CN00134962.7 | 申请日期 | 2000-12-13 |
法律状态 | 权利终止 | 申报国家 | 中国 |
公开/公告日 | 2001-06-20 | 公开/公告号 | CN1300026 |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | 暂无 | IPC分类号 | 暂无查看分类表>
|
申请人 | 三菱电机株式会社 | 申请人地址 | 日本***
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 三菱电机株式会社 | 当前权利人 | 三菱电机株式会社 |
发明人 | 龟代泰三;平野敬 |
代理机构 | 中国专利代理(香港)有限公司 | 代理人 | 杨凯;叶恺东 |
摘要
在根据字符识别结果作成的文本作成索引时,如果只用字符识别结果的第一位识别候选字符作成索引,则字符识别结果包含错误的概率增大,关键字和文本内的字符不一致,存在不能正确解释地检索的情况增加的课题。解决问题的方法是参照索引,检索与该关键字一致的识别候选字符的文书,另一方面对照字符图像的形状特征和构成关键字的字符的形状特征,检索符合检索条件的文书。
1.一种全文检索设备,备有:识别包含在输入文书的输入图像 中的各字符图像并输出对各字符图像的一个以上的识别候选字符和 显示各相应识别候选字符的准确度的字符识别装置;输出表示上述 字符识别装置输出的上述识别候选字符的上述文书内的位置关系的 索引的索引作成装置;作为上述文书的检索条件输入关键字的输入 装置;以作为由上述输入装置输入的检索条件的上述关键字为基 础,检索与上述检索条件相符的文书的检索装置;和输出从上述检 索装置得到的检索结果的输出装置;其特征在于还具有:
在包含于上述输入图像中的各字符图像中,对于各个具有基准的 准确度以下的识别候选字符的字符图像,分成多个区域,将从各区 域的像素特征计算出的值,作为形状特征抽出的特征抽出装置;
上述检索装置,参照上述索引,检索与从上述输入装置输入作为 检索条件的上述关键字一致的上述识别候选字符的文书,并对照由 上述特征抽出装置抽出的上述字符图像的上述形状特征,和构成上 述关键字的字符的形状特征,检索符合检索条件的上述文书。
2.根据权利要求1所述的全文检索设备,其特征在于:索引作 成装置在索引的作成对象中包含组合了两个以上的识别候选字符的 连接字符。
3.根据权利要求1所述的全文检索设备,其特征在于:索引作 成装置在字符识别装置输出的各识别候选字符中,将准确度比基准准 确度低的识别候选字符从索引的作成对象中除去。
4.根据权利要求3所述的全文检索设备,其特征在于:即使在 字符识别装置输出的识别候选字符的准确度比基准准确度低的情况 下,索引作成装置在没有其准确度超过基准准确度的识别候选字符的 与字符图像有关的识别候选字符时,索引的作成对象中包含该识别候 选字符,同时对该识别候选字符附加与其他识别候选字符相区别的识 别记号。
5.根据权利要求1至权利要求4中的任意一项所述的全文检索 设备,其特征在于:特征抽出装置将字符图像的形状特征存储在数据 库中,同时将该字符图像的各识别候选字符和有可能构成单词的字符 的字符码存储在数据库中。
6.根据权利要求1所述的全文检索设备,其特征在于:检索装 置计算由特征抽出装置抽出的字符图像的形状特征和构成关键字的 字符的形状特征的距离,该距离满足规定的基准时,认定符合检索条 件。
7.根据权利要求1所述的全文检索设备,其特征在于:
检索装置对照由特征抽出装置抽出的字符图象的形状特征和构 成作为由输入装置的检索条件的关键字的各字符的形状特征,而不 执行检索与检索条件相符的文书的动作,
上述检索装置还设有设定参考索引,并执行只检索与作为检索条 件的上述关键字一致的上述识别候选字符的文书的设定装置。
8.根据权利要求1所述的全文检索设备,其特征在于:检索装 置将包含与关键字一致的识别候选字符的文书从形状特征的对照对 象中除去。
9.根据权利要求1所述的全文检索设备,其特征在于:只在不 存在与关键字一致的识别候选字符的情况下,检索装置对照由特征抽 出装置抽出的字符图像的形状特征和构成关键字的字符的形状特 征。
10.根据权利要求4所述的全文检索设备,其特征在于:在特定 关键字的形状特征的对照对象时,检索装置将附加了识别符号的识别 候选字符作为通配符处理。
11.根据权利要求2所述的全文检索设备,其特征在于:索引作 成装置考虑整个文书中出现组合了两个以上的识别候选字符的连接字 符的出现概率,判断索引的作成对象中是否包含该连接字符。
12.根据权利要求11所述的全文检索设备,其特征在于:
还具有出现概率更新装置,判断各构成连接字符的识别候选字符 是否对于字符图象的唯一的识别候选字符,并在是唯一的上述识别 候选字符时,将上述连接字符的出现次数计数,求出出现概率,并 设定为新的出现概率。
13.根据权利要求11所述的全文检索设备,其特征在于:设有 对与关键字一致的连接字符的出现次数进行往上计数并更新出现概 率的出现概率更新装置。
14.根据权利要求11所述的全文检索设备,其特征在于:设有 在修正了字符识别装置输出的识别候选字符的情况下,对包含修正后 的识别候选字符的连接字符的出现次数进行往上计数并更新出现概 率的出现概率更新装置。
15.一种全文检索方法,包括以下步骤:识别包含在输入文书 的输入图像中的各字符图像并输出对各字符图像的一个以上的识别 候选字符和显示各相应识别候选字符的准确度;输出表示输出的上 述识别候选字符的在上述文书内的位置关系的索引;输入作为上述 文书的检索条件的关键字;以作为输入的检索条件的上述关键字为 基础,检索与上述检索条件相符的文书;和输出上述检索结果;其 特征在于还具有:
在包含于上述输入图像中的各字符图像中,对于各个具有基准的 准确度以下的识别候选字符的字符图像,分成多个区域,将从各区 域的像素特征计算出的值,作为形状特征抽出的处理;
参照上述索引,检索与输入作为检索条件的上述关键字一致的上 述识别候选字符的文书,并对照抽出的上述字符图像的上述形状特 征,和构成上述关键字的字符的形状特征,检索符合检索条件的上 述文书。
技术领域
本发明涉及例如根据识别文书或附图上记载的字符图像作成的 文书·附图数据,用任意的关键字进行全文检索的全文检索设备及全 文检索方法。
背景技术
在蓄积了计算机能读取的电子化文本并用关键字进行电子化文本 的检索处理的方法中,有以下两种方法:(1)对文本的内容和关键字 一个字符一个字符地直接对照的方法、(2)预先抽出文本内出现的字 符及其位置信息,作成索引,检索时用索引检验关键字和文本内的字 符的位置关系的方法。
在上述(2)中根据作成索引的字符串的单位,能大致分为以下 两种索引:连续的N(N为整数)个字符单位的索引;以及由包括单 词、形态要素等文法要素的单位构成的索引。还有根据位置信息的 记述内容来记述文本编号等的方法;以及除了文本编号以外记述文 本内字符的出现位置的方法。
在上述(1)中,为了快速地进行文本和关键字的对照,需要在 存储器中将文本展开,但如果保存的文本数增多,则在存储器中将 文本展开的时间变长,所以发生不能快速检索的问题。可是,由于 预先不作成索引也可以,所以在频繁地进行登录、删除的情况下较 为方便。
上述(2)中,由于预先需要作成索引,所以与上述(1)相比, 在删除时费时间,但一般说来,检索的处理时间比上述(1)少。因 此,适合于不太频繁地进行登录、删除、处理大量文书的情况。
图21是表示例如特开平10-149367号公报所示的现有的全文检 索设备(以下称现有例1)的结构图,该现有例1适用于有关上述(2) 的索引作成方法。
图中,201是文本存储装置,202是主索引登录装置,203是副 索引登录装置,204是主索引存储装置,205是副索引存储装置,206 是副索引管理装置,207是主索引检索装置,208是副索引检索装置, 209是关键字检索控制装置,210是关键字检索结果存储装置,211 是检索条件输入装置,212是逻辑条件分析装置,213是检索结果输 出装置。
其次说明工作情况。
用文本存储装置201存储的文本利用主索引登录装置202登录连 续的N个字符的索引,利用主索引存储装置204进行存储。
检索时,利用从检索条件输入装置211获得的检索条件,通过关 键字检索控制装置209检索主索引和副索引,获得检索结果。关键字 检索结果存储装置210根据该检索结果,启动副索引作成装置206, 对检索结果的件数(文本识别数)多的文本、或检索结果的文本内字 符位置数和文本识别数之比大的文本,进行副索引的作成。
在现有例1中,除了N个字符索引的主索引以外,还保存副索引, 开始时访问副索引,在副索引中不存在关键字的情况下,访问主索 引。
主索引保存着文书编号和字符位置编号,副索引只保存文书编 号。因此,与主索引相比,副索引的尺寸小,索引的检验处理也少。
在副索引内有关键字的N个字符索引的情况下,没有必要访问主 索引,检索处理时间缩短。另外,根据检索履历,将检索的频度小的 索引从副索引中删除,能缩小索引的尺寸。
其次,为了检索没有对文书进行字符编码(没有作成电子化文 本)的文书图像,进行字符识别处理,从文书图像中抽出字符部分, 由此来作成并保存电子化文本。例如,在特开平8-7033号公报中公 开了这样的技术:作为字符识别的结果,保存多个各字符图像的识别 候选字符,由此来提高包含正确解释的字符的比例。
图22是表示特开平8-7033号公报所示的现有的全文检索设备 (以下称现有例2)的结构图,图中221是图像输入装置,222是输 出装置,223是字符识别装置,224是文书检索装置,225是关键字输 入装置,226是图像数据,227是文本信息,228是检索用文件。
其次说明工作情况。
在现有例2中,如果从图像输入装置221输入文书图像,便用字 符识别装置223进行字符识别,将该识别候选字符存储在检索用文件 228中。
由于存储多个识别候选字符,所以检索用文件228的记述使用识 别候选字符数和识别候选字符,记述成[候选字符数]、[候选字符1]、 [候选字符2]、…。
例如,对于称为“新文书编档”的字符图像来说,在存储多个识 别候选字符的情况下,记述成:[1]新[4]丈文女交[1]书[1]フ[1]ア [1]イ[1]リ[1]ン[1]グ等。
检索时,文书检索装置224对检索用文件228内的文本和关键字 进行对照,在识别候选字符中包含全部关键字和同一字符的情况下, 认定对照成功。例如,对于“新文书编档”的文本来说,如果用关键 字“文书”进行检索,则由于在[4][丈文女交[1][书]的识别候选字 符内存在“文”及“书”,所以对照成功,并作为检索结果输出。
另外,通过将现有例1和现有例2组合起来,作成包含识别候选 字符的索引,就能进行检索。例如,设N=2,在现有例2的“新文 书编档)”的例中,通过作成使用“新丈”、“新文”、“新女”、 “新交”、“丈书”、“文书”、“女书”、“交书”这样的识别候 选字符的索引,就能适用于现有例1。
由于如上构成现有的全文检索设备,所以在根据字符识别结果作 成的文本作成索引的情况下,如果作成只使用字符识别结果的第一位 识别候选字符的索引,则字符识别结果包含错误的概率增大,关键字 和文本内的字符不一致,存在不能正确解释地检索的情况增多的课 题。
另外,如现有例2所示,在实际上对照使用了识别候选字符的文 本的检索中,与只保存第一位识别候选字符的情况相比,文本中包含 正解字符的概率虽然较高,但数据越多,将文本文件装入存储器所需 要的时间越长,所以存在不能谋求高速检索的课题。
另外,在使用识别候选字符作成索引进行检索的情况下,如果识 别候选字符内完全不包含正解字符,则不能正确解释地作成正解字符 串的索引,存在检索时不能正确解释检索的课题。
例如,称为“字符识别”的字符图像的识别结果如“字符识别” 所示z在将“字”错误地识别为“宇”的情况下,作成的索引变为“文 宇”、“宇认”、“识别”,而不能作成本来的“字符”、“字认” 的索引,其结果不能用“字符识别”的关键字正确解释地进行检索。
另外,例如如果对各字符每3个字符保存识别候选字符,则作成 连续的两个字符的索引时的组合变为3×3=9组,是一个字符一个 字符地保存识别候选字符时的9倍。连续的3个字符的组合为3×3× 3=27组,所保存的识别候选字符越多,连续的N个字符的组合越多, 其结果,存在索引的容量变得非常大的问题。
发明内容
本发明就是为了解决上述课题而完成的,其目的在于获得一种能 高速且高精度地进行全文检索的全文检索设备及全文检索方法。
另外,本发明的目的还在于获得能使索引的容量小的全文检索设 备。
本发明的一种全文检索设备,备有:识别包含在输入文书的输入 图像中的各字符图像并输出对各字符图像的一个以上的识别候选字 符和显示各相应识别候选字符的准确度的字符识别装置;输出表示 上述字符识别装置输出的上述识别候选字符的上述文书内的位置关 系的索引的索引作成装置;作为上述文书的检索条件输入关键字的 输入装置;以作为由上述输入装置输入的检索条件的上述关键字为 基础,检索与上述检索条件相符的文书的检索装置;和输出从上述 检索装置得到的检索结果的输出装置;其特征在于还具有:
在包含于上述输入图像中的各字符图像中,对于各个具有基准的 准确度以下的识别候选字符的字符图像,分成多个区域,将从各区 域的像素特征计算出的值,作为形状特征抽出的特征抽出装置;
上述检索装置,参照上述索引,检索与从上述输入装置输入作为 检索条件的上述关键字一致的上述识别候选字符的文书,并对照由 上述特征抽出装置抽出的上述字符图像的上述形状特征,和构成上 述关键字的字符的形状特征,检索符合检索条件的上述文书。
本发明的全文检索设备在索引的作成对象中包含组合了两个以 上的识别候选字符的连接字符。
本发明的全文检索设备在字符识别装置输出的各识别候选字符 中,将准确度比基准准确度低的识别候选字符从索引的作成对象中除 去。
本发明的全文检索设备,即使在字符识别装置输出的识别候选字 符的准确度比基准准确度低的情况下,在没有其准确度超过基准准确 度的识别候选字符的与字符图像有关的识别候选字符时,索引的作成 对象中包含该识别候选字符,同时对该识别候选字符附加与其他识别 候选字符相区别的识别记号。
本发明的全文检索设备将字符图像的形状特征存储在数据库 中,同时将该字符图像的各识别候选字符和有可能构成单词的字符的 字符码存储在数据库中。
本发明的全文检索设备考虑语言信息或字符种类,判断各识别候 选字符和有可能构成单词的字符。
本发明的全文检索设备计算由特征抽出装置抽出的字符图像的 形状特征与构成关键字的字符的形状特征的距离,该距离满足规定的 基准时,认定符合检索条件。
本发明的全文检索设备设有设定由检索装置进行的形状特征对 照处理的有无的设定装置。
本发明的全文检索设备将包含与关键字一致的识别候选字符的 文书从形状特征的对照对象中除去。
本发明的全文检索设备只在不存在与关键字一致的识别候选字 符的情况下,对照由特征抽出装置抽出的字符图像的形状特征和构成 关键字的字符的形状特征。
本发明的全文检索设备在确定关键字的形状特征的对照对象 时,将附加了识别符号的识别候选字符作为通配符处理。
本发明的全文检索设备考虑了整个文书中出现组合了两个以上 的识别候选字符的连接字符的出现概率,判断索引的作成对象中是否 包含该连接字符。
本发明的全文检索设备,在构成连接字符的各识别候选字符是该 字符图像的唯一的识别候选字符的情况下,对该连接字符的出现次数 进行往上计数,更新出现概率。
本发明的全文检索设备对与关键字一致的连接字符的出现次数 进行往上计数,更新出现概率。
本发明的全文检索设备在修正了字符识别装置输出的识别候选 字符的情况下,对包含修正后的识别候选字符的连接字符的出现次数 进行往上计数,更新出现概率。
本发明的全文检索方法参照索引,检索与关键字一致的识别候选 字符的文书,另一方面,对照字符图像的形状特征和构成关键字的字 符的形状特征,检索符合检索条件的文书。
附图说明
图1是表示本发明的实施例1的全文检索设备的结构图。
图2是表示文书的登录方法的流程图。
图3是表示输入图像的说明图。
图4是表示字符识别装置的识别结果的说明图。
图5是表示识别候选字符的减少结果的说明图。
图6是表示保持从字符图像抽出的形状特征的例的说明图。
图7是表示模糊文本的某文书编号的开始位置等的说明图。
图8是表示具体的形状特征的作成方法的说明图。
图9是表示两个字符的索引例的说明图。
图10是表示存储了一个字符索引的位置和识别顺序的表的说明 图。
图11是表示文书的检索方法的流程图。
图12是表示索引对照的流程图。
图13是表示模糊文本对照的流程图。
图14是表示索引对照的流程图。
图15是表示本发明的实施例3的全文检索设备的结构图。
图16是表示字符连锁出现概率词典的说明图。
图17是表示文书的登录方法的流程图。
图18是表示识别结果的修正内容的说明图。
图19是表示文书的登录方法的流程图。
图20是表示文书的检索方法的流程图。
图21是表示现有的全文检索设备(现有例1)的结构图。
图22是表示现有的全文检索设备(现有例2)的结构图。
具体实施方式
以下,说明实施本发明的一种形态。
实施例1
图1是表示本发明的实施例1的全文检索设备的结构图,图中, 1是输入图像的图像输入装置,2是识别输入图像中包含的各字符图 像,输出各字符图像的一个以上的识别候选字符,同时输出各识别候 选字符的准确度(类似度)的字符识别装置,3是作成表示字符识别 装置2输出的各识别候选字符和字符位置的对应关系的索引的索引作 成装置。
4是在输入图像中包含的各字符图像中存在没有其准确度超过基 准准确度的识别候选字符的字符图像的情况下,抽出该字符图像的形 状特征,同时考虑语言信息或字符种类,判断该字符图像的识别候选 字符和有可能构成单词(字符串)的字符,将该字符串作为模糊文 本抽出的模糊文本抽出装置(特征抽出装置),5是作为文书的检索条 件输入关键字的检索条件输入装置(输入装置,设定装置),6是参 照索引,检索与该关键字一致的识别候选字符的文书编号,另一方面 对照由模糊文本抽出装置4抽出的字符图像的形状特征和构成关键字 的字符的形状特征,检索符合文书的检索条件的文书编号的检索装 置,7是输出检索装置6的检索结果的输出装置。
8是字符识别装置2进行字符识别时使用的字符识别词典,9是 检索装置6进行关键字检索时使用的形状特征词典,10是存储由模糊 文本抽出装置4抽出的模糊文本的模糊文本数据库,11是存储由索引 作成装置3作成的索引的索引数据库,12是存储识别候选字符等的识 别字符数据库。
其次说明工作情况。
最初,参照图2说明文书的登录方法。首先,在步骤ST100中, 图像输入装置1输入能用计算机处理的文书图像。
作为图像输入装置1的结构,可以采用扫描器或数字摄像机,也 可经由网络等输入预先作成的能用计算机处理的图像。这里,假定从 图像输入装置1输入图3所示的文书图像。
其次,在步骤ST110中,字符识别装置2对从图像输入装置1输 入的输入图像进行字符识别处理,输出表示字符码及其准确度的类似 度。
字符识别方法能采用众所周知的技术,所以详细说明从略。字符 识别装置2对于输入图像中包含的各字符图像,输出多个识别候选字 符和各自的类似度。
图4是字符识别装置2的识别结果的一部分,这里,关于图3中 的第一行至第二行的各字符图像的识别结果,示出了从识别候选第一 位至第五位的识别候选字符及其类似度。
图4中识别候选字符中存在的“◆”意味着未存储对应的字符码。
其次,在步骤ST120中,索引作成装置3根据图4所示的识别结 果,进行检索用的识别候选字符的收缩。
作为进行检索用的识别候选字符的收缩的方法,例如,根据预先 学习数据,求得识别候选字符的类似度和该识别候选字符正解的准确 率,设定正解的准确率高、而且能进行充分减少的阈值TH1,保存类 似度在阈值TH1以上的识别候选字符。
在不存在类似度在阈值TH1以上的识别候选字符的情况下,由于 不包含正解字符的准确率高,所以除了各识别候选字符外,还附加表 示不包含正解字符的可能性高的“*”符号。
在该例中,虽然使用“*”符号,但也可以分配其他字符码,还 可以分配字符码以外的值。
图5表示识别候选字符的收缩结果。例如,如果设定TH1=80, 则对于字符位置编号4和字符位置编号9来说,不存在类似度在80 以上的识别候选字符(参照图4),所以对它们附加“*”(参照图5 中的符号23、24)。索引作成装置3将图5所示的收缩后的识别候选 字符保存在识别字符数据库12中。
其次,在步骤ST130中,索引作成装置3作成索引。这里,根据 图5所示的识别候选字符,作成每一个字符的索引和连续的两个字符 的索引。
这里,具体地说明索引的作成方法。
图9表示索引作成装置3根据图5所示的识别候选字符作成的两 个字符的索引。该作成方法是从图5中的第一个字符开始,依次对相 邻的字符之间计算并保存相邻的两个字符的前一个字符和后一个字 符的字符码、前一个字符的出现位置、前一个字符的识别候选顺序和 后一个字符的识别候选顺序的积。出现位置记作“X-Y”,意味着从 文书编号X的开头位置开始至第Y个字符。这里,将图3中的文书图 像的文书编号作为“1”。
例如,根据图5中的“文”21和“书”22,作成图9中的“文书” 25的索引。在此情况下,“文”21的位置信息是从文书1的开头的 第一个字符,所以字符位置为“1-1”,“文”21和“书”22的识 别候选顺序都是一位,所以识别候选顺序为1×1=1。
图10是存储字符索引的位置和识别顺序的表,用来保存字符码、 字符出现位置及识别候选顺序。对于被断定为不包含正解字符码的字 符来说,保存“*”31和字符位置32。
其次,在步骤ST140中,模糊文本抽出装置4抽出不包含正解字 符码的字符。
即,模糊文本抽出装置4根据图5所示的识别候选字符,并根据 带“*”的字符码的字符图像,作成字符的形状特征,与其前后的数 个字符一起存储在模糊文本数据库10中。
前后字符的判断方法可以是例如进行众所周知的形态要素分 析,从带“*”的字符码的前后开始作为形态要素分析中失败的字符, 也可以作为与带“*”的字符码为同一类别(英文、汉字、数字、平 假名、片假名中的任意一种)连续的字符,还可以固定字符数。这里, 保存后一个字符。
图8表示具体的形状特征的作成方法,在图8中,将字符图像分 成8个部分,求各区域的黑像素数。例如,对区域41求13个黑像素 数(参照符号49),对区域42求10个黑像素数(参照符号50)。 将这样作成的形状特征与识别候选字符一起保存。图6表示保存从第 四字符和第九字符的字符图像抽出的形状特征的例。
另外,模糊文本抽出装置4将作成形状特征的字符的位置及其特 征值存储在识别字符数据库12中(参照图5的下部)。
其次,说明文书的检索方法。
这里,文书登录处理的结果,只将与文书编号为1的文书有关的 数据存储在索引数据库11及模糊文本数据库10中。图11是表示文 书的检索方法的流程图。
首先,在步骤ST200中,使用者用检索条件输入装置5输入关键 字。为了构成检索条件输入装置5,可以用计算机的键盘或鼠标,但 不限于此,也可以是使用话筒、电话等的声音输入。这里是输入称为 “字符”的关键字的装置。
其次,在步骤ST210中,检索装置6分割输入的关键字。这里, 分解成一个字符及两个字符连接字符串的组。即,分割成“文”、“字”、 “文字”。
其次,在步骤ST220中,检索装置6用索引进行文书的检索。图 12是表示索引对照的流程图。
首先,在步骤ST221中,检索装置6进行取出该分割了的“文字”、 “文”、“字”的各索引(参照图9中的符号26、图10中的符号27、 28)的处理。具体地说,将各索引的内容装入图中未示出的存储器中。
其次,在步骤ST222中,进行字符位置的验证,检索文书编号。 即分别验证“文”、“字”的字符位置,检索文书编号即可,但也可 以用“文字”的索引26,检索文书编号。这里,用“文字”的索引26 进行检索。在此情况下,由于“文字”的字符位置是“1-7”,所以 文书编号1成为检索结果。
最后,在步骤ST224中,检索装置6输出用索引进行的检索结果。
其次,在图11所示的步骤ST230中,检索装置6用模糊文本进 行检索。图13是表示模糊文本对照的流程图。
首先,在步骤ST231中进行检索对象文书的确定。这里,为了处 理时节省时间,将由索引对照(步骤ST220)进行的检索结果、成为 输出候选的文书编号的文书从检索对象中除去。
具体地说,抽出包含关键字“文字”的“文”、“字”中的某一 个字符的文书编号,将从其中把在步骤ST220中输出的文书编号的文 书除去后的文书作为检索对象。就是说,从图10取出“文”的索引 27表示的文书编号和“字”的索引28表示的文书编号的OR,从其中 将在步骤ST220中的检索结果除去。
在此情况下,“文”和“字”的文书编号的OR为1,在步骤ST220 中,输出文书编号1,所以将文书编号1从文书编号1除去后作为非 对象文书。
其次,在步骤ST232中,将对象文书装入存储器。这时,由于是 非对象文书,所以不装入。接着,在步骤ST233中,进行使用字符码 层次的对照,但由于是非对象文书,所以不进行对照。同样,在步骤 ST234中,进行形状特征的对照,但由于是非对象文书,所以不进行 对照。在步骤ST235中,进入Y(是),在步骤ST236中输出无结果 后结束。
最后,在图11所示的步骤ST240中,输出各检索结果(文书编 号1)后结束。
其次,说明使用者输入了“课题”作为关键字时的检索。
在图11所示的步骤ST200中,使用者从检索条件输入装置5输 入“课题”作为关键字。在步骤ST210中,检索装置6进行关键字分 割。这里,分割成“课”、“题”、“课题”。
其次,在步骤ST220中,检索装置6按照索引对照的方法进行检 索。在图12所示的步骤ST221中,取出各索引,这时存在“题”的 索引30,而不存在“课题”、“课”的索引。进入步骤ST222、步骤 ST224,由于不存在“课题”的索引,所以无结果而结束。
其次,在图11所示的步骤ST230中,检索装置6检索模糊文本。 首先,在图13所示的步骤ST231中,进行检索对象文书的确定。取 出“课”的索引表示的文书编号和“题”的索引表示的文书编号的OR, 进行从其中将在步骤ST220中的检索结果除去的处理。
“题”的索引30表示的文书编号为“1”,由于在步骤ST220中 没有检索结果,所以对象文书的文书编号变为“1”。
其次,在步骤ST232中,将对象文书的模糊文本装入存储器。这 里,将图6所示的文书编号1的文本及形状特征装入存储器。
其次,在步骤ST233中,检索装置6用字符码层次进行对照。这 时,在检索关键字和一个字符一致的情况下,将一致的字符位置附近 作为形状特征对照范围存储起来,然后继续进行。具体地说,将关键 字“课题”的“课”或“题”中的任意一个字符存在的部分的附近作 为形状特征对照范围。这里,在图6中由于“题”33一致,所以将它 作为形状特征对照范围。
其次,在步骤ST234中,检索装置6进行使用形状特征的对照。 这里,根据图6中的形状特征34和形状特征词典9,装入“课”的形 状特征。在图8中,将41~48的区域分配给区域1~区域8。形状 特征的计算如下所示,计算每个区域的特征的差分。
[式1]
式中,D是形状特征间的距离,Xi是模糊文本数据库10内的文本 的第i号的形状特征,Yi是对应的关键字字符的第i号的形状特征(存 储在形状特征词典9内)。
在距离D在某一阈值THR以下的情况下,形状特征的对照成功, 将该文书作为检索结果输出。现在,假设形状特征词典9内的“课” 的区域1~8的特征值分别为“10”、“7”、“12”、“12”、“10”、 “5”、“10”、“9”,与图6中的形状特征34的距离D=30。
因此,THR≥D成立,所以该特征之间的对照成功,将文书编号1 作为检索结果输出。
最后,在步骤ST240中,输出作为该检索结果的文书编号1。
在该实施例1中,说明了索引为一个字符和两个字符的情况,但 不限于此,也可以使用连续的3个字符的索引,也可以是更多字符的 索引。
另外,在该实施例1中,用索引和模糊文本两者进行了检索,但 不限于此,如图20所示,不进行模糊文本的对照也可以输出检索结 果。由于不使用模糊文本,所以不能进行字符识别中失败的部分的检 索,但能谋求结果输出的高速化。
另外,由于使用模糊文本能进行高精度检索,所以将检索条件输 入检索条件输入装置5时,指定是否进行使用模糊文本的检索,能自 由地指定检索精度优先或检索速度优先。
另外,模糊文本虽然使用了图6,但如图7所示,也可以作成表 示哪个文书中包含作为模糊文本的文书编号的开始位置和结束位置 及模糊文本的字符码的表。
说明这时的工作情况。如上所述,登录时模糊文本抽出装置4将 类似度包含TH1以下的字符的前后数个字符的字符串确定为模糊文 本,保存该开始字符位置和结束字符位置及文书编号。现在,用图5 中的“*”23进行说明,这里,假定包含该字符的后一个字符为模糊 文本。在图7中保存开始字符位置4(参照符号500)、结束字符位 置5(参照符号501)、文书编号1(参照符号502)。
另外,模糊文本抽出装置4作成图7(B)所示的出现模糊文本的 字符表。现在,对在开始字符位置4和结束字符位置5处存在的全部 识别候选字符保存文书编号1。从图5可知在该例中,对图7(B)中 的“谍”503、“训”504、“诘”505、“语”506、“话”507、“题” 508保存文书编号1。
检索处理直至图11中的步骤ST220与上述实施例1相同。在步 骤ST230中,对关键字“课题”来说,检索装置6从图7(B)中的表 装入“课”、“题”的索引确定该文书。
这里,由于不存在包含“课”的文书,而包含“题”的文书的文 书编号为“1”,所以对文书编号1进行使用形状特征的检索。
在图7(A)中对文书编号1的第4至第5个字符、以及第9至第 10个字符,从图5中的识别字符数据库12装入字符和形状特征,进 行对照。以下与实施例1相同。
因此,能防止识别字符数据库12和模糊文本数据库10的双重保 存,数据量越大,越能抑制数据保存用的容量。
从以上说明可知,如果采用该实施例1,则由于参照索引,检索 与关键字一致的识别候选字符的文书编号,另一方面对照字符图像的 形状特征和构成关键字的字符的形状特征,检索符合文书的检索条件 的文书编号,所以具有能进行高速且高精度的全文检索的效果。
实施例2
在上述实施例1中,虽然给出了在字符码完全不一致的情况下, 使用形状特征检索文书编号的例,但也可以不使用形状特征,而只用 索引进行检索。
文书的登录方法与上述实施例1相同,所以说明文书的检索方 法。
首先,在图11所示的步骤ST200中,进行输入关键字“课题” 的操作。其次,在步骤ST210中,进行关键字分割。
这里,作成“课”、“题”、“课题”。其次,在步骤ST220中, 进行对照索引的检索,但对照索引的流程采用图14所示的流程图。
在步骤ST221中,检索装置6进行取出各分割关键字字符串的索 引的处理。由于不存在“课题”、“课”的索引,只存在“题”的索 引,所以从图10取出“题”的索引30。
其次,在步骤ST222中,进行字符位置的对照。这里,由于不存 在“课题”的索引,所以没有适合对照的文书,进入步骤ST223。在 步骤ST223中,对一部分不一致的字符位置使用符号“*”进行对照。
该检索即使如“课题”所示与关键字完全不一致,但用“*题”、 “课*”的字符串也能对照。处理的顺序是使用“课”、“题”的索 引,根据“课”或“题”的索引,检索字符位置。虽然对“课”来说 不存在索引,但存在“题”的索引30。
其次,装入“*”字符的索引31。用“*”的索引31验证“题” 的索引30中是否存在连接的字符。由于“*”开始的字符位置“1-4” 32位于“题”的1-5的一个字符前,所以满足条件。此外,由于不 存在“题”的字符位置,所以在步骤ST224中,输出检索结果(文书 编号1)后结束。
在图11中,不进行步骤ST230的模糊文本对照,进入步骤ST240, 输出其检索结果(文书编号1)后结束。
在该实施例2中,对于被认为识别候选字符中不存在正解的字符 来说,在识别候选字符中增加符号“*”,看看该字符与哪个字符对 照一致,进行检索。但是,如“**”所示,在正解字符一个字符也不 包含的情况下不成功。因此,具有能减少由于误识别造成的漏检索的 效果。
实施例3
图15是表示本发明的实施例3的全文检索设备的结构图,图中 与图1相同的符号表示相同或相当的部分,所以说明从略。
13是修正字符识别装置2的识别结果的识别结果修正装置,14 是变更字符连锁出现概率的字符连锁出现概率词典更新装置(出现概 率更新装置),15是存储字符连锁的出现概率的字符连锁出现概率词 典,16是作成索引时,参照字符连锁出现概率词典15,判断索引的 作成对象中是否包含两个以上的识别候选字符组合的连接字符的索 引作成装置。
其次说明工作情况。
这里,说明使用字符连锁出现概率词典15作成索引的方法、以 及字符连锁出现概率词典15的更新方法。
在文书的登录处理中,直到图2中的步骤ST120与上述实施例1 的处理方法相同。
在图2所示的步骤ST130中,索引作成装置16与上述实施例1 一样,进行识别候选字符的减少,根据图5所示的识别候选字符作成 索引。这时,用字符连锁出现概率词典15,对识别候选字符的组合, 确定是否作成索引。
图16表示字符连锁出现概率词典15的一例,在图15的“概率” 中,预先根据多个学习文书,计算文书内连续的N个字符的组合的出 现数,对全体文书求出现概率。总数是实际学习文书中出现的组合 数。组合字符(连接字符)的开始字符相同的组的概率的和为“1”。 例如,“文字”、“文学”、“文章”等从“文”开始的组合的概率 的和为“1”。
定义下式,根据图5中的识别候选字符的组合计算E,根据该E 的值确定是否作成索引。
[式2]
Eijk=α(Rij+R(i+1)k)+(1-α)·β·Pij(i+1)k
0≤α≤1
式中,R表示字符识别的类似度,Rij表示从开头第i个字符位置 的第j位识别候选字符的类似度。同样,R(i+1)k表示从开头第(i+1) 个字符位置的第k位识别候选字符的类似度。
Pij(i+1)k表示从开头第i个字符位置的第j位识别候选字符之后从 开头第(i+1)个字符位置的第k位识别候选字符继续出现的概率。 α、β是常数。
具体地说,在图5中,例如i=7时,对“文字”、“文字”、 “文学”、“丈宇”、“丈字”、“丈学”6组进行E的计算,如果 各值在某阈值以上,则在索引中作成其组合,如果在某阈值以下,则 在索引中不残留。
现在,假设α=0.5,β=300,则E(文字)=0.5×(90+86) +(1-0.5)×300×0.001=88.15。同样计算,得E(文字)=102, E(文学)=86.5,E(丈宇)=78.15,E(丈字)=77.15,E(丈学) =75.15。
因此,在将E>85以上的字符组作为索引保存时,只登录“文 字”、“文宇”、“文学”的组合。这时,在图9中的两个字符索引 中,按照大小顺序分配E的值。这里,使“文字”保持1,使“文字” 保持2,使“文学”保持3。
文书的检索方法与上述实施例1相同。
由于用字符识别中使用的类似度、以及文书中字符之间的组合连 续出现的概率,算出值的大小,所以能排除作为字符的正解下降的可 能性、或者作为字符串在文书中存在的概率低的组合,能紧凑地、而 且正解字符被错误地删除少地作成检索用的索引。
实施例4
其次,说明变更字符连锁出现概率词典15的方法。
在内容、领域相同或相似的文书中,各文书内出现的重要单词相 类似,较多地出现。因此,通过学习出现的字符的组合,更新每个领 域的文书的字符连锁出现概率词典15,能并不怎么降低检索的精度, 而使索引紧凑化。
在该实施例4中,说明根据字符识别结果,计数被认为正确解释 的字符组合的出现数,使该值反映在字符连锁出现概率词典15中的 例。
图17是表示文书的登录方法的流程图。文书登录中使用的文书 与上述实施例1相同。
直到步骤ST120,与上述实施例1的处理方法相同。在步骤ST135 中,与上述实施例1同样地作成索引。此后,字符连锁出现概率词典 更新装置14从图5所示的识别候选字符中,计算候选数为一个字符 连续的字符的组合的出现数。
在图5中,对“文书”、“识性”、“性能”、“能の”、“の 向”、“向上”的组合,计数其出现数。字符连锁出现概率词典更新 装置14将各组合及其数保存在图中未示出的缓冲器中,在某一时刻, 例如在多次文书登录中用一次的比例更新图16中的字符连锁出现概 率词典15。另外,使用者利用进行更新的命令进行更新。
以下,在步骤ST140中,与上述实施例1一样,抽出模糊文本后 结束。
另外,在使用者用识别结果修正装置13,对识别候选字符修正字 符识别错误的情况下,计算修正的字符的组合数,也能更新字符连锁 出现概率词典15。
图19是表示文书的登录方法的流程图。在图19中直到步骤 ST120,与上述实施例1的处理方法相同。
在步骤ST125中,用识别结果修正装置13进行字符的修正。例 如,如图18中的60、61所示,使用者修正图5中的字符位置8、9。
其次,在步骤ST133中,索引作成装置16根据图18所示的识别 候选字符作成索引。其次,在步骤ST143中,计数字符连锁出现频度。 字符连锁出现概率词典更新装置14计数修正后的字符前后包含识别 候选字符为一个字符的组合数。这里,在图18中对“字认”、“认 识”计数组合数。字符连锁出现概率词典15的更新在某一时刻、例 如修正了一定数之后进行更新。
另外,不限于误识别字符的修正,还能根据检索用的关键字,计 数字符连锁出现频度,使其反映在字符连锁出现概率词典15中,登 录时能更准确地残留用于关键字的字符串。
如上所述,如果采用本发明,则由于设有检索装置,它参照索引, 检索与关键字一致的识别候选字符的文书,另一方面,对照由特征抽 出装置抽出的字符图像的形状特征和构成关键字的字符的形状特 征,检索符合检索条件的文书,所以具有能进行高速、且高精度的全 文检索的效果。
如果采用本发明,则由于在索引的作成对象中包含两个以上的识 别候选字符组合的连接字符,所以具有能进行高速、且高精度的全文 检索的效果。
例如采用本发明,则由于在字符识别装置输出的各识别候选字符 中,将准确度比基准准确度低的识别候选字符从索引的作成对象中除 去,所以具有不会导致检索精度的劣化、能减少索引的容量的效果。
如果采用本发明,则由于即使在字符识别装置输出的识别候选字 符的准确度比基准准确度低的情况下,在没有其准确度超过基准准确 度的识别候选字符的与字符图像有关的识别候选字符时,索引的作成 对象中包含该识别候选字符,同时对该识别候选字符附加与其他识别 候选字符相区别的识别候选字符,所以在关键字和字符码不一致的检 索中具有能只使用索引数据库进行检索的效果。
如果采用本发明,则由于将字符图像的形状特征存储在数据库 中,同时将该字符图像的各识别候选字符和有可能构成字的字符的字 符码存储在数据库中,所以具有能谋求提高检索精度的效果。
如果采用本发明,则由于考虑语言信息或字符种类,判断各识别 候选字符和有可能构成字的字符,所以具有提高检索精度的效果。
如果采用本发明,则由于计算由特征抽出装置抽出的字符图像的 形状特征和构成关键字的字符的形状特征的距离,该距离满足规定的 基准时,认定符合检索条件,所以具有能定做形状特征词典的效果。
如果采用本发明,则由于设有设定由检索装置进行的形状特征对 照处理的有无的设定装置,所以具有能考虑检索速度和检索精度的重 要性,设定检索处理时的处理种类的优先度的效果。
如果采用本发明,则由于将包含与关键字一致的识别候选字符的 文书从形状特征的对照对象中除去,所以具有能减少对照形状特征时 无用的检索的效果。
如果采用本发明,则由于只在不存在与关键字一致的识别候选字 符的情况下,对照由特征抽出装置抽出的字符图像的形状特征和构成 关键字的字符的形状特征,所以具有能提高检索速度的效果。
如果采用本发明,则由于在特定关键字的形状特征的对照对象 时,将附加了识别符号的识别候选字符作为通配符处理,所以具有能 只用索引数据库进行检索的效果。
如果采用本发明,则由于考虑整个文书中出现两个以上的识别候 选字符组合的连接字符的出现概率,判断索引的作成对象中是否包含 该连接字符,所以具有能有效地削减索引的容量的效果。
如果采用本发明,则由于在构成连接字符的各识别候选字符是该 字符图像的唯一的识别候选字符的情况下,对该连接字符的出现次数 进行往上计数,更新出现概率,所以具有能降低不能检索重要的关键 字的概率的效果。
如果采用本发明,则由于对与关键字一致的连接字符的出现次数 进行往上计数,更新出现概率,所以具有能提高重要的字符的优先 度、降低不能检索重要的字符的概率的效果。
如果采用本发明,则由于在修正了字符识别装置输出的识别候选 字符的情况下,对包含修正后的识别候选字符的连接字符的出现次数 进行往上计数,更新出现概率,所以具有能提高重要的字符的优先 度、降低不能检索重要的字符的概率的效果。
如果采用本发明,则由于参照索引,检索与关键字一致的识别候 选字符的文书,另一方面对照字符图像的形状特征和构成关键字的字 符的形状特征,检索符合检索条件的文书,所以具有能进行高速且高 精度的全文检索的效果。
法律信息
- 2011-03-09
未缴年费专利权终止
IPC(主分类): G06F 17/30
专利号: ZL 00134962.7
申请日: 2000.12.13
授权公告日: 2003.08.13
- 2003-08-13
- 2001-06-20
- 2001-04-11
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有引用任何外部专利数据! |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |