著录项信息
专利名称 | 全文检索系统及方法 |
申请号 | CN200510108009.5 | 申请日期 | 2005-09-29 |
法律状态 | 授权 | 申报国家 | 中国 |
公开/公告日 | 2006-04-05 | 公开/公告号 | CN1755691 |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/30 | IPC分类号 | G;0;6;F;1;7;/;3;0查看分类表>
|
申请人 | 株式会社东芝;东芝解决方案株式会社 | 申请人地址 | 日本东京都
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 株式会社东芝,东芝解决方案株式会社 | 当前权利人 | 株式会社东芝,东芝解决方案株式会社 |
发明人 | 高知尾胜彦;笹气光一;加藤阳二 |
代理机构 | 北京市中咨律师事务所 | 代理人 | 陈海红;段承恩 |
摘要
第1检索单元(13)利用按照检索条件语句的一次检索和针对该一次检索的结果的二次检索执行基于N-gram索引(14)的检索。词素分析单元(15)对上述检索条件语句进行词素分析。第2检索单元(16)按照词素分析单元(15)的词素分析结果执行基于词素索引(17)的词素检索。近似度判定单元(183)判定上述基于N-gram索引的一次检索的命中数的第1命中数和上述基于词素索引的词素检索的命中数的第2命中数的近似度。全文检索执行控制单元(18),在上述第1命中数和上述第2命中数近似时,省略上述基于N-gram索引的二次检索地控制第1检索单元(13),采用上述一次检索的结果或上述词素检索的结果作为检索结果。
1. 一种全文检索系统,其包括: 利用按照检索条件语句的一次检索和针对该一次检索的结果的二次检索,执行基于N-gram索引的检索的第1检索单元;对上述检索条件语句进行词素分析的词素分析单元;以及按照利用上述词素分析单元所得到的词素分析结果,执行基于词素索引的词素检索的第2检索单元; 上述全文检索系统的特征在于,具有: 通过将表示作为上述基于N-gram索引的一次检索的命中数的第1命中数和作为上述基于词素索引的词素检索的命中数的第2命中数相近似的程度的近似度与近似度阈值相比较,判定上述第1命中数和上述第2命中数是否近似的近似度判定单元; 通过比较上述第1命中数与基准的命中数来判定上述第1命中数是多或是少的一次检索结果数判定单元;以及 在利用上述一次检索结果数判定单元判定为上述第1命中数多且利用上述近似度判定单元判定为上述第1命中数和上述第2命中数近似时,以省略上述基于N-gram索引的二次检索的方式,控制上述第1检索单元,采用上述一次检索的结果或上述词素检索的结果作为检索结果的全文检索执行控制单元, 上述全文检索执行控制单元,在利用上述一次检索结果数判定单元判定为上述第1命中数少时和利用上述近似度判定单元判定为上述第1命中数和上述第2命中数不近似时的任一种情况下,以执行上述基于N-gram索引的二次检索的方式控制上述第1检索单元,采用上述二次检索的结果作为检索结果。
2.如权利要求l所述的全文检索系统,其特征在于:还具有,根据利用上述词素分析单元所得到的词素分析结果,判定是 否可以将上述检索条件语句分割为可以进行词素检索的单词的词素分析结 果判定单元;上述全文检索执行控制单元,在由上述词素分析结果判定单元判定为 可以将上述检索条件语句分割为可以进行词素检索的单词时,以执行基于上述词素索引的词素检索的方式,控制上述第2检索单元。
3. 如权利要求l所述的全文检索系统,其特征在于: 上述全文检索执行控制单元,根据由上述词素分析单元的分析结果所示出的作为分割后的单词数的分割单词数,确定采用上述一次检索的结果 或上述词素检索的结果中的哪一个作为检索结果。
4. 如权利要求3所述的全文检索系统,其特征在于: 上述全文检索执行控制单元,在上述分割单词数超过作为基准的最小单词数时,采用上述一次检索的结果作为检索结果;在上述分割单词数小 于等于上述最小单词数时,采用上述词素检索的结果作为检索结果。
5. 如权利要求4所述的全文检索系统,其特征在于,还具备: 用于可由用户指定上述最小单词数的用户界面。
6. 如权利要求4所述的全文检索系统,其特征在于: 上述全文检索执行控制单元,在上述分割单词数超过比上述最小单词数多的基准单词数时,以执行上述基于N-gram索引的二次检索的方式, 控制上述第l检索单元,采用上述二次检索的结果作为检索结果。
7. 如权利要求l所述的全文检索系统,其特征在于,还具备: 用于可由用户指定上述基准的命中数的用户界面。
8. 如权利要求l所述的全文检索系统,其特征在于,还具备: 用于可由用户指定上述近似度阈值的用户界面。
9. 如权利要求l所述的全文检索系统,其特征在于,还具备:用于可由用户指定标准检索及快速检索中的某一个的用户界面,上述 标准检索在任何情况下都一直进行到上述基于N-gram索引的二次检索, 上述快速检索才艮据利用上述近似度判定单元所得到的判定结果有可能省略 上述基于N-gram索引的二次检索。
10. 如权利要求1所述的全文检索系统,其特征在于: 上述全文检索执行控制单元,以使上述基于N-gram索引的一次检索和上述基于词素索引的词素检索并行执行的方式,对上述第l检索单元和上述第2检索单元分别进行控制。
11. 一种应用于系统的全文检索方法,上述系统具备: 利用按照检索条件语句的一次检索和针对该一次检索结果的二次检索执行基于N-gram索引的检索的第1检索单元;对检索条件语句进^"i司素 分析的词素分析单元;以及按照利用上述词素分析单元所得到的词素分析 结果执行基于词素索引的词素检索的第2检索单元; 上述全文检索方法包括:通过将表示作为上述基于N-gram索引的一次检索的命中数的第1命 中数和作为上述基于词素索引的词素检索的命中数的笫2命中数相近似的 程度的近似度与近似度阈值相比较,判定上述笫1命中数和上述第2命中 数是否近似的步骤;通过比较上述第l命中数与基准的命中数来判定上述第l命中数是多 或是少的步骤;在判定为上述第1命中数多且判定为上述第1命中数和上 述第2命中数近似时,省略通过上述第1检索单元进行的上述基于N-gram 索引的二次检索,采用上述一次检索的结果或上述词素检索的结杲作为检索结果的步骤;以及在判定为上述第1命中数少时和上述笫1命中数和上述第2命中数不 近似时的任一种情况下,使上述第1检索单元执行上述基于N-gram索引 的二次检索,采用该二次检索的结果作为检索结果的步骤。
12. 如权利要求11所述的全文检索方法,其特征在于,还包括: 根据利用上述词素分析单元所得到的词素分析结果,判定是否可以将上述检索条件语句分割为可以进行词素检索的单词的步骤;以及在判定为可以将上述检索条件语句分割为可以进行词素检索的单词 时,使上述第2检索单元执行上述基于词素索引的词素检索的步骤。
13. 如权利要求11所述的全文检索方法,其特征在于: 在釆用上述一次检索的结果或上述词素检索的结果作为检索结果的步骤中,根据由上述词素分析单元的分析结果示出的作为分割后的单词数的分割单词数,确定采用上述一次检索的结果或上述词素检索的结果中的哪 一个作为检索结果。
全文检索系统及方法技术领域本发明涉及适合从电子化的庞大的文档信息之中,利用全文检索技术快 速检索符合指定的检索条件的文档的全文检索系统及方法。背景技术从电子化的庞大的文档信息之中,检索符合指定的检索条件的文档的检 索系统,以前已经开发很多种.作为在这种检索系统中应用的文档检索的代表性的检索方法,公知的有基于N-gram(N连字串)索引的检索方法、或 者基于词素(morpheme)索引的检索方法.基于N-gram索引的检索方法, 用于全文检索中.另一方面,基于词素索引的检索方法用于自然语言检索 (概念检索)中.这些检索方法的概要如下. <基于N-gram索引的检索方法>构成文档的字符串,在将字符位置每1个字符错开的同时分割(划分)为 长度N的字符串(字串(gram)).结果,在文档中出现的^字符,作为长 度N的连续字符串(字串度记到索引.N的值可预先确定.在检索时也一 样,作为检索糾的检索字符串(检索词),分割为长度N的字符串(字串) 的群。于是,可以利用下述的步稞,通it^索引得到相同字符串出现的信 息而进行检索,在基于N-gram索引的检索(N"gram检索)中,首先进行一次检索.在此 一次检索中,只以有无与由检索词所分割的长度N的字符串符合的字符串 (即有无命中(hit))来选出候选文档.之后进行二次检索.在此二次检索中, 通过检查各词的相邻关系,从选出的候选文档中选中包拾险索词的文档。 这样,在基于N-gram索引的检索中,通过一次检索和二次检索两个阶段的检索,可以实现无漏检的全文检索.已知,为了提高一次检索的检索精度,可以加大N-gram的N的值。然 而,由子加大N的值时,氽引的絲会变得板大,栓索有可能需要大量时 间。另一方面,在减小N的值时,检索干扰增加,检索精度下降.由于二次检索是以命中的4^P文档作为对象,所以命中ib^多(与实际千扰的多少无关),效率越低.<基于词素索引的检索方法>通过对文档的分析,从该文档中,在具有意义的最小语言羊位(词素)的 范围内,提取应该加索引的词素(单词).对提取的每个词素分配文档信 息.分配了此文档信息的词素,登记到索引.在险索时也一样,将检索词 分割为词素。于是,可以利用下述的步樣,通it^索引得到与相同词素符 合的文档信息而进行检索.在基于词素索引的检索(词素检索)中,索引的容量很小就足够,并且可 进行快速检索.其理由是:与N"gram不同,在各个词素之间没有重复的 部分.但是,在作为检索对象的文档和检索词之间词素不一致时,会发生 漏检。这样,在基于N-gram索引的检索中,无漏检,并且一次检索i^快. 然而,在基于N-gram索引的检索中,用来去除干扰的二次检索的iljl慢. 另一方面,在基于词素索引的检索中,可以进行快速检索,M可能发生 漏检.就是说,在全文检索中使用的基于N-gram索引的检索方法和在自 然语言检索中使用的基于词素索引的检索方法各有长短.于是,比如,在日本特开2001,2831号公报(Jpn. Pat Appln. KOKAI Publication No. 2001-092831)中记述有发挥全文检索和自然语言检索的长 处,用来实现漏检少的文档检索的文档检索技术(以下称其为第1先行技 术)。此第l先行技术的特征在于,执行全文检索和自然语言检索两种检索 并将两种检索的结果汇总(结合)这一点.在此第1先行技术中,从全文检 索的检索结果中,利用自然语言检索选中检索结果.另外,在第l先行技 术中,与此相反,也可以从利用自然语言检索(粗略的自然语言检索辦到的检索结果中,利用全文检索选中检索结果.在此场合,可从利用自然语言检索得到的检索结果中检索包括指定文本的文档。这样,笫l先行技术的特征在于,将全文检索和自然语言检索作为各自 独立的检索处理并将两种检索的结果汇总这一点.就是说,在第1先行技 术中,从利用全文检索及自然语言检索的任一方所得到的检索结果中,通 过该全文检索及自然语言检索的另一方,选中检索结果。因此,在第l先 行技术中,必须执行全文检索和自然语言检索.不过,全文检索与自然语言检索相比,其iUL慢.因此,在将基于N-gram索引的检索方法应用于 全文检索时,该全文检索需要基于N-grain索引的总计的检索执行时间(一 次检索时间+二次检索时间).就是说,第1先行技术,不具有用来消除全 文检索的缺点使该全文检索本身快速化的结构。因此,第l先行技术在检 索命中数多的场合就出现问题.另一方面,在日本特开2003-308335号公报(Jpn. Pat. Appln. KOKAI Publication No. 2003-308335)中记述有,相应于作为检索M的检索式,使 用基于N-gram索引的全文检索或基于词素索引的检索中的一个的文档检 索技术(以下称其为第2先行技术).在此笫2先行技术中,预先评定(判定) 检索式是关键词型还是"自然语言型(概念检索)".如果检索式是关鍵词 型,就进行全文检索,如果是自然语言型,就进行基于词素索引的检索.在此第2先行技术中,在判定检索式是关鍵词型的场合,检索处理需要 基于N-gram索引的总计的检索执行时间(一次检索的执行时间+二次检索 的执行时间).所以,在笫2先行技术中也与笫l先行技术一样,不能有助 于全文检索本身快速化.如上所述,在第l先行技术中,必定执行全文检索.并且,在第2先行 技术中,在检索式是关健词型时也^ft基于N卞ram索引的全文检索。这 一基于N>gram索引的全文检索需要大量的时间.可是,第1及笫2先行 技术中的任何一个都不具有用来使全文检索本身快速化的结构.发明内容本发明的目的在于在一定程度上确体險索^fr度,并可以快4iMt全文检索,根据本发明的一种实施方式,可以提供一种全文检索系统,其构成包括: 利用按照检索条件语句的一次检索和针对该一次检索的结杲的二次检索, 执行基于N-gram索引的检索的第1检索单元;对上述检索**浩句进行 词素分析的词素分析单元;以及按照利用上述词素分析单元所得到的词素 分析结果,执行基于词素索引的词素检索的笫2检索单元.此全文检索系 统具有:判定作为上iU^于N-gram索引的一次检索的命中数的第1命中 数和作为上M于词素索引的词素检索的命中数的笫2命中数的近似度的 近似度判定单元;以及在利用上述Jt似度判定羊元判定为上述笫l命中数 和上述笫2命中数近似时,以省略上iL基于N-gram索引的二次检索的方 式控制上述第l检索单元,采用上述一次检索的结果或上述词素检索的结 果作为检索结果的全文检索执行控制单元。附图说明图1为示出本发明的一实施方式的全文检索系统的构成的框困. 困2为示出同一实施方式的快速检索处理的步錄的流程田. 图3为示出检索界面画面的一例的示困. 图4为示出检索结杲画面的一例的示困.困5为示出上述实施方式的笫1变形例的快速检索处理的步稞的流程图。困6为示出上述实施方式的第2变形例的快速检索处理的步稞的淡悉图.具体实施方式下面参照附困对本发明的一实施方式进M明.困l为示出本发明的一 实施方式的全文检索系统的构成的框闺.此全文检索系统,是根据来自用 户的检索要求,进行基于N-gram索引的检索(即全文检索);!1*于词素索引的检索(即自然语言检索)的系统.其中,在闺1的全文检索系统中,在满足一定的务降的场合,全文检索的一部分(基于N-gram索引的二次检索) 可以省略.困1的全文检索系统的构成包括:用户界面11、检索执行/应答服务器 12、 N-gram检索引擎13、 N-gram索引数据库14、词素分析机构15、词 素检索引擎16、词素索引数据库17以及全文检索执行控制机构18。用户界面11,具有接收来自用户的检索要求并向用户提示检索结果的 界面功能。在本实施方式中,用户界面ll,构成全文检索系统的一部分. 然而,用户界面ll,也可以不是全文检索系统的构成要素.比如,用户界 面11,也可以是设置在介由通信线i^(比如,网络)与困l的全文检索系统 相连接的客户终端中的构成.检索M/应答服务器12,将由用户界面11接收的表示检索要求的检索 ^Hf传i^N-gram检索引擎13及词素分;H^ 15.此处,假设使用字符 串(检索字符串),即检索M语句,作为检索条件.将利用检索执行/应答 服务器12、 N-gram检索引擎13及词素分析机构15得到的检索结果通过 用户界面ll向用户提示.N-gram检索引擎13,使用存储于N-gram索引数据库14中的N-gram 索引进行全文检索.N-gram检索引擎13,包括一次检索执行单元131和 二次检索4Mf单元132. —次检索执行单元131,利用由检索M语句得到 的长度N的字符串的群(即依照检索IHt语句)进行基于N^gram索引的一 次检索.长度N的字符串的群,是通过^r索M语句边将字符位置每l 个字符错开边分割(划分)为长度N的字符串(字串)而得到的.二次检索执行 单元132,进行基于N"gram索引的二次检索(针对一次检索的结果的二次 检索).存储于N-gram索引数据库14中的N^gram索引用于,把可以成为^串(字串嫂行管理.在此N-gram索引中,对每个长度N的连续字符串, 登记表示该字符串存在的文档的位置的位置信息.词素分析Ml5,对检索^K检索M语句嫂W^素分析。词素检索引擎16,按照由词素分^构15得到的词素分析结果,利用存睹于词素 索引数据库17中的词素索引进#^素检索.在存储于词素索引数椐库中的 词素索引中,躬己包含对于分配给从可以成为检索对象的文档中提取的每 一个词素的表示该词素存在的文档的位置的位置信息的文档信息.全文检索执行控制;^购18,为了快速执行利用N-gram索引的全文检 索,按照设定信息文件19的设定内容来控制N-gram检索引擎13及词素 检索引奪16。在设定信息文件19中,预先设定利用全文检索IMt控制机 构18的全文检索的执行的控制所必需的条件等的信息.设定信息文件19, 可以由CD4U)M、存储卡等^?N^^MI:供.另外,也可以经网^#没定信 息文件19下栽到图l的全文检索系统中.全文检索执行控制机构18,包括词素分析结果判定单元181、 一次检索 结果数判定单元182以及近似度判定单元183.词素分析结果判定单元181, 根据利用词素分析机构15得到的对检索务降语句的词素分析结杲,确定应 该执行基于词素索引的检索(即词素检索)或基于N-gram索引的二次检索 中的哪一个。 一次检索结果数判定单元182,根据基于N-gram索引的一次 检索的结果,确定是否应该执行基于N-gram索引的二次检索.检索结果 数近似度判定单元183,根据基于N-gram索引的一次检索的结果和词素检 索结杲,确定是否应该执行基于N-gram索引的二次检索.下面参照图2的流程困,对在困1的全文检索系统中执行的快速检索模 式中的全文检索处理(快速检索处理)的步猓进行说明.另外,在本实施方 式中,作为检索模式,除了上述快速检索模式之外,还准备有标准检索模 式。应用快速检索模式和标准检索棋式中的哪一个检索模式,如后所述, 可以由用户选择.快速检索模式的特征,如下所迷,在于在满足一定的条 件的场合,可以省略基于N-gram索引的二次检索这一点。另一方面,标 准检索模式的特征在于,在任何场合都一直进行到基于N-gram索引的二 次检索为止这一点.下面,假设希望进行全文检索的用户,通过利用客户终端进行输入操作, 从该终端对困1的全文检索系^JL送指定全文检索的检索要求.用户界面11,接收到这一检索要求,提取该检索要求所表示的检索条件.用户界面11,将已提取的检索M发送到检索执行/应答服务器12.另外,用户界面ii,将检索要求所表示的检索类别(比如,全文检索嫂知检索执行/应答服务器12.检索执行/应答服务器12,在指定全文检索的场合,为了执行全 文检索,将从用户界面11传来的检索条件发送到N-grain检索引擎13.N-gram检索引擎13内的一次检索^ft单元131,接iJL^索执行/应答 服务器12发送来的检索条件.在本实施方式中,此險索^Ht是检索条件语 句(检索字符串). 一次检索^fr单元131,按照jfc^r索^ft语句,利用M 于N-gram索引数据库14中的N^gram索引,执行>^的一次检索(步樣 Sl)。 一次检索Wf单元131,在N-gram检索引擎13内部保持一次检索结 果.另外, 一次检索执行单元131,将在一次检索中命中的数目(命中数)N1 与检索条件语句一起发送给全文检索执行控制机构18.全文检索执行控制M 18内的一次检索结杲数判定单元182,将从一 次检索执行单元131发送来的命中数N1与基准命中数(命中数阈值)K进行 比较,判定其大小(步猓S2).此命中数阁值K,在设定信息文件19中设定. 如果命中数N1小于等于阈值K,則全文检索执行控制机构18,要求N-gram 检索引擎13进行二次检索.阈值K,如后所述,可以通过用户搮作进行改 变(调整).与此相对,在命中数Nl大于阈值K的场合,全文检索4sMf控制M 18,在将命中数Nl保持在内部之后,将检索M语句发送到词素分析机 构15.词素分析机构15,在接收到来自全文检索4Mt控制机构18的检索 条件语句时,就对该检索务fr语句进行词素分析(步稞S3).然后,词素分 析机构15,将词素分析的结杲返回给全文检索执行控制机构18.全文检索执行控制机构18内的词素分析结杲判定单元181,对由词素 分析机构15得到的词素分析结果进行判定(步骤S4).就是说,词素分析结 果判定单元181,判定是否可以将检索条件语句分割为可以进行基于词素 索引的检索(词素检索)的单词.所谓可以进行词素检索的单词,指的是其 本身具有意义的单词(比如,以名词、动词、形容词为代表的独立词).如(险索M语句不能分割为可以进行词素检索的单词,則全文检索执行控制机构18要求N-gram检索引擎13进行二次检索.与此相对,在检索条件语句可以分割为可以进行词素检索的羊词的场 合,词素分析结杲判定单元181,将利用词素分析机构15得到的词素分析 的结果发送到词素检索引擎16.词素检索引擎16,在从词素分析结果判定 单元181接收到词素分析结果时,就利用该词素分析结杲和词素索引数据 库17,进行公知的词素检索(步猱S5).然后,词素检索引擎16,将词素检 索的结果M在内部.另外,词素检索引奪16,将在词素检索中命中的数 目(命中数)N2发送到全文检索执行控制机构18.全文检索^fr控制机构18内的检索结果数近似度判定单元183,判定 一次检索中的命中数(笫1命中数)N1和词素检索中的命中数(笫2命中 数)N2是否近似(N1 — N2)(步稞S6).命中数Nl ,表示在利用N-gram检索 引擎13内的一次检索^ft羊元131进行的一次检索中命中的数目,如上所 述,保持在全文检索^fi"控制机构18的内部.命中数N2,表示在利用词 素检索引擎16的词素检索中命中的数目,从该词素检索引擎16送出.在 步骤S6中,检索结杲数近似度判定单元183,判定Nl和N2的近似度(%) 是否在近似比率(近似度阈值)P(。/。)以内.此近似比率P,表示用作近似度 判定的基准的近似度,在设定信息文件19中设定.在本实施方式中,Nl 和N2的近似度,以IN1-N2! x 100%/N1或IN1-N21 x 100%/N2表示.就是 说,N1和N2的近似度,以N1和N2的差分的绝对值与N1或N2的比率 (%)表示.此近似度越小,就表示N1和N2越近似.近似比率P,如后所 述,可以通过用户搮作进行调整.检索结果数近似度判定单元183,在Nl和N2的近似度超过P的场合, 就判定Nl和N2不近似。在此场合,全文检索执行控制机构18,要求N-gram 检索引擎13进行二次检索.与此相对,在Nl和N2的近似度在P以内的场合,检索结杲数近似度 判定单元183,就判定N1和N2近似.在此场合,全文检索扭朴控制机构 18,不要求N-gram检索引擎13进行二次检索.这一点,与全文检索贿控制机构18以省略基于N-gram索引的二次检索省略的方式控制N^gram 检索引奪13等价.然后,全文检索lft^f控制;^ 18,确定使N^gram检索 或词素检索中的哪一个优先.这一确定的必JMHf(采用条件),在设定信 息文件19中设定。这一采用IHt,如后所述,可以通过用户搮作进行调整.如果使N"gram检索优先,則全文检索执行控制机构18,要求N-gram 检索引奪13将一次检索结果返回到检索执行/应答服务器12。另一方面, 在使词素检索优先的场合,全文检索执行控制机构18,要求词素检索引擎 16将词素检索结杲返回到检索执行/应答服务器12,就是说,全文检索执 行控制^! 18,使利用N-gram检索引擎13(内的一次检索执行单元131) 得到的一次检索的结果或利用词素检索引擎16得到的词素检索的结果,从 该N-gram检索引擎13或词素检索引奪16返回到检索^ff/应^^服务器 12(步稞S7).此处, 一次检索结杲,保持在N-gram检索引擎13的内部. 另外,词素检索结果,保持在词素检索引擎16的内部.检索M/应答服务器12,在从全文检索执行控制M 18或词素检索引 擎16接收到一次检索结杲或词素检索结果时,就将该检索结果经由用户界 面ll(及检索应用程序傳知用户.在此检索结杲中附加表示通过什么判定 来执行检索的信息.此处,对条件al、 a2及a3的定义如下。al:基于N-gram索引的一次检索中的命中数Nl超过命中数阈值 K(N1〉K).a2:可以将检索条件语句分割为可以进行词素检索的单词.a3:基于N-gram索引的一次检索中的命中数Nl和词素检索中的命中 数N2近似(N1 —N2).从上述说明可知,在本实施方式中,在条件al、 a2及a3全部成立的场 合,即在步骤S2、 S4及S6中的判定结杲全部为"是"的场合,基于N-gram 索引的二次检索的执行可以省略.在此场合,作为对检索要求的检索结果, 可采用 一次检索结果或词素检索结果.务降a3的特征在于,作为用来判定是否可以省略二次检索的机ft的评定值,«^基于词素索引的检索的命中数Nl ;8L^于N-gram索引的一次检 索的命中数N2这一点.此处,在N1和N2近似时,JlfcA说,上述3个条 件al、 a2及a3中只4NHf a3满足时,即^bl省略基于N-gram索引的二 次检索的执行,也可以确保一定程度的检索精度.于是,在上述3个条件al、 a2及a3中至少条件a3成立的场合,省略 基于N-gram索引的二次检索的IWt也没有关系.在此场合,也可以在抑 制检索精度下降的同时,通过省略基于N-gram索引的二次检索,实现全 文检索的快速化.但是,在上述条件al不成立的场合,就是说,基于N^gram 索引的一次检索的命中數未达到命中数阁值K的场合,即^A进行基于 N-gram索引的二次检索,对性能的影响也小.因此,在条件al不成立的 场合,省略二次检索的好处很少.条件a2,在可以将检索条件语句分割为可以进行词素检索的单词的场 合成立.可以想象,由于这一条件a2成立,对于词素分析结果和包含于词 素索引中的词素,单词的分割方法在很多情况下相同.所以,在利用此时 的词素分析结果进行基于词素索引的词素检索的场合,在一定程度上可以 保证作为评定值的词素检索的结果(命中数N2)的精度(可靠性).这一点, 表示在奈件a2成立的场合,也可以在一定程度上保证包含命中数N2的条 件a3是否成立的判定(步稞S6的判定)的精度.相反,在^2不成立时, 条件a3成立与否的判定的可靠性降低.所以,优选是如本实施方式这样, 在Mal、 a2及a3^p成立的场合,省略基于N-gram索引的二次检索 的执行.此外,在本实施方式中,N-gram检索引擎13内的二次检素执行单元 132,只在全文检索执行控制机构18要求进行二次检索的场合,对基于 N-gram索引的一次检索的结果^Uf二次检索(步樣S8).此处,对Mbl、 b2及b3的定义如下.bl:基于N-gram索引的一次检索中的命中数N1小于等于命中数阈值K.b2:不可以将检索条件语句分割为可以进行词素检索的单词.b3:基于N-gram索引的一次检索中的命中数Nl和词素检索中的命中 数N2不近似.在条件bl、 b2及b3中的至少一个成立的场合,即在步稞S2、 S4及S6 中的判定结果至少一个为"否"的场合,全文检索执^ft控制机构18要求 N-gram检索引擎13进行二次检索.在上述^ bl成立的场合,即^j!l 为了确保足够高的检索精度进行基于N-gram索引的二次检索,对检索速 度(检索执行时间)的不利影响HMfL小.另一方面,在上述务降b2或b3成 立的场合,只利用基于词素索引的检索(词素检索傳基于N"gram索引的一 次检索,不保证可以确保一定程度的检索精度.在此场合,在本实施方式 中,虽然检索ii^t降低,但为了确保足够高的检索精度,进行基于N-gram 索引的二次检索.此外,在本实施方式中,用户界面ll具有笫l检索界面及第2检索界 面(未图示).第1检索界面,用于使用户选择全文检索的精度.此精度与 检索模式相对应.就是说,笫1检索界面,用于使用户选择快速检索模式 及标准检索模式之中的茱一种应用于全文检索.笫2检索界面,用于使用 户指定在扭^行上述快速检索之际使用的调整^t.用户界面ll,向用户提 示用来实现这些第l及第2检索界面的检素界面画面.图3示出在指定全文检索的场合的检索界面画面的一例.此险索界面画 面是检索执行画面之一.检索界面画面,除了检索糾域(field)31和检索 g 32之外,还包括检索精度选择区33和调整M区34.检索M域31, 用于通过用户的输入採作来指定(输入),比如,关键词(检索字符串辨为检 索条件.检索按钮32,用于用户指示困1的全文检索系统执行检索.在检索精度选择区33中配置有"快速"选择按钮331和"标准"选择 於纽332。"快速"选择掩組331,用于通过用户的输入操作指示困1的全 文检索系统使用快速检索模式."标准"选择掩組332,用于通过用户的 输入操作指示图1的全文检索系统使用标准检索模式.在调整参数区34中配置有命中数域341、近似比率域342和采用M 域343.命中数城341用于通过用户的输入操作指定命中数阈值(作为基准的命中数)K。另一方面,近似比芈域342用于通过用户的输入操作指定近 似比率(近似度阈值)P.另外,采用奈件域343用于通过用户的输入搮作指 定采用条件。命中数阈值K、近似比率P及采用"^ft各个分别称为调整参 数.检索界面画面在最初显示的状态(即初始检索界面画面)中,在域341、 342及343中显示命中数阁值K、近似比率P及采用条件的各个默认值. 这些命中数阈值K、近似比率P及采用条件的各个默认值,预先在设定信 息文件19中设定(保存).如果用户使用域341、342及343指定调整M(命 中数阈值K、近似比率P及采用M),則优先使用所指定的调整^L与 此相对,用户不使用域341、 342及343指定调整参数时,使用在设定信息 文件19中保存的默认值.下面对使用"标准"选择按钮332、"快速"选择按钮331、命中数域 341、近似比率域342及采用条件域343分别指定标准检索模式、快速检索 模式、命中数阈值K、近似比率P及采用条件的场合予以说明.<标准检索模式>在选择"标准"逸择掩組332指示进行检索的场合,执行标准检索模式 的全文检索处理(标泉險索处理).在此,进行基于N-gram索引的检索(一 次检索和二次检索). 在此场合,检索结果完全,但检索速度降低。<快速检索模式>另一方面,在选择"快速"选择按钮331指示进行检索的场合,执行快 速检索模式的全文检索处理(快速检索处理).在此,进行按照上述困2的 流程围的检索.于是,在基于N-gram索引的一次检索的结果和基于词素 索引的检索的结果近似的场合,可以在确保一定程度的检索精度的同时, 进行快速检索.这样,借助在险索界面画面中配置的"标准"选择^332或"快速" 选^^掩組331,可由用户指定标泉險索或快速检索中的伶K一方而反映用 户对检索速度优先或检索精度优先的意愿.<命中数阁值&>首先,通过用户的输入操作,使用命中数域341指定命中数阈值K.在 此场合,在步骤Sl中,判^于N-gram索引的一次检索的命中数Nl是 否超过指定的命中数阁值K.此处,假设命中数Nl超过命中数阁值K, 在此场合,就作为在全文检索系统中可以省略基于N-gram索引的二次检 索的多个条件中的一个(条件al)成立而进行处理.另一方面,在命中数N1 不到命中数阈值K的场合,对基于N-gram索引的一次检索的结果进行二 次检索.其理由如下.首先,在基于N-gram索引的一次检索中的命中数 Nl少的场合,即^tA进行二次检索,对全文检索系统的检索速度的不利影 响nM艮小.于是,在此场合进行二次检索.通过此二次检索,可求##度 高的完全的检索结果.这样,由于借助配置在检索界面画面中的命中数域341,用户可以指定 命中数阁值(作为基准的命中数)K,所以在快速检索处理中用户可以进行相 应于环境的调整.<近似比率P>首先,通过用户的输入操作,可使用近似比率域342指定近似比率P. 在此场合,在步聚S6中,判M于N-gram索引的一次检索中的命中数 Nl和基于词素索引的检索的命中数N2的近似;1A否小于指定的近似比率 P。就是说,判定命中数N1和命中数N2是否近似.如果命中数N1和命 中数N2近似,就作为在全文检索系统中可以省略基于N-gram索引的二次 检索的多个条件中的一个(条件a3)成立而进行处理。另一方面,在上述近 似度超过上述近似比率P的场合,即命中数Nl和命中数N2不近似时,对 基于N-gram索引的一次检索的结果进行二次检索(步稞S8).就是说,在 基于N^gram索引的一次检索的结果与基于词素索引的检索(词素检索)的 结杲相差悬殊的场合,可以认为该一次检索及词素检索的检索精度很差. 在此场合,虽然检索iUL低,但为了确保足够高的检索精度,可进行基于 N-gram索引的二次检索.这样,由于借助配置在检索界面画面中的近似比率域342,用户可以指 定近似比率(作为基准的近似度)P,所以在快速检索处理中可以进行相应于检索条件语句或作为检索的对象的文档群的特征的调整.采用条件在命中数Nl和N2近似的场合,采用基于N"gram索引的一次检索的 结果和基于词素索引的检索的结果中的^T一个都可以获得合适的检索结 果,然而,在由对检索条件语句(关鍵词)进行词素分析的结果所得到的羊 词数于等于某一单词数(最小单词数)的场合,如下所述,基于词素索引的 检索的一方得到更高精度的检索结杲的可能性高.首先,将通it^检索条 件语句进行词素分析而分割的单词数称为分割单词数.在此分割单词数少 (比如,l单词)的场合,可以期待几乎不存在词素检索的漏检.因此,在分 割单词数少的场合,可以认为词素检索的结果一方比基于N-gram索引的 一次检索的结果的精度高.于是,在本实施方式中,导入最小单词数作为分割单词数的基准.此最 小单词数,表示用来确定采用基于N-gram索引的一次检索的结果或基于 词素索引的检索的结果中的哪一个的4H牛(采用条件).就是说,最小单词 数,表示用来确M使N-gram检索优先还是使词素检索优先的采用条件. 此处,通过用户的输入操作,可以使用采用条件域343指定采用M(最小 单词数)。全文检索^fr控制机构18,在步聚S7中,根据作为此采用条件的最小 单词数和上述分割单词数,确定采用基于N"grani索引的一次检索的结果 或词素检索的结杲中的哪一个作为检索结果.此处,在分割单词数少于等 于最小单词数的场合,全文检索执行控制机构18,判断词素检索的结果一 方比基于N-gram索引的一次检索的结果的精度高.在此场合,全文检索 执行控制机构18,使词素检索优先,采用词素检索的结果作为针对检索要 求的检索结果.与此相对,在分割羊词数超过最小单词数的场合,全文检 索执行控制;^18,使N-gram检索优先,采用基于N-gram索引的一次 检索的结果作为针对检索要求的检索结果.这样,由于借助配罝在检索界面画面中的采用糾域343,用户可以指 定作为采用条件的最小单词数,故在快速检索处理中可以进行相应于检索条件语句的调整.困4为示出表示利用检索执行/应答服务器12借助用户界面11通知用 户的检索结果的检索结果画面的一例.jtb^索结果画面是检索执行画面之 一.检索结杲画面,除了与困3所示的检索界面画面同样的检索M域31、 检索掩組32、检索精度选择区33及调整麥数区34之外,包拾险索精度区 41及检索结果区42.如上所述,在执行快速检索处理的场合,按照困2的流程困,利用基于 N-gram索引及基于词素索引的两种检索的结杲和调整^lt的信息,求得通 知给用户的检索结杲.此险索结杲,借助困4所示的检索结果画面的检索 结杲区42通知用户.该通知给用户的检索结果,是以下3种之一:(a) 基于N-gram索引的检索(一次检索及二次检索)的结果(b) 基于词素索引的检索的结果(c) 基于N-gram索引的检索(仅一次检索)的结果另一方面,在执行了标泉險索处理的场合,经常采用上述(a)的结果作为在 检索结果区42中显示的检索结果.在执行快速,检索处理的场合,对于采用上迷(a)、 (b)及(c)中的哪一个的 检索结杲,比如,可利用抽象M现与该检索结果相对应的"检索精度" 的用语在检索精度区41中示出.此处,作为抽象M现与(a)、 (b)及(c)的 检索结果相对应的"检索精度"的用语,可以分别使用"适当"、"较粗 略"、"粗略"》<第1变形例>下面参照困5的流程困对上述实施方式的第1变形例予以说明.另外, 在图5中,对于与示出快速检索处理的步稞的困2的流程困等价的处理步 骤赋予同一参照符号.第1变形例的特征在于,步骤Sl及S2的处理(基于N-gram索引的一 次检索)和步骤S3至S5的处理(基于词素索引的检索),是以与困2的流程 图相反的顺序执行这一点.此处,在不能将检索条件语句分割为可以进行 词素检索的单词的场^(步聚S4),执行与上述步樣S1相当的处理,即基于N-gram索引的一次检索(步稞Sll),然后批^e基于N-gram索引的二次检 索(步骤S8)。另外,即^A可以将栓素条件语句分割为可以进行词素检索的单词,在 该单词数(分割单词数),比如,超过比最小单词数多的基准单词数的场合, 词素分析的结果的精;i低.在此场合,对于基于词素索引的检索的结果, 不能保证可以确保一定程度的精度.在此,比如,可以在上述步璨S4中增 加分割单词ltA否少于等于基准单词數的判定.于是,在此判定结果是分 割单词数超过基准单词数的场合,可以进行基于N-gram索引的一次检索 及二次检索(步稞Sll及S8).这样一来,在指定了进行基于N-gram索引 的二次检索这样的M索条件语句的场合,由于不进行命中数N1的大小 判定(步稞S2),故可以缩短检索时间.此处,在分割单词数少于等于基准 单词数并且满;Ui述条件al、 a2及a3的场合,可以省略基于N-gram索 引的二次检索。<第2变形例>下面参照图6的流程困对上述实施方式的笫2变形例予以说明.另夕卜, 在困6中,对于与图2的流程困等价的处理步壤赋予同一参照符号.笫2变形例的特征在于,步骤Sl及S2的处理(基于N-gram索引的一 次检索)和步骤S3至S5的处理(基于词素索引的检索),是并行批fr的这一 点.即在第2变形例中,利用N"gram检索引擎的一次检索执行单元131 的检索和利用词素检索引擎16的检索并行执行.这样,通过并行执行双方 的检索,可以进行更快速的检索.其他的特征和改变对于该技术领域的技术人员是可以想象的.因此, 本发明立足于更广的观点之上,不受限于特定细节和在此处说明的代表性 的实施方式。所以,在不脱离后附的技术方案所定义的广的发明概念及与 其等同的解释和范围内可以进行各种变更.
法律信息
- 2008-08-20
- 2006-05-31
- 2006-04-05
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2001-01-24
|
2000-07-19
| | |
2
| | 暂无 |
1999-01-11
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |