著录项信息
专利名称 | 全文检索系统及方法 |
申请号 | CN200510108009.5 | 申请日期 | 2005-09-29 |
法律状态 | 授权 | 申报国家 | 中国 |
公开/公告日 | 2006-04-05 | 公开/公告号 | CN1755691 |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/30 | IPC分类号 | G06F17/30查看分类表>
|
申请人 | 株式会社东芝;东芝解决方案株式会社 | 申请人地址 | 日本***
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 株式会社东芝,东芝解决方案株式会社 | 当前权利人 | 株式会社东芝,东芝解决方案株式会社 |
发明人 | 高知尾胜彦;笹气光一;加藤阳二 |
代理机构 | 北京市中咨律师事务所 | 代理人 | 陈海红;段承恩 |
摘要
第1检索单元(13)利用按照检索条件语句的一次检索和针对该一次检索的结果的二次检索执行基于N-gram索引(14)的检索。词素分析单元(15)对上述检索条件语句进行词素分析。第2检索单元(16)按照词素分析单元(15)的词素分析结果执行基于词素索引(17)的词素检索。近似度判定单元(183)判定上述基于N-gram索引的一次检索的命中数的第1命中数和上述基于词素索引的词素检索的命中数的第2命中数的近似度。全文检索执行控制单元(18),在上述第1命中数和上述第2命中数近似时,省略上述基于N-gram索引的二次检索地控制第1检索单元(13),采用上述一次检索的结果或上述词素检索的结果作为检索结果。
1. 一种全文检索系统,其包括: 利用按照检索条件语句的一次检索和针对该一次检索的结果的二次检索,执行基于N-gram索引的检索的第1检索单元;对上述检索条件语句进行词素分析的词素分析单元;以及按照利用上述词素分析单元所得到的词素分析结果,执行基于词素索引的词素检索的第2检索单元; 上述全文检索系统的特征在于,具有: 通过将表示作为上述基于N-gram索引的一次检索的命中数的第1命中数和作为上述基于词素索引的词素检索的命中数的第2命中数相近似的程度的近似度与近似度阈值相比较,判定上述第1命中数和上述第2命中数是否近似的近似度判定单元; 通过比较上述第1命中数与基准的命中数来判定上述第1命中数是多或是少的一次检索结果数判定单元;以及 在利用上述一次检索结果数判定单元判定为上述第1命中数多且利用上述近似度判定单元判定为上述第1命中数和上述第2命中数近似时,以省略上述基于N-gram索引的二次检索的方式,控制上述第1检索单元,采用上述一次检索的结果或上述词素检索的结果作为检索结果的全文检索执行控制单元, 上述全文检索执行控制单元,在利用上述一次检索结果数判定单元判定为上述第1命中数少时和利用上述近似度判定单元判定为上述第1命中数和上述第2命中数不近似时的任一种情况下,以执行上述基于N-gram索引的二次检索的方式控制上述第1检索单元,采用上述二次检索的结果作为检索结果。
2.如权利要求l所述的全文检索系统,其特征在于:还具有,根据利用上述词素分析单元所得到的词素分析结果,判定是 否可以将上述检索条件语句分割为可以进行词素检索的单词的词素分析结 果判定单元;上述全文检索执行控制单元,在由上述词素分析结果判定单元判定为 可以将上述检索条件语句分割为可以进行词素检索的单词时,以执行基于上述词素索引的词素检索的方式,控制上述第2检索单元。
3. 如权利要求l所述的全文检索系统,其特征在于: 上述全文检索执行控制单元,根据由上述词素分析单元的分析结果所示出的作为分割后的单词数的分割单词数,确定采用上述一次检索的结果 或上述词素检索的结果中的哪一个作为检索结果。
4. 如权利要求3所述的全文检索系统,其特征在于: 上述全文检索执行控制单元,在上述分割单词数超过作为基准的最小单词数时,采用上述一次检索的结果作为检索结果;在上述分割单词数小 于等于上述最小单词数时,采用上述词素检索的结果作为检索结果。
5. 如权利要求4所述的全文检索系统,其特征在于,还具备: 用于可由用户指定上述最小单词数的用户界面。
6. 如权利要求4所述的全文检索系统,其特征在于: 上述全文检索执行控制单元,在上述分割单词数超过比上述最小单词数多的基准单词数时,以执行上述基于N-gram索引的二次检索的方式, 控制上述第l检索单元,采用上述二次检索的结果作为检索结果。
7. 如权利要求l所述的全文检索系统,其特征在于,还具备: 用于可由用户指定上述基准的命中数的用户界面。
8. 如权利要求l所述的全文检索系统,其特征在于,还具备: 用于可由用户指定上述近似度阈值的用户界面。
9. 如权利要求l所述的全文检索系统,其特征在于,还具备:用于可由用户指定标准检索及快速检索中的某一个的用户界面,上述 标准检索在任何情况下都一直进行到上述基于N-gram索引的二次检索, 上述快速检索才艮据利用上述近似度判定单元所得到的判定结果有可能省略 上述基于N-gram索引的二次检索。
10. 如权利要求1所述的全文检索系统,其特征在于: 上述全文检索执行控制单元,以使上述基于N-gram索引的一次检索和上述基于词素索引的词素检索并行执行的方式,对上述第l检索单元和上述第2检索单元分别进行控制。
11. 一种应用于系统的全文检索方法,上述系统具备: 利用按照检索条件语句的一次检索和针对该一次检索结果的二次检索执行基于N-gram索引的检索的第1检索单元;对检索条件语句进^"i司素 分析的词素分析单元;以及按照利用上述词素分析单元所得到的词素分析 结果执行基于词素索引的词素检索的第2检索单元; 上述全文检索方法包括:通过将表示作为上述基于N-gram索引的一次检索的命中数的第1命 中数和作为上述基于词素索引的词素检索的命中数的笫2命中数相近似的 程度的近似度与近似度阈值相比较,判定上述笫1命中数和上述第2命中 数是否近似的步骤;通过比较上述第l命中数与基准的命中数来判定上述第l命中数是多 或是少的步骤;在判定为上述第1命中数多且判定为上述第1命中数和上 述第2命中数近似时,省略通过上述第1检索单元进行的上述基于N-gram 索引的二次检索,采用上述一次检索的结果或上述词素检索的结杲作为检索结果的步骤;以及在判定为上述第1命中数少时和上述笫1命中数和上述第2命中数不 近似时的任一种情况下,使上述第1检索单元执行上述基于N-gram索引 的二次检索,采用该二次检索的结果作为检索结果的步骤。
12. 如权利要求11所述的全文检索方法,其特征在于,还包括: 根据利用上述词素分析单元所得到的词素分析结果,判定是否可以将上述检索条件语句分割为可以进行词素检索的单词的步骤;以及在判定为可以将上述检索条件语句分割为可以进行词素检索的单词 时,使上述第2检索单元执行上述基于词素索引的词素检索的步骤。
13. 如权利要求11所述的全文检索方法,其特征在于: 在釆用上述一次检索的结果或上述词素检索的结果作为检索结果的步骤中,根据由上述词素分析单元的分析结果示出的作为分割后的单词数的分割单词数,确定采用上述一次检索的结果或上述词素检索的结果中的哪 一个作为检索结果。
法律信息
- 2008-08-20
- 2006-05-31
- 2006-04-05
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2001-01-24
|
2000-07-19
| | |
2
| | 暂无 |
1999-01-11
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |