全文检索系统及方法

发明专利有效专利

申请号：
CN200510108009.5
IPC分类号：G06F17/30
申请日期：
2005-09-29
申请人：
株式会社东芝;东芝解决方案株式会社

基础信息

权利要求

说明书

PDF全文

法律信息

引证文献

著录项信息

专利名称	全文检索系统及方法
申请号	CN200510108009.5	申请日期	2005-09-29
法律状态	授权	申报国家	中国
公开/公告日	2006-04-05	公开/公告号	CN1755691
优先权	暂无	优先权号	暂无
主分类号	G06F17/30 ? IPC结构图谱： G 物理 G0 仪器 G06 计算；推算；计数 G06F 电数字数据处理（基于特定计算模型的计算机系统入G06N） G06F17/00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法〔6〕 G06F17/30 信息检索；及其数据库结构〔6〕	IPC分类号	G06F17/30查看分类表>
申请人	株式会社东芝;东芝解决方案株式会社	申请人地址	日本*** 变更专利地址、主体等相关变化，请及时变更，防止失效
权利人	株式会社东芝,东芝解决方案株式会社	当前权利人	株式会社东芝,东芝解决方案株式会社
发明人	高知尾胜彦;笹气光一;加藤阳二
代理机构	北京市中咨律师事务所	代理人	陈海红;段承恩

摘要

第1检索单元(13)利用按照检索条件语句的一次检索和针对该一次检索的结果的二次检索执行基于N-gram索引(14)的检索。词素分析单元(15)对上述检索条件语句进行词素分析。第2检索单元(16)按照词素分析单元(15)的词素分析结果执行基于词素索引(17)的词素检索。近似度判定单元(183)判定上述基于N-gram索引的一次检索的命中数的第1命中数和上述基于词素索引的词素检索的命中数的第2命中数的近似度。全文检索执行控制单元(18)，在上述第1命中数和上述第2命中数近似时，省略上述基于N-gram索引的二次检索地控制第1检索单元(13)，采用上述一次检索的结果或上述词素检索的结果作为检索结果。

1. 一种全文检索系统，其包括：利用按照检索条件语句的一次检索和针对该一次检索的结果的二次检索，执行基于N-gram索引的检索的第1检索单元；对上述检索条件语句进行词素分析的词素分析单元；以及按照利用上述词素分析单元所得到的词素分析结果，执行基于词素索引的词素检索的第2检索单元；上述全文检索系统的特征在于，具有：通过将表示作为上述基于N-gram索引的一次检索的命中数的第1命中数和作为上述基于词素索引的词素检索的命中数的第2命中数相近似的程度的近似度与近似度阈值相比较，判定上述第1命中数和上述第2命中数是否近似的近似度判定单元；通过比较上述第1命中数与基准的命中数来判定上述第1命中数是多或是少的一次检索结果数判定单元；以及在利用上述一次检索结果数判定单元判定为上述第1命中数多且利用上述近似度判定单元判定为上述第1命中数和上述第2命中数近似时，以省略上述基于N-gram索引的二次检索的方式，控制上述第1检索单元，采用上述一次检索的结果或上述词素检索的结果作为检索结果的全文检索执行控制单元，上述全文检索执行控制单元，在利用上述一次检索结果数判定单元判定为上述第1命中数少时和利用上述近似度判定单元判定为上述第1命中数和上述第2命中数不近似时的任一种情况下，以执行上述基于N-gram索引的二次检索的方式控制上述第1检索单元，采用上述二次检索的结果作为检索结果。
2.如权利要求l所述的全文检索系统，其特征在于：还具有，根据利用上述词素分析单元所得到的词素分析结果，判定是否可以将上述检索条件语句分割为可以进行词素检索的单词的词素分析结果判定单元；上述全文检索执行控制单元，在由上述词素分析结果判定单元判定为可以将上述检索条件语句分割为可以进行词素检索的单词时，以执行基于上述词素索引的词素检索的方式，控制上述第2检索单元。
3. 如权利要求l所述的全文检索系统，其特征在于：上述全文检索执行控制单元，根据由上述词素分析单元的分析结果所示出的作为分割后的单词数的分割单词数，确定采用上述一次检索的结果或上述词素检索的结果中的哪一个作为检索结果。
4. 如权利要求3所述的全文检索系统，其特征在于：上述全文检索执行控制单元，在上述分割单词数超过作为基准的最小单词数时，采用上述一次检索的结果作为检索结果；在上述分割单词数小于等于上述最小单词数时，采用上述词素检索的结果作为检索结果。
5. 如权利要求4所述的全文检索系统，其特征在于，还具备：用于可由用户指定上述最小单词数的用户界面。
6. 如权利要求4所述的全文检索系统，其特征在于：上述全文检索执行控制单元，在上述分割单词数超过比上述最小单词数多的基准单词数时，以执行上述基于N-gram索引的二次检索的方式，控制上述第l检索单元，采用上述二次检索的结果作为检索结果。
7. 如权利要求l所述的全文检索系统，其特征在于，还具备：用于可由用户指定上述基准的命中数的用户界面。
8. 如权利要求l所述的全文检索系统，其特征在于，还具备：用于可由用户指定上述近似度阈值的用户界面。
9. 如权利要求l所述的全文检索系统，其特征在于，还具备：用于可由用户指定标准检索及快速检索中的某一个的用户界面，上述标准检索在任何情况下都一直进行到上述基于N-gram索引的二次检索，上述快速检索才艮据利用上述近似度判定单元所得到的判定结果有可能省略上述基于N-gram索引的二次检索。
10. 如权利要求1所述的全文检索系统，其特征在于：上述全文检索执行控制单元，以使上述基于N-gram索引的一次检索和上述基于词素索引的词素检索并行执行的方式，对上述第l检索单元和上述第2检索单元分别进行控制。
11. 一种应用于系统的全文检索方法，上述系统具备：利用按照检索条件语句的一次检索和针对该一次检索结果的二次检索执行基于N-gram索引的检索的第1检索单元；对检索条件语句进^"i司素分析的词素分析单元；以及按照利用上述词素分析单元所得到的词素分析结果执行基于词素索引的词素检索的第2检索单元；上述全文检索方法包括：通过将表示作为上述基于N-gram索引的一次检索的命中数的第1命中数和作为上述基于词素索引的词素检索的命中数的笫2命中数相近似的程度的近似度与近似度阈值相比较，判定上述笫1命中数和上述第2命中数是否近似的步骤；通过比较上述第l命中数与基准的命中数来判定上述第l命中数是多或是少的步骤；在判定为上述第1命中数多且判定为上述第1命中数和上述第2命中数近似时，省略通过上述第1检索单元进行的上述基于N-gram 索引的二次检索，采用上述一次检索的结果或上述词素检索的结杲作为检索结果的步骤；以及在判定为上述第1命中数少时和上述笫1命中数和上述第2命中数不近似时的任一种情况下，使上述第1检索单元执行上述基于N-gram索引的二次检索，采用该二次检索的结果作为检索结果的步骤。
12. 如权利要求11所述的全文检索方法，其特征在于，还包括：根据利用上述词素分析单元所得到的词素分析结果，判定是否可以将上述检索条件语句分割为可以进行词素检索的单词的步骤；以及在判定为可以将上述检索条件语句分割为可以进行词素检索的单词时，使上述第2检索单元执行上述基于词素索引的词素检索的步骤。
13. 如权利要求11所述的全文检索方法，其特征在于：在釆用上述一次检索的结果或上述词素检索的结果作为检索结果的步骤中，根据由上述词素分析单元的分析结果示出的作为分割后的单词数的分割单词数，确定采用上述一次检索的结果或上述词素检索的结果中的哪一个作为检索结果。

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
1	CN1281191A	2001-01-24	2000-07-19	信息检索方法和信息检索装置无效专利	松下电器产业株式会社
2	JP2000207404A	暂无	1999-01-11	METHOD AND DEVICE FOR RETRIEVING DOCUMENT AND RECORD MEDIUM失效专利	SUMITOMO METAL IND