著录项信息
专利名称 | 海量文件型数据的索引生成方法及装置和搜索系统 |
申请号 | CN200710118527.4 | 申请日期 | 2007-07-09 |
法律状态 | 撤回 | 申报国家 | 中国 |
公开/公告日 | 2009-01-14 | 公开/公告号 | CN101344881 |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/30 | IPC分类号 | G;0;6;F;1;7;/;3;0查看分类表>
|
申请人 | 中国科学院大气物理研究所 | 申请人地址 | 北京市朝阳区德外大街祁家豁子华严里40号
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 中国科学院大气物理研究所 | 当前权利人 | 中国科学院大气物理研究所 |
发明人 | 马晓光;周广庆;李磊 |
代理机构 | 中科专利商标代理有限责任公司 | 代理人 | 李贵亮 |
摘要
本发明公开了一种文件型数据的索引生成方法,用于从文件型数据仓库生成供搜索的索引仓库,该方法包括:目录遍历步骤,遍历所述文件型数据仓库;数据格式解析步骤,对由在所述目录遍历步骤中遍历的各个文件型数据进行数据格式的解析;元数据抽取步骤,从由已完成数据格式解析的所述各个文件型数据中抽取作为信息内容的元数据;元数据快照生成步骤,由所述元数据生成元数据快照;路径转换步骤,将所述元数据快照的本地路径转换为对外服务的网络路径;索引生成步骤,将所述元数据快照生成索引。由此,能够对跨节点的海量文件型科学数据,直接、快速地挖掘包含其中的大量描述信息,并将这些描述信息自动索引以供搜索。
1.一种文件型数据的索引生成方法,用于从文件型数据仓库生成供 搜索的索引仓库,其特征在于,包括:
目录遍历步骤,通过爬虫程序,遍历所述文件型数据仓库;
数据格式解析步骤,利用数据格式解析器,对由在所述目录遍历步骤 中遍历的所述文件型数据仓库中的各个文件型数据进行数据格式的解析;
元数据抽取步骤,利用元数据抽取器,从由已完成数据格式解析的所 述各个文件型数据中抽取作为信息内容的元数据;
元数据快照生成步骤,利用元数据快照生成器,由所述元数据生成元 数据快照;
路径转换步骤,利用路径转换器,将所述元数据快照中的文件型数据 的本地路径转换为对外服务的网络路径;
索引生成步骤,利用索引生成器,通过索引程序对已路径转换的所述 元数据快照生成索引,并按照一定的命名方式存储于所述索引仓库中。
2.如权利要求1所述文件型数据的索引生成方法,其特征在于,
在所述数据格式解析步骤中,所述数据格式解析器将首先依据文件扩 展名预估文件解码格式,之后再通过二进制文件解码程序对预估结果验 证。
3.如权利要求2所述文件型数据的索引生成方法,其特征在于,
在所述数据格式解析步骤中,在利用所述格式解析器进行格式解析 时,如果扩展名解析结果与该扩展名对应的二进制解码程序不匹配,则格 式解析器将首先遍历整个格式解析的函数库,若有解码程序匹配,在所述 元数据抽取步骤中采用该解码程序,若没有匹配的解码程序,则进入未知 元数据快照生成步骤。
4.如权利要求1所述文件型数据的索引生成方法,其特征在于,
在所述元数据抽取步骤中,在所述元数据抽取器抽取文件型数据的元 数据时,针对每一个不同数据结构的二进制文件,编写唯一的二进制文件 解码程序。
5.如权利要求1所述文件型数据的索引生成方法,其特征在于,
在所述元数据快照生成步骤中,所述元数据快照生成器利用其具有的 主模板定制快照页面的结构,再利用其具有的副模板具体采集文件型数据 中的元数据。
6.如权利要求1所述文件型数据的索引生成方法,其特征在于,
在所述目录遍历步骤中,所述爬虫程序遍历所述数据仓库中的文件型 数据,若遍历失败,则结束本流程,若遍历正常,则对每一个文件型数据 调用所述格式解析器解析数据格式,如果格式解析正确则进入所述元数据 抽取步骤,否则进入未知元数据快照生成步骤;
在所述元数据抽取步骤中,如果抽取成功,则进入所述元数据快照生 成步骤,否则进入所述未知元数据快照生成步骤;
在所述元数据快照生成步骤中,生成相应的元数据快照,如果生成成 功,则进入所述路径转换步骤,否则进入所述未知元数据快照生成步骤;
在所述未知元数据快照生成步骤中,如果生成未知元数据快照成功, 则进入所述路径转换步骤,若失败则结束本流程。
7.如权利要求1所述文件型数据的索引生成方法,其特征在于,
在所述路径转换步骤中,利用正则表达式对元数据快照进行替换,将 本地路径转换为HTTP/FTP/NFS网络路径,如果转换成功,进入所述索引 生成步骤,否则结束本流程。
8.如权利要求1所述文件型数据的索引生成方法,其特征在于,
在所述索引生成步骤中,利用索引生成器将生成的元数据快照生成索 引,如果失败则结束本流程,如果成功则将生成索引按一定的命名方式存 储于索引仓库。
9.如权利要求1所述文件型数据的索引生成方法,其特征在于,
所述索引生成步骤进一步包括对索引仓库中的索引文件进行合并的 步骤。
10.一种文件型数据的搜索方法,通过该搜索方法,对文件型数据仓 库中的文件型数据进行搜索查询,其特征在于,包括:
索引仓库生成步骤,利用权利要求1所述的文件型数据的索引生成方 法,从所述文件型数据仓库生成供搜索的索引仓库的步骤;
信息发送步骤,利用信息收发装置,通过网络CGI平台或者命令行平 台,将外部节点上的搜索信息发送出去;
信息查询步骤,利用信息查询装置接收在所述信息收发步骤中发送的 搜索信息,与在所述索引仓库生成步骤中生成的索引仓库进行正则匹配, 得到相应的元数据快照,并按照评分算法排列结果;
信息接收步骤,所述信息查询装置将包括相应的所述网络路径的元数 据快照反馈给所述信息收发装置。
11.如权利要求10所述文件型数据的搜索方法,其特征在于,
如果在所述信息查询步骤中匹配未成功,则所述信息查询装置将未搜 索信息的查询结果反馈给信息收发装置。
12.一种文件型数据的索引生成装置,用于从文件型数据仓库生成供 搜索的索引仓库,其特征在于,包括:
目录遍历器,通过爬虫程序遍历所述文件型数据仓库;
数据格式解析器,对由所述目录遍历器遍历的所述文件型数据仓库中 的各个文件型数据进行数据格式的解析;
元数据抽取器,从由已完成数据格式解析的所述各个文件型数据中抽 取作为信息内容的元数据;
元数据快照生成器,由所述元数据生成元数据快照;
路径转换器,将所述元数据快照中的文件型数据的本地路径转换为对 外服务的网络路径;
索引生成器,通过索引程序对已路径转换的所述元数据快照生成索 引,并按照一定的命名方式存储于所述索引仓库中。
13.如权利要求12所述文件型数据的索引生成装置,其特征在于,
所述数据格式解析器,在解析数据格式时,首先依据文件扩展名预估 文件解码格式,之后再通过二进制文件解码程序对预估结果验证。
14.如权利要求12所述文件型数据的索引生成装置,其特征在于,
所述元数据抽取器,在抽取文件型数据的元数据时,针对每一个不同 数据结构的二进制文件,编写唯一的二进制文件解码程序。
15.如权利要求12所述文件型数据的索引生成装置,其特征在于,
所述元数据快照生成器,包括主模板和副模板,所述主模板定制快照 页面的结构,所述副模板具体采集文件型数据的元数据信息。
16.如权利要求12所述文件型数据的索引生成装置,其特征在于,
所述数据格式解析器和所述元数据抽取器以函数库的形式存在,所述 元数据快照生成器以模板库的形式存在。
17.如权利要求12所述文件型数据的索引生成装置,其特征在于,
所述索引生成器还具有对索引仓库中的索引文件进行合并的功能。
18.一种文件型数据的搜索系统,通过该搜索系统,对文件型数据仓 库中的文件型数据进行搜索查询,其特征在于,包括:
权利要求12所述的文件型数据的索引生成装置;
信息收发装置,其通过网络CGI平台或者命令行平台,将外部节点上 的搜索信息发送出去;
信息查询装置,其接收由所述信息收发装置发送的搜索信息,与由所 述文件型数据的索引生成装置生成的索引文件进行正则匹配,并按照评分 算法排列结果,最终将包括与搜索到的文件型数据对应的调用路径的被匹 配的元数据快照反馈给所述信息收发装置。
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有引用任何外部专利数据! |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 1 | | 2010-08-24 | 2010-08-24 | | |
2 | | 2015-12-10 | 2015-12-10 | | |
3 | | 2009-12-07 | 2009-12-07 | | |
4 | | 2013-04-22 | 2013-04-22 | | |
5 | | 2013-07-09 | 2013-07-09 | | |
6 | | 2013-08-05 | 2013-08-05 | | |
7 | | 2010-01-27 | 2010-01-27 | | |
8 | | 2012-03-14 | 2012-03-14 | | |
9 | | 2013-04-22 | 2013-04-22 | | |
10 | | 2012-03-28 | 2012-03-28 | | |
11 | | 2010-10-14 | 2010-10-14 | | |
12 | | 2010-07-28 | 2010-07-28 | | |
13 | | 2013-08-27 | 2013-08-27 | | |
14 | | 2014-10-30 | 2014-10-30 | | |
15 | | 2013-05-17 | 2013-05-17 | | |