著录项信息
专利名称 | 基于锚文本的聚焦网络爬虫搜索方法及其系统 |
申请号 | CN201110230220.X | 申请日期 | 2011-08-11 |
法律状态 | 授权 | 申报国家 | 暂无 |
公开/公告日 | 2011-12-28 | 公开/公告号 | CN102298622A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/30 | IPC分类号 | G;0;6;F;1;7;/;3;0查看分类表>
|
申请人 | 中国科学院自动化研究所 | 申请人地址 | 北京市海淀区中关村东路95号
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 中国科学院自动化研究所 | 当前权利人 | 中国科学院自动化研究所 |
发明人 | 郝红卫;台宪青;王艳军;殷绪成 |
代理机构 | 中科专利商标代理有限责任公司 | 代理人 | 周国城 |
摘要
本发明公开了一种基于锚文本的聚焦网络爬虫搜索方法及其系统,所述方法主要包括:从URL优先级队列中获取URL,并依据URL从Internet下载得到Web页面;对下载的Web页面进行解析,提取URL及其锚文本;对提取出的URL及其锚文本进行筛选;采用TF-IDF与LSI相结合的算法来计算URL的主题相关度,并将符合条件的URL放入优先级队列中;所述系统包括:URL优先级队列、网络爬虫下载器、Web页面库、URL解析器、URL筛选器以及主题相关性判断器。通过采用所述基于锚文本的聚焦网络爬虫搜索方法及其系统,本发明提高了聚焦网络爬虫爬行结果的主题相关度及爬行效率。
基于锚文本的聚焦网络爬虫搜索方法及其系统\n技术领域\n[0001] 本发明涉及一种爬虫搜索方法及其系统,尤其涉及一种聚焦网络爬虫搜索方法及其系统。\n背景技术\n[0002] 当前,网络越来越成为人们获取信息的主要渠道,传统搜索引擎已经不能完全满足人们的需求。随着人工智能技术的进一步成熟和信息服务的多样化,搜索引擎技术正向智能化、个性化、领域化方向发展。\n[0003] 垂直搜索引擎是面向特定领域的专业搜索引擎,旨在缩小搜索的总范围,从而获得更高的搜索精度,并提高搜索引擎对于网络资源的跟踪能力。作为垂直搜索引擎的核心部分,聚焦网络爬虫担任了从Internet收集和更新信息的重要任务。与传统的广度优先的爬虫相比,主题爬虫最重要的特点就是采用了不同的优先级计算方法,有选择地爬行符合特定主题的网页。\n[0004] 现有的大部分主题爬虫是采用基于向量空间模型VSM(Vector Space Model)和词频-逆文档频率TF-IDF(Term Frequency-Inverse Document Frequency)或其改进算法来指导爬行。由于TF-IDF本质上是一种严格的字符串匹配算法,无法处理字符意义层面上的近似,因此很多文献都通过查询扩展来增加主题包含的关键词范围来解决“隧道贯穿”的问题。潜在语义索引LSI(Latent Semantic Indexing)算法利用线性代数中的奇异值分解来处理潜在语义的问题,但目前LSI在垂直爬行算法中被研究较少。我们认为网络上的超链接锚文本与主题网页正文文本之间存在某种潜在语义关系,因此LSI算法在指导主题爬虫爬行方面应该具有更优越的性能。因此,本发明结合TF-IDF和LSI两者的优势,将TF-IDF+LSI算法应用于主题相关度计算提出了基于锚文本的聚焦网络爬虫搜索方法及其系统。\n发明内容\n[0005] 本发明提出了基于锚文本的聚焦网络爬虫搜索方法及其系统,以解决现有技术中主题相关度算法存在的以下技术问题:现有的广度优先算法指导的爬虫其积累主题相关度虽然能稳定增长,但增长速度缓慢;TD-IDF指导的爬虫虽然在爬行启动阶段有很高的性能,但在爬行了大约20个页面后其积累的主题相关度不再增长;LSI指导的爬虫虽然具有穿越隧道的能力,但是在爬行开始时速度较慢。\n[0006] 为解决上述技术问题,本发明所述的基于锚文本的聚焦网络爬虫搜索方法包括以下步骤:\n[0007] (1.1)网络爬虫下载器从URL优先级队列中获取URL,并依据URL从Internet下载Web页面;\n[0008] (1.2)使用URL解析器对下载的Web页面进行解析,提取出URL及其锚文本;\n[0009] (1.3)使用URL筛选器对提取出的URL及其锚文本进行筛选;\n[0010] (1.4)主题相关性判断器采用词频-逆文档频率TF-IDF与潜在语义索引LSI相结合的算法对筛选出的URL计算其主题相关度,并将符合条件的URL放入优先级队列中;\n[0011] (1.5)重复执行步骤(1.1)到(1.4),直到达到停止条件为止。\n[0012] 本发明所述的基于锚文本的聚焦网络爬虫系统包括:URL优先级队列、网络爬虫下载器、Web页面库、URL解析器、URL筛选器以及主题相关性判断器,其中,[0013] 网络爬虫下载器与URL优先级队列相连,用于从URL优先级队列中获取URL,依据URL从Internet下载Web页面,并将下载的Web页面存入Web页面库中;\n[0014] URL解析器用于对Web页面库中下载的Web页面进行解析,提取URL及其锚文本;\n[0015] URL筛选器用于对提取出的URL及其锚文本进行筛选;\n[0016] 主题相关性判断器用于采用词频-逆文档频率TF-IDF与潜在语义索引LSI相结合的算法对URL筛选器筛选出的URL计算其主题相关度,并将符合条件的URL放入优先级队列中。\n[0017] 本发明的有益效果是:本发明所构建的聚焦网络爬虫搜索方法及其系统与一般的爬虫搜索方法及其系统相比,能更好地满足特定用户对于特定领域资源的准确、全面、高效的信息搜集需求。\n附图说明\n[0018] 图1是本发明所述的搜索方法流程图。\n[0019] 图2是本发明中的主题相关度计算方法的流程图。\n[0020] 图3是本发明所述的系统框架示意图。\n具体实施方式\n[0021] 为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。\n[0022] 图1为本发明所述的基于锚文本的聚焦网络爬虫搜索方法流程图。该方法包括以下步骤:\n[0023] 步骤1:网络爬虫下载器从URL优先级队列中获取URL,并依据URL从Internet下载得到Web页面,并将其放入Web页面库中,其中,Web页面库用于存放下载的Web页面:\n[0024] URL优先级队列分为URL主要优先级队列和URL备用优先级队列;当系统启动时,主要优先级队列中存放的是用户指定的种子URL,备用优先级队列为空;下载器从URL优先级队列中获取URL时,按主题相关度从大到小的顺序,先依次取出主要优先级队列中的URL,当主要优先级队列为空时则取出备用优先级队列中的URL。\n[0025] 步骤2:使用URL解析器对下载的Web页面进行解析,提取URL及其锚文本;\n[0026] 步骤3:若提取出的URL已经被访问过,则转向步骤1;若提取出的URL未被访问过,则继续步骤4;\n[0027] 步骤4:构建领域知识库,URL筛选器根据该领域知识库判断URL及其锚文本是否与主题相关。领域知识库包括页面导航词汇、专有词汇和禁用词汇。URL筛选器的工作过程如下:\n[0028] (1)如果URL中包含页面导航词汇,如“index”、“list”、“load”等,说明此页面为导航页面或登录页面,页面不具有主题相关性;\n[0029] (2)如果锚文本内含有规定的禁用词汇,如包含反动意义的词汇和淫秽词汇等,则说明此页面为非法页面,不具有主题相关性;\n[0030] (3)如果锚文本中含有知识库中的专有词汇(由用户根据需下载的网页内容所涉及的领域确定),则页面具有主题相关性。\n[0031] 通过URL筛选器将与主题相关的URL及其锚文本提交给主题相关性判断器;与主题无关的则舍弃,返回步骤3。\n[0032] 步骤5:在主题相关性判断器中分别利用TF-IDF算法和LSI算法计算URL的主题相关度,并将符合条件的URL分别放入相应的优先级队列中。\n[0033] 如图2所示,在主题相关性判断器中,主题相关度计算方法流程为:\n[0034] 首先,对与主题相关的URL所对应的锚文本进行TF-IDF主题相关度计算。\n[0035] 在向量空间模型中,锚文本和关键词集合被表示为向量,向量由一系列特征权重组成,特征空间维数对应所有锚文本和关键词中不同术语的数量。\n[0036] 锚文本向量表示为:\n[0037] dj=(w1,j,w2,j,…,wm,j) (1)\n[0038] 关键词向量表示为:\n[0039] q=(w1,q,w2,q,…,wn,q) (2)\n[0040] 式(1)、(2)中,j表示锚文本的个数,m表示锚文本中术语的个数,n表示关键词中术语的个数,wm,j表示锚文本dj的第m个术语的权重,wn,q表示关键词q的第n个术语的权重。\n[0041] 本发明中采用TF-IDF算法来进行主题相关度计算,锚文本dj的主题相关度计算公式如下:\n[0042] \n[0043] 式(3)中,tfi为术语(项)频率,是术语i在某一文档中出现的次数;N为文档集大小,是文档集包含的文档的数目;dfi为术语的文档频率,是包含了术语i的文档的总个数。\n[0044] 其次,对采用TF-IDF公式(3)计算出的主题相关度wj与阈值1进行比较。若计算出的主题相关度大于预先设定的阈值1,则将对应的URL根据主题相关度的大小放入主要优先级队列中的相应位置;否则,对所述与主题相关的URL所对应的锚文本进行LSI主题相关度的计算。\n[0045] LSI主题相关度计算的步骤如下:\n[0046] (1)以术语为行,锚文本为列形成矩阵X,共t行d列,矩阵的元素为术语在锚文本中的出现频度或其他权重值。将该矩阵进行奇异值分解,如公式(4)所示。\n[0047] X=T0S0D0′ (4)\n[0048] 式中,T0和D0分别是左奇异矩阵和右奇异矩阵,S0是奇异值的对角矩阵,其中S0由正值组成且递减排列。\n[0049] (2)把矩阵S0(m×m)的m个对角线元素的前k个保留,后m-k个置0,得到近似分解,如公式(5)所示。 为在最小二乘意义下对X的最佳近似,其中k依据实际问题要求进行平衡选择。\n[0050] \n[0051] 从S0中删除“0”行和“0”列获取一个新的对角矩阵S,然后分别从T0和D0中删除相应的行和列来获取T和D。\n[0052] (3)进行关键词、锚文本之间相关度计算。\n[0053] 比较关键词与锚文本的相关度时,先求解关键词术语向量q在降维空间上的向量表示Xq,如下公式(6)(7)所示。\n[0054] \n-1\n[0055] 即,Xq=q′TS (7)\n[0056] 式中,Xq表示q在对应的降维空间上的向量表示, 为Xq的转置矩阵,S-1为S的逆矩阵。\n[0057] 然后计算关键词向量降维后的向量表示Xq与锚文本向量dj的主题相关度,如公式(8)所示,当然也可以选择其他相关度计算公式,其中,qi表示第i个术语在关键词向量降维后的向量表示Xq中的标准化权重,dij表示第i个术语在锚文本dj中的标准化权重。\n[0058] \n[0059] 最后,对采用公式(8)计算出的主题相关度与阈值2进行比较。若计算出的主题相关度大于预先设定的阈值2,则将对应的URL根据主题相关度的大小放入备用优先级队列中的相应位置;否则,将此URL及其锚文本舍弃。\n[0060] 步骤6:重复执行步骤1到5,直到下载的Web页面数量达到设定的阈值3为止。\n[0061] 图3为本发明所述的基于锚文本的聚焦网络爬虫系统框架示意图,所述系统包括:URL优先级队列、网络爬虫下载器、Web页面库、URL解析器、URL筛选器、主题相关性判断器以及领域知识库。\n[0062] 所述网络爬虫下载器与URL优先级队列相连,用于从URL优先级队列中获取URL,并依据URL从Internet下载Web页面存入Web页面库中;所述URL优先级队列分为URL主要优先级队列和URL备用优先级队列,当系统启动时,主要优先级队列中存放的是用户指定的种子URL,备用优先级队列为空;网络爬虫下载器从URL优先级队列中获取URL时,按主题相关度从大到小的顺序,先依次取出主要优先级队列中的URL,当主要优先级队列为空时则取出备用优先级队列中的URL。\n[0063] 所述URL解析器用于对Web页面库中下载的Web页面进行解析,提取URL及其锚文本。\n[0064] 所述URL筛选器用于根据领域知识库中所包含的词汇对于提取出的URL及其锚文本进行是否与主题相关的判断和筛选;所述领域知识库包括页面导航词汇、专有词汇和禁用词汇。\n[0065] 所述主题相关性判断器用于采用TF-IDF与LSI相结合的算法对URL筛选器筛选出的URL计算其主题相关度,并将符合条件的URL放入优先级队列中,具体地,主题相关性判断器将符合TF-IDF主题相关度条件的URL放入URL主要优先级队列中,将符合LSI主题相关度条件的URL放入URL备用优先级队列中。\n[0066] 以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
法律信息
- 2013-01-02
- 2012-02-15
实质审查的生效
IPC(主分类): G06F 17/30
专利申请号: 201110230220.X
申请日: 2011.08.11
- 2011-12-28
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2007-05-23
|
2006-11-16
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |