著录项信息
专利名称 | 建立域名描述名称信息表、搜索的方法、装置及系统 |
申请号 | CN201110060363.0 | 申请日期 | 2011-03-14 |
法律状态 | 授权 | 申报国家 | 中国 |
公开/公告日 | 2012-09-19 | 公开/公告号 | CN102682011A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/30 | IPC分类号 | G;0;6;F;1;7;/;3;0查看分类表>
|
申请人 | 腾讯科技(深圳)有限公司 | 申请人地址 |
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 深圳市世纪光速信息技术有限公司 | 当前权利人 | 深圳市世纪光速信息技术有限公司 |
发明人 | 曲先洋;耿方圆 |
代理机构 | 北京三高永信知识产权代理有限责任公司 | 代理人 | 关文魁 |
摘要
本发明公开了建立域名描述名称信息表、搜索的方法、装置及系统,属于互联网通信领域。所述方法建立域名描述名称信息表的包括:爬取网页页面中的链接,并获取所述链接对应的网页页面所在的域名;获取所述域名的域名描述名称;将所述域名和域名描述名称的对应关系存储在域名描述名称信息表中。所述搜索系统包括:建立域名描述名称信息表的装置和搜索的装置。本发明为用户辨别恶意网站提供帮助。
建立域名描述名称信息表、搜索的方法、装置及系统\n技术领域\n[0001] 本发明涉及互网通信领域,特别涉及一种建立域名描述名称信息表、搜索的方法、装置及系统。\n背景技术\n[0002] 随着互联网逐渐深入人们的生活,使得全球出现大量的网站,截止到2010年2月全球的网站数量已经达到2.34亿个;与此同时,以木马和钓鱼网站为代表的恶意网站也与日俱增,危害人们的生活。\n[0003] 其中,网页搜索引擎是用户上网的主要入口之一,用户常常利用网页搜索引擎搜索需要的查询结果,网页搜索引擎搜索的查询结果中往往包括恶意网站对应的查询结果,给用户的信息安全带来了很大的危害。\n发明内容\n[0004] 为了帮助用户辨别恶意网站,本发明提供了建立域名描述名称信息表、搜索的方法、装置及系统。所述技术方案如下:\n[0005] 一种建立域名描述名称信息表的方法,所述方法包括:\n[0006] 爬取网页页面中的链接,并获取所述链接对应的网页页面所在的域名;\n[0007] 获取所述域名的域名描述名称;\n[0008] 将所述域名和域名描述名称的对应关系存储在域名描述名称信息表中。\n[0009] 如果所述域名的置信度超过第一阈值,则所述获取所述域名的域名描述名称,包括:\n[0010] 获取所述域名对应的主页面,从所述主页面的源文件中获取所述主页面的标题和描述信息;\n[0011] 从所述主页面的标题和描述信息中提取所述域名的域名描述名称。\n[0012] 从所述主页面的标题和描述信息中提取所述域名的域名描述名称,包括:\n[0013] 对所述主页面的标题和描述信息进行分割得到分词;\n[0014] 从所述主页面的标题和所述分词中选择对所述主页面最具代表性的词,将所述选择的词确定为所述域名的域名描述名称。\n[0015] 如果所述域名的置信息度未超过第一阈值,则所述获取所述域名的域名描述名称,包括:\n[0016] 根据已存储的域名与锚文本的对应关系,获取所述域名对应的锚文本;\n[0017] 从所述获取的锚文本中提取所述域名的域名描述名称。\n[0018] 所述根据已存储的域名与锚文本的对应关系,获取所述域名对应的锚文本,包括:\n[0019] 从所述已存储的域名与锚文本的对应关系中查找出所述域名对应的锚文本;\n[0020] 从所述锚文本中去除重复的锚文本、计算剩下所述锚文本的置信度,选择置信度超过第二阈值的锚文本,去除所述选择的锚文本中的噪音。\n[0021] 从所述获取的锚文本中提取所述域名的域名描述名称,包括:\n[0022] 对所述获取的锚文本进行分割得到分词,统计每个分词出现的次数;\n[0023] 将出现次数最多的分词确定为所述域名的域名描述名称。\n[0024] 所述获取所述域名的域名描述名称之前,还包括:\n[0025] 根据已存储的域名与网站的对应关系,获取与所述域名具有链接关系的网站,根据已存储的网站与信誉度的对应关系,获取所述网站的信誉度,根据所述信誉度计算所述域名的置信度。\n[0026] 一种利用所述建立的域名描述名称信息表进行搜索的方法,所述方法包括:\n[0027] 接收携带查询词的搜索请求,根据所述查询词获取对应的查询结果;\n[0028] 根据域名描述名称信息表,获取所述查询结果的域名描述名称;\n[0029] 显示所述查询结果和所述查询结果的域名描述名称。\n[0030] 所述根据域名描述名称信息表,获取所述查询结果的域名描述名称,包括:\n[0031] 从所述查询结果包括的链接中提取所述查询结果对应的网页页面所在的域名;\n[0032] 根据所述域名从所述域名描述名称信息表中查找到所述查询结果的域名描述名称。\n[0033] 一种建立域名描述名称信息表的装置,所述装置包括:\n[0034] 第一获取模块,用于爬取网页页面中的链接,并获取所述链接对应的网页页面所在的域名;\n[0035] 第二获取模块,用于获取所述域名的域名描述名称;\n[0036] 存储模块,用于将所述域名和域名描述名称的对应关系存储在域名描述名称信息表中。\n[0037] 如果所述域名的置信度超过第一阈值,则所述第二获取模块包括:\n[0038] 第一获取单元,用于获取所述域名对应的主页面,从所述主页面的源文件中获取所述主页面的标题和描述信息;\n[0039] 第一提取单元,用于从所述主页面的标题和描述信息中提取所述域名的域名描述名称。\n[0040] 所述第一提取单元包括:\n[0041] 第一分割子单元,用于对所述主页面的标题和描述信息进行分割得到分词;\n[0042] 第一确定子单元,用于从所述主页面的标题和所述分词中选择对所述主页面最具代表性的词,将所述选择的词确定为所述域名的域名描述名称。\n[0043] 如果所述域名的置信度未超过第一阈值,则所述第二获取模块包括:\n[0044] 第二获取单元,用于根据已存储的域名与锚文本的对应关系,获取所述域名对应的锚文本;\n[0045] 第二提取单元,用于从所述获取的锚文本中提取所述域名的域名描述名称。\n[0046] 所述第二获取单元包括:\n[0047] 查找子单元,用于从所述已存储的域名与锚文本的对应关系中查找出所述域名对应的锚文本;\n[0048] 去除子单元,用于从所述锚文本中去除重复的锚文本、计算剩下所述锚文本的置信度,选择置信度超过第二阈值的锚文本,去除所述选择的锚文本中的噪音。\n[0049] 所述第二提取单元包括:\n[0050] 第二分割子单元,用于对所述获取的锚文本进行分割得到分词,统计每个分词出现的次数;\n[0051] 第二确定子单元,用于将出现次数最多的分词确定为所述域名的域名描述名称。\n[0052] 所述装置还包括:\n[0053] 置信度计算模块,用于根据已存储的域名与网站的对应关系,获取与所述域名具有链接关系的网站,根据已存储的网站与信誉度的对应关系,获取所述网站的信誉度,根据所述信誉度计算所述域名的置信度。\n[0054] 一种利用所述建立的域名描述名称信息表进行搜索的装置,所述装置包括:\n[0055] 第三获取模块,用于接收携带查询词的搜索请求,根据所述查询词获取对应的查询结果;\n[0056] 第四获取模块,用于根据域名描述名称信息表,获取所述查询结果的域名描述名称;\n[0057] 显示模块,用于显示所述查询结果和所述查询结果的域名描述名称。\n[0058] 所述第四获取模块包括:\n[0059] 第三提取单元,用于从所述查询结果的链接中提取所述查询结果对应的网页页面所在的域名;\n[0060] 查找单元,用于根据所述域名从所述域名描述名称信息表中查找到所述查询结果的域名描述名称。\n[0061] 一种搜索系统,所述搜索系统包括建立域名描述名称信息表的装置和搜索的装置;\n[0062] 所述建立域名描述名称信息表的装置,用于爬取网页页面中的链接,并获取所述链接对应的网页页面所在的域名;获取所述域名的域名描述名称;将所述域名和域名描述名称的对应关系存储在域名描述名称信息表中;\n[0063] 所述搜索的装置,用于接收携带查询词的搜索请求,根据所述查询词获取对应的查询结果;根据所述域名描述名称信息表,获取所述查询结果的域名描述名称;显示所述查询结果和所述查询结果的域名描述名称。\n[0064] 通过爬取网页页面中的链接,获取该链接的域名,并获取该域名的域名描述名称,将该域名和该域名描述名称的对应关系存储在域名描述名称信息表中;当接收到搜索请求时,获取查询词对应的查询结果,根据建立的域名描述名称获取查询结果对应的域名描述名称,显示获取的查询结果和域名描述名称。如此,用户可以通过每个查询结果的域名描述名称确定出每个查询结果的来源,从而能够协助用户辨别恶意网站的查询结果,提高了用户体验并保障了用户的信息安全。\n附图说明\n[0065] 图1是本发明实施例1提供的一种建立域名描述名称信息表的方法流程图;\n[0066] 图2是本发明实施例2提供的一种建立域名描述名称信息表的方法流程图;\n[0067] 图3是本发明实施例3提供的一种搜索的方法流程图;\n[0068] 图4是本发明实施例4提供的一种搜索的方法流程图;\n[0069] 图5是本发明实施例5提供的一种建立域名描述名称信息表的装置示意图;\n[0070] 图6是本发明实施例6提供的一种搜索的装置示意图;\n[0071] 图7是本发明实施例7提供的一种搜索系统示意图。\n具体实施方式\n[0072] 为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。\n[0073] 实施例1\n[0074] 如图1所示,本发明实施例提供了一种建立域名描述名称信息表的方法,包括:\n[0075] 步骤101:爬取网页页面中的链接,并获取该链接对应的网页页面所在的域名;\n[0076] 步骤102:获取该域名的域名描述名称;\n[0077] 步骤103:将该域名和该域名描述名称的对应关系存储在域名描述名称信息表中。\n[0078] 在本发明实施例中,通过爬取网页页面中的链接,获取该链接的域名,并获取该域名的域名描述名称,将该域名和该域名描述名称的对应关系存储在域名描述名称信息表中。如此,网页搜索引擎搜索到查询结果时,可以根据域名描述名称信息表获取每个查询结果的域名描述名称,并显示每个查询结果和每个查询结果的域名描述名称,因此用户可以通过每个查询结果的域名描述名称确定出每个查询结果的来源,从而能够协助用户辨别恶意网站的查询结果,提高了用户体验并保障了用户的信息安全。\n[0079] 实施例2\n[0080] 如图2所示,本发明实施例提供了一种建立域名描述名称信息表的方法,包括:\n[0081] 步骤201:通过对当前网页页面进行爬取,获取当前网页页面中的链接;\n[0082] 具体地,对当前网页页面中的内容进行爬取,当爬取到当前网页页面中的链接时,从当前网页页面中提取爬取的链接。\n[0083] 其中,在本实施例中,可以对互联网中的各个网页页面进行爬取。另外,可以通过网页爬虫技术或网络蜘蛛算法来对互联网中的各个网页页面进行爬取。\n[0084] 例如,对于互联网中的某个网页页面进行爬取,当爬取到该网页页面中的一条链接“http://news.qq.com/000411.htm”时,提取爬取的该条链接。\n[0085] 步骤202:根据获取的链接,解析出获取的链接对应的网页页面所在的域名;\n[0086] 其中,互联网中的任一个链接都由该链接对应的网页页面所在的域名以及该网页页面在该域名上的存储地址组成。\n[0087] 具体地,对该链接进行解析,解析出该链接中的域名,其中,解析出的域名为该链接对应的网页页面所在的域名。\n[0088] 例如,对于提取的链接“http://news.qq.com/000411.htm”由该链接对应的网页页面所在的域名“http://news.qq.com”和该链接对应的网页页面在域名“http://news.qq.com”上的存储地址“000411.htm”组成。所以在本实施例中,对该条链接“http://news.qq.com/000411.htm”进行解析,解析该链接中包括的域名为“http://news.qq.com”,其中,解析出的域名“http://news.qq.com”为该链接对应的网页页面所在的域名。\n[0089] 进一步地,获取当前网页页面所在的网站,将解析出的域名和获取的网站作为一条记录并存储在域名与网站的对应关系中。\n[0090] 进一步地,还可以从当前网页页面的源文件中提取该链接的锚文本,将解析出的域名和提取的锚文本作为一条记录并存储在域名与锚文本的对应关系中。\n[0091] 进一步地,获取当前网页页面所在的网站,将获取的网站和提取的锚文本作为一条记录存储在网站与锚文本的对应关系中。\n[0092] 步骤203:判断域名描述名称信息表中是否存在解析出的域名对应的域名描述名称,如果是,则结束操作,如果否,则执行步骤204;\n[0093] 其中,域名描述名称信息表用于存储域名与域名描述名称的对应关系,如表1所示的域名描述名称信息表。\n[0094] 表1\n[0095]\n 域名 域名描述名称\n http://news.sohu.com 搜狐新闻\n http://news.163.com 网易新闻\n …… ……\n[0096] 具体地,根据解析出的域名查找域名描述名称信息表,如果从域名描述名称信息表中查找到对应的域名描述名称,则结束操作,否则,继续执行步骤204。\n[0097] 例如,判断出如表1所示的域名描述名称信息表中不存在解析出的域名“http://news.qq.com”对应的域名描述名称,然后执行步骤204。\n[0098] 步骤204:计算解析的域名的置信度,如果解析的域名的置信度超过预设第一阈值,则执行步骤205,否则,执行步骤207;\n[0099] 其中,计算解析的域名的置信度的操作可以具体为:根据域名与网站的对应关系,获取与该域名具有链接关系的网站,根据已存储的网站与信誉度的对应关系,获取与该域名具有链接关系的网站的信誉度,根据与该域名具有链接关系的网站的信誉度计算该域名的置信度。\n[0100] 其中,在本实施例中,事先根据网站的权威度、流行度和大小等特征,为互联网中的网站设置信誉度,并存储该网站与该网站的信誉度的对应关系。\n[0101] 步骤205:获取解析的域名对应的主页面,从该主页面中提取该主页面的标题和描述信息;\n[0102] 其中,每个网页页面都存在一个源文件,在源文件中包括网页页面的标题和描述信息等内容;在源文件中使用代码来记录网页页面中的描述信息,使用代码
来记录网页页面中的标题。\n[0103] 具体地,根据解析的域名链接到对应的主页面中,扫描该主页面的源文件中的代码,并对扫描的代码进行解析得到该主页面的标题和描述信息。\n[0104] 例如,对于“腾讯新闻”主页面,“腾讯新闻”主页面的源文件中包括如下的代码以及腾讯新闻。\n[0105] 相应地,对于域名“http://news.qq.com”对应的主页面为“腾讯新闻”主页面,对“腾讯新闻”主页面的源代码进行扫描并对扫描的每条代码进行解析,当扫描到源文件中的代码时,解析出“腾讯新闻”主页面的描述信息为“腾讯新闻是腾讯公司推出的且最具有传播性和互动性的新闻网站”;当扫描到源文件中的代码腾讯新闻时,解析出“腾讯新闻”主页面的标题为“腾讯新闻”。\n[0106] 其中,每个域名对应的主页面为每个域名对应网站的首页,例如,域名“http://news.qq.com”对应的“腾讯新闻”主页面为域名“http://news.qq.com”对应的腾讯新闻网站的首页。\n[0107] 步骤206:从提取的主页面的标题和描述信息中提取解析出的域名的域名描述名称,并将解析出的域名和提取的域名描述名称的对应关系存储在域名描述名称信息表中,结束操作;\n[0108] 具体地,对主页面的标题和描述信息进行分割得到多个分词,从主页面的标题和分割得到的多个分词中选择对主页面最具代表性的词,将选择的词确定为解析出的域名的域名描述名称,将解析出的域名和确定出的域名描述名称的对应关系存储在域名描述名称信息表中。\n[0109] 其中,从主页面的标题和分割得到的多个分词中选择对主页面最具代表性的词的操作可以有多种,其中一种可以为:分别统计标题和每个分词在主页面包括的各链接对应网页页面中出现的次数,并确定出主页面所属网站的类型;获取属于确定类型的网站,并从获取的网站中去除主页面所属的网站,分别统计标题和每个分词在剩下每个网站包括的各网页页面中出现的次数,根据标题在主页面包括的各链接对应网页页面中出现的次数以及在剩下网站包括的网页页面中出现的次数,计算出标题的比值,根据每个分词在主页面包括的链接对应网页页面中出现的次数以及在剩下每个网站包括的网页页面中出现的次数,分别计算出每个分词的比值,将比值最大的词确定为对主页面最具代表性的词。\n[0110] 例如,对“腾讯新闻”主页面的标题“腾讯新闻”和描述信息“腾讯新闻是腾讯公司推出的且最具有传播性和互动性的新闻网站”进行分割得到的分词包括腾讯、新闻、腾讯公司......,确定出“腾讯新闻”主页面属于网站的类型为新闻类型的网站,获取属于新闻类型的网站包括腾讯新闻网站、网易新闻网站和搜狐新闻网站,从获取的网站中去除“腾讯新闻”主页面所属的腾讯新闻网站,分别统计标题“腾讯新闻”以及每个分词在“腾讯新闻”主页面包括的各链接对应的网页页面中出现的次数,分别统计标题“腾讯新闻”以及每个分词在剩下的网易新闻网站和搜狐新闻网站包括的各网页页面中出现的次数,根据标题“腾讯新闻”和每个分词分别在“腾讯新闻”主页面包括的链接对应网页页面中出现的次数以及在剩下的网站包括的各网页页面中出现的次数,分别计算出标题“腾讯新闻”的比值以及每个分词的比值,选择比值最大的词,假设为“腾讯新闻”,将选择的“腾讯新闻”确定为域名“http://news.qq.com”的域名描述名称;将解析的域名“http://news.qq.com”和确定的域名描述名称“腾讯新闻”作为一条对应关系存储在如表1所示的域名描述名称信息表中,得到的结果如表2所示。\n[0111] 表2\n[0112]\n 域名 域名描述名称\n http://news.qq.com 腾讯新闻\n http://news.sohu.com 搜狐新闻\n http://news.163.com 网易新闻\n …… ……\n[0113] 步骤207:根据域名与锚文本的对应关系,获取解析出的域名对应的锚文本;\n[0114] 具体地,根据解析出的域名,从域名与锚文本的对应关系中查找出对应的锚文本,从查找的锚文本中去除重复的锚文本、计算剩下每个锚文本的置信度,选择置信度超过第二阈值的锚文本,去除选择的锚文本中的噪音。\n[0115] 其中,计算锚文本的置信度的操作可以具体为:根据锚文本与网站的对应关系,获取锚文本所在的网页页面位于的网站,根据网站与信誉度的对应关系,获取该网站的信誉度,再根据该网站的信誉度计算该锚文本的置信度。\n[0116] 步骤208:从获取的锚文本中提取解析的域名的描述名称,将解析的域名和获取的域名描述名称的对应关系存储在域名描述名称信息表中。\n[0117] 具体地,对获取的每个锚文本进行分割得到多个分词,统计每个分词出现的次数,将出现次数最多的分词确定为解析出的域名的域名描述名称,将解析出的域名和确定出的域名描述名称的对应关系存储在域名描述名称信息表中。\n[0118] 在本发明实施例中,通过爬取网页页面中的链接,获取该链接的域名,并获取该域名的域名描述名称,将该域名和该域名描述名称的对应关系存储在域名描述名称信息表中。如此,网页搜索引擎搜索到查询结果时,可以根据域名描述名称信息表获取每个查询结果的域名描述名称,并显示每个查询结果和每个查询结果的域名描述名称,因此用户可以通过每个查询结果的域名描述名称确定出每个查询结果的来源,从而能够协助用户辨别恶意网站的查询结果,提高了用户体验并保障了用户的信息安全。\n[0119] 实施例3\n[0120] 如图3所示,本发明实施例提供了一种利用实施例1建立的域名描述名称信息表进行搜索的方法,包括:\n[0121] 步骤301:接收携带查询词的搜索请求,根据该查询词获取对应的查询结果;\n[0122] 步骤302:根据域名描述名称信息表,获取该查询结果的域名描述名称;\n[0123] 步骤303:显示该查询结果和该查询结果的域名描述名称。\n[0124] 在本发明实施例中,获取查询结果的域名描述名称,显示查询结果和查询结果的域名描述名称。如此,用户可以通过查询结果的域名描述名称确定出查询结果的来源,从而能够协助用户辨别恶意网站的查询结果,提高了用户体验并保障了用户的信息安全。\n[0125] 实施例4\n[0126] 如图4所示,本发明实施例提供了一种利用实施例2得到的域名信息表搜索网页页面的方法,包括:\n[0127] 步骤401:接收搜索请求,且该搜索请求至少携带用户提交的查询词;\n[0128] 其中,用户可以在客户端打开网页搜索引擎的首页,然后用户向网页搜索引擎的首页输入查询词,再通过网页搜索引擎的首页向网页搜索引擎提交输入的查询词。\n[0129] 步骤402:根据搜索请求携带的查询词,获取对应的查询结果,提取每个查询结果的域名;\n[0130] 其中,网页搜索引擎搜索的每个查询结果中包括查询结果对应的网页页面的标题和链接等信息。\n[0131] 具体地,根据接收的查询词,通过现有的搜索方法搜索对应的查询结果,从每个查询结果包括的链接中提取每个查询结果的域名。\n[0132] 例如,假设用户提交的查询词为“北京奥运会”,网页搜索引擎根据查询词“北京奥运会”搜索到如表3所示的三个查询结果,从表3中的第一条查询结果中的链接中提取域名为“http://news.qq.com”,从表3中的第二条查询结果中的链接中提取的域名为“http://news.sohu.com”,从表3中的第三条查询结果中的链接中提取的域名为“http://news.163.com”。\n[0133] 表3\n[0134]\n[0135] 步骤403:根据每个查询结果的域名和域名描述名称信息表,获取每个查询结果对应的域名描述名称;\n[0136] 具体地,根据每个查询结果的域名,从域名描述名称信息表中查找出每个查询结果对应的域名描述名称。\n[0137] 例如,根据表3中的第一条查询结果的域名“http://news.qq.com”,从如表2所示的域名描述名称信息表中查找出对应的域名描述名称为“腾讯新闻”;根据表3中的第二条查询结果的域名“http://news.sohu.com”,从如表2所示的域名描述名称信息表中查找出对应的域名描述名称为“搜狐新闻”;根据表3中的第三条查询结果的域名“http://news.163.com”,从如表2所示的域名描述名称信息表中查找出对应的域名描述名称为“网易新闻”。\n[0138] 步骤404:将每个查询结果和每个查询结果对应的域名描述名称显示给用户。\n[0139] 例如,如表4所示,将表3中的第一条查询结果和其对应的域名描述名称“腾讯新闻”显示给用户,将表3中的第二条查询结果和其对应的域名描述名称“搜狐新闻”显示给用户,将表3中的第三条查询结果和其对应的域名描述名称显示给用户。\n[0140] 表4\n[0141]\n[0142] 在本发明实施例中,从每个查询结果中的URL中提取每个查询结果的域名,根据域名描述名称信息表和每个查询结果的域名,获取每个查询结果的域名描述名称,显示每个查询结果和每个查询结果的域名描述名称。用户可以通过每个查询结果的域名描述名称确定出每个查询结果的来源,从而能够协助用户辨别恶意网站的查询结果,提高了用户体验并保障了用户的信息安全。\n[0143] 实施例5\n[0144] 如图5所示,本发明实施例提供了一种建立域名描述名称信息表的装置,包括:\n[0145] 第一获取模块501,用于爬取网页页面中的链接,并获取爬取的链接对应的网页页面所在的域名;\n[0146] 第二获取模块502,用于获取获取的域名的域名描述名称;\n[0147] 存储模块503,用于将获取的域名和域名描述名称的对应关系存储在域名描述名称信息表中。\n[0148] 其中,如果获取的域名的置信度超过第一阈值,则第二获取模块502包括:\n[0149] 第一获取单元,用于获取该域名对应的主页面,从该主页面的源文件中获取该主页面的标题和描述信息;\n[0150] 第一提取单元,用于从该主页面的标题和描述信息中提取该域名的域名描述名称。\n[0151] 其中,第一提取单元包括:\n[0152] 第一分割子单元,用于对该主页面的标题和描述信息进行分割得到分词;\n[0153] 第一确定子单元,用于从主页面的标题和分割得到的分词中选择对主页面最具代表性的词,将选择的词确定为该域名的域名描述名称。\n[0154] 其中,如果该域名的置信度未超过第一阈值,则第二获取模块502包括:\n[0155] 第二获取单元,用于根据已存储的域名与锚文本的对应关系,获取该域名对应的锚文本;\n[0156] 第二提取单元,用于从获取的锚文本中提取该域名的域名描述名称。\n[0157] 其中,第二获取单元包括:\n[0158] 查找子单元,用于从已存储的域名与锚文本的对应关系中查找出该域名对应的锚文本;\n[0159] 去除子单元,用于从该锚文本中去除重复的锚文本、计算剩下的锚文本的置信度,选择置信度超过第二阈值的锚文本,去除选择的锚文本中的噪音。\n[0160] 其中,第二提取单元包括:\n[0161] 第二分割子单元,用于对获取的锚文本进行分割得到分词,统计每个分词出现的次数;\n[0162] 第二确定子单元,用于将出现次数最多的分词确定为该域名的域名描述名称。\n[0163] 进一步地,该装置还包括:\n[0164] 置信度计算模块,用于根据已存储的域名与网站的对应关系,获取与该域名具有链接关系的网站,根据已存储的网站与信誉度的对应关系,获取该网站的信誉度,根据信誉度计算该域名的置信度。\n[0165] 在本发明实施例中,通过爬取网页页面中的链接,获取该链接的域名,并获取该域名的域名描述名称,将该域名和该域名描述名称的对应关系存储在域名描述名称信息表中。如此,网页搜索引擎搜索到查询结果时,可以根据域名描述名称信息表获取每个查询结果的域名描述名称,并显示每个查询结果和每个查询结果的域名描述名称,因此用户可以通过每个查询结果的域名描述名称确定出每个查询结果的来源,从而能够协助用户辨别恶意网站的查询结果,提高了用户体验并保障了用户的信息安全。\n[0166] 实施例6\n[0167] 如图6所示,本发明实施例提供了一种利用实施例5建立的域名描述信息表进行搜索的装置,包括:\n[0168] 第三获取模块601,用于接收携带查询词的搜索请求,根据该查询词获取对应的查询结果;\n[0169] 第四获取模块602,用于根据域名描述名称信息表,获取该查询结果的域名描述名称;\n[0170] 显示模块603,用于显示该查询结果和该查询结果的域名描述名称。\n[0171] 其中,第四获取模块602包括:\n[0172] 第三提取单元,用于从该查询结果的链接中提取该查询结果对应的网页页面所在的域名;\n[0173] 查找单元,用于根据该域名从域名描述名称信息表中查找到该查询结果的域名描述名称。\n[0174] 在本发明实施例中,获取查询结果的域名描述名称,显示查询结果和查询结果的域名描述名称。如此,用户可以通过查询结果的域名描述名称确定出查询结果的来源,从而能够协助用户辨别恶意网站的查询结果,提高了用户体验并保障了用户的信息安全。\n[0175] 实施例7\n[0176] 如图7所示,本发明实施例提供了一种搜索系统,包括建立域名描述名称信息表的装置701和搜索的装置702;\n[0177] 建立域名描述名称信息表的装置701,用于爬取网页页面中的链接,并获取该链接对应的网页页面所在的域名;获取该域名的域名描述名称;将该域名和域名描述名称的对应关系存储在域名描述名称信息表中;\n[0178] 搜索的装置702,用于接收携带查询词的搜索请求,根据该查询词获取对应的查询结果;根据域名描述名称信息表,获取该查询结果的域名描述名称;显示该查询结果和该查询结果的域名描述名称。\n[0179] 在本发明实施例中,通过爬取网页页面中的链接,获取该链接的域名,并获取该域名的域名描述名称,将该域名和该域名描述名称的对应关系存储在域名描述名称信息表中;当接收到搜索请求时,获取查询词对应的查询结果,根据建立的域名描述名称获取查询结果对应的域名描述名称,显示获取的查询结果和域名描述名称。如此,用户可以通过每个查询结果的域名描述名称确定出每个查询结果的来源,从而能够协助用户辨别恶意网站的查询结果,提高了用户体验并保障了用户的信息安全。\n[0180] 需要说明的是:上述实施例提供的一种建立域名描述名称信息表的装置在建立域名描述名称信息表时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供建立域名描述名称信息表的装置与建立域名描述名称信息表的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。\n[0181] 需要说明的是:上述实施例提供的一种利用建立的域名描述名称信息表进行搜索的装置在搜索查询结果时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供利用建立的域名描述名称信息表的装置与利用建立的域名描述名称信息表的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。\n[0182] 以上实施例提供的技术方案中的全部或部分内容可以通过软件编程实现,其软件程序存储在可读取的存储介质中,存储介质例如:计算机中的硬盘、光盘或软盘。\n[0183] 以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。法律信息
- 2017-04-12
- 2013-12-11
专利申请权的转移
登记生效日: 2013.11.21
申请人由腾讯科技(深圳)有限公司变更为深圳市世纪光速信息技术有限公司
地址由518000 广东省深圳市福田区赛格科技园2栋东403室变更为518057 广东省深圳市南山区粤海街道科技中一路腾讯大厦16层
- 2013-10-02
实质审查的生效
IPC(主分类): G06F 17/30
专利申请号: 201110060363.0
申请日: 2011.03.14
- 2012-09-19
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2008-05-14
|
2007-11-21
| | |
2
| |
2006-10-04
|
2006-02-27
| | |
3
| |
2010-10-06
|
2007-11-08
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |