著录项信息
专利名称 | 一种从网页中自动提取网站拥有者行政属地信息的方法 |
申请号 | CN200710142991.7 | 申请日期 | 2007-08-14 |
法律状态 | 驳回 | 申报国家 | 中国 |
公开/公告日 | 2008-02-20 | 公开/公告号 | CN101127050 |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/30 | IPC分类号 | G;0;6;F;1;7;/;3;0查看分类表>
|
申请人 | 北京大学 | 申请人地址 | 北京市海淀区颐和园路5号
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 北京大学 | 当前权利人 | 北京大学 |
发明人 | 罗英伟;汪小林;许卓群 |
代理机构 | 北京君尚知识产权代理事务所 | 代理人 | 余长江 |
摘要
本发明涉及一种从网页中自动提取网站拥有者行政属地信息的方法,首先建立行政区划数据库,然后访问给定的网站,链接该网站的网页,提取网页的信息并与所建立的行政区划数据库中的信息进行匹配,直到获得该网页包含的行政属地信息;本方法对于在互联网上提供全面的“WHOIS查询”服务有重要作用;同时,也可以为人们从地理分布的角度了解和研究互联网的发展现状和发展趋势提供直接的帮助。
1.一种从网页中自动提取网站拥有者行政属地信息的方法,其步骤包括:
1)建立行政区划数据库,该数据库存储下列信息:
省、自治区、直辖市全称和简称;
与省、自治区、直辖市具有从属关系的市一级行政区划全称和简称;
与市一级行政区划匹配的电话区号;
与市一级行政区划匹配的邮政编码;
2)访问给定的网站,链接该网站的网页;
3)分别按照下述方式提取网页的信息,与数据库中的行政区划信息进行匹配,直到获得 该网页包含的行政属地信息:
提取该网页的标题信息;
以提示邮政编码信息的关键词检索该网页源文件,提取关键词后的连续6个数字信息;
以提示直接地址信息的关键词检索该网页源文件,提取关键词后的汉字内容;
以提示电话区号信息的关键词检索该网页源文件,提取关键词后的电话号码信息;
以提示版权信息的关键词检索该网页源文件,提取关键词前后的汉字内容;
以提示营业执照信息的关键词检索该网页源文件,提取关键词前的一个汉字内容;
根据该网页的URL提取地址信息。
2.如权利要求1所述的从网页中自动提取网站拥有者行政属地信息的方法,其特征在于过滤 掉所述提取的网页信息中所有的空格符,回车符,制表符和所有<>中的内容。
3.如权利要求1所述的从网页中自动提取网站拥有者行政属地信息的方法,其特征在于所述 简称包括汉字简称和汉语拼音简称。
4.如权利要求1或2所述的从网页中自动提取网站拥有者行政属地信息的方法,其特征在于 以提示直接地址信息的关键词检索该网页源文件,提取关键词后的30个汉字内容;以提示版 权信息的关键词检索该网页源文件,提取关键词前后各30个汉字内容。
5.如权利要求1所述的从网页中自动提取网站拥有者行政属地信息的方法,其特征在于 所述提示邮政编码信息的关键词包括但不限于下列关键词的一种或几种:“联系地点”, “联系方式”,“邮编”,“邮汇请寄”,“address”,“邮政编码”,“地址”,“办公地点”,“联系 方法”,“社址”,“联系地点:”,“联系方式:”,“邮编:”,“邮汇请寄:”,“address:”, “邮政编码:”,“地址:”,“办公地点:”,“联系方法:”,“社址:”,“联系地点:”,“联 系方式:”,“邮编:”,“邮汇请寄:”,“address:”,“邮政编码:”,“地址:”,“办公地点:”, “联系方法:”,“社址:”;
所述提示直接地址信息的关键词包括但不限于下列关键词的一种或几种:“主办单位”, “联系地点”,“联系方式”,“邮汇请寄”,“address”,“地址”,“所属地区”,“发售地点”, “技术支持”,“制作维护”,“公司全称”,“办公地点”,“联系方法”,“单位所在省市”,“单 位所在地”,“单位名称”,“社址”,“承办单位”,“add”,“主办单位:”,“联系地点:”,“联系 方式:”,“邮汇请寄:”,“address:”,“地址:”,“所属地区:”,“发售地点:”,“技术支持:”, “制作维护:”,“公司全称:”,“办公地点:”,“联系方法:”,“单位所在省市:”,“单位名称:”, “社址:”,“承办单位:”,“add:”,“主办单位:”,“联系地点:”,“联系方式:”,“邮汇请寄:”, “address:”,“地址:”,“所属地区:”,“发售地点:”,“技术支持:”,“制作维护:”,“公司全称:”, “办公地点:”,“联系方法:”,“单位所在省市:”,“单位名称:”,“社址:”,“承办单位:”,“add:”;
所述提示电话区号信息的关键词包括但不限于下列关键词的一种或几种:“联系方式”, “电话”,“tel”,“Tel”,“TEL”,“客户服务热线”,“传真”,“联系方法”,“address”, “telephone”,“Fax”,“热线”,“联系方式:”,“电话:”,“tel:”,“telephone:”,“客户服务 热线:”,“传真:”,“联系方法:”,“TEL:”,“Tel:”,“Fax:”,“联系方式:”,“电话:”,“tel:”, “telephone:”,“客户服务热线:”,“address:”,“传真:”,“联系方法:”,“TEL:”,“Tel:”,“Fax:”, “热线:”;
所述提示版权信息的关键词包括但不限于下列关键词的一种或几种:“版权所有”, “©”,“责任公司”,“有限公司”,“制作维护”,“CopyRights”;
所述提示营业执照信息的关键词包括但不限于下列关键词的一种或几种:“ICP证”,“ICP 备”。
6.如权利要求1所述的从网页中自动提取网站拥有者行政属地信息的方法,其特征在于所述 网页为网站的主页。
7.如权利要求6所述的从网页中自动提取网站拥有者行政属地信息的方法,其特征在于当从 网站的主页中提取不到行政属地信息时,链接该网站的地理特征网页,按与主页相同的方式 提取相关信息,直到获得行政区划信息;所述地理特征网页为满足下列条件之一的网页:
1)该网页的URL名中含有下列之一的关键词:Gsjs.htm company.htm contact.htm /about/lxff.htm dxjj.htm gsjj.htm;
2)该网页标题中含有下列之一的关键词:简介,介绍,关于我们,概况;
3)跳到该网页的链接中含有下列之一的关键词:公司介绍,关于我们,饭店介绍,公司 信息,联系我们,关于站长,关于本站,联系我,与我联系,联系本人,关于本人,contact, 学校概况,学校简介,公司简介,公司概述,联系方式,付款方式,业务联系,招聘信息, 企业介绍。
8.如权利要求7所述的从网页中自动提取网站拥有者行政属地信息的方法,其特征在于还可 以提取该地理特征网页的全文信息,与数据库中的行政区划信息进行匹配,获得该网页包含 的行政属地信息。
9.如权利要求7所述的从网页中自动提取网站拥有者行政属地信息的方法,其特征在于当从 主页中无法获得行政属地信息,且该网站没有地理特征网页时或从地理特征网站中仍无法获 得行政属地信息时,链接该网站的普通网页,按与主页相同的方式提取相关信息,直到获得 行政属地信息。
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有引用任何外部专利数据! |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 1 | | 2011-11-11 | 2011-11-11 | | |
2 | | 2012-12-14 | 2012-12-14 | | |
3 | | 2012-03-23 | 2012-03-23 | | |
4 | | 2012-12-21 | 2012-12-21 | | |
5 | | 2013-07-19 | 2013-07-19 | | |
6 | | 2015-04-14 | 2015-04-14 | | |
7 | | 2012-03-23 | 2012-03-23 | | |
8 | | 2015-03-02 | 2015-03-02 | | |
9 | | 2015-04-14 | 2015-04-14 | | |
10 | | 2014-12-22 | 2014-12-22 | | |
11 | | 2008-08-29 | 2008-08-29 | | |
12 | | 2011-11-11 | 2011-11-11 | | |
13 | | 2013-07-19 | 2013-07-19 | | |
14 | | 2015-03-02 | 2015-03-02 | | |