一种从网页中自动提取网站拥有者行政属地信息的方法

发明专利无效专利

申请号：
CN200710142991.7
IPC分类号：G06F17/30
申请日期：
2007-08-14
申请人：
北京大学

基础信息

权利要求

说明书

PDF全文

法律信息

引证文献

著录项信息

专利名称	一种从网页中自动提取网站拥有者行政属地信息的方法
申请号	CN200710142991.7	申请日期	2007-08-14
法律状态	驳回	申报国家	中国
公开/公告日	2008-02-20	公开/公告号	CN101127050
优先权	暂无	优先权号	暂无
主分类号	G06F17/30 ? IPC结构图谱： G 物理 G0 仪器 G06 计算；推算；计数 G06F 电数字数据处理（基于特定计算模型的计算机系统入G06N） G06F17/00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法〔6〕 G06F17/30 信息检索；及其数据库结构〔6〕	IPC分类号	G;0;6;F;1;7;/;3;0查看分类表>
申请人	北京大学	申请人地址	北京市海淀区颐和园路5号变更专利地址、主体等相关变化，请及时变更，防止失效
权利人	北京大学	当前权利人	北京大学
发明人	罗英伟;汪小林;许卓群
代理机构	北京君尚知识产权代理事务所	代理人	余长江

摘要

本发明涉及一种从网页中自动提取网站拥有者行政属地信息的方法，首先建立行政区划数据库，然后访问给定的网站，链接该网站的网页，提取网页的信息并与所建立的行政区划数据库中的信息进行匹配，直到获得该网页包含的行政属地信息；本方法对于在互联网上提供全面的“WHOIS查询”服务有重要作用；同时，也可以为人们从地理分布的角度了解和研究互联网的发展现状和发展趋势提供直接的帮助。

1.一种从网页中自动提取网站拥有者行政属地信息的方法，其步骤包括：
1)建立行政区划数据库，该数据库存储下列信息：
省、自治区、直辖市全称和简称；
与省、自治区、直辖市具有从属关系的市一级行政区划全称和简称；
与市一级行政区划匹配的电话区号；
与市一级行政区划匹配的邮政编码；
2)访问给定的网站，链接该网站的网页；
3)分别按照下述方式提取网页的信息，与数据库中的行政区划信息进行匹配，直到获得该网页包含的行政属地信息：
提取该网页的标题信息；
以提示邮政编码信息的关键词检索该网页源文件，提取关键词后的连续6个数字信息；
以提示直接地址信息的关键词检索该网页源文件，提取关键词后的汉字内容；
以提示电话区号信息的关键词检索该网页源文件，提取关键词后的电话号码信息；
以提示版权信息的关键词检索该网页源文件，提取关键词前后的汉字内容；
以提示营业执照信息的关键词检索该网页源文件，提取关键词前的一个汉字内容；
根据该网页的URL提取地址信息。
2.如权利要求1所述的从网页中自动提取网站拥有者行政属地信息的方法，其特征在于过滤掉所述提取的网页信息中所有的空格符，回车符，制表符和所有<>中的内容。
3.如权利要求1所述的从网页中自动提取网站拥有者行政属地信息的方法，其特征在于所述简称包括汉字简称和汉语拼音简称。
4.如权利要求1或2所述的从网页中自动提取网站拥有者行政属地信息的方法，其特征在于以提示直接地址信息的关键词检索该网页源文件，提取关键词后的30个汉字内容；以提示版权信息的关键词检索该网页源文件，提取关键词前后各30个汉字内容。
5.如权利要求1所述的从网页中自动提取网站拥有者行政属地信息的方法，其特征在于所述提示邮政编码信息的关键词包括但不限于下列关键词的一种或几种：“联系地点”， “联系方式”，“邮编”，“邮汇请寄”，“address”，“邮政编码”，“地址”，“办公地点”，“联系方法”，“社址”，“联系地点：”，“联系方式：”，“邮编：”，“邮汇请寄：”，“address：”， “邮政编码：”，“地址：”，“办公地点：”，“联系方法：”，“社址：”，“联系地点：”，“联系方式：”，“邮编：”，“邮汇请寄：”，“address：”，“邮政编码：”，“地址：”，“办公地点：”， “联系方法：”，“社址：”；
所述提示直接地址信息的关键词包括但不限于下列关键词的一种或几种：“主办单位”， “联系地点”，“联系方式”，“邮汇请寄”，“address”，“地址”，“所属地区”，“发售地点”， “技术支持”，“制作维护”，“公司全称”，“办公地点”，“联系方法”，“单位所在省市”，“单位所在地”，“单位名称”，“社址”，“承办单位”，“add”，“主办单位：”，“联系地点：”，“联系方式：”，“邮汇请寄：”，“address：”，“地址：”，“所属地区：”，“发售地点：”，“技术支持：”， “制作维护：”，“公司全称：”，“办公地点：”，“联系方法：”，“单位所在省市：”，“单位名称：”， “社址：”，“承办单位：”，“add：”，“主办单位：”，“联系地点：”，“联系方式：”，“邮汇请寄：”， “address：”，“地址：”，“所属地区：”，“发售地点：”，“技术支持：”，“制作维护：”，“公司全称：”， “办公地点：”，“联系方法：”，“单位所在省市：”，“单位名称：”，“社址：”，“承办单位：”，“add：”；
所述提示电话区号信息的关键词包括但不限于下列关键词的一种或几种：“联系方式”， “电话”，“tel”，“Tel”，“TEL”，“客户服务热线”，“传真”，“联系方法”，“address”， “telephone”，“Fax”，“热线”，“联系方式：”，“电话：”，“tel：”，“telephone：”，“客户服务热线：”，“传真：”，“联系方法：”，“TEL：”，“Tel：”，“Fax：”，“联系方式：”，“电话：”，“tel：”， “telephone：”，“客户服务热线：”，“address：”，“传真：”，“联系方法：”，“TEL：”，“Tel：”，“Fax：”， “热线：”；
所述提示版权信息的关键词包括但不限于下列关键词的一种或几种：“版权所有”， “©”，“责任公司”，“有限公司”，“制作维护”，“CopyRights”；
所述提示营业执照信息的关键词包括但不限于下列关键词的一种或几种：“ICP证”，“ICP 备”。
6.如权利要求1所述的从网页中自动提取网站拥有者行政属地信息的方法，其特征在于所述网页为网站的主页。
7.如权利要求6所述的从网页中自动提取网站拥有者行政属地信息的方法，其特征在于当从网站的主页中提取不到行政属地信息时，链接该网站的地理特征网页，按与主页相同的方式提取相关信息，直到获得行政区划信息；所述地理特征网页为满足下列条件之一的网页：
1)该网页的URL名中含有下列之一的关键词：Gsjs.htm company.htm contact.htm /about/lxff.htm dxjj.htm gsjj.htm；
2)该网页标题中含有下列之一的关键词：简介，介绍，关于我们，概况；
3)跳到该网页的链接中含有下列之一的关键词：公司介绍，关于我们，饭店介绍，公司信息，联系我们，关于站长，关于本站，联系我，与我联系，联系本人，关于本人，contact，学校概况，学校简介，公司简介，公司概述，联系方式，付款方式，业务联系，招聘信息，企业介绍。
8.如权利要求7所述的从网页中自动提取网站拥有者行政属地信息的方法，其特征在于还可以提取该地理特征网页的全文信息，与数据库中的行政区划信息进行匹配，获得该网页包含的行政属地信息。
9.如权利要求7所述的从网页中自动提取网站拥有者行政属地信息的方法，其特征在于当从主页中无法获得行政属地信息，且该网站没有地理特征网页时或从地理特征网站中仍无法获得行政属地信息时，链接该网站的普通网页，按与主页相同的方式提取相关信息，直到获得行政属地信息。

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
该专利没有引用任何外部专利数据！

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
1	CN102426603B	2011-11-11	2011-11-11	一种文字信息地域识别方法及装置有效专利	任子行网络技术股份有限公司
2	CN103870493A	2012-12-14	2012-12-14	对页面进行自动录入的系统和方法无效专利	中国银联股份有限公司
3	CN102651013B	2012-03-23	2012-03-23	一种从企业名称数据中提取区域信息的方法及系统有效专利	上海安捷力信息系统有限公司
4	CN103064930A	2012-12-21	2012-12-21	一种基于网页拓扑结构的网页地理位置识别方法失效专利	人民搜索网络股份公司
5	CN104298416A	2013-07-19	2013-07-19	即时通讯中自动回复消息的生成方法和装置有效专利	腾讯科技(北京)有限公司
6	CN104731977B	2015-04-14	2015-04-14	电话号码数据的发现与分类方法有效专利	海量云图(北京)数据技术有限公司
7	CN102651013A	2012-03-23	2012-03-23	一种从企业名称数据中提取区域信息的方法及系统有效专利	上海安捷力信息系统有限公司
8	CN104657486A	2015-03-02	2015-03-02	一种基于多因子的行政区划的可信度计算的方法失效专利	武汉工程大学
9	CN104731977A	2015-04-14	2015-04-14	电话号码数据的发现与分类方法有效专利	海量云图(北京)数据技术有限公司
10	CN104504069A	2014-12-22	2014-12-22	一种文档索引的建立方法和装置无效专利	北京奇虎科技有限公司;奇智软件(北京)有限公司
11	CN101661461B	2008-08-29	2008-08-29	确定文档中核心地理信息的方法、系统有效专利	阿里巴巴集团控股有限公司
12	CN102426603A	2011-11-11	2011-11-11	一种文字信息地域识别方法及装置有效专利	任子行网络技术股份有限公司
13	CN104077341A	2013-07-19	2013-07-19	即时通讯中生成关键词自动回复映射关系的方法和装置有效专利	腾讯科技(北京)有限公司
14	CN104657486B	2015-03-02	2015-03-02	一种基于多因子的行政区划的可信度计算的方法失效专利	武汉工程大学

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供