著录项信息
专利名称 | 一种统计网页链接点击数据的方法 |
申请号 | CN200610081086.0 | 申请日期 | 2006-05-25 |
法律状态 | 授权 | 申报国家 | 中国 |
公开/公告日 | 2007-11-28 | 公开/公告号 | CN101079768 |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | H04L12/28 | IPC分类号 | H;0;4;L;1;2;/;2;8查看分类表>
|
申请人 | 阿里巴巴公司 | 申请人地址 | 英属开曼群岛大开曼岛
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 阿里巴巴集团控股有限公司 | 当前权利人 | 阿里巴巴集团控股有限公司 |
发明人 | 谭颖亮 |
代理机构 | 北京集佳知识产权代理有限公司 | 代理人 | 逯长明 |
摘要
本发明公开了一种统计网页链接点击数据的方法,用于统计某网站的某网页内属于本网站的各链接的点击次数,包括通过Web服务器生成日志文件来获取包含源网页地址和目标网页地址的原始数据;查找原始数据中源网页地址为需要统计的网页地址的记录;统计记录中目标网页地址相同的记录的数量。由于只能从发送到该网站的链接请求中获取原始数据,所以所述统计数量即为该网页内属于该网站的各链接的点击次数。本发明通过统计浏览者在网页上的各链接的点击次数,达到分析该网页上各链接效果的目的,以帮助网站运营者监测网站该网页的页面状况,及时调整网页各链接的图片或者文字链,以提高各链接的点击效果。
1.一种统计网页链接点击数据的方法,其特征在于,包括:
A、通过Web服务器生成日志文件来获取包含源网页地址和目标网页地址的原始数据;
B、查找原始数据中源网页地址为需要统计的网页地址的记录,所述记录包括源网页地址、若干个目标网页地址和请求时间数据;
C、针对同一源网页地址记录的若干个目标网页地址,统计各目标网页地址相同的记录的数量。
2.根据权利要求1所述的方法,其特征在于:所述的原始数据包含在链接请求的请求头文件中。
3.根据权利要求2所述的方法,其特征在于:所述链接请求为HTTP请求。
4.根据权利要求1所述的方法,其特征在于:所述日志文件中的目标网页地址属于同一个网站。
5.根据权利要求1所述的方法,其特征在于,步骤B与步骤C之间还包括:保存记录中所有不同的目标网页地址。
6.根据权利要求1所述的方法,其特征在于,还包括:输出统计结果到文件。
7.根据权利要求1所述的方法,其特征在于:所述原始数据还包括请求时间。
8.根据权利要求1所述的方法,其特征在于:所述统计按照预定的时间间隔进行。
技术领域\n本发明涉及网络信息数据的统计方法,特别是涉及一种利用日志文件,统计网页内属于该网站的各链接点击次数的方法。\n背景技术\n随着网络技术的发展并日趋成熟,网络应用的领域越来越广泛。其中,电子商务的兴起,是最典型的应用。服务提供商都建有自己的网站,并将大量的商务信息发布在网站上,向更多的用户提供网络服务。因而,网站内容的设置、页面信息的及时更新、网站链接是否便捷等,都直接影响着服务提供商对用户的服务质量,从而影响了商务的成交。因此,网站的维护管理至关重要。服务提供商不仅希望了解网站各网页的访问情况,还希望了解网页内各链接的点击情况,以便合理安排页面上的内容,将用户经常访问的链接置于显著位置,将很少访问的链接置于页面角落或清除出该页面,改善网页的内容和质量,提高内容的可读性,从而提高网站的访问量。\n网站的运行由Web服务器来实现,现在较常用的Web服务器包括Apache、IIS和Iplanet的企业服务器。通常,可以由一个或多个Web服务器来管理同一网站的运行。对网站的管理,可通过对web服务器的日志文件的分析和统计来实现。日志文件(Log files)是包含关于系统消息的文件,包括内核、服务、在系统上运行的应用程序等。不同的日志文件记载不同的信息,例如,有的是默认的系统日志文件,有的仅用于安全消息。目前,市场上公开源码的Webalizer、AWstats等日志分析软件,通过对某网站web服务器的日志文件的分析,能够统计出任一时段内某网页的访问点击次数。\n如图1所示,是现有技术统计页面访问量的步骤流程图。万维网(WWW)的工作基于客户机/服务器计算模型,由Web浏览器(客户机)和Web服务器(服务器)构成,两者之间采用超文本传输协议(HTTP)进行通信。当用户访问某网站时,在Web浏览器输入该网站的网址或点击该网站的链接,浏览器向要访问的网站的Web服务器发送HTTP请求。步骤101,Web服务器收到HTTP请求后,分析该请求的请求头文件(request-header files)。步骤102,从请求头文件的请求头(request-header)中记录统计所需的数据,包括目标统一资源定位符URL及请求时间。所述统一资源定位符URL也被称为网页地址,是用在万维网和其他互联网资源中的一种编址系统,用于指定信息位置,包含访问方式的信息、被访问的服务器以及任何被访问的文件。其中,目标URL指要访问的网页地址。步骤103,Web服务器生成日志文件,包含多条记录,其中每条日志记录都包含目标URL字段及请求时间字段。步骤104,确定要统计的网页的URL及统计时间间隔。步骤105,按照统计时间,在日志文件中逐条查找目标URL字段为要统计的URL的记录,统计符合条件的各自相同目标URL的记录数量。\n上述统计方法是通过分析日志文件来获取目标URL数据,先按照统计条件提取目标URL字段中的数据,再统计同一目标URL的记录数,从而获得页面访问量。而且,还可以在此基础上,对统计结果进行降序排序,以统计出访问量最高的页面,或者根据其他不同需求,按照其他方式排序。\n但是,上述方法只能够帮助服务提供商了解网站各网页的访问量,而无法了解网页内各链接的点击情况。目前,现有的日志分析软件或者分析方法都无法统计出某页面中属于本网站的各链接的点击次数。\n发明内容\n本发明所要解决的技术问题是提供一种统计网页内各链接点击数据的方法,用于统计某网站的某网页内属于本网站的各链接的点击次数。\n为解决上述技术问题,本发明提供了一种统计网页链接点击数据的方法,包括:\nA、通过Web服务器生成日志文件来获取包含源网页地址和目标网页地址的原始数据;\nB、查找原始数据中源网页地址为需要统计的网页地址的记录,所述记录包括原URL、若干个目标URL和请求时间数据;\nC、针对同一源网页地址记录的若干个目标网页地址,统计各目标网页地址相同的记录的数量。\n其中,所述的原始数据包含在链接请求的请求头文件中。\n其中,所述链接请求为HTTP请求。\n其中,所述日志文件中的目标网页地址属于同一个网站。\n可选的,步骤B与步骤C之间还包括,保存记录中所有不同的目标网页地址。\n可选的,所述方法还包括,输出统计结果到文件。\n其中,所述原始数据还包括请求时间。\n其中,所述统计按照预定的时间间隔进行。\n与现有技术相比,本发明具有以下优点:\n在利用目标URL、源URL及请求时间数据进行统计时,先从源URL字段确定要统计的网页的URL,再针对同一URL统计各自不同目标URL的数量。由于只能从发送到该网站的链接请求中获取目标URL、源URL及请求时间数据,所以目标URL均属于该网站;还由于同一页面上的链接有些链接到该网站,有些链接到其他网站,所以源URL可以属于该网站,也可以属于其他网站。因此,所述统计数量即为该网页内属于该网站的各链接的点击次数。\n本发明通过统计浏览者在网页上的各链接的点击次数,达到分析该网页上各链接效果的目的,以帮助网站运营者监测网站该网页的页面状况,及时调整网页各链接的图片或者文字链,以提高各链接的点击效果。\n附图说明\n图1是现有技术所述统计页面访问量的步骤流程图;\n图2是本发明所述统计网页链接点击数据的步骤流程图;\n图3是实施例统计网页内属于本网站的各链接点击数据的步骤流程图。\n具体实施方式\n为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。\n参照图2,是本发明所述统计网页链接点击数据的步骤流程图。用户通过浏览器,如IE、firefox等,浏览A网站,打开了A网站的P网页。而P网页的页面上显示着许多个链接,有到A网站其他网页的链接,也有到其他网站的网页链接。当浏览p网页时,浏览者可能会对p网页上显示的各链接进行点击。网站运营者为了分析p网页上各链接效果,需要统计出各链接的点击次数。本发明所述方法是从记录有目标URL字段、源URL字段及请求时间字段的文件中,提取出所需数据进行统计,其中,源URL指请求访问目标URL的网页地址。\n当请求链接的URL通过浏览器向要访问的URL服务器发送HTTP链接请求时,从链接请求中获取目标URL、源URL及请求时间数据可采用不同的方法。通常可以采用日志生成,Web服务器在生成日志文件时从所述链接请求中获取并记录在日志文件中,每次统计都从该日志文件中读取所需数据。由于源URL存放在HTTP请求头的参考字段Referer中,所以Web服务器在生成日志文件时从Referer字段中获取源URL。\n获取所需数据,还可以使用埋点监测的方法。在要访问的网页代码中植入image点或一段jsp脚本,用来从链接请求中获取所需数据。浏览器发送链接请求到目标服务器,目标网页代码中植入的image点或一段jsp脚本从该链接请求中获取所需数据,组合成一个带参数的URL A。浏览器对目标网页的URL进行解析,并访问该URL A,将URL A所包含的数据传入目标服务器,服务器从而获取相应目标URL和源URL原始信息来进行统计。\n步骤201,确定要统计网页的URL。网站管理员根据不同需要,确定要统计网页的URL,例如所述p网页的URL。\n步骤202,查找源URL字段为此URL的记录。在所述文件中逐条读取各记录,若有源URL字段与所要统计的URL相同的记录,则执行步骤203;否则继续查找,直到文件读取完,若仍没有符合条件的记录,则读取文件错误,统计不成功。\n步骤203,在符合条件的记录中,记录目标URL字段中的不同URL。在上述查询出的包含同一源URL的记录中,将所有不同的目标URL记录下来。由于Web服务器在收到浏览器发来的链接请求时,只能从所述链接请求中获取目标URL、源URL及请求时间数据,而不能获知从该网站发送到其他网站的链接请求内容,因此所述文件中记录的目标URL均属于同一网站。其中,所述链接请求通常为HTTP请求,可以是该网站链接到同一网站,也可以是其他网站链接到该网站,即源URL可以与目标URL属于同一网站,也可以是其他网站。\n步骤204,统计各自相同URL的数量。针对上述同一源URL记录下来的所有不同目标URL,统计各相同目标URL的数量,即为该网页内属于该网站的各链接点击次数。\n步骤205,结果输出。统计完毕后,在新建立的文件中,将所要统计网页中的各不同目标URL及其对应的统计数量输出。优选的,可以合理安排文件输出格式,根据所述请求时间划分时间间隔,输出在预定时间段内的各要统计的URL及各自的统计结果。例如,统计某网页各链接一天的点击次数,或者统计一个星期、一个月的点击次数等。\n通常,本发明所述方法应用于日志文件的分析,以下将针对apache日志文件进行提取所需数据并统计的说明。首先,要对生成某网站apache日志文件的默认配置文件进行调整,以便从HTTP请求中获取源URL和目标URL,并将apache日志按时间段,如一天的时间,分别存储为不同的文件。由于源URL存放在HTTP请求头的Referer字段中,所以需要对apache日志的默认设置进行调整,其配置文件中的格式为:\nLogFormat″%h%l%u%t″\″%m http://%V%U%q\″%>s%b\″%{Referer}i\″\″%{User-Agent}i\″combined\n上面“http://%V%U%q”部份是对apache默认日志配置进行修改的部份,此处修改使我们能获取http访问完整的URL,即所述的目标URL。Referer信息在“%{Referer}i”部分获取,即所述的源URL。还使用cronolog将apache日志按时间(如,日),分别存储为不同的文件。\n然后,使用脚本程序对该网站的各应用服务器某日的日志进行收集、排序和汇总,形成一份某日完整的网站访问日志文件。最后,从所述处理后的日志文件中提取所需数据统计该网站某网页各链接的点击次数,其统计方法如图3所示,是实施例统计网页内属于本网站的各链接点击数据的步骤流程图。\n步骤301,打开上述日志文件的文件句柄,逐行读取日志文件中的一条记录。该记录包含源URL、目标URL和请求时间数据。\n步骤302,判断该记录是否为文件的末尾记录,若是则执行步骤307,否则执行步骤303。\n步骤303,判断记录中的源URL是否是需要统计网页的URL,若是则执行步骤304,否则返回步骤301,继续读取记录。\n步骤304,把符合上述判断条件的目标URL进行计数。在包含要统计的源URL的记录中,将不同的目标URL记录下来,分别统计不同目标URL的数目,并将统计数量保存在同一目标URL的记录中。本实施例中,将保存目标URL及其统计数量的记录称为URL数据记录。当读取到符合上述判断条件的记录时,读取该记录中的目标URL,并检查URL数据记录中是否有此目标URL,若有执行步骤305,否则执行步骤306。因为同一网页内包含很多链接,有的链接到本网站的其他网页,有的链接到其他网站页面,而通过分析URL即可识别出URL所记录的网址是否属于本网站,所以所述URL数据记录将属于同一网站的各链接URL记录下来,分别统计各目标URL的点击数量。\n步骤305,将该目标URL的数量增加1,完成一次统计。返回步骤301,继续读取记录。\n步骤306,添加一条新的目标URL记录到原URL数据记录中,并将其数量加为1,完成一次统计。返回步骤301,继续读取记录。\n步骤307,输出各URL及其数量。当文件读取完毕后,将该网页内各链接URL及其统计点击数量输出到文件中。由于该网站的apache日志文件中记录的目标URL均属于同一网站,所以所有统计结果都为该网页内属于该网站的链接点击次数。\n本发明所述统计方法能够对任何包含源URL、目标URL的文件进行分析统计,通过统计浏览者在网页上的各链接的点击次数,达到分析该网页上各链接效果的目的,以帮助网站运营者监测网站该网页的页面状况,及时调整网页各链接的图片或者文字链,以提高各链接的点击效果。\n以上对本发明所提供的一种统计网页链接点击数据的方法,进行了详细介绍,本文中应用具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
法律信息
- 2010-11-03
- 2008-01-23
- 2007-11-28
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有引用任何外部专利数据! |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 1 | | 2012-09-03 | 2012-09-03 | | |