一种基于Web页面元数据的用户访问行为形式化描述方法 技术领域本发明属于计算机应用领域,涉及Web挖掘、网络教育,特别涉及一种 基于Web页面元数据的用户访问行为形式化描述方法。背景技术目前,对用户Web访问行为的形式化描述主要以行为建模为主,用户行 为建模以及以此为基础的行为特征获取的研究集中在Web日志挖掘(Web Usage Mining)领域,其数据来源主要是注册用户特征、服务器的Web日志、 页面间链接的拓扑结构等,常用研究方法包括:①统计分析,如获取用户访 问时间、频率;②关联规则分析,用于获取用户访问页面间的相关关系;③ 聚类分析,如将具有相似特征的用户或页面归并分组;④分类分析,根据用 户特征进行归类;⑤序列模式分析,获取用户访问趋势。通过上述方法获得 的行为模式可用于解决页面自动导航、Web应用系统性能提高、以及页面重 要性评价等问题。目前许多成熟的个性化Web服务系统,如PitKow、 WebMiner、 Site Helper 等,都是基于Web挖掘进行行为建模的。然而,由于现有行为模型建模方法 一般都是单纯地基于Web日志中的URL请求,而目前Web日志的设计主要是 面向网站流量、热点链接、错误链接等分析应用,在内容上未涉及与应用系 统相关的语义信息,因此现有行为模型建模方法缺乏描述行为语义的能力,在构建智能化的Web应用方面还存在很大局限性,只能外在描述用户在页面 间的随机游走(Random Walks)过程,无法描述用户行为内在的语义信息, 即难以描述用户行为应用层面的信息,如用户注册、登录、检索等具体行为 含义。事实上,在用户与Web应用系统交互过程中,影响用户行为取向的关键因素是网页中蕴含的语义信息,而不是页面间的链接关系。因此,基于Web 日志中URL请求分析所得到的行为特征,还难以作为应用层面给用户提供个 性化、自适应服务的依据。 发明内容本发明的目的在于克服上述现有技术的不足,提出一种基于Web页面元 数据的用户访问行为形式化描述方法,首先提出了一种分层的用户行为结构, 从"动作一活动一事务,,三个层次定义了用户行为的框架结构,结合此结构, 进一步提出基于页面元数据的Web用户行为形式化描述方法,并对其中的页 面元数据获取以及页面访问动作、访问行为、访问事务之间的转化等问题进 行了说明,不仅描述了用户访问序列信息,还增加了访问内容的局部主题、 关键字等信息,得到行为模型有助于加强对用户行为的理解,对个性化网络 服务系统的构建提供了更好的支持。 本发明的技术方案是这样实现的-基于Web页面元数据的用户行为形式化描述方法,构造一种三层的行为 框架,对行为从"动作"、"活动"、"事务"三个层面进行形式化描述,首先 从Web日志文件对用户的访问行为进行动作分析,提取能描述用户访问过程 的页面集作为用户动作序列;其次,对动作序列进行活动分析,结合所访问 页面包含的元数据内容,构造带行为语义信息的访问活动序列;最后对用户访问活动序列进行事务分析,将同一访问过程中的活动子集归为一次访问事 务,把全部活动序列依照访问时间先后和时间间隔大小划分为多个访问事务。所述的对用户"动作"进行形式化描述,即是构造一种7维元组来描述 Web页面访问动作序列(Action):其中:* "w/Z)用于唯一标示某个Web用户的/D;* i?^we^/D用于唯一标示用户"er/Z)的某个URL请求; 參7ywe表示当前URL请求的时间;* De/^表示在所请求页面的浏览时长;* Afe^^表示URL请求所采用的HTTP方法;* WJL表示所请求的路径;* Stote&f是一个由变量、变量值构成的二元组集合,用来描述外部环境 状态以及当前行为对环境状态的影响。所述的对用户"活动"进行形式化描述,即是构造一种6维元组来描述 用户访问活动(Activity):其中:* L^r/D用于唯一标示某个Web用户的/D; 參A^v^/Z)用于唯一标示某个活动的/D;•颠WOW證表示当前活动的名称;* Tz'me表示本次活动序列的开始时间;* De/^;表示本次活动序列持续时长;* Sto^S&包含和当前活动有关的局部语义信息变量,包括wfy'e",故/e,所述的对用户"事务"进行形式化描述,即是构造一种6维元组来描述 用户访问事务(Session):其中:* t/sw/D用于唯一标示某个Web用户的/D;* Se油"ZD唯一标示当前事务; 參7Vme表示当前事务的开始时间;參i^/^y表示在本次事务的持续时长;* StoteS"包含和当前事务有关的局部语义信息变量;* JW/Wria表示本事务中所包含活动序列中各个活动的ID集合。所述的通过动作分析提取能描述用户访问过程的页面集作为用户动作序列的步骤是:首先提出一种用户访问页面空间距离的计算方法,即计算用 户在页面A通过链接导航达到页面B的最小步骤作为页面A到页面B的空 间距离,若页面A不能通过超链到达页面B,则页面A到页面B的距离为 ~;其次,提出基于页面空间距离和页面环境变量的相同用户判定规则;最 后,对传统方法得到的用户识别结果进行进一步分析,根据页面空间距离和 页面环境变量以及用户判定规则识别出不同用户的动作序列。所述的基于页面空间距离和页面环境变量的相同用户判定规则是:当环 境状态不发生改变时,时间与相对距离相近的两个URL请求来自同一用户; 当环境状态发生改变时,若其中两个URL请求中的页面具有直接链接关系且 发生改变的环境变量在前一个URL对应页面中是可写的,则两个请求来自同一用户。所述的对动作序列进行活动分析,即是结合所访问页面元数据内容构造带行为语义信息的活动序列的步骤是;首先,以网页标题以及状态变量构成的二元组作为被访问页面的描述性元数据,以访问页面中的超链集以及对应的标题作为被访问页面的结构性元数据,对页面元数据进行抽取;其次提出 两条页面主题判定规则以及基于页面主题的页面间绝对距离和相对距离计算 方法;再次根据页面相似距离计算结果,采用AGNES聚类方法对页面进行 聚类分析;最后根据页面聚类划分结果对访问动作序列进行活动划分;其中 以页面聚类簇的簇心页面元数据作为此活动划分的元数据描述信息,为此次 活动的环境变量赋值。所述的两条页面主题判定规则是:存在直接或间接链接关系的页面属于 同一主题;页面内容,特别是标题相同或相似的页面属于同一主题。所述的基于页面主题的页面间绝对距离和相似距离的计算方法是:绝对距离
formula see original document page 10相似距离
formula see original document page 10这里巧、A是两个不同页面,S(p,,巧)是根据标题、变量所构成的向量空 间得到页面A与A的相似度。本发明所提出的基于Web页面元数据的行为描述及行为序列分析方法,能有效地对用户网络访问行为进行描述,其带页面元数据的语义信息有助于对用户行为的理解。并且,提出的行为分析方法,可有效提高行为活动划分精度,实验表明,该方法对日志进行分析后得到的活动划分和人工划分相对比,相似度达86%以上。附图说明附图是本发明的基于页面元数据的用户行为形式化描述图。 下面结合附图对本发明的内容作进一步详细说明。具体实施方式参照附图所示,页面元数据是指描述页面内容与结构的数据,对于理解Web用户行为的语义具有重要作用。针对现有行为描述方法难以描述行为语 义的问题,结合上述行为分层框架结构,提出了一种基于页面元数据的用户行为形式化描述方法,如图所示。其基本思想为:首先,根据用户日志中的客户端IP地址、浏览器类型、操作系统类型以及URL对应页面中的变量分 离出每个用户的访问序列(动作序列),并根据页面元数据中的链接关系填充 由于Cache机制丢失的访问请求;其次,根据页面元数据中的标题、变量、超链接等内容对特定用户的访问序列进行分析,获得用户的活动序列。以下首先确定与行为描述相关的页面元数据,在此基础上,对行为形式 化描述中动作分析、活动分析以及事务分析过程进行说明。定义l:页面元数据网页元数据可分为描述性元数据(Descriptive Metadata)与结构性元数据 (StructuralMetadata)两种类型,分别用于描述页面的内容与结构。与用户访问行为相关的描述性元数据主要包括网页标题以及状态变量构 成的二元组,其定义如式4,其中第二项为变量与对应读写属性构成的二元 组集合。Descriptive MetedSa: (7If/e,{(raria&fe,ifeo^h'te)}) (式4 )例如,('登录',((仏e/",^"。6/e),(尸咖,ffW,aWe"),表示当前网页为一个登录页面, 页面中包含用户与密码两个变量,这两个数据在当前页中都可修改。与行为形式化描述相关的结构性元数据主要包括页面中的超链接以及对应的标题,定义如下:Structural Metadata: ({弧}) (式5 )下式是一个结构性网页元数据的实例,表示当前页面中包含"login.jsp?user&pass"与"registration.htm"两个超链接。({login.jsp?user&pass,/registration.htm,...}) (式6)动作分析Web日志按访问时间顺序记录了所有Web用户的访问动作序列,是用户 访问动作与Web系统交互过程中,由Web Server记录下来的。但由于用户动 作与应用系统的交互一般都是通过匿名方式进行的,Web日志中的"w/Z) 字段并未起到区分用户的作用。此外,代理服务器以及浏览器的Cache机制 使得一些URL访问请求未能发送到Web服务器,也就未能记录在Web日志 中。动作分析的作用就是从Web日志中识别出每个用户,并获得其完整的访 问动作序列。在Web挖掘日志中, 一般是根据日志中的客户端IP地址、浏览器类型、 操作系统类型等内容提出若干区分用户的规则。对于NAT网关与代理后面的 客户端,上述三项内容完全一致的概率较大,在这种情况下,上述规则无法 区分用户的URL请求。现有Web应用系统一般都采用基于环境变量的动态页面技术,这类应用 系统中的页面导航具有以下两个特点: 一、描述环境状态的环境变量值在导 航过程中具有相对稳定性;二、对于造成环境变量改变的页面,其URL请求 的日志不会由于代理的Cache机制丢失。结合这两个特点,下面给出页面距 离的概念,在此基础上,再提出两个新的用于区分用户的规则以及日志分析方法。需要说明的是两个规则都是针对客户端IP地址、浏览器类型、操作系统类型均相同的URL请求。定义2.页面相对距离:页面A相对a的距离是指a通过页面间的导航链接到达A的所需的最小步骤,记为d"a,;^。特别地,D„(a,a) = 0;若a无法通过超链接到达巧,即页面间存在直接链 接关系,其中,;v膨^她."W是指页面/7,中超链接的集合。设^为Web日志吸中的一个URL请求,M?c肌为与^时间间隔小于特定阈值z。且页面距离小于特定阈值/。的后序URL请求的集合,即 L7?-(mtI】SZ)w("^."^,"^)〈4Aduri/we-m^/MeO^oAure叫,对于任何"re67?, 若加eS" = ,贝'J I^er/D = wr.L^ZD 。规则1的含义是:当环境状态不发生改变时,时间与相对距离相近的两个 URL请求来自同一用户。规则2.设^为Web日志肌中的一个URL请求,若不存在"reW?,使得^..5"加eSe, = wr.S加eSe,,则当满足以下条件时,等式w;.L^erZD = w/",Osef/D成立:(1) w。eW?;(2 ) .tW, w。 .w/) = 1;(3 )设OwwgeS" = - W她&, , C/w"geS" - 0并且构成C/w"geS"的二元组元素中的变量属性在页面"^/的元数据中是可写的。规则2的含义是:当环境状态发生改变时,若其中两个URL请求中的页 面具有直接链接关系且发生改变的环境变量在前一个URL对应页面中是可 写的,则两个请求来自同一用户。基于规则l、 2,以下提出动作分析的方法:输入:WebLog输出:Sot"/S" = {Ser油i , Se/"i。/^ ,......, Ser油,,}过程:GroupSet = GroupedBy (IP, Browser, OS, {WebLog}) 〃解释:根据日志中的客户端IP地址、浏览器类型、操作系统类型对URL 请求进行分组,每个组中的URL请求具有相同的上述三个属性。 m叫GroupSetl //m为分组的个数 for I = 1 to m do{RoughSerialSeti = Rulel(groupj)〃解释:对每个分组中的所有符合规则1的URL请求按照页面相对距离从小到大的顺序进行归类,直到对所有符合规则1的URL请求都进行了处理。s = I RoughSerialSeti |for j = 1 to s do{RepaireUrl(RoughSerial(j)〃解释:根据页面的链接关系填充丢失的URL请求。 SerialSetj = Rule2 (RoughSerialSetj)〃解释:对每个分组中的所有符合规则2的URL请求进行归类。SerialSet = U SerialSetj最后,每个分组中的每类URL请求对应于某个用户,若该分组中只有 一类,则该分组对应于某个用户。通过上述算法,可实现将Web日志的访 问请求按用户进行分组,并生成如式1所示的用户动作序列。活动分析活动分析是指将特定用户的动作序列转化为能够描述行为语义的活动序 列。活动分析主要依据页面的聚类特性,这种特性体现在链接关系与页面内 容两个方面。根据这些特性,结合页面主题信息采集研究中的Sibling和 Pagerank的思想,我们得到以下规则用于判定页面是否属于同一主题。规则3.存在直接或间接链接关系的页面可能属于同一主题;若页面间相对距离越 小,则属于同一主题可能性越大;若页面间互相存在链接关系,则属于同一 主题可能性更大。规则4.页面内容(特别是标题)相同或相似的页面很可能属于同一主题。结合这两个规则,我们提出活动分析的基本思路:首先,根据页面的超链 接、标题以及变量三种元数据信息对页面进行聚类;其次,根据聚类结果将用户所有的动作序列划分为活动序列,并为每个活动设置标题。以下首先提 出"页面绝对距离"与"相似距离"的概念,在此基础上,对活动分析的方法进 行说明。定义3.页面绝对距离I^:页面&与P,( A * & )的绝对距离A (A, A)定义为:A* (a,;7/) = (a,A( (a, a)/(A( (a,p》+A? (a, a))显然,(p,,巧)s min (;?, , /j》," ,/?,》。定义4.相似距离Z^:设S(A,A)是根据标题、变量所构成的向量空间得到页面A与A的相似度。 相似距离Z^A.,巧)定义为:(A, ) = A (A, ) • S(A , &)由规则3、 4, A(p,,;g越小,页面^与A属于同一主题的可能性越大。 基于页面相似距离,我们采用AGNES聚类方法对页面进行聚类。 设动作序列中涉及的URL访问序列为^,^,..,^,..,气,对应的页面分别为A,/v..,P,,..,A;根据对网站内所有页面聚类后的结果,我们提出如下的活动 分析方法:STEP1:寻找满足如下条件的子序列y'): (1) ;v..,p,属于同一类;(2) ;v,与p,+,都不属于该类。 若找到,将"r,.,"/;合并为一个活动。 STEP2:寻找/?,.,p,的中心,中心页面^应满足:对于任意页面A "0, t A't A'(A,A)。 STEP3: CiwrewL4crivzXv.爿criv炒iVa;ne = A加e ;STEP4:重复STEP1、 2、 3,直到所有的URL访问行为都被合并到某一个活动中。上述方法根据Web元数据将用户动作序列进行分组,并生成如式2所示 的活动序列,该活动序列很好地体现了行为的语义信息,这为获取行为语义 特征奠定了很好的基础。事务分析事务分析是从特定用户的一次访问序列中提取出为完成某特定目标而进 行的活动序列,然而,通常情况下,用户的访问行为往往是随机的,有可能 不带任何目标,也可能有一个或多个目标且各目标的访问活动交叉进行。因 此,为方便起见,本发明中将用户一次访问序列中的所有活动的集合作为一 次事务,即通过动作分析抽取本用户的动作序列,再依此进行活动分析,得 到该用户此次访问行为的所有活动,构成如式3的事务模型。其中,事务的 ID由此次事务访问时间戳和用户ID联合构成。例如:此次事务时间戳为"20051226120000",用户ID为"zhangsan",则 此事务id为"20051226120000-zhangsan,,。实施例首先,在Web教学网站中收集一段时间内来自同一代理服务器的学习者的 所有日志记录。其次,根据网站页面间的链接关系以及状态变量(特别是用 户的登录名)进行动作分析,获得每个学习者的所有访问动作序列,见表l。 第三,采用人工对动作行为进行标记,通过合并行为语义相关的URL访问行 为生成活动序列。第四,采用本发明提出的活动分析方法将动作序列转化为 活动序列。最后,将人工标记得到的活动序列与活动分析方法得到的序列进 行对比,对比结果见表2。这里,我们采用简单匹配系数来描述两种方法得 到的活动序列的相似度。活动序列s,A的相似度定义如下:
formula see original document page 18其中,4&A)表示"两个访问动作所发的URL访问请求在两种活动序列 中属于同一活动"这一现象的次数;/)(&~)表示"两个动作所发的URL访问 请求在两种活动序列中都不属于同一活动"这一现象的次数;万^,^表示"两 个动作所发的URL访问请求属于活动序列s,中的某一活动,但不属于活动 序列^中的对应活动"这一现象的次数;C&,A)表示"两个动作所发的URL 访问请求不属于活动序列s,中的某一活动,但属于活动序列~中的对应活动" 这一现象的次数。表l用户URL序列解析代理服务器IP地址:202.117.32.36 访问时间段'.2004-11-11 10:00:00 ~ 2004-11-11 11:31:55
table see original document page 18\ntable see original document page 19\n 本试验目的是为了对比人工标记的活动序列和利用本发明方法机器标记的相似程度,为方便起见,本次试验中不对网站全部URL进行统一标识, 只是结合用户ID,对试验涉及到的URL进行标记区分,方法为C^WD+^/序 列中的序号,如表1中用户l,其访问动作请求的URL序列标号为 (",,,",2,...,",31)。利用所用方法,设置页面判定距离为2,进行活动划分,如下:表2对比试验结果table see original document page 19\n 通过与人工标记方法得到的活动序列进行对比,验证了本发明所提行为 形式化描述方法能很好地生成体现行为语义的活动序列。其中,当一个活动 包含的页面个数较多时,所获得的活动序列划分更加精确,这是因为当页 面样本数越多,对页面聚类的结果精度就越高。法律信息
- 2014-03-12
未缴年费专利权终止
IPC(主分类): G06F 17/30
专利号: ZL 200610041621.X
申请日:
授权公告日:
- 2008-09-03
- 2006-09-13
- 2006-07-19
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2004-04-14
|
2003-08-22
| | |
2
| | 暂无 |
2001-11-07
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |
已经帮助解决过
0个专利相关的问题
请问有什么能帮到你的吗?残忍拒绝