著录项信息
专利名称 | 一种基于Web页面元数据的用户访问行为形式化描述方法 |
申请号 | CN200610041621.X | 申请日期 | 2006-01-10 |
法律状态 | 权利终止 | 申报国家 | 暂无 |
公开/公告日 | 2006-07-19 | 公开/公告号 | CN1804844 |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/30 | IPC分类号 | G06F17/30查看分类表>
|
申请人 | 西安交通大学 | 申请人地址 | 陕西省西安市咸宁路***
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 西安交通大学 | 当前权利人 | 西安交通大学 |
发明人 | 郑庆华;杜瑾;刘均;吴茜媛;丁娇 |
代理机构 | 西安通大专利代理有限责任公司 | 代理人 | 陈翠兰 |
摘要
本发明公开了一种基于Web页面元数据的用户访问行为形式化描述方法。本发明首先提出了一种分层次的用户行为框架结构,从“动作—活动—事务”三个层次对用户访问行为及特征进行描述;结合此行为框架,进一步提出基于页面元数据的Web用户行为形式化描述方法,并对其中的页面元数据获取以及动作、行为、事务之间的转化等问题进行了说明。我们提出的基于网页元数据的用户访问行为形式化描述方法,不仅描述了用户访问序列信息,还增加了访问内容的局部主题、关键字等信息。本方法对用户行为的形式化表示有助于加强对用户行为的理解,对个性化网络服务系统的构建提供了更好的支持。
1. 基于Web页面元数据的用户行为形式化描述方法,其特征在于:提出一种三层结构的行为框架,从“动作”、“活动”、“事务”三个层面对用户的页面访问行为进行形式化描述:首先,通过动作分析从Web日志中识别出每个用户,并获得其完整的访问动作序列,访问动作序列可用一种7维元组描述: Action=<UserID,RequestID,Time,Delay,Method,URL,StateSet> 其中: ●UserID用于唯一标示某个Web用户的ID; ●RequestID用于唯一标示用户UserID的某个URL请求; ●Time表示当前URL请求的时间; ●Delay表示在所请求页面的浏览时长; ●Method表示URL请求所采用的HTTP方法; ●URL表示所请求的路径; ●StateSet是一个由变量、变量值构成的二元组集合,用来描述外部环境状态以及当前行为对环境状态的影响; 其次,根据所访问页面包含的元数据内容对用户的动作序列进行分析,获得能描述用户行为语义的页面访问活动序列,页面访问活动序列可用一种6维元组描述: Activity=<UserID,ActivityID,ActivityName,Time,Delay,StateSet>; 其中: ●UserID用于唯一标示某个Web用户的ID; ●ActivityID用于唯一标示某个活动的ID; ●ActivityName表示当前活动的名称; ●Time表示本次活动序列的开始时间; ●Delay表示本次活动序列持续时长; ●StateSet包含和当前活动有关的局部语义信息变量,包括subject,title,keywords,hyperlinks; 最后对特定用户的访问活动序列进行事务分析,将同一访问过程中的活动子集作为Web用户的一次访问事务,把全部活动序列依照访问时间先后和时间间隔大小划分为用户的多个访问事务,访问事务可用一种6维元组表示: Session=<UserID,SessionID,Time,Delay,StateSet,Activities> 其中: ●UserID用于唯一标示某个Web用户的ID; ●SessionID唯一标示当前事务; ●Time表示当前事务的开始时间; ●Delay表示在本次事务的持续时长; ●StateSet包含和当前事务有关的局部语义信息变量; ●Activities表示本事务中所包含活动序列中各个活动的ID集合。
2、根据权利要求1所述的基于Web页面元数据的用户行为形式化描述方法,其特征在于,所说的通过动作分析从Web日志中识别出每个用户,并 获得其完整的访问动作序列的步骤是:首先提出一种用户访问页面空间距离 的计算方法,即计算用户在页面A通过链接导航达到页面B的最小步骤作为 页面A到页面B的空间距离,若页面A不能通过超链到达页面B,则页面A 到页面B的距离为吣;其次,提出基于页面空间距离和页面环境变量的相同 用户判定规则;最后,根据日志中的客户端IP、浏览器类型和操作系统类型对URL请求进行分组,并在各URL请求组内运用上述判定规则识别出不同 用户的动作序列。
3、 根据权利要求2所述的基于Web页面元数据的用户行为形式化描述 方法,其特征在于,所述的基于页面空间距离和页面环境变量的相同用户判 定规则是:当环境状态不发生改变时,时间与相对距离相近的两个URL请求 来自同一用户;当环境状态发生改变时,若其中两个URL请求中的页面具有 直接链接关系且发生改变的环境变量在前一个URL对应页面中是可写的,则 两个请求来自同一用户。
4、 根据权利要求1所述的基于Web页面元数据的用户行为形式化描述 方法,其特征在于,所述的根据所访问页面包含的元数据内容对用户的动序 列进行活动分析,获得能描述用户行为语义的页面访问活动序列的步骤是: 首先,以网页标题以及状态变量构成的二元组作为被访问页面的描述性元数 据,以访问页面中的超链接以及对应的标题作为被访问页面的结构性元数据, 对页面元数据进行抽取;其次提出两条页面主题判定规则以及基于页面主题 的页面间绝对距离和相对距离计算方法;再次根据页面相似距离计算结果, 采用AGNES聚类方法对页面进行聚类分析;最后根据页面聚类划分结果对 访问动作序列进行活动划分;其中以页面聚类簇的簇心页面元数据作为此活 动划分的元数据描述信息,为此次活动的环境变量赋值。
5、 根据权利要求4所述的基于Web页面元数据的用户行为形式化描述 方法,其特征在于,所述的两条页面主题判定规则是:存在直接或间接链接 关系的页面属于同一主题;标题相同或相似的页面属于同一主题。
6、 根据权利要求4所述的基于Web页面元数据的用户行为形式化描述 方法,其特征在于,所述的基于页面主题的页面间绝对距离和相似距离的计算方法是:绝对距离Z), (p,,^) = A(A,P,)• A",A)/(A (A,&)P')) 相似距离D.s, (p,, ^ ) = A (P,, &) • S( A, ^ )这里A、 p,是两个不同页面,1)/<(;?,,^)是页面A通过页面间的导航链接 到达页面A所需的最小步骤,S(A,/g是根据标题、变量所构成的向量空间 得到页面A与A的相似度。
法律信息
- 2014-03-12
未缴年费专利权终止
IPC(主分类): G06F 17/30
专利号: ZL 200610041621.X
申请日:
授权公告日:
- 2008-09-03
- 2006-09-13
- 2006-07-19
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2004-04-14
|
2003-08-22
| | |
2
| | 暂无 |
2001-11-07
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |