著录项信息
专利名称 | 一种融入本体情境的用户兴趣挖掘方法 |
申请号 | CN201410269562.6 | 申请日期 | 2014-06-17 |
法律状态 | 授权 | 申报国家 | 中国 |
公开/公告日 | 2014-08-27 | 公开/公告号 | CN104008203A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/30 | IPC分类号 | G;0;6;F;1;7;/;3;0;;;G;0;6;F;1;7;/;2;7查看分类表>
|
申请人 | 浙江工商大学 | 申请人地址 | 浙江省杭州市下沙高教园区学正街18号
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 浙江工商大学 | 当前权利人 | 浙江工商大学 |
发明人 | 陈庭贵;周广澜;许翀寰;封毅 |
代理机构 | 杭州斯可睿专利事务所有限公司 | 代理人 | 王利强 |
摘要
一种融入本体情境的用户兴趣挖掘方法,首先针对电子商务网站中复杂多维的Web用户兴趣行为特征数据,构建基于二阶隐马尔可夫模型的用户兴趣特征提取模型;其次分析了能反映用户兴趣的情境信息,包括用户的个体信息、环境信息以及设备信息等;再次构建了基于情境本体的用户兴趣模型,同时采用逻辑模糊的思想对用户个体信息的兴趣度进行了度量与表达,最后基于隐半马尔可夫模型的用户兴趣漂移检测方法,根据用户浏览路径构建模型,将序列的平均对数或然概率的均值作为阈值点,用以判断兴趣是否发生了漂移。本发明构建了能够满足用户需求的兴趣模型以提供个性化推荐服务,提高用户满意度的有效手段,具有良好的应用价值。
1.一种融入本体情境的用户兴趣挖掘方法,其特征在于:所述用户兴趣挖掘方法包括以下步骤:
1)建立基于二阶隐马尔可夫模型的用户兴趣特征提取模型:
首先需要收集得到那些能够反映用户兴趣的数据,过程如下:从客户端、服务器端、代理服务器端获得用户源数据,这些源数据获取之后,将它们进行预处理并以设定的格式进行保存,供以后用户兴趣的挖掘;
其次,采用二阶隐马尔可夫模型对用户兴趣特征提取,包括训练部分与提取部分;
训练部分包括将用户兴趣的特征信息先后顺序进行预处理,形成文本文档,然后对文本经过扫描后,利用分隔符、空格、换行、冒号排版将已标记文本序列转换为标记的文本分块序列,最后用二阶HMM模型按照公式(1)~(5)计算模型参数,其参数的确定算法如公式所示:
①初始概率分布矢量
其中,Init(i)指已标记的整个训练样本中,以状态Si为开始状态序列的个数,则指以所有状态为开始状态序列的个数总和;
②初始状态转移概率
其中,Cij和Cijk分别表示从状态Si到Sj的转移次数,以及t-1时刻的状态Si,t时刻状态Sj,转移到t+1时刻状态为Sk的次数; 和 分别表示从状态Si到所有状态的转移次数之和,以及t-1时刻的状态Si,t时刻状态Sj,转移到所有状态的次数之和;
③观察值释放概率
其中,Ej(Ok)和Eij(Ok)分别表示状态Sj时释放观察值Ok的次数,以及t-1时刻的状态Si,t时刻状态Sj,释放观察值Ok的次数; 和 分别表示状态Sj时释放所有观察值的次数之和,以及t-1时刻的状态Si,t时刻状态Sj,释放所有观察值的次数之和;
提取部分包括两个步骤,即:(a)将用户兴趣的特征信息先后顺序进行预处理,形成文本文档,对文本经过扫描后,利用分隔符、空格、换行、冒号排版将已标记文本序列转换为标记的文本分块序列;(b)结合训练部分输出的二阶HMM模型,利用Viterbi算法进行计算,应用已建立好的HMM模型进行用户兴趣特征提取,将处理得到后的状态输出观察值O=O1O2…OT作为模型输入,从中找出状态标签序列中概率最大的,用户特征提取的内容就是被标记为目标状态标签的观察文本;
2)分析反映用户兴趣的情境信息:通过对用户的搜索、浏览行为与购买记录信息的分析,推导出一段时间内用户的真实兴趣;
3)融入情境的用户兴趣本体模型构建:先将地域、性别、年龄、婚姻、教育背景和收入几个影响用户兴趣的关键作为背景因素指标,并结合用户的历史购买信息以及用户行为特征进行模糊处理以得到其兴趣度值;然后采用本体情境的表示方法,通过多粒度划分,构建用户兴趣本体模型;
4)基于隐半马尔可夫模型的用户兴趣漂移检测方法:
选取两个观察值来描述用户的浏览行为:a)用户访问网页的浏览路径序列;b)从一个网页到达另一个网页的时间间隔;所有状态集合表示为S={S1,S2,…,SN},相对应的观察值集合表示为V={v1,v2,…,vN},时间间隔表示为集合I={1,2,…};对于用户的某一浏览行为,其浏览路径链接的个数是一个随机变量,在给定状态下输出的观察值的个数可将该浏览行为表示成集合{1,…,D};把用户浏览路径序列即二维观察值序列表示成O={(r1,τ1),…,(rT,τT)},其中:rt∈V表示用户浏览网页内容的对象;τt∈I表示用户从一个页面跳转到另一个页面rt与rt-1之间的时间间隔;模型的输出概率矩阵用B={bi(v,q)}表示,对于给定状态i∈S,bi(v,q)表示用户在一个页面rt=v∈V且与前一个页面的时间间隔为τt=q∈I的概率,且满足∑v,qbi(v,q)=1;P是隐半马尔可夫模型中状态驻留时间的概率矩阵,P={pi(d)},pi(d)表示在给定状态i下输出观察值个数为d∈{1,…,D}的概率,且满足∑dpi(d)=1;状态转移概率矩阵通过A={aij}进行表示,aij表示从i∈S向j∈S转移的概率;初始概率向量用π={πi}表示,πi表示初始状态在i∈S时的概率;
将用户的一条重要的兴趣行为记录定义为:Uinterest={user,background,history,behavior,timestamp,content},其中,user表示用户;background表示用户具体背景因素;
history表示用户的历史购买记录;behavior标识具体兴趣行为操作结果;timestamp表示用户行为的执行时间;content表示兴趣主题内容;
在用户访问事务中,任意两个行为操作之间存在着访问转移概率P(qi→qj),表示如下:
对于每个qj及其相对应的观察值 都存在一个观察值概率分布 即用户user
对qj的所有访问中,对观察值 的兴趣概率,可由ati所包含被访问节点状态的集合Qi={q1',…,q'f|q'∈IC}表示,则Qi,j表示ati中在qj之后的所有被访问节点的集合, 表示Qi,j中含有观察值 节点的集合:
将用户user在qj上观察值概率分布 定义为:
然后在用户user根据 的所有可能访问序列中寻找一个状态序列,建立用户兴趣行为的隐半马尔可夫模型,使其具有最大的访问概率:
在对用户兴趣漂移进行检测的过程中,首先需要采集HSMM模型中的观察序列,并且在模型进行训练之前对数据进行预处理,确定模型参数后,然后通过调用HSMM算法,得到用户兴趣不变的概率值,其概率值用平均对数或然概率进行计算,当用户的兴趣值处在正常范围内,则将用户数据加入到训练数据集中,以更新隐半马尔可夫模型的参数;否则,该用户将被认为是兴趣漂移。
2.如权利要求1所述的一种融入本体情境的用户兴趣挖掘方法,其特征在于:所述步骤
1)中,获取用户个性化信息的途径有两种:(a)通过网络调查,用户自己参与的方式进行收集;(b)通过跟踪用户行为来获取用户的兴趣信息,采用用户行为数据的特征提取方法。
3.如权利要求1或2所述的一种融入本体情境的用户兴趣挖掘方法,其特征在于:所述步骤2)中,用户的行为信息包括用户搜索关键词、用户历史购买记录和用户历史浏览行为。
4.如权利要求1或2所述的一种融入本体情境的用户兴趣挖掘方法,其特征在于:所述步骤3)中,根据用户的兴趣情境信息,在构建用户本体情境中,将用户情境划分为用户个体情境、用户环境情境以及用户设备情境,本体采用层次概念树的形式,用户情境的某一元素就是通过树中的每个节点来表示的。
一种融入本体情境的用户兴趣挖掘方法\n技术领域\n[0001] 本发明涉及数据挖掘与本体技术领域,尤其是一种用户兴趣挖掘方法,特别适用于用户个性化信息服务的问题。\n背景技术\n[0002] 网络应用越来越复杂,数据量也越来越大,一些如电子商务、web站点设计等工作变得更加复杂与繁重,这需要在用户现有信息的基础上,从用户访问兴趣、访问时间、访问频度等行为方面动态调整网页结构,有针对性的开展电子商务来满足用户需求,提供个性化服务。Internet的个性化信息服务就是根据用户不同的特点,以及用户兴趣爱好进行自动的信息组织与调整的服务,以一种快速,高效,准确的信息获取方式来解决用户信息迷向等问题。基于此,如何从迅速膨胀的信息中准确理解用户的信息需求,构建表征网络用户特征、兴趣、目标和行为偏好的用户模型并据此来预测用户行为、更好地为用户提供个性化服务已成为一个难题。同时如何及时并且准确地发现用户兴趣漂移,构建动态更新的用户兴趣模型,以满足不同用户的个性化信息需求服务,已经成为个性化信息服务的关键问题。\n发明内容\n[0003] 为了克服现有的数据挖掘方式的无法满足用户需求的兴趣模型以提供个性化推荐服的不足,本发明构建能够满足用户需求的兴趣模型以提供个性化推荐服务,提高用户满意度的有效手段,提供了一种融入本体情境的用户兴趣挖掘方法。\n[0004] 本发明解决其技术问题所采用的技术方案是:\n[0005] 一种融入本体情境的用户兴趣挖掘方法,所述用户兴趣挖掘方法包括以下步骤:\n[0006] 1)建立基于二阶隐马尔可夫模型的用户兴趣特征提取模型:\n[0007] 首先需要收集得到那些能够反映用户兴趣的数据,过程如下:从客户端、服务器端、代理服务器端获得用户源数据,这些源数据获取之后,将它们进行预处理并以设定的格式进行保存,供以后用户兴趣的挖掘。\n[0008] 其次,采用二阶隐马尔可夫模型对用户兴趣特征提取,包括训练部分与提取部分;\n[0009] 训练部分包括将用户兴趣的特征信息先后顺序进行预处理,形成文本文档,然后对文本经过扫描后,利用分隔符、空格、换行、冒号排版将已标记文本序列转换为标记的文本分块序列,最后用二阶HMM模型对其计算以下模型参数,其参数的确定算法如公式所示:\n[0010] ①初始概率分布矢量\n[0011]\n[0012] 其中,Init(i)指已标记的整个训练样本中,以状态Si为开始状态序列的个数,则指以所有状态为开始状态序列的个数总和;\n[0013] ②初始状态转移概率\n[0014]\n[0015]\n[0016] 其中,Cij和Cijk分别表示从状态Si到Sj的转移次数,以及t-1时刻的状态Si,t时刻状态Sj,转移到t+1时刻状态为Sk的次数。 和 分别表示从状态Si到所有状态的转移次数之和,以及t-1时刻的状态Si,t时刻状态Sj,转移到所有状态的次数之和;\n[0017] ③观察值释放概率\n[0018]\n[0019]\n[0020] 其中,Ej(Ok)和Eij(Ok)分别表示状态Sj时释放观察值Ok的次数,以及t-1时刻的状态Si,t时刻状态Sj,释放观察值Ok的次数。 和 分别表示状态Sj时释放所有观察值的次数之和,以及t-1时刻的状态Si,t时刻状态Sj,释放所有观察值的次数之和;\n[0021] 提取部分包括两个步骤,即:(a)对待提取特征的文本进行预处理,对文本经过扫描后,利用分隔符、空格、换行、冒号排版将已标记文本序列转换为标记的文本分块序列;\n(b)结合训练部分输出的二阶HMM模型,利用Viterbi算法进行计算,应用已建立好的HMM模型进行用户兴趣特征提取,将处理得到后的状态输出观察值O=O1O2...OT作为模型输入,从中找出状态标签序列中概率最大的,用户特征提取的内容就是被标记为目标状态标签的观察文本;\n[0022] 2)分析反映用户兴趣的情境信息:通过对用户的搜索、浏览行为与购买记录信息的分析,推导出一段时间内用户的真实兴趣;\n[0023] 3)融入情境的用户兴趣本体模型构建:先将地域、性别、年龄、婚姻、教育背景和收入几个影响用户兴趣的关键作为背景因素指标,并结合用户的历史购买信息以及用户行为特征进行模糊处理以得到其兴趣度值;然后采用本体情境的表示方法,通过多粒度划分,构建用户兴趣本体模型;\n[0024] 4)基于隐半马尔可夫模型的用户兴趣漂移检测方法:\n[0025] 选取两个观察值来描述用户的浏览行为:a)用户访问网页的浏览路径序列;b)从一个网页到达另一个网页的时间间隔;所有状态集合表示为S={S1,S2,...,SN},相对应的观察值集合表示为V={v1,v2,...,vN},时间间隔表示为集合I={1,2,...};对于用户的某一浏览行为,其浏览路径链接的个数是一个随机变量,在给定状态下输出的观察值的个数可将该浏览行为表示成集合{1,...,D}。把用户浏览路径序列即二维观察值序列表示成O={(r1,τ1),...,(rT,τT)},其中:rt∈V表示用户浏览网页内容的对象;τt∈I表示用户从一个页面跳转到另一个页面rt与rt-1之间的时间间隔;模型的输出概率矩阵用B={bi(v,q)}表示,对于给定状态i∈S,bi(v,q)表示用户在一个页面rt=v∈V且与前一个页面的时间间隔为τt=q∈I的概率,且满足∑v,qbi(v,q)=1;用P={pi(d)}表示在给定状态i下输出观察值个数为d∈{1,...,D}的概率,是隐半马尔可夫模型中状态驻留时间的概率矩阵,且满足∑dpi(d)=1;状态转移概率矩阵通过A={aij}进行表示,aij表示从i∈S向j∈S转移的概率;初始概率向量用π={πi}表示,πi表示初始状态在i∈S时的概率;\n[0026] 将用户的一条重要的兴趣行为记录定义为:Uinterest={user,background,history,behavior,timestamp,content},其中,user用户表示,如ID;background表示用户具体背景因素;history表示用户的历史购买记录;behavior标识具体兴趣行为操作结果;\ntimestamp表示用户行为的执行时间;content表示兴趣主题内容;\n[0027] 在用户访问事务中,任意两个行为操作之间存在着访问转移概率P(qi→qj),表示兴趣权重如下:\n[0028]\n[0029] 对于每个qj及其相对应的概念 都存在一个观察值概率分布 即u对qj的所有访问中,对 的兴趣概率,可由ati所包含被访问节点的集合为Qi={q′1,...,q'f|q'∈IC},则Qi,j表示ati中在qj之后的所有被访问节点的集合, 表示Qi,j中含有 节点的集合:\n[0030]\n[0031] 将u在qj上观察值概率分布 定义为:\n[0032]\n[0033] 然后在用户u根据 的所有可能访问序列中寻找一个状态序列,建立用户兴趣行为的隐半马尔可夫模型,使其具有最大的访问概率:\n[0034]\n[0035] 在对用户兴趣漂移进行检测的过程中,首先需要采集HSMM模型中的观察序列,并且在模型进行训练之前对数据进行预处理,确定模型参数后,然后通过调用HSMM算法,得到用户兴趣不变的概率值,其概率值用平均对数或然概率进行计算,当用户的兴趣值处在正常范围内,则将用户数据加入到训练数据集中,以更新隐半马尔可夫模型的参数;否则,该用户将被认为是兴趣漂移。\n[0036] 进一步,所述步骤1)中,获取用户个性化信息的途径有两种:(a)通过网络调查,用户自己参与的方式进行收集;(b)通过跟踪用户行为来获取用户的兴趣信息,采用用户行为数据的特征提取方法。\n[0037] 更进一步,所述步骤2)中,用户的行为信息包括用户搜索关键词、用户历史购买记录和用户历史浏览行为。\n[0038] 再进一步,所述步骤3)中,根据用户的兴趣情境信息,在构建用户本体情境中,将用户情境划分为用户个体情境、用户环境情境以及用户设备情境,。本体采用层次概念树的形式,用户情境的某一元素就是通过树中的每个节点来表示的,即构建情境本体树。\n[0039] 本发明的技术构思为:面向用户的个性化服务领域,根据方法所涉及的概念漂移和情境问题,提出了融入本体情境的用户兴趣挖掘方法,构建了能够满足用户需求的兴趣模型以提供个性化推荐服务,提高了用户满意度的有效手段。\n[0040] 基于此,本发明以用户个性化信息服务为研究对象,引入数据挖掘、本体技术,充分考虑用户个性化特征,提出一种融入本体情境的用户兴趣挖掘方法,有效实现用户个性化服务需求。\n[0041] 引入数据挖掘、本体技术,充分考虑用户个性化特征,首先针对电子商务网站中复杂多维的Web用户兴趣行为特征数据,构建基于二阶隐马尔可夫模型(Second-Order Hidden Markov Model)的用户兴趣特征提取模型;其次分析了能反映用户兴趣的情境信息,包括用户的个体信息、环境信息以及设备信息等;再次构建了基于情境本体的用户兴趣模型,同时采用逻辑模糊的思想对用户个体信息的兴趣度进行了度量与表达,最后基于隐半马尔可夫模型(Hidden Semi-Markov Model,HSMM)的用户兴趣漂移检测方法,根据用户浏览路径构建模型,将序列的平均对数或然概率的均值作为阈值点,用以判断兴趣是否发生了漂移。\n[0042] 本发明的有益效果在于:本发明构建了能够满足用户需求的兴趣模型以提供个性化推荐服务,提高用户满意度的有效手段,具有良好的应用价值。\n附图说明\n[0043] 图1是基于二阶HMM的兴趣特征提取的算法流程图。\n[0044] 图2是用户情境本体的构建流程。\n[0045] 图3兴趣漂移检测框图。\n具体实施方式\n[0046] 下面结合附图对本发明作进一步描述。\n[0047] 参照图1、图2和图3,一种融入本体情境的用户兴趣挖掘方法,所述用户兴趣挖掘方法包括以下步骤:\n[0048] 5)建立基于二阶隐马尔可夫模型的用户兴趣特征提取模型:Web信息抽取(Web Information Extraction)属于Web内容挖掘的范畴,是从半结构化的Web文档中抽取数据,将Web作为信息源的一类信息抽取方法。本步骤包括用户数据的收集以及用户兴趣特征提取模型的建立。\n[0049] 为了构建用户兴趣模型,首先需要收集得到那些能够反映用户兴趣的数据。通常情况下,用户的数据往往很多,包括用户注册的信息,日志信息,文本页面内容数据,站点拓扑结构,用户的行为数据,以及页面超链结信息等。这些数据可以从客户端、服务器端、代理服务器端等数据源获得,这些元数据获取之后,可将它们进行预处理并以适当的格式进行保存,供以后用户兴趣的挖掘。归纳起来,获取用户个性化信息的途径主要有两种:(a)通过网络调查,用户自己参与的方式进行收集。这种方法可以直接获取用户的兴趣与信息需求倾向,但是必须要有用户的积极配合;(b)通过跟踪用户行为来获取用户的兴趣信息。由于第一种获取用户数据的途径,例如注册信息,直接由用户以表单的方式提供,传入后台数据库,其用户兴趣特征的提取比较方便,而通过跟踪用户的隐式行为来推断用户兴趣的数据却无法直接获得,所以这里主要采用用户行为数据的特征提取方法。\n[0050] 其次,用户兴趣的特征提取属于文本信息抽取范畴,而信息抽取已经成为自然语言处理的一个重要方向,理论研究不断得到发展。目前有关信息抽取的模型主要有3类:一种是基于字典的模型;一种是基于规则的模型,如本体;一种是基于统计的模型,如隐马尔可夫模型(HMM)。由于HMM有非常适合自然语言处理的统计学基础,加上其抽取鲁棒性强、精度高、易于建立而且适应性强等优点,越来越受到研究者的关注。这里采用二阶隐马尔可夫模型对用户兴趣特征提取,流程图如图1所示。主要包括两大部分,即训练部分与提取部分。\n[0051] 训练部分包括将用户兴趣的一些特征信息先后顺序进行预处理,形成文本文档,然后对文本经过扫描后,利用分隔符、空格、换行、冒号等排版将已标记文本序列转换为标记的文本分块序列,最后用二阶HMM模型对其计算以下模型参数,其参数的确定算法如公式所示:\n[0052] ①初始概率分布矢量\n[0053]\n[0054] 其中,Init(i)指已标记的整个训练样本中,以状态Si为开始状态序列的个数,则指以所有状态为开始状态序列的个数总和。\n[0055] ②初始状态转移概率\n[0056]\n[0057]\n[0058] 其中,Cij和Cijk分别表示从状态Si到Sj的转移次数,以及t-1时刻的状态Si,t时刻状态Sj,转移到t+1时刻状态为Sk的次数。 和 分别表示从状态Si到所有状态的转移次数之和,以及t-1时刻的状态Si,t时刻状态Sj,转移到所有状态的次数之和。\n[0059] ③观察值释放概率\n[0060]\n[0061]\n[0062] 其中,Ej(Ok)和Eij(Ok)分别表示状态Sj时释放观察值Ok的次数,以及t-1时刻的状态Si,t时刻状态Sj,释放观察值Ok的次数。 和 分别表示状态Sj时释放所有观察值的次数之和,以及t-1时刻的状态Si,t时刻状态Sj,释放所有观察值的次数之和。\n[0063] 提取部分包括两个步骤,即:(a)对待提取特征的文本进行预处理,对文本经过扫描后,利用分隔符、空格、换行、冒号等排版将已标记文本序列转换为标记的文本分块序列;\n(b)结合训练部分输出的二阶HMM模型,利用Viterbi算法进行计算。应用已建立好的HMM模型进行用户兴趣特征提取。将处理得到后的状态输出观察值O=O1O2...OT作为模型输入,从中找出状态标签序列中概率最大的,用户特征提取的内容就是被标记为目标状态标签的观察文本。\n[0064] 6)分析反映用户兴趣的情境信息:网络用户的兴趣特征主要是由与用户兴趣相关的内在因素和外在因素影响的。内在因素有性别、年龄、职业、性格、教育、收入等方面,外在因素则包括了文化背景、社会环境、家庭情况等方面,内在和外在的多方面因素导致了网络用户不同行为的产生。正因为这种原因,使得不同的用户存在多方面的差异,对商品的兴趣程度与偏向也有所不同。\n[0065] 用户的兴趣常常能在自身的行为中得到反映,当他们对某种东西有兴趣就会产生一定的倾向性,用户的需求与兴趣会被记录在他们的行为信息中,因此可以通过对用户的搜索、浏览行为与购买记录等信息的分析,推导出一段时间内用户的真实兴趣。这里,用户的行为信息主要包括以下几个方面:用户搜索关键词、用户历史购买记录、用户历史浏览行为等。\n[0066] 7)融入情境的用户兴趣本体模型构建:先将地域、性别、年龄、婚姻、教育背景和收入几个影响用户兴趣的关键作为背景因素指标,并结合用户的历史购买信息以及用户行为特征进行模糊处理以得到其兴趣度值;然后采用本体情境的表示方法,通过多粒度划分,构建用户兴趣本体模型。构建用户情境本体模型的流程图如图2所示。\n[0067] 根据用户的兴趣情境信息,在构建用户本体情境中,将用户情境划分为用户个体情境、用户环境情境以及用户设备情境。本体通常是采用层次概念树的形式,用户情境的某一元素就是通过树中的每个节点来表示的,即构建情境本体树。\n[0068] 8)基于隐半马尔可夫模型的用户兴趣漂移检测方法:网上用户在浏览中的购物行为过程是受浏览目的、文化背景、兴趣爱好等多种个体因素影响的复杂过程,通过对背景因素、用户行为以及兴趣内容来综合考虑用户的兴趣,并建立隐半马尔可夫模型(HSMM)来检测用户兴趣是否发生漂移。\n[0069] 假设用户在浏览网页的过程中,其浏览行为符合马尔可夫性,则本文选取以下两个观察值来描述用户的浏览行为:a)用户访问网页的浏览路径序列;b)从一个网页到达另一个网页的时间间隔。所有状态集合表示为S={S1,S2,...,SN},相对应的观察值集合表示为V={v1,v2,...,vN},时间间隔表示为集合I={1,2,...};对于用户的某一浏览行为,其浏览路径链接的个数是一个随机变量,在给定状态下输出的观察值的个数可将该浏览行为表示成集合{1,...,D}。把用户浏览路径序列即二维观察值序列表示成O={(r1,τ1),...,(rT,τT)},其中:rt∈V表示用户浏览网页内容的对象;τt∈I表示用户从一个页面跳转到另一个页面rt与rt-1之间的时间间隔。模型的输出概率矩阵用B={bi(v,q)}表示,对于给定状态i∈S,bi(v,q)表示用户在一个页面rt=v∈V且与前一个页面的时间间隔为τt=q∈I的概率,且满足∑v,qbi(v,q)=1。用P={pi(d)}表示在给定状态i下输出观察值个数为d∈{1,...,D}的概率,是隐半马尔可夫模型中状态驻留时间的概率矩阵,且满足∑dpi(d)=1。状态转移概率矩阵通过A={aij}进行表示,aij表示从i∈S向j∈S转移的概率。初始概率向量用π={πi}表示,πi表示初始状态在i∈S时的概率。\n[0070] 将用户的一条重要的兴趣行为记录定义为:Uinterest={user,background,history,behavior,timestamp,content}。其中,user用户表示,如ID;background表示用户具体背景因素;history表示用户的历史购买记录;behavior标识具体兴趣行为操作结果;\ntimestamp表示用户行为的执行时间;content表示兴趣主题内容。\n[0071] 在用户访问事务中,任意两个行为操作之间存在着访问转移概率P(qi→qj),可表示兴趣权重如下:\n[0072]\n[0073] 对于每个qj及其相对应的概念 都存在一个观察值概率分布 即u对qj的所有访问中。对 的兴趣概率,可由ati所包含被访问节点的集合为Qi={q′1,...,q'f|q'∈IC},则Qi,j表示ati中在qj之后的所有被访问节点的集合, 表示Qi,j中含有 节点的集合:\n[0074]\n[0075] 将u在qj上观察值概率分布 定义为:\n[0076]\n[0077] 然后在用户u根据 的所有可能访问序列中寻找一个状态序列,建立用户兴趣行为的隐半马尔可夫模型,使其具有最大的访问概率:\n[0078]\n[0079] 在对用户兴趣漂移进行检测的过程中,首先需要采集HSMM模型中的观察序列,这里主要是将用户的浏览行为数据用作观察值序列,并且在模型进行训练之前对数据进行预处理,确定模型参数后,然后通过调用HSMM算法,得到用户兴趣不变的概率值,其概率值用平均对数或然概率进行计算。当用户的兴趣值处在正常范围内,则将用户数据加入到训练数据集中,以更新隐半马尔可夫模型的参数;否则,该用户将被认为是兴趣漂移。漂移检测的实现方法如图3所示。
法律信息
- 2018-04-17
- 2014-09-24
实质审查的生效
IPC(主分类): G06F 17/30
专利申请号: 201410269562.6
申请日: 2014.06.17
- 2014-08-27
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2014-01-15
|
2013-10-08
| | |
2
| |
2011-05-04
|
2009-10-09
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |