著录项信息
专利名称 | 一种基于时序数据挖掘的视频推荐方法 |
申请号 | CN201510290170.2 | 申请日期 | 2015-05-29 |
法律状态 | 授权 | 申报国家 | 中国 |
公开/公告日 | 2015-09-23 | 公开/公告号 | CN104935963A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | H04N21/258 | IPC分类号 | H;0;4;N;2;1;/;2;5;8;;;H;0;4;N;2;1;/;4;6;6查看分类表>
|
申请人 | 中国科学院信息工程研究所 | 申请人地址 | 北京市海淀区闵庄路甲89号
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 中国科学院信息工程研究所 | 当前权利人 | 中国科学院信息工程研究所 |
发明人 | 杨凡;牛温佳;胡玥;毛志;张博;敖吉;谭建龙;郭莉 |
代理机构 | 北京君尚知识产权代理事务所(普通合伙) | 代理人 | 余长江 |
摘要
本发明涉及一种基于时序数据挖掘的视频推荐方法。该方法包括:1)通过第三方数据分析用户对视频的兴趣梯度变化,并得到用户兴趣梯度曲线,将用户兴趣梯度曲线的奇异点作为用户兴趣迁移的时间点;2)确定用户最近的兴趣迁移时间点,对用户最近的兴趣迁移时间点以后的用户‑项目评分进行采集,从而建立选定时间窗口内的符合用户当前兴趣的用户‑项目评分矩阵;3)基于所述用户‑项目评分矩阵,通过使用随机游走模型进行用户的个性化视频推荐。本发明考虑了个性化视频推荐中的兴趣迁移问题,并融合了时间窗口方法和基于RandomWalker的信任度模型进行个性化视频推荐,提高了视频推荐的准确性和效率。
1.一种基于时序数据挖掘的视频推荐方法,其步骤包括:
1)通过第三方数据分析用户对视频的兴趣梯度变化,并得到用户兴趣梯度曲线,将用户兴趣梯度曲线的奇异点作为用户兴趣迁移的时间点;
得到所述用户兴趣梯度曲线的方法是:将视频的各个属性组成一个属性向量;在每个时间点,将视频的各个属性按照当前时间以及之前时间的用户评分记录进行加权,得到一个用户兴趣向量;根据用户在时间轴上多个时间点的一系列用户兴趣向量,分析得到随时间变化的用户兴趣梯度曲线;所述用户兴趣梯度曲线的横轴为时间,纵轴为兴趣梯度的模值;
某个时间点t的兴趣梯度的计算公式为:
D(t)=I(t)-I(t-1),
其中,D(t)为t时刻的用户兴趣梯度;I(t)为t时刻的用户兴趣向量;I(t-1)为t时刻前一时刻的用户兴趣向量;规定减法计算中的规则是,如果相同相减则为0,如果不同相减则为1;
2)确定用户最近的兴趣迁移时间点,对用户最近的兴趣迁移时间点以后的用户-项目评分进行采集,从而建立选定时间窗口内的符合用户当前兴趣的用户-项目评分矩阵;所述时间窗口即用户最近的兴趣迁移时间点以后;
3)基于所述用户-项目评分矩阵,使用随机游走模型进行用户的个性化视频推荐。
2.如权利要求1所述的方法,其特征在于:步骤1)所述第三方数据为豆瓣评分,通过分析用户的豆瓣评分历史绘制用户兴趣梯度曲线。
3.如权利要求1所述的方法,其特征在于,所述视频的各个属性包括:名称、演员、导演、年代和简介。
4.如权利要求1或2所述的方法,其特征在于,步骤2)所述用户-项目评分包括显式评分和隐式评分;所述显式评分是在用户观看视频时,用户对当前正在观看的视频进行的评分;
所述隐式评分是记录用户的观看、跳转、收藏、分享动作,根据用户的不同动作预测用户对视频的喜好程度。
5.如权利要求4所述的方法,其特征在于,步骤2)通过对用户-项目评分进行量化及归一化过程,得到兴趣迁移时间以后的用户-项目评分矩阵,矩阵中的每一行代表一个用户特征,每一列代表一个项目特征。
6.如权利要求1或2所述的方法,其特征在于,步骤3)首先根据用户-项目评分矩阵计算出用户u在第k步处于项目j的转移概率,然后计算用户u对项目j的全局概率,然后计算所有用户对所有项目的全局概率,从而得到用户-项目排序矩阵 并根据该矩阵进行个性化视频推荐。
7.如权利要求6所述的方法,其特征在于,步骤3)的具体方法是:
假设I代表个性化视频推荐系统中视频描述的项目集,m是项目集的大小,首先得到有m个节点的有向带权图,途中节点nodei代表项目i,边edgei,j的权重Pi,j代表从项目i转移到项目j的概率Pi,j=Pr(Xu,k+1=j|Xu,k=i);其中Xu,k+1表示在用户u在k+1时间点的状态,Xu,k表示在用户u在k时间点的状态;
根据上述转移概率,得到一个m*m阶的项目转移概率矩阵P,矩阵中每一列代表从m个项目转移到项目j的转移概率向量;设U代表推荐系统的用户集,n为用户集的规模,根据用户的历史评分记录建立n*m阶的初始用户-项目评分矩阵R,其中每一行代表用户的评分向量,每个元素Rui代表用户u对项目i的历史评分数据,设定Rui=Pr(Xu,0=i),其中Xu,0表示用户u的初始化状态,根据用户-项目评分矩阵计算出用户u在第k步处于项目j的转移概率:
其中,α因子是用户在当前状态下继续进行下一个步骤的概率;由此可得用户u对项目j的全局概率:
其中c代表常量,根据上式计算所有用户对所有项目的全局概率,从而得到用户-项目排序矩阵
根据该矩阵估计用户对任何一个项目的感兴趣程度,从而实现用户的个性化视频推荐。
一种基于时序数据挖掘的视频推荐方法\n技术领域\n[0001] 本发明属于视频技术、视频推荐技术领域,具体涉及一种基于时序数据挖掘的视频推荐方法。\n背景技术\n[0002] 随着通信技术的发展,网络可用带宽迅速增加,观看视频对于PC用户甚至移动终端用户都已经是一件稀松平常的事,这也带来互联网视频行业如火如荼的发展,而视频推荐系统是互联网视频服务中的重要组成部分。最初的视频推荐系统根据影片之间的相似性进行推荐,对于观看同一部影片的两个用户会给出相同的推荐结果。然而近年来随着个性化推荐方法在搜索引擎和购物网站上的成功应用,视频推荐领域也越来越重视针对用户特征的个性化视频推荐。个性化视频推荐综合考虑用户的观影历史、社交关系及当前播放影片等信息,推荐该用户可能感兴趣的影片。可以预见,个性化推荐方法在视频领域也将拥有广阔的应用前景和可观的盈利预期。\n[0003] 个性化视频推荐方法大致分为内容过滤方法(Content-based Recommendation)和协同过滤方法(Collaborative Filtering Recommendation)两类。内容过滤方法根据用户喜欢的影片信息,给用户推荐在内容上相似的其他视频,比如A用户喜欢《让子弹飞》,那么内容过滤系统会推荐姜文作为导演的其他作品如《一步之遥》。由此可见内容过滤方法的实质是计算影片的相似度,一般情况下,内容过滤方法先定义一系列标签用于表征一个视频特征和用户喜好,从而将视频相似度问题转化为向量距离计算问题。协同过滤方法利用用户对项目的历史评分数据计算用户相似性或者项目相似性,进而根据相似性进行推荐。\n协同过滤方法记录所有用户对所有项目的评分,形成一个M*N维的用户-项目评分矩阵,其中M是用户数,N是项目数,矩阵中的一个单元Rm,n表示用户m对项目n的评分,矩阵中每一行代表一个用户向量,通过相似度计算方法可以得到用户向量间的相似度,也即用户间的相似度;矩阵中的每一列代表一个项目,同样的可以用相似度计算方法得到项目间的相似度。\n根据用户间的相似度,可以给一个用户推荐与他有相似兴趣的用户所喜欢的项目,这种推荐叫做基于用户的协同过滤(UserCF);根据项目间的相似度,可以给一个用户推荐与他喜欢的项目相似的项目,这种推荐叫做基于项目的协同过滤(ItemCF)。\n[0004] 无论内容过滤算法还是协同过滤算法,都是从用户兴趣的角度出发,为用户推荐其可能喜欢的影片,然而现实生活中,用户的兴趣往往是随着时间逐渐变化着的,这种现象叫做兴趣迁移。如果在给用户进行个性化视频推荐时没有考虑到用户的兴趣迁移,就意味着系统可能只给用户推荐了他之前喜欢的影片,但与其最近的兴趣不符,这就降低了推荐的准确性。\n发明内容\n[0005] 本发明针对个性化视频推荐系统中的用户兴趣迁移问题,提供一种基于时序数据挖掘的视频推荐方法,能够提高视频推荐的准确性和效率。\n[0006] 本发明采用的技术方案如下:\n[0007] 一种基于时序数据挖掘的视频推荐方法,其步骤包括:\n[0008] 1)通过第三方数据分析用户对视频的兴趣梯度变化,并得到用户兴趣梯度曲线,将用户兴趣梯度曲线的奇异点作为用户兴趣迁移的时间点;\n[0009] 2)确定用户最近的兴趣迁移时间点,对用户最近的兴趣迁移时间点以后的用户-项目评分进行采集,从而建立选定时间窗口内的符合用户当前兴趣的用户-项目评分矩阵;\n[0010] 3)基于所述用户-项目评分矩阵,通过使用随机游走模型进行用户的个性化视频推荐。\n[0011] 进一步地,步骤1)所述第三方数据优选为豆瓣评分,通过分析用户的豆瓣评分历史绘制用户兴趣梯度曲线。\n[0012] 进一步地,步骤1)得到所述用户兴趣梯度曲线的方法是:将视频的各个属性组成一个属性向量;在每个时间点,将视频的各个属性按照当前时间以及之前时间的用户评分记录进行加权,得到一个用户兴趣向量;根据用户在时间轴上多个时间点的一系列用户兴趣向量,分析得到随时间变化的用户兴趣梯度曲线。所述视频的各个属性包括:名称、演员、导演、年代、简介等。\n[0013] 进一步地,步骤2)所述用户-项目评分包括显式评分和隐式评分;所述显式评分是在用户观看视频时,用户对当前正在观看的视频进行的评分;所述隐式评分是记录用户的观看、跳转、收藏、分享动作,根据用户的不同动作预测用户对视频的喜好程度。\n[0014] 进一步地,步骤2)通过对用户-项目评分进行量化及归一化过程,得到兴趣迁移时间以后的用户-项目评分矩阵,矩阵中的每一行代表一个用户特征,每一列代表一个项目特征。\n[0015] 进一步地,步骤3)首先根据用户-项目评分矩阵计算出用户u在第k步处于项目j的转移概率,然后计算用户u对项目j的全局概率,然后计算所有用户对所有项目的全局概率,从而得到用户-项目排序矩阵 根据该矩阵进行个性化视频推荐。\n[0016] 本发明的关键点是:通过第三方数据给用户建模,发现用户兴趣迁移;通过确定用户最近的兴趣迁移时间点,建立用户-项目评分矩阵;通过使用随机游走模型代替协同过滤方法进行个性化视频推荐。\n[0017] 本发明针对个性化视频推荐系统中的用户兴趣迁移问题,使用第三方数据分析用户兴趣梯度变化,发现用户兴趣迁移时间,从而确定合适的训练时间窗口大小;在时间窗口内,基于Random Walker随机算法创建信任度模型,从而实现针对某个用户的个性化视频推荐。该方法考虑了个性化视频推荐中的兴趣迁移问题,并融合了时间窗口方法和基于Random Walker的信任度模型进行个性化视频推荐,提高了视频推荐的准确性和效率。\n附图说明\n[0018] 图1是基于时序数据挖掘的视频推荐方法总体流程图。\n[0019] 图2是基于兴趣梯度分析的用户兴趣迁移检测曲线。\n具体实施方式\n[0020] 为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本发明做进一步说明。\n[0021] 本发明利用第三方数据(比如利用豆瓣评分)发现用户兴趣迁移,确定训练数据时间窗口大小,从而屏蔽用户兴趣迁移的影响,进而利用基于Random Walker的信任度模型进行个性化视频推荐。图1是本发明方法的总体流程图。\n[0022] 1.基于第三方数据的用户兴趣迁移发现\n[0023] 如前所述,本发明使用时间窗口方法克服用户兴趣迁移对推荐结果造成的影响。\n固定大小的时间窗口不能准确反应用户的兴趣迁移,因此,为了得到合适的时间窗口大小,本发明使用第三方数据分析用户兴趣梯度变化,估测用户兴趣迁移时间,从而确定时间窗口的大小。\n[0024] 由于本发明针对视频资源进行推荐,而当前中国的网络环境中,豆瓣评分无疑是最适合客观评估用户视频兴趣的第三方网站。因此,本发明分析用户的豆瓣评分历史,绘制用户兴趣梯度曲线,并将其中最近的奇异点作为用户最近一次兴趣迁移起始的标志,以此来确定视频推荐模型中时间窗口的大小。\n[0025] 1)豆瓣用户数据建模\n[0026] 豆瓣是国内最大的影片分享及评论平台,超过千万用户的注册量使得豆瓣评分在视频服务业界享有很大的影响力。豆瓣网站上的用户评分采用十分满分制,因此省去了数据归一化过程,可以直接把用户在豆瓣上的历史评分记录拿来作为训练数据。\n[0027] 2)用户兴趣建模\n[0028] 为了对影片进行描述,本发明将影片的名称、演员、导演、年代、简介等作为一个向量,用该属性向量表示一个影片。比如表1中影片a就可以用[Name a,Actor a Actor b,Director a,2014,Keyword a Keyword d]这样的属性向量来表示。\n[0029] 根据某个用户对其观看影片的评分记录,可以将各个影片的属性按评分进行加权,从而得到该用户的喜好特征向量。比如某用户A共观看过4部影片,分别为影片a、影片b、影片c、影片d,而A对四个影片的评分记录如表1所示。\n[0030] 表1 用户观影历史及评分记录表\n[0031]\n[0032] 那么,该用户的兴趣向量就可以表示为I(t)=[name a*9+name b*5+name c*9+name d*9,actor a*24+actor b*9+actor c*14+actor d*18,director a*18+director b*\n9+director c*9,2014*27+2010*5,keyword a*18+keyword b*9+keyword c*9+keyword e*\n9+keyword f*9+keyword g*5+keyword h*5]=[name a,actor a,director a,2014,keyword a](假定兴趣向量中每一项只按权重排序取一个值,权值相同的随机取一个值)。\n[0033] 随着时间的推移,用户的评分记录会越来越多,因此在每个时间点,我们都可以根据当前时间以及之前时间的历史评分记录,得到一个用户兴趣向量,据此,我们可以得到该用户在时间轴上多个时间点的兴趣向量,每个兴趣向量都代表了用户在对应时间点观看视频的偏好。\n[0034] 3)用户兴趣迁移发现\n[0035] 依据上述的一系列用户兴趣向量,可以分析得到随时间变化的用户兴趣梯度,找到梯度曲线的奇异点作为兴趣迁移的时间点。该点即为用户兴趣迁移的标志,从而为后续的协同过滤视频推荐算法提供时间窗口大小的依据。\n[0036] 某个时间点t的兴趣梯度计算公式为:\n[0037] D(t)=I(t)-I(t-1)\n[0038] 其中,D(t)为t时刻的用户兴趣梯度;I(t)为t时刻的用户兴趣向量;I(t-1)为t时刻前一时刻的用户兴趣向量。为了方便计算,规定减法计算中的规则是,如果相同相减则为\n0,如果不同相减则为1,以此来体现两个向量之间的差异性。比如[name a,actor a,director a,2014,keyword a]-[name b,actor a,director c,2014,keyword a]=[1,0,\n1,0,0]。由此可见,用户兴趣梯度向量的模值越大,就代表兴趣变化越明显。\n[0039] 图2所示为兴趣梯度变化曲线,其中横轴为时间,纵轴为兴趣梯度的模值。从该图中可以看到,用户的兴趣在2009年2月、2009年12月、2012年6月和2014年6月分别发生了一次兴趣迁移。\n[0040] 2.用户-项目评分矩阵\n[0041] 根据上述兴趣迁移发现结果,可以确定用户最近的兴趣迁移时间点。根据该时间点之前的用户项目评分记录做视频推荐是没有意义的,因为那不符合用户最新的兴趣。因此本发明只对兴趣迁移时间点以后的用户-项目评分进行采集,从而获得最符合每个用户当前兴趣的用户-项目评分矩阵。\n[0042] 1)用户-项目评分采集\n[0043] 在视频推荐系统中,可以有显式评分和隐式评分两种用户-项目评分采集方式。其中,显式评分是在用户观看视频时,允许用户对当前正在观看的视频进行评分(一般为5分满分或者10分满分制);隐式评分是记录用户的观看、跳转、收藏、分享等动作,根据用户的不同动作预测用户对该视频的喜好程度。本发明的用户-项目评分兼顾显式评分和隐式评分两种评分采集方式,从而更加全面准确地反应用户对每个视频的喜好程度。\n[0044] 2)用户-项目评分归一化\n[0045] 本发明中,显式评分是指在用户观看视频过程中对正在观看影片打的分,为了方便后续计算,将所有显式评分归一化到满分1分。隐式评分包括用户的观看、跳转、收藏、分享等动作,本发明中假定用户的动作对应的评分值如表2所示。\n[0046] 表2 用户隐式评分量化及归一化表\n[0047]\n动作 分享 收藏 观看并观看到结尾 观看并中途跳转\n评分 10 9 8 5\n归一化评分 1 0.9 0.8 0.5\n[0048] 经过上述量化及归一化过程,可以得到兴趣迁移时间以后的用户-项目评分矩阵,矩阵中的每一行代表一个用户特征,每一列代表一个项目特征。\n[0049] 3.基于信任度模型的视频推荐\n[0050] 如前所述,根据每个用户的评分及观看行为,可以得到用户对一部影片的显式或隐式打分,从而构建选定时间窗口内的用户-项目矩阵。一般来说,用户-项目矩阵是稀疏矩阵,为了解决用户-项目矩阵稀疏性的问题,本发明使用随机游走模型代替协同过滤方法进行个性化视频推荐。\n[0051] 1)Random Walker算法\n[0052] Random Walker算法使用马尔科夫模型,从一个点开始游走,直至遍历完整个集合。在任意一个点,都会以概率1-Pr(Xu,k+1|Xu,k)游走到某个邻居节点,以概率Pr(Xu,k+1|Xu,k)随机跳跃到集合中的任何一点(包括自身)。每进行一次游走,到达某个节点的概率只由当前所在状态决定。其中,Pr(Xu,k+1|Xu,k)为随机游走的转移概率参数,Xu,k+1表示在u情况下,k+1时间点的状态;Xu,k表示在u情况下,k时间点的状态。\n[0053] 随机游走的每一次游走都可以得到一个概率分布,该分布刻画了集合中每个点被访问到的概率。整个随机游走的过程就是用上述概率分布作为下次游走的输入并反复迭代的过程,当满足一定条件时,该分布概率会趋于收敛,从而得到一个稳定的概率分布。随机游走模型在数据挖掘等领域得到广泛应用,比如经典的PageRank算法就是随机游走的一个实例。\n[0054] 2)基于随机游走模型的个性化视频推荐\n[0055] 假设I代表个性化视频推荐系统中视频描述的项目集,m是项目集的大小,则可以得到有m个节点的有向带权图,途中节点nodei代表项目i,边edgei,j的权重Pi,j代表从项目i转移到项目j的概率Pi,j=Pr(Xu,k+1=j|Xu,k=i)\n[0056] 根据上述转移概率,可以得到一个m*m阶的项目转移概率矩阵P,矩阵中每一列代表从m个项目转移到项目j的转移概率向量。若U代表推荐系统的用户集,n为用户集的规模,那么根据用户的历史评分记录可以建立n*m阶的初始用户-项目评分矩阵R,其中每一行代表用户的评分向量,每个元素Rui代表用户u对项目i的历史评分数据,设定Rui=Pr(Xu,0=i)。则根据用户-项目评分矩阵可以计算出用户u在第k步处于项目j的转移概率:\n[0057]\n[0058] 上式中α因子是用户在当前状态下继续进行下一个步骤的概率,该参数可以控制随机游走的步长,根据经验,该数值应该随着训练集比例的减小而增大。由此可得用户u对项目j的全局概率:\n[0059]\n[0060] 其中c代表常量,根据上式可以计算所有用户对所有项目的全局概率,从而可以得到用户-项目排序矩阵\n[0061]\n[0062] 凭借该矩阵可以估计用户对任何一个项目的感兴趣程度,从而为个性化视频推荐提供参考依据。\n[0063] 以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书所述为准。
法律信息
- 2018-03-16
- 2015-10-21
实质审查的生效
IPC(主分类): H04N 21/258
专利申请号: 201510290170.2
申请日: 2015.05.29
- 2015-09-23
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2009-10-07
|
2009-05-15
| | |
2
| |
2014-09-24
|
2014-07-02
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |