著录项信息
专利名称 | 一种基于用户多种行为反馈的电影推荐方法 |
申请号 | CN201410753052.6 | 申请日期 | 2014-12-10 |
法律状态 | 授权 | 申报国家 | 中国 |
公开/公告日 | 2015-03-25 | 公开/公告号 | CN104462383A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/30 | IPC分类号 | G;0;6;F;1;7;/;3;0查看分类表>
|
申请人 | 山东科技大学 | 申请人地址 | 山东省青岛市经济技术开发区前湾港路579号
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 山东科技大学 | 当前权利人 | 山东科技大学 |
发明人 | 赵建立;吴文敏;张春升;孟芳 |
代理机构 | 济南舜源专利事务所有限公司 | 代理人 | 陈海滨 |
摘要
本发明公开了一种基于用户多种行为反馈的电影推荐方法,包括步骤:s1、电影聚类首先对电影信息进行特征选取,得到针对每个电影的关键字描述;s2、用户相似度计算使用基于模糊理论的行为‑‑内容聚类方法,将用户聚类成多个用户集,每个用户在不同用户集中的隶属度不同,利用电影描述信息和用户的多种行为反馈数据进行建模,计算每个用户在用户群中的隶属度,根据用户在不同用户集中的隶属度来计算用户之间的相似度;s3、生成推荐根据得到的用户相似度信息为用户生成不同的电影推荐列表。本发明方法利于解决数据的稀疏性问题,并解决了传统“隐性‑显性”转换做法的信息损失问题,提高了推荐精度。
1.一种基于用户多种行为反馈的电影推荐方法,其特征在于,包括步骤:
s1、电影聚类
根据电影的关键字描述,使用LDA算法将电影聚成m个簇;
设定阈值threshold,0.6≤threshold≤0.8,从每个簇中去掉p(k|i)<threshold的电影,其中,p(k|i)表示电影i属于电影簇k的概率;
s2、用户相似度计算
针对电影聚类得到每个电影簇k形成与之一一对应的用户群g,用户u对用户群g的隶属度利用如下公式计算,即:
式中, 表示用户u对用户群g对应的电影簇k中电影的第t种行为的统计次数, 为用户u对所有电影的第t种行为的统计次数,t的取值范围为:1≤t≤T,T为数据集中行为的种类数;
根据用户模糊聚类的隶属度计算结果,得到用户u的隶属度向量
其中,du,g表示用户u对用户群g的隶属度;
对用户集U中的任意两个用户u和v,通过Pearson相关系数来计算u和v的相似度,并记为sim(u,v);
s3、生成推荐
设定邻居选取的相似度阈值为sim-threshold,对任意一个用户u从用户集U中选取满足sim(u,v)>sim-threshold的用户作为用户u的邻居,并记作Neiu;
对Neiu中用户看过用户u未看过的所有电影,通过如下方法预测用户u对电影i的偏好:
式中, 表示用户u对电影i的预测偏好,pv,i表示用户v对电影i的偏好,该偏好由用户v的行为权重向量w和用户v在电影i上的行为统计向量rv,i的内积来衡量,pu,i为基于用户u在电影i上的已有行为得到的用户u对电影i的偏好,该偏好由权重向量w和用户u在电影i的行为统计向量ru,i的內积来衡量;权重向量w通过交叉验证来获得;
对用户u的对偏好预测结果进行降序排序,选择前N部电影作为用户u的推荐结果。
2.根据权利要求1所述的一种基于用户多种行为反馈的电影推荐方法,其特征在于,在步骤s1中,电影的关键字描述按照如下步骤获得:
首先对每部电影简介进行分词处理,保留名词并去掉停用词得到:Si={s1,s2,...,sn},其中,Si表示对电影i进行分词、保留名词去停用词处理后得到的名词描述;
然后根据在所有电影上的处理结果统计出现频率最高的N个词,并从电影的名词描述中剔除这N个词以外的词;
最后结合电影的导演、演员和类型信息得到电影的关键字描述:Wi={w1,w2,...,wn}。
3.根据权利要求1所述的一种基于用户多种行为反馈的电影推荐方法,其特征在于,在步骤s2中,近在线阶段用户相似度信息更新步骤为:
s1、分别统计用户u对m个电影簇中电影的行为次数;
s2、使用隶属度模型来计算用户u对用户群的隶属度,得到用户u新的隶属度向量,并更新数据库中用户u的隶属度信息;
s3、通过Pearson相关系数基于用户u新的隶属度和数据库中其他用户的隶属度来计算用户u和其他用户的相似度,并更新数据库。
一种基于用户多种行为反馈的电影推荐方法\n技术领域\n[0001] 本发明属于个性化推荐领域,具体涉及一种基于用户多种行为反馈的电影推荐方法。\n背景技术\n[0002] 随着Internet的迅速发展,互联网上的数据呈指数增长态势。传统的搜索算法只能呈现给所有的用户一样的排序结果,无法针对不同用户的兴趣爱好提供相应的服务。信息的爆炸使得信息的利用率反而降低,这种现象被称为信息过载。个性化推荐,包括个性化搜索,被认为是目前解决信息超载问题的最有效工具之一。\n[0003] 推荐算法是个性化推荐系统的核心,推荐算法可以分为基于内容的推荐算法、协同过滤推荐算法、以及基于知识的推荐算法。其中,由于协同过滤推荐算法能够充分利用数据集中的信息且对领域知识的需求较低,在现实中的应用最为广泛。\n[0004] 然而,目前主流的协同过滤推荐算法主要针对评分预测问题。由于现实中评分数据的获得往往比较困难,在实际应用中通常将用户多种行为的隐反馈数据转换为评分数据,这种做法不仅导致推荐精度低,而且存在数据稀疏性问题。\n发明内容\n[0005] 针对现有技术中存在的上述技术问题,本发明提出了一种基于用户多种行为反馈的电影推荐方法,该方法直接对用户多种行为的隐反馈数据进行建模,利于解决数据稀疏性问题。\n[0006] 为了实现上述目的,本发明采用如下技术方案:\n[0007] 一种基于用户多种行为反馈的电影推荐方法,包括步骤:\n[0008] s1、电影聚类\n[0009] 根据电影的关键字描述,使用LDA算法将电影聚成m个簇;\n[0010] 设定阈值threshold,0.6≤threshold≤0.8,从每个簇中去掉p(k|i)<threshold的电影,其中,p(k|i)表示电影i属于电影簇k的概率;\n[0011] s2、用户相似度计算\n[0012] 针对电影聚类得到每个电影簇k形成与之一一对应的用户群g,用户u对用户群g的隶属度利用如下公式计算,即:\n[0013]\n[0014] 式中, 表示用户u对用户群g对应的电影簇k中电影的第t种行为的统计次数,为用户u对所有电影的第t种行为的统计次数,t的取值范围为:1≤t≤T,T为数据集中行为的种类数;\n[0015] 根据用户模糊聚类的隶属度计算结果,得到用户u的隶属度向量\n其中,du,g表示用户u对用户群g的隶属度;\n[0016] 对用户集U中的任意两个用户u和v,通过Pearson相关系数来计算u和v的相似度,并记为sim(u,v);\n[0017] s3、生成推荐\n[0018] 设定邻居选取的相似度阈值为sim-threshold,对任意一个用户u从用户集U中选取满足sim(u,v)>sim-threshold的用户作为用户u的邻居,并记作Neiu;\n[0019] 对Neiu中用户看过用户u未看过的所有电影,通过如下方法预测用户u对电影i的偏好:\n[0020]\n[0021] 式中, 为用户u对电影i的预测偏好,pv,i表示用户v对电影i的偏好,该偏好由权重向量w和用户v在电影i上的行为统计向量rv,i的内积来衡量,pu,i为基于用户u在电影i上的已有行为得到的用户u对电影i的偏好,该偏好由权重向量w和用户u在电影i的行为统计向量ru,i的內积来衡量;权重向量w通过交叉验证来获得;\n[0022] 对用户u的对偏好预测结果进行降序排序,选择前N部电影作为用户u的推荐结果。\n[0023] 进一步,在步骤s1中,电影的关键字描述按照如下步骤获得:\n[0024] 首先对每部电影简介进行分词处理,保留名词并去掉停用词得到:Si={s1,s2,...,sn},其中,Si表示对电影i进行分词、保留名词去停用词处理后得到的名词描述;\n[0025] 然后根据在所有电影上的处理结果统计出现频率最高的N个词,并从电影的名词描述中剔除这N个词以外的词;\n[0026] 最后结合电影的导演、演员和类型信息得到电影的关键字描述:Wi={w1,w2,...,wn}。\n[0027] 进一步,在步骤s2中,近在线阶段用户相似度信息更新步骤为:\n[0028] s1、分别统计用户u对m个电影簇中电影的行为次数;\n[0029] s2、使用隶属度模型来计算用户u对用户群的隶属度,得到用户u新的隶属度向量,并更新数据库中用户u的隶属度信息;\n[0030] s3、通过Pearson相关系数基于用户u新的隶属度和数据库中其他用户的隶属度来计算用户u和其他用户的相似度,并更新数据库。\n[0031] 本发明具有如下优点:\n[0032] 本发明首先对电影信息进行特征选取,得到针对每个电影的关键字描述;然后使用基于模糊理论的行为--内容聚类方法,将用户聚类成多个用户集,每个用户在不同用户集中的隶属度不同,利用电影描述信息和用户的多种行为反馈数据进行建模,计算每个用户在用户群中的隶属度,根据用户在不同用户集中的隶属度来计算用户之间的相似度;最后根据得到的用户相似度信息为用户生成不同的电影推荐列表。本发明方法利于解决数据的稀疏性问题,并解决了传统“隐性-显性”转换做法的信息损失问题,提高了推荐精度。\n附图说明\n[0033] 图1为本发明中电影聚类流程图;\n[0034] 图2为本发明中用户相似度计算流程图;\n[0035] 图3为本发明中近在线阶段用户相似度信息更新流程图;\n[0036] 图4为本发明中电影生成推荐流程图。\n具体实施方式\n[0037] 下面结合附图以及具体实施方式对本发明作进一步详细说明:\n[0038] 一种基于用户多种行为反馈的电影推荐方法,包括如下步骤:\n[0039] 1、电影聚类\n[0040] 如图1所示,首先对每部电影简介进行分词处理,保留名词并去掉停用词得到:Si={s1,s2,...,sn},Si为对电影i进行分词、保留名词去停用词处理后得到的名词描述;\n[0041] 然后根据在所有电影上的处理结果统计出现频率最高的N个词,并从电影的名词描述中剔除这N个词以外的词;\n[0042] 最后结合电影的导演、演员和类型信息得到电影的关键字描述:Wi={w1,w2,...,wn}。\n[0043] 根据电影的关键字描述,使用LDA算法将电影聚成m个簇;\n[0044] 设定阈值threshold,0.6≤threshold≤0.8,从每个簇中去掉p(k|i)<threshold的电影,其中,p(k|i)表示电影i属于电影簇k的概率。\n[0045] 由于该步骤需要对数据库中的所有电影信息进行处理,比较耗时,可以在离线阶段处理。\n[0046] 2、用户相似度计算\n[0047] 如图2所示,针对电影聚类得到每个电影簇k形成与之一一对应的用户群g,用户u可以描述为“喜欢k中电影的用户形成的模糊集”。\n[0048] 用户u对用户群g的隶属度利用如下公式计算,即:\n[0049]\n[0050] 由于用户群g和电影簇k是一一对应的,所以等级右边先是做了g→k的变化后,再进行计算。\n[0051] 式中, 表示用户u对用户群g对应的电影簇k中电影的第t种行为的统计次数,为用户u对所有电影的第t种行为的统计次数,t的取值范围为:1≤t≤T,T为数据集中行为的种类数;\n[0052] 根据用户模糊聚类的隶属度计算结果,得到用户u的隶属度向量\n其中,du,g表示用户u对用户群g的隶属度(由于用户群g与电影簇k的个\n数相同,此处g同样可以用m来表示);\n[0053] 对用户集U中的任意两个用户u和v,通过Pearson相关系数来计算u和v的相似度,并记为sim(u,v)。\n[0054] 此外,由于用户对用户群的隶属度信息与其他用户的行为记录无关,所以可以对单个用户的隶属度信息实现增量计算,可用在近在线阶段达到精度与效率的平衡,如图3所示。\n[0055] 近在线阶段用户相似度信息更新步骤为:\n[0056] s1、分别统计用户u对m个电影簇中电影的行为次数。\n[0057] s2、使用隶属度模型来计算用户u对用户群的隶属度,得到用户u新的隶属度向量,并更新数据库中用户u的隶属度信息。\n[0058] s3、通过皮尔逊相关系数(PCC)基于用户u新的隶属度和数据库中其他用户的隶属度来计算用户u和其他用户的相似度,并更新数据库。\n[0059] 3、生成推荐\n[0060] 如图4所示,设定邻居选取的相似度阈值为sim-threshold,对任意一个用户u从用户集U中选取满足sim(u,v)>sim-threshold的用户作为用户u的邻居,并记作Neiu;\n[0061] 对Neiu中用户看过用户u未看过的所有电影,通过如下方法预测用户u对电影i的偏好:\n[0062]\n[0063] 式中, 用户u对电影i的预测偏好,pv,i表示用户v对电影i的偏好,该偏好由用户v的行为权重向量w和用户v在电影i上的行为统计向量rv,i的内积来衡量,pu,i为基于用户u在电影i上的已有行为得到的用户u对电影i的偏好,该偏好由权重向量w和用户u在电影i的行为统计向量ru,i的內积来衡量;权重向量w通过交叉验证来获得;\n[0064] 对用户u的对偏好预测结果进行降序排序,选择前N部电影作为用户u的推荐结果。\n[0065] 当然,以上说明仅仅为本发明的较佳实施例,本发明并不限于列举上述实施例,应当说明的是,任何熟悉本领域的技术人员在本说明书的教导下,所做出的所有等同替代、明显变形形式,均落在本说明书的实质范围之内,理应受到本发明的保护。
法律信息
- 2017-11-21
- 2015-04-22
实质审查的生效
IPC(主分类): G06F 17/30
专利申请号: 201410753052.6
申请日: 2014.12.10
- 2015-03-25
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2008-12-24
|
2008-07-25
| | |
2
| |
2011-12-21
|
2011-08-01
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |