著录项信息
专利名称 | 正负序列模式筛选方法在客户购买行为分析中的应用 |
申请号 | CN201510025586.1 | 申请日期 | 2015-01-19 |
法律状态 | 授权 | 申报国家 | 中国 |
公开/公告日 | 2015-06-24 | 公开/公告号 | CN104732419A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06Q30/02 | IPC分类号 | G06Q30/02查看分类表>
|
申请人 | 齐鲁工业大学 | 申请人地址 | 山东省济南市长清西部新城大学科技园大学路35***
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 齐鲁工业大学 | 当前权利人 | 齐鲁工业大学 |
发明人 | 董祥军;徐田田 |
代理机构 | 济南金迪知识产权代理有限公司 | 代理人 | 吕利敏 |
摘要
本发明涉及正负序列模式筛选方法在客户购买行为分析中的应用,提出了一个名为SAP的高效算法来选择出可行的正负序列模式,所述算法的主要思想是通过e‑NSP方法挖掘出所有的正序列模式和负序列模式,然后对每一个序列模式进行筛选,选出可行的正负序列模式。本发明应用在进行客户购买行为分析过程中,不仅利用最小支持度筛选出某一段时间内客户购买比较多的商品,而且还利用了相关系数来筛选出这段时间内与客户购买相关性比较大的商品,这样客户在购买商品时,利用本发明可以向他推荐一些其它客户都会买的并且和此产品相关性比较大的商品,从而增加客户的交易机会,将网站浏览者转变为购买者,提高交叉销售能力,提高客户的忠诚度,以及提高网站的经济效益。
1.正负序列模式筛选方法在客户购买行为分析中的应用方法,其特征在于,包括如下步骤:
(1)用相关系数函数来测量商品和商品之间的关系:
客户每次购买的一种商品为单独的一项,该客户在某一个具体的时间点一次性购买的所有商品为一个元素,所述序列包括一个客户在某一段时间内购买商品所对应的所有元素;ρ代表一个序列中任意两个元素之间相关系数:
如果ρ>0,那么上述两个元素正相关;一次购买的商品越多,另一次购买的商品也越多;
如果ρ=0,那么上述两个元素无相关性;一次购买的商品和另一次购买的商品的购买行为是相互独立的,这两次的购买行为互不影响;
如果ρ<0,那么上述两个元素是负相关;一次购买的商品越多,另一次购买的商品也越少;
所述ρ的范围在-1到1之间,ρ的绝对值越小,那么这两个元素的相关性越小;设置阈值ρmin,即,只选用|ρ|≥ρmin对应的序列;即,
当一个序列中任意两个元素的相关性系数的绝对值均≥ρmin时,则选用该序列;否则,排除该序列;
(2)选择可行的序列模式:
判断一个序列是否是可行的方法是测试任意大小为2的子序列是否是可行的,而这些大小为2的子序列是由一个序列中任意相邻的2个元素构成的,即,如果一个大小为k,其中k>1,的正序列模式或负序列模式P=是可行的,那么要求,,…,也是可行的,定义如下:
定义1.可行的序列模式
一个大小为k(k>1)的正序列模式或负序列模式P=是可行的,如果其中
f()是一个有关支持度、相关性的约束函数;ms是用户设定的最小支持度阈值,用来剪掉非频繁的序列;其中s()代表序列的支持度,s()≠0或1;
依据定义1可知,一个大小为k(k>1)的正序列模式或负序列模式P=,如果不是可行的序列模式,那么该序列模式P是不可行的;
从定义1,如果P=是可行的,那么 必须是可行的序列模式,否则P=将不是可行的序列模式;
(3)利用SAP算法的步骤如下:
第一步,用e-NSP方法挖掘出所有的正序列模式和负序列模式;
第二步,对于每一个大小为2的序列模式,利用上述定义1对所述大小为2的序列模式进行测试,如果该大小为2的序列模式不是可行的序列模式,那么删除该模式和所有包含该模式的序列模式;
第三步,对于大小超过2的序列模式,将其按照每相邻2个元素组合为一个序列,拆分成多个大小为2的序列,利用第二步所述的方法对每个大小为2的序列进行测试,如果每个大小为2的序列都是可行的序列,那么此大小超过2的序列模式则是可行的序列模式;
第四步,按照所述第三步得到所有的可行的序列模式;
(4)SAP算法伪代码如下:
算法SAP
输入:D:客户购买序列数据库;ms:最小支持度;ρmin:相关性阈值;
Output:ASP:可用于分析客户购买行为的序列模式的集合;
正负序列模式筛选方法在客户购买行为分析中的应用
技术领域
[0001] 本发明涉及正负序列模式筛选方法在客户购买行为分析中的应用,属于序列模式挖掘应用的技术领域。
背景技术
[0002] 随着互联网的普及和电子商务业务的发展,网上购物也已经成为人们主要的购物方式之一。我们只需联网操作不出家门即可获得较为满意的商品。然而,随着信息数量的激增,使得网上购物变得复杂,耗时,同时很多大型的电子商务网站,如Amazon、阿里巴巴旗下的淘宝和天猫商城、京东等都积累了大量的客户交易数据。如何充分利用这些数据,获得客户的购物模式,对客户进行个性化的商品推荐,从而更好地提高网站的服务质量和经济效益,是电子商务迫切需要解决的问题。
[0003] 与传统的经营方式相比,电子商务的商家不能直观的去了解客户,获取的相关数据有限(比如客户的注册信息,购买记录等)。通过对大量的客户购买记录进行分析和挖掘,发现客户的频繁访问序列模式,针对不同的客户属性和网上购物步骤,采用不同的商品推荐形式,适时的向客户推荐恰当的商品,并优化电子商务网站商品的摆放位置,可以有效的增加客户的交易机会,将网站浏览者转变为购买者,提高交叉销售能力,提高客户的忠诚度,以及提高网站的服务质量和经济效益。
[0004] 电子商务的个性化商品推荐,它不需要付出很大的成本,只需要网站的内容根据每个客户的特点进行适当的调整,根据每个客户的消费偏好制作较多的个性化商品推荐网页,给客户提供较多的选择。这样也就相当于为每一个网络上的客户建立了一个网络上的商店,向每个客户进行具有针对性的商品推荐,帮助客户从庞大的商品目录中挑选出真正适合自己需要的商品。
[0005] 目前大多数人都是用关联规则分析进行个性化商品推荐,很少有人用序列模式分析来解决这一问题。关联规则分析所要解决的问题是发现哪些商品是客户喜欢一起购买的,客户在一次交易中购买某些商品后还会购买哪些商品,它是发现交易的内部规律的过程,从而使得分析人员能够按照客户的购买兴趣来安排商品的摆放,以增加交易量。而序列模式分析所要解决的问题是客户在完成一次交易之后,在以后的特定时间内,还会购买什么商品,是发现交易之间关系规律的过程,使得售货方能够根据当前的商品买卖情况来预测以后的商品买卖情况,从而能够更好的安排商品的摆放。它的主要目的是研究商品购买的先后关系,找出其中的规律,即不仅需要知道商品是否被购买,而且需要确定该商品与其它商品购买的先后顺序,例如,在线定购过商品A的客户,40%的人会在2个月内订购商品B。
序列模式能够发现数据库中某一段时间内的一个频繁序列,即在这个时间段内哪些商品会被客户购买的比较多,多或少的标准是由最小支持度来决定的。每个序列是按照交易的时间排列的一组集合,可以设置最小支持度来挖掘满足不同频繁程度的序列。但在应用序列模式分析客户购买行为,解决个性化商品推荐问题时,他们仅考虑了已发生的事件,也称为正序列模式(Positive Sequential Pattern,PSP)挖掘。
[0006] 与正序列模式挖掘相比,负序列模式(Negative Sequential Pattern,NSP)挖掘还考虑了未发生事件,为数据分析提供了新的角度,能够更深入地分析和理解数据中的潜在含义。例如:a代表面包,b代表咖啡,c代表茶,d代表糖, 表示一个客户购买序列模式,该模式说明在某一段时间内,该客户在购买了商品a、b后,在没有购买商品c的情况下,购买了商品d。这样的负序列模式有助于更全面地获取数据中隐含的规则和模式,在客户行为分析、医保欺诈检测、缺失基因与疾病的关系等众多应用领域起着不可替代的作用。但是在挖掘负序列模式之后,我们发现很难选出可行的能用于决策的模式,并不是所有的序列模式都能作用于客户购买行为分析,而且挖掘负序列模式后发现之前挖掘的正序列模式可能会误导决策,并且决策制定者还不知道。例如,仅挖掘正序列模式时,如得到
,决策者就可以用它来进行决策。但是现在基于,我们可以获得的负序列模式有和 显然,不是所有的模式都能用于决策。如果选取的决
策模式不包含,说明原来用进行的决策就是误导的,而决策者并不知晓。因此如何选择可行的能用于决策的正负序列模式的选择问题是在挖掘负序列模式之后需要解决的最紧急的问题。
[0007] 虽然有许多论文讨论了关联规则挖掘中的可行性知识发现和选择可行的模式/规则或感兴趣的方法,但是到目前为止还没有发现任何关于如何选择可行的正负序列模式的论文。这可能是因为此问题在挖掘负序列模式之前很难被发现,而且研究负序列模式挖掘的论文非常少,大部分主要集中在如何设计一个挖掘算法和如何提高算法的效率上。
[0008] 以电子商务平台中的网站用户购买订单数据为挖掘的数据源。
[0009] 以5个客户在3个月内的交易为例,如表1是已经整理好的客户购买序列数据库。字母代表的是商品ID。
[0010] 表1 是已经整理好的客户购买序列数据库
[0011]
客户ID 客户购买序列
10
20 <(ad)c(bc)(ae)>
30 <(ef)(ab)(df)cb>
40
50 <(de)>
[0012] 一个客户在某个时间段内所有的交易记录构成一个有序的序列,序列用<>表示。
在序列中,项/项集是有顺序的,每个项都代表交易的一种商品,而元素则是指该客户在某一个具体的时间点一次性购买的所有商品,用{}或()表示,该客户可能在不同的时间段购买同一件商品,即一个项可能在一个序列的不同元素中发生。如表1中ID为20的客户购买序列为<(ad)c(bc)(ae)>,该客户分别在第一次和第四次购物时购买了商品a,其中(ad),c,(bc),(ae)这四个项目集可称为序列的元素,商品a,b,c,d,e则称为项,如果一个元素中只有一个项,则括号可以省略,如该序列中的元素c。
发明内容
[0013] 针对现有技术的不足,本发明提供正负序列模式筛选方法在客户购买行为分析中的应用。本发明中提出一个名为SAP的高效算法来选择出可行的正负序列模式,所述算法的主要思想是通过e-NSP方法挖掘出所有的正序列模式和负序列模式,然后对每一个序列模式进行筛选,选出可行的正负序列模式。通过该算法筛选后得到的序列模式,来分析客户的购买行为,使得售货方能够根据当前的商品买卖情况来预测以后的商品买卖情况,从而能够更好的安排商品的摆放,提高商品销售量。
[0014] 本发明的技术方案如下:
[0015] 正负序列模式筛选方法在客户购买行为分析中的应用,包括如下步骤:
[0016] (1)用相关系数函数来测量商品和商品之间的关系:
[0017] 客户每次购买的一种商品为单独的一项,该客户在某一个具体的时间点一次性购买的所有商品为一个元素,所述序列包括一个客户在某一段时间内购买商品所对应的所有元素;ρ代表一个序列中任意两个元素之间相关系数:
[0018] 如果ρ>0,那么上述两个元素正相关;一次购买的商品越多,另一次购买的商品也越多;
[0019] 如果ρ=0,那么上述两个元素无相关性;一次购买的商品和另一次购买的商品的购买行为是相互独立的,这两次的购买行为互不影响;
[0020] 如果ρ<0,那么上述两个元素是负相关;一次购买的商品越多,另一次购买的商品也越少;
[0021] 所述ρ的范围在-1到1之间,ρ的绝对值越小,那么这两个元素的相关性越小;设置阈值ρmin,即,只选用ρ≥ρmin对应的序列,即,
[0022] 当一个序列中任意两个元素的相关性系数均≥ρmin时,则选用该序列;否则,排除该序列;
[0023] (2)选择可行的序列模式:
[0024] 判断一个序列是否是可行的方法是测试任意大小为2的子序列是否是可行的,而这些大小为2的子序列是由一个序列中任意相邻的2个元素构成的,即,如果一个大小为k,其中k>1,的正序列模式或负序列模式P=是可行的,那么要求,,…,也是可行的,定义如下:
[0025] 定义1.可行的序列模式
[0026] 一个大小为k(k>1)的正序列模式或负序列模式P=是可行的,如果[0027] asp(ei-1,ei)=s()≥ms∧ (ii)
[0028] (f(ei-1,ei,ms,ρmin)=1),
[0029] 其中
[0030]
[0031]
[0032] f()是一个有关支持度、相关性的约束函数;ms是用户设定的最小支持度阈值,用来剪掉非频繁的序列;其中s()代表序列的支持度,s()≠0或1;
[0033] 依据定义1可知,一个大小为k(k>1)的正序列模式或负序列模式P=,如果 不是可行的序列模式,那么该序列模式P是不可行的;
[0034] 从定义1,如果P=是可行的,那么 必须是可行的序列模式,否则P=将不是可行的序列模式;
[0035] (3)利用SAP算法的步骤如下:
[0036] 第一步,用e-NSP方法挖掘出所有的正序列模式和负序列模式;
[0037] 第二步,对于每一个大小为2的序列模式,利用上述定义1对所述大小为2的序列模式进行测试,如果该大小为2的序列模式不是可行的序列模式,那么删除该模式和所有包含该模式的序列模式;
[0038] 第三步,对于大小超过2的序列模式,将其按照每相邻2个元素组合为一个序列,拆分成多个大小为2的序列,利用第二步所述的方法对每个大小为2的序列进行测试,如果每个大小为2的序列都是可行的序列,那么此大小超过2的序列模式则是可行的序列模式;
[0039] 第四步,按照所述第三步得到所有的可行的序列模式;通过这些可行的序列模式来分析客户的购买行为;
[0040] (4)SAP算法伪代码如下:
[0041] 算法SAP
[0042] 输入:D:客户购买序列数据库;ms:最小支持度;ρmin:相关性阈值;
[0043] Output:ASP:可用于分析客户购买行为的序列模式的集合;
[0044] (1)让ASP=Φ;
[0045] (2)用e-NSP方法挖掘得到所有的正序列模式PSPs和负序列模式NSPs,然后将它们存储到集合{PNSP}中;
[0046] (3)for k从2到PSP的最大长度in{PNSP}do{
[0047] (4)for每一个大小为k的模式P=in{PNSP}do{
[0048] (5)用定义1来测试模式P;
[0049] (6)如果P是一个可行的序列模式,那么
[0050] (7)将序列模式P加入到集合ASP中;
[0051] (8)否则
[0052] (9)从{PNSP}中删除模式P以及所有包含P的模式;
[0053] (10)}
[0054] (11)k++;
[0055] (12)}
[0056] (13)返回ASP;通过返回的结果来分析客户的购买行为。
[0057] 本发明的优势在于:
[0058] 本发明应用在进行客户购买行为分析过程中,不仅利用最小支持度筛选出某一段时间内客户购买比较多的商品,而且还利用了相关系数来筛选出这段时间内与客户购买相关性比较大的商品,这样客户在购买商品时,利用本发明可以向他推荐一些其它客户都会买的并且和此产品相关性比较大的商品,从而增加客户的交易机会,将网站浏览者转变为购买者,提高交叉销售能力,提高客户的忠诚度,以及提高网站的经济效益。
具体实施例
[0059] 下面结合实施例对本发明做详细的说明,但不限于此。
[0060] 实施例1、
[0061] 正负序列模式筛选方法在客户购买行为分析中的应用,包括如下步骤:
[0062] (1)用相关系数函数来测量商品和商品之间的关系:
[0063] 客户每次购买的一种商品为单独的一项,该客户在某一个具体的时间点一次性购买的所有商品为一个元素,所述序列包括一个客户在某一段时间内购买商品所对应的所有元素;ρ代表一个序列中任意两个元素之间相关系数:
[0064] 如果ρ>0,那么上述两个元素正相关;一次购买的商品越多,另一次购买的商品也越多;
[0065] 如果ρ=0,那么上述两个元素无相关性;一次购买的商品和另一次购买的商品的购买行为是相互独立的,这两次的购买行为互不影响;
[0066] 如果ρ<0,那么上述两个元素是负相关;一次购买的商品越多,另一次购买的商品也越少;
[0067] 所述ρ的范围在-1到1之间,ρ的绝对值越小,那么这两个元素的相关性越小;设置阈值ρmin,即,只选用ρ≥ρmin对应的序列,即,
[0068] 当一个序列中任意两个元素的相关性系数均≥ρmin时,则选用该序列;否则,排除该序列;
[0069] (2)选择可行的序列模式:
[0070] 判断一个序列是否是可行的方法是测试任意大小为2的子序列是否是可行的,而这些大小为2的子序列是由一个序列中任意相邻的2个元素构成的,即,如果一个大小为k,其中k>1,的正序列模式或负序列模式P=是可行的,那么要求,,…,也是可行的,定义如下:
[0071] 定义1.可行的序列模式
[0072] 一个大小为k(k>1)的正序列模式或负序列模式P=是可行的,如果[0073] asp(ei-1,ei)=s()≥ms∧ (ii)
[0074] (f(ei-1,ei,ms,ρmin)=1),
[0075] 其中
[0076]
[0077]
[0078] f()是一个有关支持度、相关性的约束函数;ms是用户设定的最小支持度阈值,用来剪掉非频繁的序列;其中s()代表序列的支持度,s()≠0或1;
[0079] 依据定义1可知,一个大小为k(k>1)的正序列模式或负序列模式P=,如果 不是可行的序列模式,那么该序列模式P是不可行的;
[0080] 从定义1,如果P=是可行的,那么 必须是可行的序列模式,否则P=将不是可行的序列模式;
[0081] (3)利用SAP算法的步骤如下:
[0082] 第一步,用e-NSP方法挖掘出所有的正序列模式和负序列模式;
[0083] 第二步,对于每一个大小为2的序列模式,利用上述定义1对所述大小为2的序列模式进行测试,如果该大小为2的序列模式不是可行的序列模式,那么删除该模式和所有包含该模式的序列模式;
[0084] 第三步,对于大小超过2的序列模式,将其按照每相邻2个元素组合为一个序列,拆分成多个大小为2的序列,利用第二步所述的方法对每个大小为2的序列进行测试,如果每个大小为2的序列都是可行的序列,那么此大小超过2的序列模式则是可行的序列模式;
[0085] 第四步,按照所述第三步得到所有的可行的序列模式;通过这些可行的序列模式来分析客户的购买行为;
[0086] (4)SAP算法伪代码如下:
[0087] 算法SAP
[0088] 输入:D:客户购买序列数据库;ms:最小支持度;ρmin:相关性阈值;
[0089] Output:ASP:可用于分析客户购买行为的序列模式的集合;
[0090] (1)让ASP=Φ;
[0091] (2)用e-NSP方法挖掘得到所有的正序列模式PSPs和负序列模式NSPs,然后将它们存储到集合{PNSP}中;
[0092] (3)for k从2到PSP的最大长度in{PNSP}do{
[0093] (4)for每一个大小为k的模式P=in{PNSP}do{
[0094] (5)用定义1来测试模式P;
[0095] (6)如果P是一个可行的序列模式,那么
[0096] (7)将序列模式P加入到集合ASP中;
[0097] (8)否则
[0098] (9)从{PNSP}中删除模式P以及所有包含P的模式;
[0099] (10)}
[0100] (11)k++;
[0101] (12)}
[0102] (13)返回ASP;通过返回的结果来分析客户的购买行为。
[0103] 其中所述客户购买行为分析,其中序列模式分析的侧重点在于分析数据间的前后或因果关系。就是在时间有序的事务集中,找到那些“一些项跟随另一些项”的内部事务模式。例如:9个月以前购买奔腾Pc的客户很可能在一个月内订购新的CPU芯片。再例如,购买了PC的客户,可能接着买内存芯片,再买CD—ROM。
[0104] 通过从客户购买记录中挖掘出很多客户在一段时间内都会购买并且相关性比较大的商品,来便于电子商务的组织者预测客户的行为对客户提供个性化服务,发现什么商品会在另外一些商品购买后购买,从而可以向客户推荐一些其它客户都会买的并且和此产品相关性比较大的产品,把这些商品可以放到最显眼的位置。例如,当客户在线购买一台个人电脑时,系统可能根据以前挖掘出来的序列模式建议他考虑同时购买其他的一些东西,比如“购买这种个人电脑的人在三个月之内很可能要再买某种特殊的打印机或CD-ROM”,可以送给用户一个短期优惠券,从而促进产品销售。而负序列模式中的负项,即客户不购买的商品,我们则不需要向客户推荐,例如,<智能手机, 内存卡>该序列模式,当客户购买智能手机时,系统会向客户推荐购买内存卡而不推荐照相机,因为购买智能手机的人,很可能在三个月内再购买内存卡,而不购买照相机。
[0105] 通过对客户购买行为进行分析,发现交易之间的关系规律,不仅可以根据当前的商品买卖情况来预测以后的商品买卖情况,还可以更好的安排商品的摆放,从而提高商品销售量。法律信息
- 2023-03-10
专利权的转移
登记生效日: 2023.02.24
专利权人由齐鲁工业大学变更为山东元竞信息科技有限公司
地址由250353 山东省济南市长清西部新城大学科技园大学路3501号变更为250000 山东省济南市中国(山东)自由贸易试验区济南片区经十路7000号汉峪金融商务中心A7-4号办公楼17层1799室
- 2018-04-27
- 2015-07-22
实质审查的生效
IPC(主分类): G06Q 30/02
专利申请号: 201510025586.1
申请日: 2015.01.19
- 2015-06-24
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2012-08-08
|
2012-03-13
| | |
2
| |
2008-06-25
|
2007-12-25
| | |
3
| |
2009-07-29
|
2009-03-09
| | |
4
| | 暂无 |
2000-03-31
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |