著录项信息
专利名称 | 一种访问用户的确定方法 |
申请号 | CN201410266055.7 | 申请日期 | 2014-06-13 |
法律状态 | 授权 | 申报国家 | 中国 |
公开/公告日 | 2014-08-20 | 公开/公告号 | CN103995907A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/30 | IPC分类号 | G;0;6;F;1;7;/;3;0;;;H;0;4;L;2;9;/;0;6查看分类表>
|
申请人 | 北京奇艺世纪科技有限公司 | 申请人地址 | 北京市海淀区海淀北一街2号鸿城拓展大厦11层
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 北京奇艺世纪科技有限公司 | 当前权利人 | 北京奇艺世纪科技有限公司 |
发明人 | 郑伟华;傅一峰;周寻 |
代理机构 | 北京集佳知识产权代理有限公司 | 代理人 | 王宝筠 |
摘要
本申请公开了一种网站访问用户的确定方法,包括:获取网站的日志文件中的设备标识和与设备标识关联的用户ID,将关联的用户ID的数量低于第一预设值的设备标识确定为有效设备标识;分别获取有效设备标识所对应每个用户ID的粘度稳定值,将粘度稳定值高于第二预设值的用户ID确定为有效用户ID;将同一有效设备标识所关联的所有有效用户ID确定为同一家庭组。本申请中通过设备标识来将用户ID进行分组的方式,不需要对网站所包括的所有的用户ID进行相似度计算,所以减少了用户ID分组所耗费的计算资源较,节约了计算时间。此外,本申请还可以将使用不同平台的终端设备的同一用户识别为同一家庭组,所以提高了用户的辨识度,使视频推荐和广告投放更加准确。
1.一种网站访问用户的确定方法,其特征在于,包括:
获取所述网站的日志文件中的设备标识和与所述设备标识关联的用户ID,将关联的用户ID的数量低于第一预设值的设备标识确定为有效设备标识;
分别获取所述有效设备标识所对应每个用户ID的粘度稳定值,将所述粘度稳定值高于第二预设值的用户ID确定为有效用户ID;所述粘度稳定值=用户ID关联天数/数据统计总天数;其中,所述数据统计总天数为用于对所述有效设备标识所对应的用户ID进行粘度稳定值计算所需的天数;所述用户ID关联天数为在所述数据统计总天数内,所述有效设备标识与所述用户ID具有关联关系的天数;
将同一所述有效设备标识所关联的所有所述有效用户ID确定为同一家庭组。
2.根据权利要求1所述访问用户的确定方法,其特征在于,还包括:
获取所述家庭组内用户ID的用户行为相似度,将所述行为相似度大于第三预设值的用户ID确定为同一用户。
3.根据权利要求2所述访问用户的确定方法,其特征在于,所述设备标识包括:
IP地址或MAC地址。
4.根据权利要求3所述访问用户的确定方法,其特征在于,获取用户ID包括:
用户登录所述网站的注册ID或cookie ID。
5.根据权利要求4所述访问用户的确定方法,其特征在于,所述获取所述家庭组内用户ID的用户行为相似度,将所述行为相似度大于第三预设值的用户ID确定为同一用户,包括:
获取所述家庭组内每个所述用户ID预设时间内的用户行为的数据;
将所述用户行为的数据向量化处理,获取所述用户ID的用户行为的特征向量;
采用余弦定理算法对所述特征向量进行相似度计算,获取所述家庭组内分组中各个用户ID之间的相似度得分;
将所述相似度得分大于第三预设值的用户ID确定为同一个用户。
6.根据权利要求5所述访问用户的确定方法,其特征在于,所述用户行为的数据,包括:
通过所述用户ID所看过的视频文件的视频类型和/或视频标签。
一种访问用户的确定方法\n技术领域\n[0001] 本发明涉及互联网领域,特别是涉及一种访问用户的确定方法。\n背景技术\n[0002] 访问用户在视频网站的视频观看、特定内容的浏览等用户行为会产生日志文件,在日志文件中详细记录了用户的用户ID和相应的用户行为等相关信息。\n[0003] 随着科学技术的发展和生活水平的提高,登录网站的用户人均可使用网站访问设备的数量越来越高,且网站访问的种类也开始多样化,即,每个用户很可能会使用多个设备以及不同种类的终端设备(如,个人电脑、手机或平板电脑等)来访问同一网站,以进行视频观看等网站访问行为。\n[0004] 由于通过日志文件中的用户行为可以体现用户对于网站特定视频文件等内容的爱好和特定的网站访问习惯;为此,通过对大量的用户ID所对应的用户行为进行相似度计算,就可以把相似度高的用户ID关联起来,即,将用户ID进行分组,从而可以确定这些关联的用户ID属于同一用户(即,同一网站访问者),在确定了访问用户后,无论该用户采用那一个网站访问设备访问了网站,均可以为该用户进行相应的视频推荐和广告投放,从而提高视频推荐和广告投放的针对性。\n[0005] 现有技术中,在进行相似度计算时,需要通过日志文件中的用户ID和相应的用户行为等相关信息,对每个用户ID所对应的用户行为进行预处理(如,向量化处理),然后在通过大量的计算得出各个用户ID之间的相似度,由于在进行用户ID分组计算时,需要的计算的数据体量巨大,所以需要通过大量的计算才能获得,因此进行用户确定的计算复杂度很高,从而使得用户ID分组所耗费的计算资源较多且计算时间较长。\n发明内容\n[0006] 有鉴于此,本申请提供了一种网站访问用户的确定方法,以解决现有技术中,通过进行用户ID分组来确定用户的过程中,耗费大量计算资源和计算时间过长的问题。\n[0007] 为实现上述目的,本申请提供如下技术方案:\n[0008] 一种网站访问用户的确定方法,包括:\n[0009] 获取所述网站的日志文件中的设备标识和与所述设备标识关联的用户ID,将关联的用户ID的数量低于第一预设值的设备标识确定为有效设备标识;\n[0010] 分别获取所述有效设备标识所对应每个用户ID的粘度稳定值,将所述粘度稳定值高于第二预设值的用户ID确定为有效用户ID;\n[0011] 将同一所述有效设备标识所关联的所有所述有效用户ID确定为同一家庭组。\n[0012] 优选的,在本发明实施例中,还包括:\n[0013] 获取所述家庭组内用户ID的用户行为相似度,将所述行为相似度大于第三预设值的用户ID确定为同一用户。\n[0014] 优选的,在本发明实施例中,所述设备标识包括:\n[0015] IP地址或MAC地址。\n[0016] 优选的,在本发明实施例中,获取用户ID包括:\n[0017] 用户登录所述网站的注册ID或cookie ID。\n[0018] 优选的,在本发明实施例中,获取所述有效设备标识所对应用户ID的粘度稳定值,包括:\n[0019] 所述粘度稳定值=用户ID关联天数/数据统计总天数;\n[0020] 其中,所述数据统计总天数为用于对所述有效设备标识所对应的用户ID进行粘度稳定值计算所需的天数;所述用户关联天数为在所述数据统计总天数内,所述有效设备标识与所述用户ID具有关联关系的天数。\n[0021] 优选的,在本发明实施例中,所述获取所述家庭组内用户ID的用户行为相似度,将所述行为相似度大于第三预设值的用户ID确定为同一用户,包括:\n[0022] 获取所述家庭组内每个所述用户ID预设时间内的用户行为的数据;\n[0023] 将所述行为数据向量化处理,获取所述用户ID的用户行为的特征向量;\n[0024] 采用余弦定理算法对所述特征向量进行相似度计算,获取所述家庭组内分组中各个用户ID之间的相似度得分;\n[0025] 将所述相似度得分大于第三预设值的用户ID确定为同一个用户。\n[0026] 优选的,在本发明实施例中,所述用户行为的数据,包括:\n[0027] 通过所述用户ID所看过的视频文件的视频类型和/或视频标签。\n[0028] 从上述的技术方案可以看出,本申请中通过设备标识来将用户ID进行分组的方式,不需要对网站所包括的所有的用户ID进行相似度计算,所以也就减少了用户ID分组所耗费的计算资源较,并且节约了计算时间。\n[0029] 此外,由于通过本申请,还可以将使用不同平台的终端设备的同一用户识别为同一家庭组,所以还有效地提高了用户的辨识度,从而使视频推荐和广告投放更加准确。\n附图说明\n[0030] 为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。\n[0031] 图1为本申请中所述访问用户的确定方法的流程示意图;\n[0032] 图2为本申请中所述访问用户的确定方法的又一流程示意图。\n具体实施方式\n[0033] 为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。\n[0034] 为了解决现有技术中,通过进行用户ID分组来确定用户的过程中,耗费大量计算资源和计算时间过长的问题,本申请提供一种访问用户的确定方法,包括步骤:\n[0035] S11、获取网站的日志文件中的设备标识和与设备标识关联的用户ID,将关联的用户ID的数量低于第一预设值的设备标识确定为有效设备标识;\n[0036] 在本申请中,利用了网站的日志文件,通过日志文件中的信息来确定访问用户的属性;一般的,日志文件中至少会包括有访问用户的用户ID,和访问用户所使用的访问设备的设备标识;具体的,设备标识可以是用户终端(如,个人电脑、手机或平板电脑等)的IP地址或MAC地址等,或者,是路由器或网关等网络接入设备的IP地址或MAC地址等。\n[0037] 在访问用户访问网站时,一般都会以某种用户身份,即用户ID来进行登录,比如,用户ID可以是访问用户在网站自行注册的ID,或者是网站分配给访问用户的cookie ID等。\n网站在生成日志文件时,记录用户ID的同时,还要记录与该用户ID对应的设备标识;在这里,设备标识可以包括用户所使用的设备的IP地址、MAC地址等;此外,日志文件中,还包括有该用户访问网站的过程中通过某一用户ID所看过的视频文件的视频类型和/或视频标签等访问对象的信息数据。\n[0038] 在实际应用中,用户的网站访问过程中,可能是同一家庭成员中的不同用户通过同一用户终端A(如,个人电脑、手机或平板电脑等)访问的网站,此时,虽然有可能使用了不同的用户ID,但是,在日志文件中,这些不同的用户ID都会对应用相同用户终端A的设备标识(如,用户终端的IP地址或MAC地址);或者,也可能是同一家庭的成员通过同一路由器或网关等网络接入设备访问的网站,此时,即使同一家庭的成员分别采用了不同的设备平台(如,个人电脑、手机或平板电脑等访问终端),在日志文件中也会记载为这些访问终端进行网络接入的网络设备的设备标识,比如,所有的访问终端均通过一个路由器B来访问网站,那么,在日志文件中,每个用户ID就都会对应用该路由器B的设备标识,具体的,通过该路由器B访问网站的用户ID都会对应用该路由器B的IP地址,或是该路由器B的MAC地址。\n[0039] 本申请中的核心发明思路为,在日志文件中,将包括有同一具有设备标识的用户ID认为与同一用户具有紧密的关联度(属于同一家庭的家庭成员);也就是说,将日志文件中具有同一设备标识的用户ID划分为一组,从而将日志文件中的所有用户ID以家庭为单位进行分组为家庭组。由于家庭组中的各个成员关系紧密,所以很可能是有相同的观影习惯,喜欢相同类型的视频内容,或是对于某些视频具有共同的观看进度,此外,同一家庭内的各个成员还很有可能具有相同或类似的消费需求;所以以家庭为单位进行分组后,这样,在进行视频推荐和广告投放时,以家庭为单位分组后的用户ID,进行针对性的视频推荐和广告投放,就可以起到良好的视频推荐和广告投放效果。\n[0040] 由于一般的家庭组内的成员数量有限,也就是与设备标识关联的用户ID的数量应在一定的数值内,将该数值设为第一预设值,如果超过了第一预设值那么我们就认为该设备标识对应的是用于公共网络接入的公共网络接入设备,通过该公共网络接入设备访问网站的用户之间并没有紧密的关联度,因此需要将该设备标识滤除。具体的方式为,获取网站的日志文件中的设备标识和与设备标识关联的用户ID,将关联的用户ID的数量低于第一预设值的设备标识确定为有效设备标识;在实际应用中,第一预设值可以为15、20或根据需要进行调节,在此并不做具体的限定。\n[0041] S12、分别获取有效设备标识所对应每个用户ID的粘度稳定值,将粘度稳定值高于第二预设值的用户ID确定为有效用户ID;\n[0042] 其中,所述数据统计总天数为用于对所述有效设备标识所对应的用户ID进行粘度稳定值计算所需的天数;所述用户关联天数为在所述数据统计总天数内,所述有效设备标识与所述用户ID具有关联关系的天数。\n[0043] 由于在实际应用中,会有随机用户的访问,比如,临时了某一设备终端A的其他随机用户,虽然日志文件中该随机用户使用的用户ID也与设备终端A对应,但是,由于该随机用户与设备终端A的所有者关系并不紧密,所以随机用户与真正的家庭组内成员的观影习惯和消费需求并没有关联性,为此,本申请在以家庭为单位进行分组时,要将随机用户的用户ID的滤除,只保留真正的家庭组内成员的用户ID,具体方式为,分别获取有效设备标识所对应每个用户ID的粘度稳定值,将粘度稳定值高于第二预设值的用户ID确定为有效用户ID。这里的粘度稳定值,是指在一定的天数内,有效设备标识与各个用户ID的关联天数,即,用户ID与有效设备标识关联的天数,与数据统计总天数的比值,具体的,粘度稳定值的获取公式可以根据如下公式获取:\n[0044] 粘度稳定值=用户ID关联天数/数据统计总天数;\n[0045] 这样,当从日志文件中所获得的用户ID与有效设备标识关联的天数与与数据统计总天数的比值超过第二预设值时,我们就可以认为该用户ID属于真正的家庭组内成员,并将该用户ID计为有效用户ID。\n[0046] S13、将同一有效设备标识所关联的所有有效用户ID确定为同一家庭组。\n[0047] 在滤除了用于公共网络接入的公共网络接入设备和随机用户后,每个有效设备标识所关的所有有效用户ID即为与该有效设备标识所对应的家庭组内的用户ID。这样,就可以通过将每个家庭组为对象,进行相应的视频推荐和广告投放效果。\n[0048] 由于本申请中,通过设备标识来将用户ID进行分组的方式,不需要对网站所包括的所有的用户ID进行相似度计算,所以也就减少了用户ID分组所耗费的计算资源较,并且节约了计算时间。\n[0049] 此外,由于通过本申请,还可以将使用不同平台的终端设备的同一用户识别为同一家庭组,所以还有效地提高了用户的辨识度,从而使视频推荐和广告投放更加准确。\n[0050] 进一步的,在本申请中,还可以包括以下步骤:\n[0051] S14、获取家庭组内用户ID的用户行为相似度,将行为相似度大于第三预设值的用户ID确定为同一用户。\n[0052] 在划分家庭组后,每个家庭组内包括有具有紧密的关联度的多个用户,为了可以进一步的确定具体的用户,可以在家庭组内的用户ID中进行用户行为相似度的计算,以辨识使用不同平台的终端设备同一用户的各个用户ID,具体的,同一用户分别使用不同的终端设备(如,个人电脑、手机或平板电脑等)通过同一路由器访问了网站,那么,由于不同的终端设备访问网站时会可能使用不同的用户ID,所以,网站的日志文件中,不同的用户ID也有可能属于同一用户,为此,通过用户行为相似度,就可以将在同一家庭组中的多个用户ID中确定哪些用户ID属于同一用户。具体的,可以获取家庭组内用户ID的用户行为相似度,将行为相似度大于第三预设值的用户ID确定为同一用户。\n[0053] 在实际应用中,具体可以包括:\n[0054] S21、获取家庭组内每个用户ID预设时间内的用户行为的数据;\n[0055] 日志文件中用户行为的数据包括通过用户ID所看过的视频文件的视频类型和/或视频标签等信息数据,由于每个用户的具体用户行为还是有所不同的,所以这些信息数据可以根据用户的不同会有有所不同,即,即使用户使用了不同的用户终端(不同的用户终端会产生不同的用户ID),其用户行为也应类似,这样,就可以通过将家庭组内用户行为类似的用户ID确定为同一用户。为此,首先可以在日志文件中获取家庭组内每个用户ID预设时间内的用户行为的数据。\n[0056] S22、将行为数据向量化处理,获取用户ID的用户行为的特征向量;\n[0057] 接着,通过将行为数据向量化处理,来获取每个用户ID的用户行为的特征向量。\n[0058] S23、采用余弦定理算法对特征向量进行相似度计算,获取家庭组内分组中各个用户ID之间的相似度得分;\n[0059] 在进行相似度计算时,具体可以通过采用余弦定理算法对特征向量进行相似度计算,以获取家庭组内分组中各个用户ID之间的相似度得分。\n[0060] S24、将相似度得分大于第三预设值的用户ID确定为同一个用户。\n[0061] 在实际应用中,可以设定一个相似度得分预设值,即,第三预设值,从而将将相似度得分大于第三预设值的用户ID确定为同一个用户。\n[0062] 由于通过上述技术方案,可以将不同的用户ID确定为同一个用户,从而可以进一步的提高了用户的辨识度,从而使视频推荐和广告投放更加准确。\n[0063] 此外,由于在本申请中,相似度的计算是在用户ID数量有限的监听组内计算获得的,所以计算量较小,进而用户ID分组所耗费的计算资源很小且计算用时较少。\n[0064] 本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例提供的装置而言,由于其与实施例提供的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。\n[0065] 对所提供的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。\n对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所提供的原理和新颖特点相一致的最宽的范围。
法律信息
- 2017-04-12
- 2014-09-17
实质审查的生效
IPC(主分类): G06F 17/30
专利申请号: 201410266055.7
申请日: 2014.06.13
- 2014-08-20
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2009-11-04
|
2009-05-31
| | |
2
| |
2013-04-17
|
2012-12-31
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |