著录项信息
专利名称 | 行为采集分析方法及系统 |
申请号 | CN200710032901.9 | 申请日期 | 2007-12-27 |
法律状态 | 权利终止 | 申报国家 | 中国 |
公开/公告日 | 2008-07-09 | 公开/公告号 | CN101217392 |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | H04L12/24 | IPC分类号 | H;0;4;L;1;2;/;2;4;;;G;0;6;F;1;7;/;4;0;;;G;0;6;F;1;7;/;3;0查看分类表>
|
申请人 | 华为技术有限公司 | 申请人地址 | 广东省深圳市龙岗区坂田华为总部办公楼
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 华为技术有限公司 | 当前权利人 | 华为技术有限公司 |
发明人 | 余斌 |
代理机构 | 广州三环专利代理有限公司 | 代理人 | 郝传鑫;熊贤卿 |
摘要
本发明公开了一种行为采集分析方法,包括记录门户系统用户对门户系统所展示内容的操作信息,根据所述内容与对预设定特征具有贡献作用的贡献信息的对应关系,以及用于衡量所述操作对所述预设定特征的贡献度量标准,统计所述操作引起所述贡献信息对所述预设定特征的最终贡献值,并根据所述最终贡献值,确定所述预设定特征是否为所述门户系统用户的特征。本发明还公开了一种行为采集分析系统。采用本发明,可实现全方位地对门户系统用户操作行为进行分析,能较准确的细分用户,为该细分的用户部分提供针对性服务,提高服务质量,且简单易行。
行为采集分析方法及系统 \n技术领域\n[0001] 本发明涉及通信领域,尤其涉及一种行为采集分析方法及一种行为采集分析系统。\n背景技术\n[0002] 随着互联网技术的普及,越来越多的用户通过环球网(WEB)、无线应用协议(Wireless Application Protocol,WAP)等方式获取相应的信息,典型的应用场景如下:\n[0003] (1)通过WEB、WAP等方式浏览新闻,如新浪的WEB、WAP网站;\n[0004] (2)通过WEB、WAP、互动式语音应答(Interactive Voice Response,IVR)等方式进行电信增值业务消费,如定购彩铃;\n[0005] (3)通过WEB、WAP、短消息服务(Short Message Service,SMS)等方式进行互动,例如可基于WEB、WAP、SMS等方式发贴的博客(Blog)系统,\n[0006] 如上各应用场景所示,每天都有大量用户通过门户系统来进行信息消费(浏览、互动等),不同用户所获取的信息类别是不同的,如果能够基于用户获取信息的种类的不同对用户行为进行分析,则可以对各细分的用户部分实现特种信息的服务,从而提高服务质量。\n[0007] 现有技术中提供了一种行为采集分析系统,该系统主要采用如图1所示的现有技术的行为采集分析方法,具体为:\n[0008] 101,采集门户系统用户产生消费的话单、通讯记录中记录的操作信息;\n[0009] 102,根据预定义的行为分析策略,对所述采集的操作信息进行分析;\n[0010] 103,根据所述分析结果,确定所述用户特征。\n[0011] 由于现有技术中只对产生消费的话单、通讯记录中记录用户操作信息进行分析,确定分析结果所表征的门户系统用户特征,无法对未产生消费的用户操作信息进行分析,因此,现有技术对门户系统用户操作行为的分析具有局限性,不能准确的细分用户,从而不能对该细分的用户部分提供针对性服务。\n发明内容\n[0012] 本发明实施例所要解决的技术问题在于,提供了一种行为采集分析方法及一种行为采集分析系统,可对门户系统用户对门户系统所展示内容的操作信息进行记录并分析,得到门户系统用户的特征,从而为细分的用户部分提供较准确的细分依据。\n[0013] 为了解决上述技术问题,本发明实施例提出了一种行为采集分析方法,包括:\n[0014] 记录门户系统用户对门户系统所展示内容的操作信息;\n[0015] 根据所述内容中的关键字,查询保存有贡献信息的关键字库;所述贡献信息为对所述预设定特征具有贡献作用的关键字;\n[0016] 判断所述关键字库中是否存在所述内容中的关键字,\n[0017] 若是,则根据所述内容中的关键字以及所述贡献度量标准,统计所述操作引起的所述内容中的关键字对所述预设定特征的最终贡献值;\n[0018] 根据所述最终贡献值,确定所述预设定特征是否为所述门户系统用户的特征。\n[0019] 相应地,本发明实施例还提供了一种行为采集分析系统,包括:\n[0020] 行为采集装置,记录门户系统用户对门户系统所展示内容的操作信息;\n[0021] 查询单元,根据所述内容中的关键字,查询保存有对所述预设定特征具有贡献作用的关键字的关键字库;\n[0022] 判断单元,判断所述关键字库中是否存在所述内容中的关键字;\n[0023] 统计单元,当所述判断为存在所述内容中的关键字时,根据所述内容中的关键字以及所述贡献度量标准,统计所述操作引起的所述内容中的关键字对所述预设定特征的最终贡献值;\n[0024] 确定单元,根据所述最终贡献值,确定所述预设定特征是否为所述门户系统用户的特征。\n[0025] 本发明实施例通过记录门户系统用户对门户系统所展示内容的操作信息,根据所述内容与对预设定特征具有贡献作用的贡献信息的对应关系,以及用于衡量所述操作对所述预设定特征的贡献度量标准,统计所述操作引起所述贡献信息对所述预设定特征的最终贡献值,并根据所述最终贡献值,确定所述预设定特征是否为所述门户系统用户的特征,从而实现全方位地对门户系统用户操作行为进行分析,能较准确的细分用户,为该细分的用户部分提供针对性服务,提高服务质量。\n[0026] 附图说明\n[0027] 图1是现有技术的行为采集分析方法的流程图;\n[0028] 图2是本发明实施例的行为采集分析方法的主要流程图;\n[0029] 图3是本发明实施例的行为采集分析系统的主要结构图;\n[0030] 图4是本发明实施例的行为分析装置33的主要结构图。\n[0031] 具体实施方式\n[0032] 本发明实施例提供了一种行为采集分析方法及系统,可实现可对门户系统用户对门户系统所展示内容的操作信息进行记录并分析,得到门户系统用户的特征,从而为细分的用户部分提供较准确的细分依据。\n[0033] 下面结合附图,对本发明实施例进行详细说明。\n[0034] 图2是本发明实施例的行为采集分析方法的主要流程图,参照该图,该方法主要包括:\n[0035] 201,根据预先设定的行为采集策略,记录门户系统用户(以下简称“用户”)对门户系统所展示内容的操作信息;\n[0036] 其中,所述行为采集策略用于指导行为采集的范围和方式,可包括:\n[0037] A、行为采集范围策略:\n[0038] a1、内容及内容关键字:\n[0039] 对门户系统所展示的每一条内容赋予唯一的区分标识(Identification,ID),即内容ID,内容可以是一篇帖子、一段视频、一首彩铃、一个游戏等;\n[0040] 门户系统所展示的每一条内容可包括由内容提供商(Content Provider,CP)或个人提供的内容关键字,当CP或个人未提供内容关键字时,以内容标题作为内容关键字;\n[0041] a2、对内容的操作:\n[0042] 对门户系统所展示的内容的操作可以包括但不仅限于如下类型:\n[0043] 浏览:用户通过点击等方式查看(听取)内容中的详细信息;\n[0044] 收藏:用户在门户系统上将内容中的信息或内容的统一资源定位符(Uniform Resource Locator,URL)添加到收藏夹,以便于下次访问时快速定位到该收藏的内容;\n[0045] 推荐:用户将内容推荐给第三方(由第三方选择消费并扣除第三方费用);\n[0046] 赠送:用户将内容赠送给第三方(由受赠方选择消费并扣除赠送方费用);\n[0047] 定购:通过某种方式实现用户对内容进行消费的签约关系,例如调用业务 操作支持系统(Bossiness Operation Support System,BOSS)实现用户对内容进行消费的签约关系的建立;\n[0048] 播放:调用流媒体的能力实现点播/直播操作;\n[0049] 下载:调用 下载 服 务器 的 能力 实 现超 文 本传 输 协议(Hypertext TransferProtocol,HTTP)、开放移动联盟(Open Mobile Alliance,OMA)或移动信息设备配置文件(Mobile Information Device Profile,MIDP)等下载,可将内容下载到本地设备(如个人电脑、手持设备或其他终端);\n[0050] 购买:通过话费托收、银行卡付费等方式支付一定费用而拥有对内容进行消费的权利;\n[0051] 彩铃:将内容设为彩铃,第三方拨打时可聆听该彩铃;\n[0052] 其他;\n[0053] B、行为采集方式策略:\n[0054] b1、记录的操作信息:\n[0055] 记录用户对门户系统所展示内容的操作信息可包括用户ID、内容ID、操作类型(如a2中所述)、操作时间、操作信息采集通道等;\n[0056] 其中,操作信息采集通道可包括但不仅限于如下类型:\n[0057] WEB通道:用户以WEB方式访问门户系统;\n[0058] WAP通道:用户以WAP方式访问门户系统;\n[0059] IVR通道:用户以语音方式访问门户系统;\n[0060] 非结构化补充服务数据(Unstructured Supplementary Service Data,USSD)通道:用户以USSD按键方式访问门户系统;\n[0061] SMS通道:用户以SMS方式访问门户系统;\n[0062] WEB客户端(Client)通道:用户以WEB客户端方式访问门户系统;\n[0063] WAP Client通道:用户以WAP Client方式访问门户系统;\n[0064] 其他;\n[0065] b2、记录方式:\n[0066] 通过监测各操作信息采集通道(即用户的访问通道),对b1描述的操作信息以日志方式进行记录(用户操作很频繁,导致操作信息数量庞大),并可将用户的操作信息记录在服务器端的内存中,之后通过后台处理队列定时持久化到行为存储装置中,其中,操作信息采集通道类型可如b1中内容,此处不再赘述;\n[0067] 该步骤201则根据上述行为采集策略对用户的操作信息进行记录;\n[0068] 202,存储所记录的操作信息,由于门户系统所展示内容数量为海量级别,且访问门户系统的用户数量也是海量级别的,因此所记录的操作信息也是海量级别,此时,可采用如下存储机制:\n[0069] 分表(文件)存储,按照用户ID号段进行分表(文件)存储,对不同用户采集的操作信息存储在不同表(文件)中,在具体实现时,可有如下两种方案:\n[0070] S1、手动控制分表存储,可由用户自行编写分表的逻辑代码来实现对所记录的操作信息的分表存储,算法举例:若按照手机号段进行分表,可将用户分成10个号段,那么将建立10张表,手机号码用10模(手机号码除以10取余数),模为0的用户数据放入用户操作积分表0中(如下表2所示),模为1的用户数据放入用户操作积分表1中,以此类推;\n[0071] S2、数据库自动控制分表存储,基于Oracle和DB2的分表存储功能,在建表时指定分表存储策略,直接在建表的时候指定分开存储,以Oracle算法为例:\n[0072] PARTITION BY RANGE(msisdn)\n[0073] (PARTITION BASETAB_PART1 VALUES LESS THAN(′86134′),\n[0074] PARTITION BASETAB_PART2 VALUES LESS THAN(′86135′),\n[0075] PARTITION BASETAB_PART3 VALUES LESS THAN(′86136′),\n[0076] PARTITION BASETAB_PART4 VALUES LESS THAN(′86137′),\n[0077] PARTITION BASETAB_PART5 VALUES LESS THAN(′86138′),\n[0078] PARTITION BASETAB_PART6 VALUES LESS THAN(′86139′),\n[0079] PARTITION BASETAB_PART7 VALUES LESS THAN(′86159′),\n[0080] PARTITION BASETAB_PART8 VALUES LESS THAN(′86160′),\n[0081] PARTITION BASETAB_PART9 VALUES LESS THAN(MAXVALUE))\n[0082] 定时备份/清空过期数据,定时备分在存储装置中清除已完成行为分析的操作信息,或定时清空存储装置中已完成行为分析的操作信息,以保证该存储装置中的足够存储空间来容纳新的操作信息,保持较高的信息读写性能;\n[0083] 203,根据预先设定的行为分析策略,对用户的在所述预先设定的统计时段内的操作信息进行分析,从而得到用户的特征;\n[0084] 其中,所述行为分析策略用于指导行为分析的分析依据与机制,可包括:\n[0085] c1、操作积分标准,该操作积分标准为用户对门户系统所展示内容的操作定义了积分值,在下述内容中则根据该操作积分标准进行处理:\n[0086] 首先预先设定一系列特征,即预设定特征;\n[0087] 定义衡量所述用户操作对预设定特征在贡献度量标准,该贡献度量标准在 具体实施时可表现为操作积分标准,例如,可定义浏览一次积分5分,下载一次积分20分,收藏一次积分10分等,其中,操作积分标准定义的各操作类型与对应积分的关系可由下表1表示:\n[0088] \n[0089] 表1\n[0090] 上述表1可参照备注内容的解释;\n[0091] c2、预设定特征与贡献信息的关系:\n[0092] 定义对预设定特征具有贡献作用的贡献信息,即每个预设定特征之下包括对该预设定特征具有贡献作用的贡献信息的集合(一个或多个),该贡献信息在具体实施时可表现为关键字,而关键字集合形成关键字库,该关键字库表征了预设定特征与下属各关键字的对应关系,例如,预设定特征为“该用户喜欢音乐”,该预设定特征下包括有对“该用户喜欢音乐”具有贡献作用的贡献信息“音乐”、“Mariah Carey”、“尚雯婕”,与c1中描述的操作积分标准协同,当判断为用户操作的内容中的关键字与某个预设定特征下属关键字匹配时,则该操作引起关键字对预设定特征的积分,参照上述两个例子,当用户对内容“MariahCarey’s New Album”(该内容中的关键字为“Mariah Carey”)进行浏览操作,则该浏览操作引起关键字“Mariah Carey”(与内容关键字匹配)对预设定特征“音乐”的积分为5分;\n[0093] c3、预设定特征与阈值:\n[0094] 在上述c1、c2定义的行为分析策略基础上,定义用于确定预设定特征是否为用户的特征的阈值,首先获得在预先设定的统计时段内每个操作引起的所述内容中的关键字(该内容中的关键字与关键字库中某关键字匹配,匹配可以是相同或达到某个近似程度)贡献于预设定特征的积分值,其次叠加该统计时段 内每个操作引起的所述积分值,得到最终积分值,当该最终积分值达到所述阈值时,确定所述用户具有该预设定特征,下面举例说明:\n[0095] 参照上述三个例子,预设定特征“该用户喜欢音乐”具有贡献作用的存在于关键字库中的关键字集合包括“音乐”、“Mariah Carey”、“尚雯婕”(预先设定“Mariah Carey”、“尚雯婕”归属于“音乐”,那么对“Mariah Carey”、“尚雯婕”的相关操作同样对“音乐”累计该相关操作),“该用户喜欢音乐”的积分阈值为500分,统计时段为2008年1月20日0时至\n2008年1月21日0时,赋予浏览一次积分5分、下载一次积分20分,收藏一次积分10分,在统计时段内用户ID为001的用户对“音乐”浏览1次、对“Mariah Carey”浏览1次、收藏1次、下载1次、对“尚雯婕”浏览2次,那么在该统计时段内,该用户001得到的最终积分值为95分,根据行为分析策略,该最终积分值95分未达到预设定特征“该用户喜欢音乐”对应的阈值500分,判断该预设定特征不属于该用户001,其中,当用户进行操作时,可根据表1中的操作积分标准进行积分操作,而对统计时段的积分的统计则可参照下表2:\n[0096] \n[0097] \n[0098] 表2\n[0099] 上述表2可参照备注内容的解释;\n[0100] 此外,行为分析策略中还可以包括:\n[0101] c4、全新/增量分析:\n[0102] 定义各次行为分析是否为增量分析或全新分析,在上述例子中即表示当前行为分析所得最终积分值是否叠加到前次行为分析所得最终积分值之上,从而以两个最终积分值的和值来与所述阈值比较,确定用户的特征;\n[0103] c5、统计时段:\n[0104] 定义各次统计时段的起止时间,可根据长度策略或其他策略定义。\n[0105] 该步骤203则根据上述定义的行为分析策略,对用户的在所述预先设定的统计时段内的操作信息进行分析,从而得到用户的特征,即判断预定义特征是否为用户的特征。\n[0106] 值得说明的是,可同时对某一用户的多个特征通过上述行为分析方法进行确定,也可以同时对多个用户的多个特征通过上述行为分析方法进行确定。\n[0107] 相应地,下面对本发明实施例的行为采集分析系统进行说明。\n[0108] 图3为本发明实施例的行为采集分析系统的主要结构图,参照该图,该结构主要包括策略管理装置31、行为采集装置32、行为分析装置33、行为存储装置34、行为分析结果输出装置35,其中各装置连接关系及功能如下述:\n[0109] 策略管理装置31分别与行为采集装置32、行为分析装置33、行为分析结果输出装置35相连,行为采集装置32、行为分析装置33分别与行为存储装置34相连,行为分析装置\n33与行为分析结果输出装置35相连;\n[0110] 策略管理装置31,用于配置行为采集装置32上的行为采集策略、行为分析装置33上的行为分析策略以及行为分析结果输出装置35上的行为分析结果输出策略,具体包括:\n[0111] (一)行为采集策略,用于指导行为采集的范围和方式,可包括上述A、B所述内容;\n[0112] (二)行为分析策略,用于指导行为分析的分析依据与机制,可包括如上 述c1、c2、c3的内容,还可以包括上述c4、c5的内容;\n[0113] (三)行为分析结果输出策略,包括:\n[0114] 输出方式,采用报表、曲线图、比例图或并列表等方式;\n[0115] 输出内容,输出用户明细、按照关键字对应的用户群输出;\n[0116] 行为采集装置32,用于根据策略管理装置31配置的行为采集策略,记录用户对门户系统所展示内容的操作信息;\n[0117] 行为存储装置34,用于存储行为采集装置32采集的操作信息;\n[0118] 行为分析装置33,用于根据策略管理装置31配置的行为分析策略,对用户的在所述预先设定的统计时段内的操作信息进行分析,从而得到用户的特征;\n[0119] 行为分析结果输出装置35,用于根据策略管理装置32配置的行为分析结果输出策略,输出各用户的特征。\n[0120] 在具体实施时,上述行为分析装置33可包括图4所述的结构,即该行为分析装置\n33可包括查询单元41、判断单元42、统计单元43、确定单元44,其中统计单元43包括获取子单元431、叠加子单元432,确定单元44包括检测子单元441、决定子单元442,各单元连接关系及功能如下述:\n[0121] 查询单元41、统计单元43分别与判断单元42相连,统计单元43与确定单元44相连,获取子单元431与叠加子单元432相连,检测子单元441与决定子单元442相连;\n[0122] 查询单元41,用于根据用户操作内容中的关键字,查询保存有对预设定特征具有贡献作用的关键字的关键字库,例如,预设定特征“该用户喜欢音乐”具有贡献作用的存在于关键字库中的关键字集合包括“音乐”、“Mariah Carey”、“尚雯婕”(预先设定“Mariah Carey”、“尚雯婕”、“音乐”均独立积分),而用户操作内容包括“音乐无极限”、“倾城(尚雯婕单曲)”、“皇台酒业”,“音乐无极限”的关键字“音乐”,“倾城”的关键字“尚雯婕”,“皇台酒业”的关键字“酒”;\n[0123] 判断单元42,用于判断在关键字库中是否存在所述内容中的关键字,参照上例,对于预设定特征“该用户喜欢音乐”,关键字库中存在该预设定特征下属的、与所述内容中关键字相匹配的关键字“音乐”、“尚雯婕”(关键字“酒”非该预设定特征下属的关键字),则判断存在所述内容中的关键字;\n[0124] 获取子单元431,用于当判断单元42判断得到存在所述内容中的关键字时, 获取在该统计时段内每个操作引起的关键字贡献于所述预设定特征的积分值,参照上例,若在预定的统计时段内对于预设定特征“该用户喜欢音乐”,关键字库中存在该预设定特征下属的、与内容中的关键字相匹配的关键字“音乐”、“尚雯婕”,且在该统计时段内用户操作包括对 “音乐无极限”浏览10次,对“倾城”浏览1次、下载1次、推荐1次、赠送1次,那么根据操作积分标准,每个操作引起的贡献于预设定特征“该用户喜欢音乐”的积分值为:\n[0125] 对“音乐无极限”浏览1次:1分;\n[0126] 对“倾城”浏览1次:1分;\n[0127] 对“倾城”下载1次:10分;\n[0128] 对“倾城”推荐1次:5分;\n[0129] 对“倾城”赠送1次:20分;\n[0130] (操作积分标准可根据实际情况设定)\n[0131] 叠加子单元432,用于叠加所述获取子单元431获取的各个操作引起的关键字对预设定特征贡献的最终积分值,参照上例,在统计时段内各操作对预设定特征“该用户喜欢音乐”贡献的最终积分值为46分:对“音乐无极限”浏览10次(共计积分10分)、对“倾城”浏览1次(共计积分1分)、对“倾城”下载1次(共计积分10分)、对“倾城”推荐1次(共计积分5分、对“倾城”赠送1次(共计积分20分);\n[0132] 检测子单元441,用于检测所述最终积分值是否达到预先设定的用于确定所述预设定特征是否为所述用户的特征的阈值,参照上例,当最终积分值为46分,而所述阈值预定为40分,则检测结果为最终积分值达到所述阈值;\n[0133] 决定子单元442,用于当检测子单元441检测到所述最终积分值达到所述阈值时,决定该用户具有上述预设定特征。\n[0134] 另外,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Radom Access Memory,RAM)等。\n[0135] 以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这 些改进和润饰也视为本发明的保护范围。
法律信息
- 2017-02-22
未缴年费专利权终止
IPC(主分类): H04L 12/24
专利号: ZL 200710032901.9
申请日: 2007.12.27
授权公告日: 2014.12.03
- 2014-12-03
- 2008-09-03
- 2008-07-09
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2006-03-08
|
2004-08-30
| | |
2
| |
2007-11-28
|
2006-06-15
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |