一种互联网资源去重的处理方法及系统

发明专利有效专利

申请号：
CN201210239076.0
IPC分类号：G06F17/30
申请日期：
2012-07-11
申请人：
深圳市宜搜科技发展有限公司

基础信息

权利要求

说明书

PDF全文

法律信息

引证文献

著录项信息

专利名称	一种互联网资源去重的处理方法及系统
申请号	CN201210239076.0	申请日期	2012-07-11
法律状态	暂无	申报国家	中国
公开/公告日	2012-11-21	公开/公告号	CN102789494A
优先权	暂无	优先权号	暂无
主分类号	G06F17/30 ? IPC结构图谱： G 物理 G0 仪器 G06 计算；推算；计数 G06F 电数字数据处理（基于特定计算模型的计算机系统入G06N） G06F17/00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法〔6〕 G06F17/30 信息检索；及其数据库结构〔6〕	IPC分类号	G;0;6;F;1;7;/;3;0查看分类表>
申请人	深圳市宜搜科技发展有限公司	申请人地址	广东省深圳市南山区软件产业基地5栋C座403-409 变更专利地址、主体等相关变化，请及时变更，防止失效
权利人	深圳宜搜天下科技股份有限公司	当前权利人	深圳宜搜天下科技股份有限公司
发明人	李锦根;张云飞;黄兴红
代理机构	深圳市凯达知识产权事务所	代理人	任转英

摘要

本发明提供了一种互联网资源去重的处理方法，包括，将资源和该资源的描述信息从互联网上进行下载；将资源的描述信息放入到数据库中，将资源包进行对应的存储，其中对于具有相同的来源网站，同时资源名字和资源版本相同的资源仅保存一条描述信息；用提取程序将资源包中的描述信息提取出来，将提取出所述资源包的描述信息更新到数据库中；利用打分程序针对每条资源的信息度进行打分并给与相应的分数；用分组程序将资源包名和资源的名字相同的资源分成一组；用选优程序将相同的资源按照资源的评分进行选择提供给用户。本发明还提供了一种互联网资源去重的处理系统。采用该方案，降低了资源的重复度，防止用户下载错误资源。

1.一种互联网资源去重的处理方法，其特征在于，包括，
将资源和该资源的描述信息从互联网上进行下载；
将资源的描述信息放入到数据库中，将资源包进行对应的存储，其中对于具有相同的来源网站，同时资源名字和资源版本相同的资源仅保存一条描述信息；
用提取程序将资源包中的描述信息提取出来,将提取出所述资源包的描述信息更新到数据库中；
利用打分程序针对每条资源的信息度进行打分并给与相应的分数；
用分组程序将资源包名和资源的名字相同的资源分成一组；
用选优程序将相同的资源按照资源的评分进行选择提供给用户。
2.根据权利要求1所述的处理方法，其特征在于，对于具有相同的来源网站，同时资源名字和资源版本相同的资源仅保存一条描述信息具体为，
在放入数据库之前用来源网站完整域名、资源名字和资源版本到数据库中去查询，如果发现已存在相同的描述信息，则不插入到数据库中。
3.根据权利要求1所述的处理方法，其特征在于，所述将提取出所述资源包的描述信息更新到数据库中具体为，
在更新时，在数据库的表中加入字段，然后将对应一条资源包的描述信息提取出来，再更新到数据库的表中。
4.根据权利要求1至3任一所述的处理方法，其特征在于，在将资源的描述信息放入到数据库中，将资源包进行对应的存储后，还包括，
将整条资源的所有信息进行一次规整，包括资源包在硬盘下的存入目录。
5.根据权利要求4所述的处理方法，其特征在于，所述资源是android资源安装包。
6.根据权利要求5所述的处理方法，其特征在于，所述资源的描述信息包括资源名字、资源版本、安全信息、资源大小、资源ico图片、以及资源截图；
所述资源包的描述信息包括资源包名、版本、最低支持的操作系统、资源名字、资源的ico图片。
7.根据权利要求1至3任一所述的处理方法，其特征在于，所述数据库为mysql。
8.一种互联网资源去重的处理系统，其特征在于，所述系统包括，
前台处理器，用于将资源和资源的描述信息从互联网上进行下载，以及用于将资源的描述信息放入到数据库中，对于具有相同的来源网站，同时资源名字和资源版本相同的资源仅保存一条描述信息，将资源包存储到存储服务器中；
存储服务器，用于存储资源包；
数据库，存储所述资源的描述信息；
内容处理服务器，用于采用提取程序将资源包中的描述信息提取出来；以及将提取出的资源包的描述信息更新到数据库中；并且利用打分程序针对每条资源的信息度进行打分；以及用分组程序将资源包名和资源的名字相同的资源分成一组；用选优程序将相同的资源按照资源的评分进行选择提供给用户。
9.根据权利要求8所述的处理系统，其特征在于，所述前台处理器对于具有相同的来源网站，同时资源名字和资源版本相同的资源仅保存一条描述信息具体为，所述前台处理器在将资源的描述信息放入数据库之前用来源网站完整域名、资源名字和资源版本到数据库中去查询，如果发现已存在相同的描述信息就不插入到数据库中；
所述前台处理器还用于将整条资源的所有信息进行一次规整，包括资源包在硬盘下的存入目录。
10.根据权利要求8所述的处理系统，其特征在于，所述内容处理服务器用于将提取出所述资源包的描述信息更新到数据库中具体为，
所述内容服务器，用于在更新时，在数据库的表中加入字段，然后将对应一条资源包的描述信息提取出来，再更新到数据库的表中。

一种互联网资源去重的处理方法及系统\n技术领域\n[0001] 本发明涉及网络搜索技术，特别地涉及一种互联网资源去重的处理方法及系统。\n背景技术\n[0002] 目前全球共有3亿台Android设备，2010年12月中旬平均每天的激活设备还只有70万台，到了2011年，Android操作系统增长了250％，平均每天有85万台新设备被激活，其中圣诞节周激活设备数量就有370万台。同时Android应用平均每月下载量高达10亿次，Android市场里的应用数量已经超过45万，Android已经成为一个高速增长的生态系统。\n[0003] 随着应用的增加，搜索引擎会收录不同android厂家、不同android提供商的所有资源，包括android网站上的各种资源，这样会有海量的android资源安装包，但是这些海量的资源包中有大部分是重复的，如果直接提供给搜索的用户，因为用户不会知道安装后的资源信息的内容，用户就会不知道下载哪一个，有可能会下重复的资源。\n[0004] 网络上的android资源安装包的信息是由android开发者给出的，但是会经过部分编辑人员的改动，这样与其原本的名字有很大的偏差，为了解决这种偏差，目前采取的解决方式是从安装包中提取信息来进行信息的补充和校准。但海量信息的校准需要大量的人力，信息的准确度上无法保障。\n发明内容\n[0005] 本发明解决的技术问题在于提供了一种互联网资源去重的处理方法及系统，以解决现有技术中海量信息校准需要大量人力并且准确度无法保障的问题。\n[0006] 为解决上述问题，本发明一种互联网资源去重的处理方法，包括，[0007] 将资源和该资源的描述信息从互联网上进行下载；\n[0008] 将资源的描述信息放入到数据库中，将资源包进行对应的存储，其中对于具有相同的来源网站，同时资源名字和资源版本相同的资源仅保存一条描述信息；\n[0009] 用提取程序将资源包中的描述信息提取出来，将提取出所述资源包的描述信息更新到数据库中；\n[0010] 利用打分程序针对每条资源的信息度进行打分并给与相应的分数；\n[0011] 用分组程序将资源包名和资源的名字相同的资源分成一组；\n[0012] 用选优程序将相同的资源按照资源的评分进行选择提供给用户。\n[0013] 上述的方法中，其中，对于具有相同的来源网站，同时资源名字和资源版本相同的资源仅保存一条描述信息具体为，\n[0014] 在放入数据库之前用来源网站完整域名、资源名字和资源版本到数据库中去查询，如果发现已存在相同的描述信息，则不插入到数据库中。\n[0015] 上述的方法中，其中，所述将提取出所述资源包的描述信息更新到数据库中具体为，\n[0016] 在更新时，在数据库的表中加入字段，然后将对应一条资源包的描述信息提取出来，再更新到数据库的表中。\n[0017] 进一步地，在将资源的描述信息放入到数据库中，将资源包进行对应的存储后，还包括，\n[0018] 将整条资源的所有信息进行一次规整，包括资源包在硬盘下的存入目录。\n[0019] 上述的方法中，其中，所述资源是android资源安装包。\n[0020] 上述的方法中，其中，所述资源的描述信息包括资源名字、资源版本、安全信息、资源大小、资源ico图片、以及资源截图；\n[0021] 所述资源包的描述信息包括资源包名、版本、最低支持的操作系统、资源名字、资源的ico图片。\n[0022] 上述的方法，其中，所述数据库为mysql。\n[0023] 本发明还提供了一种互联网资源去重的处理系统，所述系统包括，[0024] 前台处理器，用于将资源和资源的描述信息从互联网上进行下载，以及用于将资源的描述信息放入到数据库中，对于具有相同的来源网站，同时资源名字和资源版本相同的资源仅保存一条描述信息，将资源包存储到存储服务器中；\n[0025] 存储服务器，用于存储资源包；\n[0026] 数据库，存储所述资源的描述信息；\n[0027] 内容处理服务器，用于采用提取程序将资源包中的描述信息提取出来；以及将提取出的资源包的描述信息更新到数据库中；并且利用打分程序针对每条资源的信息度进行打分；以及用分组程序将资源包名和资源的名字相同的资源分成一组；用选优程序将相同的资源按照资源的评分进行选择提供给用户。\n[0028] 上述的系统，其中，所述前台处理器对于具有相同的来源网站，同时资源名字和资源版本相同的资源仅保存一条描述信息具体为，\n[0029] 所述前台处理器在将资源的描述信息放入数据库之前用来源网站完整域名、资源名字和资源版本到数据库中去查询，如果发现已存在相同的描述信息就不插入到数据库中；\n[0030] 所述前台处理器还用于将整条资源的所有信息进行一次规整，包括资源包在硬盘下的存入目录。\n[0031] 上述的系统，其中，所述内容处理服务器用于将提取出所述资源包的描述信息更新到数据库中具体为，\n[0032] 所述内容服务器，用于在更新时，在数据库的表中加入字段，然后将对应一条资源包的描述信息提取出来，再更新到数据库的表中。\n[0033] 采用上述技术方案，达到了将海量信息中相同的资源去掉，从而解决了相同资源安装包只留一个，大大的降低了资源的重复度；同时，也可以补充部分资源信息的完整度，使资源信息更完整，从而解决了信息不完整，使用户更加了解资源信息；最后，可以使资源信息更加精确，从而解决了因为信息错误而导致用户下载错误资源。\n附图说明\n[0034] 此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：\n[0035] 图1是本发明第一实施例流程图；\n[0036] 图2是本发明第二实施例系统结构图。\n具体实施方式\n[0037] 为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白，以下结合附图和实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。\n[0038] 如图1所示，是本发明第一实施例流程图，提供了一种互联网资源去重的处理方法，本实施例中，所述互联网资源指android手机安装包，该方法运行在计算机上，运用计算机的高运运算功能和自动化的功能来完成，此方式还要网络的支持和数据库程序的支持，以及支持java语言的jdk。该方法具体包括，\n[0039] 步骤S101，将资源从互联网上下载下来，同时将互联网对该资源的描述信息下载下来；所述描述信息包括资源名字、资源版本、安全信息(是指此资源是否有病毒来侵害用户手机)、资源大小、资源ico图片(是指此资源的logo图片，也就是资源的图标)、以及资源截图等；\n[0040] 步骤S102，将资源的描述信息放入到数据库中，对于具有相同的来源网站，同时资源名字和资源版本相同的资源仅保存一条，将资源包放到相应的硬盘目录下；\n[0041] 具体地，在放入数据库之前用来源网站完整域名、资源名字和资源版本到数据库中去查询，如果发现已存在就不插入到库中。\n[0042] 所述数据库可以是mysql,也可以是其他数据库。\n[0043] 同时，将整条资源的所有信息进行一次规整，包括硬盘下的存入目录，具体地，将资源名称中带有的版本信息，将名称中的版本信息去掉，还有一些特殊字符比如“”’[]等这类字符去掉等。\n[0044] 步骤S103，用提取程序将资源包中的信息提取出来,包括资源包名、版本、最低支持的操作系统、资源名字、资源的ico图片；将提取出的信息更新到数据库中；\n[0045] 具体地，在更新时，在数据库中表中加入字段，比如“提取版本”“提取名字”“提取最低支持系统”，然后将对应一条资源包信息提取出来，再更新到数据库表中。\n[0046] 步骤S104，利用打分程序会针对每条资源的信息度不同打出一个分数；具体地，作为一个示例，一条资源的截图有3张，其来源于应用汇，具有logo图，那么可以根据这三项字段，第一项加20分，第二项加6分，第三项加100，这样一条资源下来，总共分数就是\n126分；其它的资源也是一样的规则(截图两张以上20分，一级站点加6分，二级站点加4分，三级站点加2分，其它0分，logo存在就100分，不存在为0分)。\n[0047] 步骤S105，用分组程序将资源包名和资源的名字相同的资源分成一组；若资源包名与资源的名字相同，则证明这两个资源是相同的；\n[0048] 步骤S106，用选优程序将相同的资源按照资源的评分选出一个最优的资源提供给用户。\n[0049] 上述方法中，所述互联网资源可以是android资源安装包，可以是其他应用程序。\n[0050] 如图2所示，是本发明第二实施例系统结构图，提供了一种互联网资源去重的处理系统，所述系统包括，\n[0051] 前台处理器，用于将资源从互联网上下载下来，同时将互联网对该资源的描述信息下载下来，所述描述信息包括资源名字、资源版本、安全信息(是指此资源是否有病毒来侵害用户手机)、资源大小、资源ico图片(是指此资源的logo图片，也就是资源的图标)、以及资源截图等；以及用于将资源的描述信息放入到数据库中，对于具有相同的来源网站，同时资源名字和资源版本相同的资源仅保存一条，将资源包存储到存储服务器中；\n[0052] 具体地，在放入数据库之前会用来源网站完整域名、资源名字和资源版本到数据库中去查询，如果发现已存在就不插入到库中。\n[0053] 所述数据库可以是mysql，也可以是其他数据库。\n[0054] 同时，将整条资源的所有信息进行一次规整，包括硬盘下的存入目录，具体地，将资源名称中带有的版本信息，将名称中的版本信息去掉，还有一些特殊字符比如“”’[]等这类字符去掉等。\n[0055] 存储服务器，用于存储资源包；\n[0056] 数据库，存储所述资源的描述信息；\n[0057] 内容处理服务器，用于采用提取程序将资源包中的信息提取出来，包括资源包名、版本、最低支持的操作系统、资源名字、资源的ico图片；将提取出的信息更新到数据库中；\n利用打分程序会针对每条资源的信息度不同打出一个分数；用分组程序将资源包名和资源的名字相同的资源分成一组；若资源包名与资源的名字相同，则证明这两个资源是相同的；\n用选优程序将相同的资源按照资源的评分选出一个最优的资源提供给用户。\n[0058] 上述说明示出并描述了本发明的一个优选实施例，但如前所述，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
1	WO2007064174A1	暂无	2006-12-01	SYSTEM, APPARATUS AND METHOD FOR PROVIDING SHARED INFORMATION BY CONNECTING A TAG TO THE INTERNET RESOURCE AND COMPUTER READABLE MEDIUM PROCESSING THE METHOD公开	SK COMMUNICATIONS CORP.;IM; Hyuck Jin;KIM; Young Sun;YU; Ji Hyun;CHANG; Mi Joung;LEE; Won Woo;AHN; Joung Mi;CHO; Sang Hyun;KWAK; Young Sun;KIM; Kyoung Soo;LEE; Chun Hee;HAN; Won Sik;CHOI; Do Sung;SHIN; Jee Hoon;LEE; Ji Eun;PARK; Ja Young;YOO; Hyo Jung;AN; In Sung;LEE; Yong Il;YOOK; Hyung Min;CHOI; Jung Nam;JO; Won Jun;BAE; Sung Whan
2	CN102375869A	2012-03-14	2011-08-04	在设备上管理应用程序的系统，方法及装置有效专利	普瑞姆库马尔·朱娜拉

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
该专利没有被任何外部专利所引用！

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供