著录项信息
专利名称 | 一种基于地理时空数据的移动信息搜索及知识发现系统 |
申请号 | CN201110199082.3 | 申请日期 | 2011-07-15 |
法律状态 | 暂无 | 申报国家 | 中国 |
公开/公告日 | 2011-12-21 | 公开/公告号 | CN102291435A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | H04L29/08 | IPC分类号 | H;0;4;L;2;9;/;0;8;;;G;0;6;F;1;7;/;3;0查看分类表>
|
申请人 | 武汉大学 | 申请人地址 | 湖北省武汉市东湖新技术开发区光谷大道58号关南福星医药园二期2#楼栋24层6室
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 武汉六点整北斗科技有限公司 | 当前权利人 | 武汉六点整北斗科技有限公司 |
发明人 | 郭迟;王霞仙;李玉;周宇 |
代理机构 | 武汉科皓知识产权代理事务所(特殊普通合伙) | 代理人 | 张火春 |
摘要
本发明涉及一种基于地理时空数据的移动信息搜索及知识发现系统。本发明客户端基于Android和ios智能手机设备(两个实现版本),能够获取用户当前所在的坐标、时间、高度、方向等位置数据,并能通过3G网络将这些数据提供给服务器。客户端能从服务器下载用户感兴趣的或用户周边的地理围栏中网络信息的摘要。服务器亦能够根据所搜索到的网络信息与用户位置的关系密切程度,向客户端推送用户与用户所在位置最密切的网络信息摘要。优点如下:在公众定位导航设备普及的情况下,根据用户当前的坐标、时间等位置数据以及位置围栏的社会关联性挖掘结果,重新组织网络信息,形成基于用户位置的网络信息自适应表达。
1.一种基于地理时空数据的移动信息搜索及知识发现系统,其特征在于,包括:
信息搜索服务器:采用Hadoop并行集群架构,运用网络爬虫采集工具进行并行网络信息的采集,根据网络信息爬行入口生成若干爬行任务,依照Hadoop并行集群架构划分给各处理机去获取页面,并对页面文件进行格式解析,爬行深度由系统设置;
知识发现服务器:根据用户定义将地理区域划分为若干位置围栏,同时接收上述信息搜索服务器采集的网络信息,通过位置知识本体对其中包含有多个位置围栏及其附属的相关概念的位置知识进行挖掘提取后给网络信息增加与该位置知识对应的位置标签,并将其以索引形式存储到知识发现服务器数据池中,该知识发现服务器根据网络信息的位置标签,将网络信息摘要映射到各个已设置好的位置围栏中,所述网络信息的摘要包括:标题,时间,正文前若干字,出处网址URL,所述正文前若干字根据用户设定;
信息推送服务器:将根据用户所在位置与上述知识发现服务器数据池中的位置知识本体中各个位置围栏的归属匹配结果,从所述知识发现服务器数据池中提取符合该位置的网络信息摘要,组织该网络信息摘要的发布顺序,对用户实现基于位置的网络信息自适应推送;
客户端:通过GPS定位芯片获得用户所在位置信息,并利用无线网络将位置信息发送给信息推送服务器,同时能接收所述信息推送服务器所推送的网络信息摘要,并将其显示在所述客户端上。
2.根据权利要求1所述的一种基于地理时空数据的移动信息搜索及知识发现系统,其特征在于,所述的信息搜索服务器包括一个预设的爬行数据库以及一个海量数据抓取模块,所述的海量数据抓取模块包括:
网页追踪单元:将用户设定的网页URL地址注入到所述爬行数据库中,实现以该网页为入口的网络信息采集,爬行由该入口地址开始深度遍历有链接的网页,爬行最大深度由用户定义;
内容获取单元:根据爬虫爬行规则根据上述网页追踪单元设定的网页进行访问网页信息,将网页内容进行下载,获取网络信息内容;
格式解析单元:根据下载的网络信息进行格式解析,分析页面的HTML格式,提取页面标题、正文及相关数据内容,形成网络信息摘要,存储到一个设置在格式解析单元内的文本数据库中;
爬行数据库更新单元:若发现上述内容获取单元中的网页URL地址有更新,则将其更新的网络URL地址存储到上述爬行数据库中。
3.根据权利要求1所述的一种基于地理时空数据的移动信息搜索及知识发现系统,其特征在于,所述的知识发现服务器包括:
位置围栏管理模块:根据用户设定,将地理位置划分为若干位置围栏,并基于关联挖掘算法是确定两两位置围栏的关联度;
中文分词模块:所述中文分词模块内建一个通用语境下的中文辞典,然后通过词表切分并根据该中文辞典获得上述设置在格式解析单元内的文本数据库中网络信息的词汇元素;
索引建立模块:根据所述中文分词模块获取的关键词建立以8位字节为基础的逆序索引文件格式,建立索引文件,并将索引文件进行存储;
检索模块:根据位置知识本体运用布尔操作、模糊以及分组查询方式针对上述文本数据库中网络信息中的位置知识的查询,如果网络信息含有某些位置围栏相关的词汇,则将此网络信息标注该位置围栏的位置标签,将文本信息的摘要映射到位置围栏中。
4.根据权利要求1所述的一种基于地理时空数据的移动信息搜索及知识发现系统,其特征在于,所述的位置围栏管理模块中进行地理位置划分的具体方法为:所述位置围栏由用户通过客户端或者从网络信息中提取的位置知识设置“中心-区域式”围栏或者地理多边形围栏, 所述“中心-区域式”围栏为以一个地理坐标为圆心,以半径确定围栏范围,即记录围栏名称,围栏中心点GPS坐标,围栏半径即可;所述地理多边形围栏根据地图标注的实际道路、建筑属性进行设置,即记录围栏的各个顶点GPS坐标;
该位置围栏管理模块基于关联挖掘算法是确定两两位置围栏的关联度的具体步骤如下:建立位置围栏的关联度矩阵Rij,其中每一项rij表示位置围栏i和j的关联度,取
0~1之间的小数,系统最初由管理员根据常识为任意两个围栏设置一个默认的关联度其中 为默认围栏i,j同时出现在同一网络信息的次数,此后根据知识发现服务器统计的两个围栏同时出现在一则网络信息中的次数dij来调整关联度,同时出现次数越多的围栏则关联度越高,其中 并根据用户设定的调整周期进行每个周期的调整计算。
5.根据权利要求1所述的一种基于地理时空数据的移动信息搜索及知识发现系统,其特征在于,所述的客户端包括
客户端通信模块:构建Socket用于维护客户端与服务器之间的无线网络通信;
客户位置定位及位置信息发送模块:客户端调用移动智能手持设备中的GPS和陀螺仪接口,获取当前位置坐标、时间、速度、高度、方向信息,组装后发送给服务器;
客户信息接收模块:收取服务器发送来的网络信息摘要,显示该摘要;
验证模块:用于处理客户端与服务器之间用户身份认证;
数据加密模块:对网络通信中所传递信息进行加密,确保信道安全及用户位置隐私。
6.根据权利要求3所述的一种基于地理时空数据的移动信息搜索及知识发现系统,其特征在于,所述的信息推送服务器包括:
用户位置识别及位置围栏归属判定模块:服务器通过接收用户位置坐标信息,鉴别用户所在或附近的位置围栏;
信息自适应组织模块:服务器根据用户当前位置,优先组织与用户位置最相关的位置围栏中的网络信息摘要,并依据已经建立的位置围栏的关联度依次组织其他位置围栏中的网络信息摘要,网络信息摘要存放与消息队列中等待发出;
信息推送模块:根据消息队列中的内容,将组织好的网络信息摘要发送给客户端。
7.根据权利要求4所述的一种基于地理时空数据的移动信息搜索及知识发现系统,其特征在于,所述位置围栏管理模块采用多粒度分层聚类方法的对于位置围栏进行管理,具体操作步骤如下:所述的位置围栏采用树形层次化管理,并根据地理围栏的社会属性及围栏在同一网页中出现的次数,将围栏进行聚类归并,形成聚类层次树,具体方法如下:
步骤7.1,以用户设定的一个位置围栏为叶子节点,通过分析两两围栏的出现在同一网络信息、出现在同一用户轨迹顺序、位置围栏所属机构的关联性,位置围栏所属机构包括单位性质、活跃人群、用地性质,利用基于基于关联度的聚类算法,对这些围栏集合进行层次化聚类:先将各个围栏作为围栏层次树的叶子层 根据层次聚类的一般思路,每处理一次,得到高一层的聚类结果 最终得到k层位置围栏层次树
层次聚类是一个公开的大众知晓的聚类算法,其
核心是聚类对象两两关联度;
步骤7.2,在不同的社会范畴尺度上,将相近的停留点划分到同一个聚类,聚类层次树,树中的节点代表不同的围栏聚类,不同层次表示不同的地理空间尺度及其所属的社会关系范畴;随后,将不同用户的轨迹映射到这棵树的各个层次,就可以将不同的聚类连接起来,从而得到不同的图模型。
8.根据权利要求4所述的一种基于地理时空数据的移动信息搜索及知识发现系统,其特征在于,所述信息自适应组织模块以及信息推送模块针对k层位置围栏层次树进行信息自适应组织以及信息推送的具体步骤如下:设基于女层位置围栏层次树的信息重组及自适应表达推送算法,其中 表示
第j层中的第i个围栏;
步骤8.1:由信息自适应组织模块根据用户客户端定位结果,调用围栏归属判断算法,获得与用户当前最近的围栏
步骤8.2:将归属于 的信息摘要压入信息推送队列MSG Queue;
步骤8.3:如果 存在子树,则后序遍历其子树各节点,依次将信息摘要压入信息推送队列MSG Queue;
步骤8.4:如果 不存在子树,则返回其父节点;
步骤8.5:重复以上过程,形成从特定叶子节点开始的全书遍历;越先进入MSG Queue消息被认为是与用户当前位置越相关的信息;
步骤8.6:由信息推送模块将信息摘要以出栈方式推送至用户手机客户端。
一种基于地理时空数据的移动信息搜索及知识发现系统\n技术领域\n[0001] 本发明涉及一种移动信息搜索及知识发现系统,尤其是涉及一种基于地理时空数据的移动信息搜索及知识发现系统。\n背景技术\n[0002] 空间位置及其连带的时间信息是反映人类日常生活行为的重要因素。在移动互联网应用高速发展的今天,新一代智能信息服务通过位置时空信息可以更好地理解用户行为,继而不断提升其服务质量。近年来,定位技术与移动互联网相结合,形成了一类称之为“基于位置的服务(Location-Based Service,LBS)(也称位置服务)”的新型移动计算服务模式。这些服务以卫星定位、无线网络定位等多种方式为基础获取用户时空信息,并对大众时空数据进行分析挖掘,最终在用户智能手机、PDA、PND等移动终端设备上实现对用户的自适应表达,满足用户周边兴趣点搜索导航、信息获取、社会交流等广泛需求,是下一代智慧地球及智能社会的核心组件。LBS技术及服务模式已经衍生出了一个蓬勃发展的,以兴趣及创意为核心价值观的新兴信息产业。\n[0003] 人类的日常生产生活天然地产生了大量位置时空数据。通过定位技术将这些数据搜集并分析,最终以服务的形式反馈回人类社会,将有效指导人类社会活动。在网络计算即将出现深层变革的今天,位置信息不再只停留在数据层面,而具有丰富的社会属性和社会意义。位置时空信息的引入,必然改变当前诸多信息系统带给人们的用户体验,使得人类信息系统朝着智能化和普适化的方向迈进。\n[0004] 传统LBS主要集中在位置导航相关应用方面,相应的位置信息、热点事件、兴趣事件等依靠专门方法和专业人员进行维护,这种模式严重制约了位置服务的发展空间。事实上现有的互联网海量信息中存在着大量的位置信息元数据,现有的基于计算机网络的信息发布及获取模式也天然携带了位置元素。因此,位置服务本身并不缺少位置背后的社会信息,而是缺少一个有效整合和挖掘这些信息的知识本体及挖掘方法。\n[0005] 当前地理时空围栏是LBS服务的一个重要应用模式。传统地理围栏技术主要用于位置区域监控。本发明将地理围栏技术延伸为时空位置围栏技术,并用于信息搜索及知识发现。因此,传统的由专家构建围栏的模式已经不适合新型LBS服务的需求。\n发明内容\n[0006] 本发明主要解决将位置信息引入网络信息搜素,形成自适应用户位置的移动信息搜素所存在的技术问题;提供了一种在公众定位导航设备普及的情况下(如智能手机),根据用户当前的坐标、时间、高度、方向等位置数据以及地理围栏的社会关联性挖掘结果,重新组织并提供用户感兴趣的网络信息,形成基于用户位置的信息自适应表达的一种基于地理时空数据的移动信息搜索及知识发现系统。\n[0007] 本发明的上述技术问题主要是通过下述技术方案得以解决的:\n[0008] 一种基于地理时空数据的移动信息搜索及知识发现系统,其特征在于,包括:\n[0009] 信息搜索服务器:采用Hadoop并行集群架构,运用网络爬虫采集工具进行并行网络信息的采集,根据网络信息爬行入口生成若干爬行任务,依照Hadoop并行集群架构划分给各处理机去获取页面,并对页面文件进行格式解析,爬行深度由系统设置;\n[0010] 知识发现服务器:根据用户定义将地理区域划分为若干位置围栏,同时接收上述信息搜索服务器采集的网络信息,通过位置知识本体对其中包含有多个位置围栏及其附属的相关概念的位置知识进行挖掘提取后给网络信息增加与该位置知识对应的位置标签,并将其以索引形式存储到知识发现服务器数据池中,该知识发现服务器根据网络信息的位置标签,将网络信息摘要映射到各个已设置好的位置围栏中,所述网络信息的摘要包括:标题,时间,正文前若干字,出处网址URL,所述正文前若干字根据用户设定;\n[0011] 信息推送服务器:将根据用户所在位置与上述知识发现服务器数据池中的位置知识本体中各个位置围栏的归属匹配结果,从所述知识发现服务器数据池中提取符合该位置的网络信息摘要,组织该网络信息摘要的发布顺序,对用户实现基于位置的网络信息自适应推送;\n[0012] 客户端:通过GPS定位芯片获得用户所在位置信息,并利用无线网络将位置信息发送给信息推送服务器,同时能接收所述信息推送服务器所推送的网络信息摘要,并将其显示在所述客户端上。\n[0013] 本发明涉及一种基于位置的移动信息搜索和知识发现系统,以位置微博的形式体现。系统分为服务器软件和客户端软件两部分组成。\n[0014] 本发明客户端基于Android和ios智能手机设备(两个实现版本),能够获取用户当前所在的坐标、时间、高度、方向等位置数据,并能通过3G网络将这些数据提供给服务器。客户端同时能从服务器下载用户感兴趣的或用户周边的地理围栏网络信息的摘要,用于通过移动客户端浏览信息。\n[0015] 本发明能够建立“中心-区域式”围栏或者地理多边形围栏。地理围栏可由用户通过手机客户端自行设置,也可通过从网络信息中提取的位置信息自动设置。“中心-区域式”围栏以一个地理坐标为圆心,以半径确定围栏范围。地理多边形围栏根据地图标注的实际道路、建筑属性进行设置。地理围栏采用树形层次化管理,并提供一种多粒度分层聚类方法,根据地理围栏的社会属性及围栏在同一网页中出现的次数等,将围栏进行聚类归并,形成聚类层次树。\n[0016] 本发明服务端基于Hadoop体系结构,具有并行数据采集、分析、索引和存储的云计算特征。系统能对中、英文两种语言进行网页全文检索和语言分析,提取网页信息中的位置关键字,并结合位置领域本体标注网页信息的多个位置标签。\n[0017] 本发明能在一个具体的知识范畴下,根据位置领域本体,自动搜索和提取该知识范畴下涉及位置的相关信息,建立若干地理围栏并将这些信息归并到相应的地理围栏中。\n系统能根据用户提供的具体知识范畴和用户搜索信息的位置、时间等相关数据,将与该知识范畴相关的网络信息进行重新组织。通过地理围栏社会属性的动态关联性挖掘组件,建立该知识范畴下网络信息与用户当前所处环境的关联度排序。并根据这种关联度将该知识范畴下的信息提供给用户,形成自适应表达。用户通过智能手机客户端软件进行浏览。\n[0018] 在上述的一种基于地理时空数据的移动信息搜索及知识发现系统,所述的信息搜索服务器包括一个预设的爬行数据库以及一个海量数据抓取模块,所述的海量数据抓取模块包括:\n[0019] 网页追踪单元:将用户设定的网页URL地址注入到所述爬行数据库中,实现以该网页为入口的网络信息采集,爬行由该入口地址开始深度遍历有链接的网页,爬行最大深度由用户定义;\n[0020] 内容获取单元:根据爬虫爬行规则根据上述网页追踪单元设定的网页进行访问网页信息,将网页内容进行下载,获取网络信息内容;\n[0021] 格式解析单元:根据上述下载的网络信息进行格式解析,分析页面的HTML格式,提取页面标题、正文及相关元数据内容,形成网络信息摘要,存储到一个设置在格式解析单元内的文本数据库中;\n[0022] 爬行数据库更新单元:若发现上述内容获取单元中的网页URL地址有更新,则将其更新的网络URL地址存储到上述爬行数据库中。\n[0023] 在上述的一种基于地理时空数据的移动信息搜索及知识发现系统,所述的知识发现服务器包括:\n[0024] 位置围栏管理模块:根据用户设定,将地理位置划分为若干位置围栏,并基于关联挖掘算法是确定两两位置围栏的关联度;\n[0025] 中文分词模块:所述中文分词模块内建一个通用语境下的中文辞典,然后通过词表切分并根据该中文辞典获得上述设置在格式解析单元内的文本数据库中网络信息的词汇元素;\n[0026] 索引建立模块:根据所述中文分词模块获取的关键词建立以8位字节为基础的逆序索引文件格式,建立索引文件,并将索引文件进行存储;\n[0027] 检索模块:根据位置知识本体运用布尔操作、模糊以及分组查询方式针对上述文本数据库中网络信息中的位置知识的查询,如果网络信息含有某些位置围栏相关的词汇,则将此网络信息标注该位置围栏的位置标签,将文本信息的摘要映射到位置围栏中,所述文本信息的摘要包括:标题,时间,正文前若干字,出处网址URL,所述正文前若干字根据用户设定。\n[0028] 在上述的一种基于地理时空数据的移动信息搜索及知识发现系统,所述的位置围栏管理模块中进行地理位置划分的具体方法为:所述位置围栏由用户通过客户端或者从网络信息中提取的位置知识设置 “中心-区域式”围栏或者地理多边形围栏, 所述“中心-区域式”围栏为以一个地理坐标为圆心,以半径确定围栏范围,即记录围栏名称,围栏中心点GPS坐标,围栏半径即可;所述地理多边形围栏根据地图标注的实际道路、建筑属性进行设置,即记录围栏的各个顶点GPS坐标;\n[0029] 该 位 置 围 栏 管 理 模 块 基 于 关 联 挖 掘 算 法 是 确 定 两 两 位置 围 栏 的 关 联 度 的 具 体 步 骤 如 下:建 立 位 置 围 栏 的 关 联 度 矩 阵 ,其中每一项 表示位置围栏i 和j 的关联度,取0~1之间的小数,系统最初由管理员根据常识为任意两个围栏设置一个默认的关联度 ,其中 为默认围栏i,j同时出现在同一网络信息的次数,此后根据知识发现服务器统计的两个围栏同时出现在一则网络信息中的次数 来调整关联度,同时出现次数越多的围栏则关联度越高,其中,并根据用户设定的调整周期进行每个周期的调整计算。\n[0030] 在上述的一种基于地理时空数据的移动信息搜索及知识发现系统,所述的客户端包括\n[0031] 客户端通信模块:构建Socket用于维护客户端与服务器之间的无线网络通信;\n[0032] 客户位置定位及位置信息发送模块:客户端调用移动智能手持设备中的GPS和陀螺仪接口,获取当前位置、时间、速度、高度、方位信息,组装后发送给服务器;\n[0033] 客户信息接收模块:收取服务器发送来的网络信息摘要,显示该摘要;\n[0034] 验证模块:用于处理客户端与服务器之间用户身份认证;\n[0035] 数据加密模块:对网络通信中所传递信息进行加密,确保信道安全及用户位置隐私。\n[0036] 在上述的一种基于地理时空数据的移动信息搜索及知识发现系统,所述的信息推送服务器包括:\n[0037] 用户位置识别及位置围栏归属判定模块:服务器通过接收用户位置坐标信息,鉴别用户所在或附近的位置围栏; \n[0038] 信息自适应组织模块:服务器根据用户当前位置,优先组织与用户位置最相关的位置围栏中的网络信息摘要,并依据上述已经建立的位置围栏的关联度依次组织其他位置围栏中的网络信息摘要,网络信息摘要存放与消息队列中等待发出;\n[0039] 信息推送模块:根据消息队列中的内容,将组织好的网络信息摘要发送给客户端。\n[0040] 在上述的一种基于地理时空数据的移动信息搜索及知识发现系统,所述位置围栏管理模块采用多粒度分层聚类方法的对于位置围栏进行管理,具体操作步骤如下:所述的位置围栏采用树形层次化管理,并根据地理围栏的社会属性及围栏在同一网页中出现的次数,将围栏进行聚类归并,形成聚类层次树,具体方法如下:\n[0041] 步骤7.1,以用户设定的一个位置围栏为叶子节点,通过分析两两围栏的出现在同一网络信息、出现在同一用户轨迹顺序、位置围栏所属机构的关联性,位置围栏所属机构包括单位性质、活跃人群、用地性质,利用基于基于关联度的聚类算法,对这些围栏集合进行层次化聚类:先将各个围栏作为围栏层次树的叶子层{ },根据层次聚类的一般思路,每处理一次,得到高一层的聚类结果{ }…,最终得到k层位置围栏层次树 ,层次聚类是一个公开的大众知晓的聚类\n算法,其核心是聚类对象两两关联度;\n[0042] 步骤7.2,在不同的社会范畴尺度上,将相近的停留点划分到同一个聚类,聚类层次树,树中的节点代表不同的围栏聚类,不同层次表示不同的地理空间尺度及其所属的社会关系范畴;随后,将不同用户的轨迹映射到这棵树的各个层次,就可以将不同的聚类连接起来,从而得到不同的图模型。\n[0043] 在上述的一种基于地理时空数据的移动信息搜索及知识发现系统,所述信息自适应组织模块以及信息推送模块针对k层位置围栏层次树进行信息自适应组织以及信息推送的具体步骤如下:设基于k 层位置围栏层次树\n的信息重组及自适应表达推送算法,其中 表示第j层中的第i个围栏;\n[0044] 步骤8.1:由信息自适应组织模块根据用户客户端定位结果,调用围栏归属判断算法,获得与用户当前最近的围栏 ;\n[0045] 步骤8.2:将归属于 的信息摘要压入信息推送队列MSG Queue;\n[0046] 步骤8.3:如果 存在子树,则后序遍历其子树各节点,依次将信息摘要压入信息推送队列MSG Queue;\n[0047] 步骤8.4:如果 不存在子树,则返回其父节点;\n[0048] 步骤8.5:重复以上过程,形成从特定叶子节点开始的全书遍历;越先进入MSG Queue消息被认为是与用户当前位置越相关的信息;\n[0049] 步骤8.6:由信息推送模块将信息摘要以出栈方式推送至用户手机客户端。\n[0050] 因此,本发明具有如下优点:在公众定位导航设备普及的情况下(如智能手机),根据用户当前的坐标、时间、高度、方向等位置数据以及地理围栏的社会关联性挖掘结果,重新组织并提供用户感兴趣的网络信息,形成基于用户位置的信息自适应表达。\n附图说明\n[0051] 图1是本发明的系统部署结构示意图;\n[0052] 图2是本发明的客户端程序结构图;\n[0053] 图3是本发明中网络信息搜索及位置知识发现部件详细设计结构图;\n[0054] 图4是本发明中网络信息搜索及位置知识发现的流程示意图;\n[0055] 图5是本发明中围栏边界的判断方法示意图;\n[0056] 图6是本发明中地理位置围栏聚类管理的数据结构设计图。\n具体实施方式\n[0057] 下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的说明。\n[0058] 实施例:\n[0059] 首先介绍一下本发明的主要技术背景涉及以下几个方面:(1)以新一代智能手机、智能导航仪为代表的移动互联平台设备已经相当普及。新一代智能操作系统如iphone OS、Android等开发已经形成了社区化,具有良好的软、硬件开发环境支持;(2)WCDMA、CDMAZ000、TD-SCDMA在内的第三代移动通信(3G)网络系统,已逐步取代GSM系统为主的2G移动通信网络体系。同时, 4G技术规范的研究制定,能够满足位置服务中“在任何时间、任何地点通过集成终端使用任意一种网络提供的业务”的通信需求;(3)以Hadoop为代表的云计算开源系统为本发明提供了技术支撑。\n[0060] 参见图1,一种基于地理时空数据的移动信息搜索及知识发现系统,包括:\n[0061] 1.信息搜索服务器:采用Hadoop并行集群架构,运用网络爬虫采集工具进行并行网络信息的采集,根据网络信息爬行入口生成若干爬行任务,依照Hadoop并行集群架构划分给各处理机去获取页面,并对页面文件进行格式解析,爬行深度由系统设置;信息搜索服务器包括一个预设的爬行数据库以及一个海量数据抓取模块,海量数据抓取模块包括:\n[0062] 网页追踪单元:将用户设定的网页URL地址注入到所述爬行数据库中,实现以该网页为入口的网络信息采集,爬行由该入口地址开始深度遍历有链接的网页,爬行最大深度由用户定义;\n[0063] 内容获取单元:根据爬虫爬行规则根据上述网页追踪单元设定的网页进行访问网页信息,将网页内容进行下载,获取网络信息内容;\n[0064] 格式解析单元:根据上述下载的网络信息进行格式解析,分析页面的HTML格式,提取页面标题、正文及相关元数据内容并将地理数据存储到一个设置在格式解析单元内的文本数据库中;\n[0065] 爬行数据库更新单元:若发现上述内容获取单元中的网页URL地址有更新,则将其更新的网络URL地址存储到上述爬行数据库中。\n[0066] 2.知识发现服务器:根据用户定义将地理区域划分为若干位置围栏,同时接收上述信息搜索服务器采集的网络信息,通过位置知识本体对其中包含有多个位置围栏及其附属的相关概念的位置知识进行挖掘提取后给网络信息增加与该位置知识对应的位置标签,并将其以索引形式存储到知识发现服务器数据池中,该知识发现服务器根据网络信息的位置标签,将网络信息映射到各个已设置好的位置围栏中;知识发现服务器包括:\n[0067] 位置围栏管理模块:根据用户设定,将地理位置划分为若干位置围栏,并基于关联挖掘算法是确定两两位置围栏的关联度;位置围栏管理模块中进行地理位置划分的具体方法为:位置围栏由用户通过客户端或者从网络信息中提取的位置知识设置 “中心-区域式”围栏或者地理多边形围栏, 所述“中心-区域式”围栏为以一个地理坐标为圆心,以半径确定围栏范围,即记录围栏名称,围栏中心点GPS坐标,围栏半径即可;所述地理多边形围栏根据地图标注的实际道路、建筑属性进行设置,即记录围栏的各个顶点GPS坐标;该位置围栏管理模块基于关联挖掘算法是确定两两位置围栏的关联度的具体步骤如下:建立位置围栏的关联度矩阵 ,其中每一项 表示位置围栏i和j 的关联度,取0~1之间的小数,系统最初由管理员根据常识为任意两个围栏设置一个默认的关联度 ,其中为默认围栏i,j同时出现在同一网络信息的次数,此后根据知识发现服务器统计的两个围栏同时出现在一则网络信息中的次数 来调整关联度,同时出现次数越多的围栏则关联度越高,其中 ,并根据用户设定的调整周期进行每个周期的调整计算;\n图6是用户处于围栏边界的判断方法示意图。并且,位置围栏管理模块采用多粒度分层聚类方法的对于位置围栏进行管理,具体操作步骤如下:所述的位置围栏采用树形层次化管理,并根据地理围栏的社会属性及围栏在同一网页中出现的次数,将围栏进行聚类归并,形成聚类层次树,具体方法如下:\n[0068] 步骤7.1,以用户设定的一个位置围栏为叶子节点,通过分析两两围栏的出现在同一网络信息、出现在同一用户轨迹顺序、位置围栏所属机构的关联性,位置围栏所属机构包括单位性质、活跃人群、用地性质,利用基于基于关联度的聚类算法,对这些围栏集合进行层次化聚类:先将各个围栏作为围栏层次树的叶子层{ },根据层次聚类的一般思路,每处理一次,得到高一层的聚类结果{ }…,最终得到k层位置围栏层次树 ,层次聚类是一个公开的大众知晓的聚类\n算法,其核心是聚类对象两两关联度;\n[0069] 步骤7.2,在不同的社会范畴尺度上,将相近的停留点划分到同一个聚类,聚类层次树,树中的节点代表不同的围栏聚类,不同层次表示不同的地理空间尺度及其所属的社会关系范畴;随后,将不同用户的轨迹映射到这棵树的各个层次,就可以将不同的聚类连接起来,从而得到不同的图模型。\n[0070] 中文分词模块:所述中文分词模块内建一个通用语境下的中文辞典,然后通过词表切分并根据该中文辞典获得上述设置在格式解析单元内的文本数据库中网络信息的词汇元素;\n[0071] 索引建立模块:根据所述中文分词模块获取的关键词建立以8位字节为基础的逆序索引文件格式,建立索引文件,并将索引文件进行存储;\n[0072] 检索模块:根据位置知识本体运用布尔操作、模糊以及分组查询方式针对上述文本数据库中网络信息中的位置知识的查询,如果网络信息含有某些位置围栏相关的词汇,则将此网络信息标注该位置围栏的位置标签,将文本信息的摘要映射到位置围栏中,所述文本信息的摘要包括:标题,时间,正文前若干字,出处网址URL,所述正文前若干字根据用户设定。\n[0073] 3.信息推送服务器:将根据用户所在位置与上述知识发现服务器数据池中的位置知识本体中各个位置围栏的归属匹配结果,从所述知识发现服务器数据池中提取符合该位置的网络信息摘要,对用户实现基于位置的网络信息自适应推送;信息推送服务器包括:\n[0074] 用户位置识别及位置围栏归属判定模块:服务器通过接收用户位置坐标信息,鉴别用户所在或附近的位置围栏; \n[0075] 信息自适应组织模块:服务器根据用户当前位置,优先组织与用户位置最相关的位置围栏中的网络信息摘要,并依据上述已经建立的位置围栏的关联度依次组织其他位置围栏中的网络信息摘要,网络信息摘要存放与消息队列中等待发出;\n[0076] 信息推送模块:根据消息队列中的内容,将组织好的网络信息摘要发送给客户端。\n[0077] 信息自适应组织模块以及信息推送模块针对k 层位置围栏层次树进行信息自适应组织以及信息推送的具体步骤如下:设基于k 层位置围栏层次树的信息重组及自适应表达推送算法,其中 表\n示第j 层中的第i 个围栏;\n[0078] 步骤8.1:由信息自适应组织模块根据用户客户端定位结果,调用围栏归属判断算法,获得与用户当前最近的围栏 ;\n[0079] 步骤8.2:将归属于 的信息摘要压入信息推送队列MSG Queue;\n[0080] 步骤8.3:如果 存在子树,则后序遍历其子树各节点,依次将信息摘要压入信息推送队列MSG Queue;\n[0081] 步骤8.4:如果 不存在子树,则返回其父节点;\n[0082] 步骤8.5:重复以上过程,形成从特定叶子节点开始的全书遍历;越先进入MSG Queue消息被认为是与用户当前位置越相关的信息;\n[0083] 步骤8.6:由信息推送模块将信息摘要以出栈方式推送至用户手机客户端。\n[0084] 4.客户端:客户端程序主要基于Android和iphone系统开发。通过GPS定位芯片获得用户所在位置信息,并利用无线网络将位置信息发送给信息推送服务器,同时能接收所述信息推送服务器所推送的网络信息,并将其显示在所述客户端上;图2给出了本发明在Android上客户端模块设计图。Android运行在Linux内核上,应用程序是用 Java 编程语言编写,在一个Dalvik Virtual Machine虚拟机(VM)中运行。客户端包括[0085] 客户端通信模块:构建Socket用于维护客户端与服务器之间的无线网络通信;\n[0086] 客户位置定位及位置信息发送模块:客户端调用移动智能手持设备中的GPS和陀螺仪接口,获取当前位置、时间、速度、高度、方位信息,组装后发送给服务器;\n[0087] 客户信息接收模块:收取服务器发送来的网络信息摘要,显示该摘要;\n[0088] 验证模块:用于处理客户端与服务器之间用户身份认证;\n[0089] 数据加密模块:对网络通信中所传递信息进行加密,确保信道安全及用户位置隐私。\n[0090] 本发明实现了一种以位置为中心的信息组织新方法。传统信息搜索及知识发现系统往往以人物或事件为中心,在信息提供的准确性上存在问题,同时不适合移动互联网环境下的移动搜索。本发明以位置为信息搜索的核心概念,满足了移动搜索的需求。同时,本发明能根据用户当前的时空环境自适应地组织网络信息并提供给用户,在信息搜索的准确性、兴趣度等方面带给用户全新的体验。\n[0091] 中国LBS业务尚处于发展起步阶段,呈现出快速增长态势。2010年中国位置服务用户数突破瓶颈,出现井喷式增长,位置服务用户规模达到4270万,市场收入达到24.5亿元。本发明提供了位置服务的一种新模式,结合信息搜索,能够形成巨大的用户市场,带来丰富的经济和社会效益。\n[0092] 本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
法律信息
- 2016-11-23
专利权的转移
登记生效日: 2016.10.31
专利权人由德清知域信息科技有限公司变更为武汉六点整北斗科技有限公司
地址由313299 浙江省湖州市德清县武康镇志远南路425号变更为430000 湖北省武汉市东湖新技术开发区光谷大道58号关南福星医药园二期2#楼栋24层6室
- 2015-01-28
专利权的转移
登记生效日: 2015.01.08
专利权人由武汉大学变更为德清知域信息科技有限公司
地址由430072 湖北省武汉市武昌区珞珈山武汉大学变更为313299 浙江省湖州市德清县武康镇志远南路425号
- 2012-09-05
- 2012-02-08
实质审查的生效
IPC(主分类): H04L 29/08
专利申请号: 201110199082.3
申请日: 2011.07.15
- 2011-12-21
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2009-04-15
|
2008-07-08
| | |
2
| |
2007-10-10
|
2007-05-22
| | |
3
| |
2009-07-08
|
2009-01-22
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |