著录项信息
专利名称 | 一种地图数据重要度计算方法及装置 |
申请号 | CN201210266470.3 | 申请日期 | 2012-07-30 |
法律状态 | 暂无 | 申报国家 | 中国 |
公开/公告日 | 2014-02-12 | 公开/公告号 | CN103577442A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F16/9537 | IPC分类号 | G;0;6;F;1;6;/;9;5;3;7;;;G;0;6;F;1;6;/;9;0;9查看分类表>
|
申请人 | 腾讯科技(深圳)有限公司 | 申请人地址 | 广东省深圳市南山区高新区科技中一路腾讯大厦35层
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 腾讯科技(深圳)有限公司,腾讯云计算(北京)有限责任公司 | 当前权利人 | 腾讯科技(深圳)有限公司,腾讯云计算(北京)有限责任公司 |
发明人 | 程盛远 |
代理机构 | 深圳市深佳知识产权代理事务所(普通合伙) | 代理人 | 王仲凯 |
摘要
本发明属于互联网技术领域,尤其涉及一种地图数据重要度计算方法及装置。本发明地图数据重要度计算方法包括:从地图兴趣点数据库中获取数据,其中,获取的数据包括地名列表;统计地名列表中地名出现的频率和/或在网页搜索引擎中出现的结果数;将地名出现的频率和/或在网页搜索引擎中出现的结果数转化为对应的分值,根据分值进行重要度排序。本发明地图数据重要度计算方法及装置通过统计兴趣点数据库内部地图数据出现频率及通过搜索引擎的查询结果数进行排序,并对异常的排序数据进行过滤后根据排序分值大小生成地名Rank表,提高了地图数据重要度的覆盖率和准确率,且提高了地图搜索的排序的相关性。
1.一种地图数据重要度计算方法,包括:
从地图兴趣点数据库中获取数据,其中,获取的数据包括地名列表及地名地址对应关系列表;
将地名列表、地名地址对应关系列表进行预处理,生成标准地名表;
根据标准地名表里的地名统计该地名在地名地址对应关系列表中出现的频率,所述出现频率包括:地名列中出现的次数、在地址列中出现的次数或行数,无论该地名在地名列还是在地址列出现,都表明了一次引用;
将地名出现的频率转化为对应的分值,根据分值进行重要度排序。
2.根据权利要求1所述的地图数据重要度计算方法,其特征在于,所述预处理包括清理地名列表中含有的括号以及对地名列表、地名地址对应关系列表进行繁简转换、全半角转换和/或中文数字转换阿拉伯数字。
3.根据权利要求1所述的地图数据重要度计算方法,其特征在于,还包括:
统计地名列表中地名在网页搜索引擎中出现的结果数;
具体包括:通过地名列表构造查询串,将查询串转换为规范化格式,统计规范化查询串在网页搜索引擎中出现的结果数。
4.根据权利要求1所述的地图数据重要度计算方法,其特征在于,在从地图兴趣点数据库中获取数据之后,还包括:
统计地名列表中地名在网页搜索引擎中出现的结果数;
将地名在网页搜索引擎中出现的结果数转化为对应的分值,根据分值进行重要度排序;
其中,所述统计地名列表中地名在网页搜索引擎中出现的结果数步骤后还包括:对异常的结果数进行过滤处理。
5.根据权利要求1或4所述的地图数据重要度计算方法,其特征在于,所述将地名出现的频率转化为对应的分值步骤包括:将统计的地名出现频率转换成相关性可以使用的短区间值。
6.根据权利要求1所述的地图数据重要度计算方法,其特征在于,所述将地名出现的频率转化为对应的分值步骤后还包括:根据转化后的分值大小排序生成地名排序表,并将地名排序表建入搜索引擎的索引程序。
7.一种地图数据重要度计算装置,其特征在于,包括数据获取模块、数据转换模块、数据统计模块和规范化处理模块,所述数据获取模块用于从地图兴趣点数据库中获取数据,其中,获取数据包括地名列表及地名地址对应关系列表;所述数据转换模块用于将地名列表、地名地址对应关系列表进行预处理,生成标准地名表;所述数据统计模块用于根据标准地名表里的地名统计该地名在地名地址对应关系列表中出现的频率,所述出现频率包括:
地名列中出现的次数、在地址列中出现的次数或行数,无论该地名在地名列还是在地址列出现,都表明了一次引用;所述规范化处理模块用于将地名出现的频率转化为对应的分值,根据分值进行重要度排序。
8.根据权利要求7所述的地图数据重要度计算装置,其特征在于,所述数据转换模块进行的预处理包括清理地名列表中含有的括号以及对地名列表、地名地址对应关系列表进行繁简转换、全半角转换和/或中文数字转换阿拉伯数字。
9.根据权利要求7所述的地图数据重要度计算装置,其特征在于,所述数据统计模块还可以用于统计地名列表中地名在网页搜索引擎中出现的结果数,还包括格式转换模块和数据过滤模块,所述格式转换模块用于通过地名列表构造查询串,并将查询串转换为规范化格式;所述数据过滤模块用于对异常的结果数进行过滤处理。
10.根据权利要求7所述的地图数据重要度计算装置,其特征在于,还包括结果生成模块,所述结果生成模块用于根据分值大小排序生成地名排序表,并将地名排序表建入搜索引擎的索引程序。
一种地图数据重要度计算方法及装置\n技术领域\n[0001] 本发明属于互联网技术领域,尤其涉及一种地图数据重要度计算方法及装置。\n背景技术\n[0002] 全面的POI(“Point of Interest”的缩写,兴趣点)信息是导航地图的必备资讯,及时的POI兴趣点能提醒用户路况的分支及周边建筑的详尽信息,每个POI数据中包含地点名称、类别、经度和纬度等地图信息,方便用户查到所需要的各个地方。目前,在地图搜索中,POI数据通常会根据相关性排序,当指定在某个地点做周边搜索或者分类别检索时,由于没有查询词,会利用与中心点的距离和数据重要度排序。POI数据的重要度一般通过离线计算,可以利用的重要度计算信息主要包括两种:一、根据行政级别高低人工赋以不同的数值,例如政府机关类中的国家级和区县级对应不同的数值;二、根据数据来源的质量,对不同的来源赋以不同的分值,例如专题数据和购买数据的分值一般会高于抓取数据的分值。\n[0003] 现有重要度计算方式的缺点在于:一、政府机关类只是整体POI数据的一部分,其它的分类地图数据无法确定一个准确的行政级别, 例如餐馆类,同时,同一个级别下的多条数据重要度也无法区分,所以根据行政级别高低来确定重要度的方法覆盖率较低;二、高质量来源的数据也会存在错误数据,质量高低与数据重要度是两个不同概念,高质量数据不一定重要度较高,且同一来源的数据无法区分重要度的高低,所以通过质量高低获取重要度值的计算方式覆盖率不高且准确度也较低。\n发明内容\n[0004] 本发明提供了一种地图数据重要度计算方法及装置,旨在解决现有技术中地图数据重要度的计算方式覆盖率不高且准确度低的问题。\n[0005] 本发明是这样实现的,一种地图数据重要度计算方法,包括:\n[0006] 从地图兴趣点数据库中获取数据,其中,获取数据包括地名列表;\n[0007] 统计地名列表中地名出现的频率和/或在网页搜索引擎中出现的结果数;\n[0008] 将地名出现的频率和/或在网页搜索引擎中出现的结果数转化为对应的分值,根据分值进行重要度排序。\n[0009] 本发明采取的另一技术方案为:一种地图数据重要度计算装置,包括数据获取模块、数据统计模块和规范化处理模块,所述数据获取模块用于从地图兴趣点数据库中获取数据,其中,获取数据包括地名列表;所述数据统计模块用于统计地名列表中地名出现的频率和/或在网页搜索引擎中出现的结果数;所述规范化处理模块用于将地名出现的频率和/或在网页搜索引擎中出现的结果数转化为对应的分值,根据分值进行重要度排序。\n[0010] 本发明的技术方案具有如下优点或有益效果:本发明地图数据重要度计算方法及装置通过统计POI数据库内部地图数据出现频率及通过搜索引擎的查询结果数进行排序,并对异常的排序数据进行过滤后根据排序分值大小生成地名Rank表,将地名Rank表建入搜索引擎的索引程序供在线的相关性使用,提高了地图数据重要度的覆盖率和准确率,并提高了地图搜索排序的相关性。\n附图说明\n[0011] 附图1是本发明第一实施例的地图数据重要度计算方法的流程图;\n[0012] 附图2是本发明第二实施例的地图数据重要度计算方法的流程图;\n[0013] 附图3是本发明第一实施例的地图数据重要度计算装置的结构示意图;\n[0014] 附图4是本发明第二实施例的地图数据重要度计算装置的结构示意图。\n具体实施方式\n[0015] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。\n[0016] 请参阅图1,是本发明第一实施例的地图数据重要度计算方法的流程图。本发明第一实施例的地图数据重要度计算方法包括以下步骤:\n[0017] S100:从地图POI(“Point of Interest”的缩写,兴趣点)数据库中分别获取两份数据:地名列表和地名地址对应关系列表;\n[0018] 在S100中,地名列表用于通过转换后生成标准地名,地名地址对应关系列表用于统计标准地名的出现次数。\n[0019] S110: 将地名列表和地名地址对应关系列表进行预处理,生成标准地名表;\n[0020] 在S110中,预处理包括清理括号、进行繁简转换、全半角转换和/或中文数字转换阿拉伯数字等处理。地名列表可能含有括号,如“北京航空航天大学(西南门)”、“清华大学(西门)”,括号往往是注释性的内容,如果直接去统计会造成结果偏小,需要把括号连同里面的内容都清除;地名列表和地名地址对应关系列表再经过繁简转换、全半角转换、中文数字转换阿拉伯数字等共四个预处理过程后,生成标准的地名表。\n[0021] S120:根据标准地名表里的地名,统计该地名在地名地址对应关系列表中出现的频率;\n[0022] 在S120中,出现频率包括在地名列中出现的次数、在地址列中出现的次数或行数,无论该地名在地名列还是在地址列出现,都表明了一次引用,相当于PageRank(Google排名运算法则(排名公式)的一部分,是Google用于用来标识网页的等级/重要性的一种方法)的指向,地名在地址或名称里出现的次数,能直接反映一条POI的参考价值,例如 **食堂、**北门 ,引用该实体地名**的次数越多,表明该地名被用作地标指向的机会越多,有一定“权威性”,这与网页搜索PageRank类似,所不同的是,PageRank是被人(网页)提及, 这里的LinkRank是被其它POI提及;其中,仅通过地名出现的行数就可以判断出现频率的大小顺序;在本发明实施方式中,匹配方式采用完全匹配。\n[0023] S130:将统计的地名出现频率值进行规范化处理转化为相对应的分值;\n[0024] 在S130中,将统计的地名出现频率值进行规范化处理转化为相对应的分值为:将长区间、分散的整数值转换成相关性可以使用的短区间值,如0 1或0~10或0~100等,在该~\n短区间值内,分值大小即代表频率值的大小,常用的转换方法有:线性函数或log函数等,可根据频率和相关性分值区间选择一类合适的转换函数。\n[0025] S140:根据分值大小的排序生成(地名,分值)的地名排序Rank表。\n[0026] 在S140中,搜索引擎的离线索引程序会将地名Rank表建入索引,其分值部分供在线相关性使用。地名Rank表中包括地名及其对应的分值等信息,分值高的地名即出现频率越高,表示其重要度越高,通过地名的出现频率计算地图数据的重要度,提高了地图搜索的准确率。在本发明实施方式中,为了避免不同城市之间相互干扰,一个城市的地名数据不会受另一个城市的同名数据的影响,可以限定在某一个城市的封闭数据子集中进行统计;另外, 由于通过搜索引擎查询到的结果数较多的通常重要度会更高,可以进一步限制查询结果中的质量阈值,如排序分值不能太低。本发明通过POI数据库的内部统计排序,可以准确反映地图数据的重要程度,提高地图搜索的排序相关性, 例如:在某封闭POI数据库统计的(地名,结果数),前两条是国家级知名研究所,后两条是地市级研究机构或公司,统计结果如下:\n[0027] 中国科学院自动化研究所 13\n[0028] 中国科学院软件研究所 4\n[0029] 北京辉光技术研究所 1\n[0030] 北京控制工程研究所 1\n[0031] 同理:\n[0032] 北京大学第三医院 24 【三甲】\n[0033] 北京市海淀医院 7 【二甲】\n[0034] 可以看到,分值数的相对大小体现了数据的不同重要度。\n[0035] 请参阅图2,是本发明第二实施例的地图数据重要度计算方法的流程图。本发明第二实施例的地图数据重要度计算方法包括以下步骤:\n[0036] S200:从地图POI数据库获取地名列表;\n[0037] S210:通过地名列表构造查询串,并将查询串进行规范化格式转换;\n[0038] 在S210中,由于程序访问搜索引擎时,对查询串的格式有一定要求,需要把查询串中的单引号、TAB等标点符号转换成空格。\n[0039] S220:统计每条规范化查询串在网页搜索引擎中出现的结果数;\n[0040] 在步骤S220中,还可以统计每条规范化查询串在网页搜索引擎中出现的结果页。\n[0041] S230:对异常的结果数进行过滤处理;\n[0042] 在S230中,由于有的查询串搜索范围比较宽泛,例如“饭店”,这类会有较多的相关网页搜索结果,影响搜索结果的质量;即使含义相对确定的查询串,搜索引擎给出的结果也会存在质量不高甚至不相关的情况,所以需要对异常的结果数和结果页进行过滤,去掉结果数太多的查询或PageRank分值太低的页面,以提高搜索结果的质量。在本发明实施方式中,可以通过只计算前几页的结果PageRank来修正相关性可使用的标准分值。另外,结果数和结果页PageRank计算部分,还可以根据不同城市限定城市和类别两个不同维度,例如根据现实状况,北京市的文化教育类地名结果数高于10万是正常的,而拉萨的文化教育类地名结果数高于10万则是异常的。\n[0043] S240:将过滤结果数进行规范化处理转化为相对应的分值;\n[0044] 在S240中,由于结果总数变化空间大,不便于直接进行排序,将统计结果数进行规范化处理转化为相对应的分值为:将长区间、分散的整数值转换成相关性可以使用的短区间,例如0 1、0~10或0~100等,常用的转换方法有:线性函数或log函数等,可根据结果数~\n和相关性分值区间选择一类合适的转换函数。\n[0045] S250:根据转化后的分值大小排序生成地名Rank表。\n[0046] 在S250中,搜索引擎的离线索引程序会将地名Rank表建入索引,其分值部分供在线相关性使用。地名Rank表中包括地名及其对应的分值等信息,分值高的地名即结果数越高,表示其重要度越高,通过统计地名在网页搜索引擎的查询结果数计算地图数据的重要度,可以准确反映地名数据的重要程度,便于地图搜索的相关性排序,例如,在某搜索引擎统计的(地名,结果数),知名院校vs.成教学院,统计结果如下:\n[0047] 清华大学 10亿\n[0048] 北京城市学院 270万\n[0049] 前者的结果数会对应一个比较高的重要度值,而后者的重要度分值则偏低。\n[0050] 在本发明的实施例中,进行结果数过滤和规范化处理时,可以限定城市、类别两个不同维度,如根据经验,北京市的文化教育类地名结果数高于10万是正常的,而拉萨的文化教育类地名结果数高于10万则是异常的。\n[0051] 在本发明另一实施例中,还可以将第一实施例中POI数据库的内部统计排序和第二实施例中搜索引擎的查询结果数排序根据不同的应用进行组合使用,提高地图搜索的排序相关性。\n[0052] 请参阅图3,是本发明第一实施例的地图数据重要度计算的装置的结构示意图。本发明第一实施例的地图数据重要度计算的装置包括数据获取模块、数据转换模块、数据统计模块、规范化处理模块和结果生成模块,其中,\n[0053] 数据获取模块用于从地图POI(“Point of Interest”的缩写,兴趣点)数据库中获取两份数据:地名列表和地名地址对应关系列表;地名列表用于通过转换后生成标准地名,地名地址对应关系列表用于统计标准地名的出现次数。\n[0054] 数据转换模块用于将地名列表和地名地址对应关系列表据进行预处理,并生成标准地名表;其中,数据转换模块的预处理包括清理括号、进行繁简转换、全半角转换和/或中文数字转换阿拉伯数字等处理。地名列表可能含有括号,如“北京航空航天大学(西南门)”、“清华大学(西门)”,括号往往是注释性的内容,如果直接去统计会造成结果偏小,需要把括号连同里面的内容都清除;地名列表和地名地址对应关系列表还需要经过繁简转换、全半角转换、中文数字转换阿拉伯数字等共四个预处理过程后,生成标准的地名表。\n[0055] 数据统计模块用于根据标准地名表里的地名,统计该地名在地名地址对应关系列表中出现的频率;其中,出现频率包括在地名列中出现的次数、在地址列中出现的次数或行数,无论该地名在地名列还是在地址列出现,都表明了一次引用,相当于PageRank(Google排名运算法则(排名公式)的一部分,是Google用于用来标识网页的等级/重要性的一种方法)的指向,地名在地址或名称里出现的次数,能直接反映一条POI的参考价值,例如 “**”食堂、“**”北门 ,引用该实体地名“**”的次数越多,表明该地名被用作地标指向的机会越多,有一定“权威性”,与网页搜索PageRank类似,所不同的是,PageRank是被人(网页)提及, 这里的LinkRank是被其它POI提及;其中,仅通过地名出现的行数就可以判断出现频率的大小顺序;在本发明实施方式中,匹配方式采用完全匹配。\n[0056] 规范化处理模块用于将统计的地名出现频率值进行规范化处理转化为相对应的分值;其中,规范化处理模块将统计的地名出现频率值进行规范化处理转化为相对应的分值为:将长区间、分散的整数值转换成相关性可以使用的短区间值,如0 1或0~10或0~100~\n等,在该短区间值内,分值大小即代表频率值的大小,常用的转换方法有:线性函数或log函数等,可根据频率和相关性分值区间选择一类合适的转换函数。\n[0057] 结果生成模块用于根据分值大小的排序生成(地名,分值)的地名排序Rank表。搜索引擎的离线索引程序会将地名Rank表建入索引,其分值部分供在线相关性使用。其中,地名Rank表中包括地名及其对应的分值等信息,分值高的地名即出现频率越高,表示其重要度越高,通过地名的出现频率计算地图数据的重要度,提高了地图搜索的准确率。在本发明实施方式中,为了避免不同城市之间相互干扰,一个城市的地名数据不会受另一个城市的同名数据的影响,可以限定在某一个城市的封闭数据子集中进行统计;另外, 由于通过搜索引擎查询到的结果数较多的通常重要度会更高,可以进一步限制查询结果中的质量阈值,如排序分值不能太低。本发明通过POI数据库的内部统计排序,可以准确反映地名数据的重要程度,提高地图搜索的排序相关性, 例如:在某封闭POI数据库统计的(地名,结果数),前两条是国家级知名研究所,后两条是地市级研究机构或公司,统计结果如下:\n[0058] 中国科学院自动化研究所 13\n[0059] 中国科学院软件研究所 4\n[0060] 北京辉光技术研究所 1\n[0061] 北京控制工程研究所 1\n[0062] 同理:\n[0063] 北京大学第三医院 24 【三甲】\n[0064] 北京市海淀医院 7 【二甲】\n[0065] 可以看到,分值数的相对大小体现了数据的不同重要度。\n[0066] 请参阅图4,是本发明第二实施例的地图数据重要度计算的装置的结构示意图。本发明第二实施例的地图数据重要度计算的装置包括数据获取模块、格式转换模块、数据统计模块、数据过滤模块、规范化处理模块和结果生成模块,其中,\n[0067] 数据获取模块用于从地图POI数据库获取地名列表;\n[0068] 格式转换模块用于通过地名列表构造查询串,并将查询串进行规范化格式转换;\n其中,由于程序访问搜索引擎时,对查询串的格式有一定要求,需要把查询串中的单引号、TAB等标点符号转换成空格。\n[0069] 数据统计模块用于逐一统计每条规范化字符串在网页搜索引擎中出现的结果数;\n[0070] 数据过滤模块用于对异常的结果数或/和结果页进行过滤处理;其中,由于有的查询串搜索范围比较宽泛,例如“饭店”,这类会有较多的相关网页搜索结果,影响搜索结果的质量;即使含义相对确定的查询串,搜索引擎给出的结果也会存在质量不高甚至不相关的情况,所以需要对异常的结果数和结果页进行过滤,去掉结果数太多的查询或PageRank分值太低的页面,以提高搜索结果的质量。在本发明实施方式中,可以通过只计算前几页的结果PageRank来修正相关性可使用的标准分值。另外,结果数和结果页PageRank计算部分,还可以根据不同城市限定城市和类别两个不同维度,例如根据现实状况,北京市的文化教育类地名结果数高于10万是正常的,而拉萨的文化教育类地名结果数高于10万则是异常的。\n[0071] 规范化处理模块用于将过滤结果数进行规范化处理转化为相对应的分值。其中,将统计结果数进行规范化处理转化为相对应的分值为:将长区间、分散的整数值转换成相关性可以使用的短区间,例如0 1、0~10或0~100等,常用的转换方法有:线性函数或log函~\n数等,可根据结果数和相关性分值区间选择一类合适的转换函数。\n[0072] 结果生成模块用于根据转化后的分值大小排序生成地名Rank(排序)表,将地名Rank表建入搜索引擎的索引程序,供在线的相关性使用;其中,地名Rank表中包括地名及其对应的分值等信息,分值高的地名即结果数越高,表示其重要度越高,通过统计地名在网页搜索引擎的查询结果数计算地图数据的重要度,可以准确反映地名数据的重要程度,便于地图搜索的相关性排序,例如,在某搜索引擎统计的(地名,结果数),知名院校vs.成教学院,统计结果如下:\n[0073] 清华大学 10亿\n[0074] 北京城市学院 270万\n[0075] 前者的结果数会对应一个比较高的重要度值,而后者的重要度分值则偏低。\n[0076] 在本发明另一实施例中,还可以将第一实施例中POI数据库的内部统计排序和第二实施例中搜索引擎的查询结果数排序根据不同的应用进行组合使用,提高地图搜索的排序相关性。\n[0077] 本发明地图数据重要度计算方法及装置通过统计POI数据库内部地图数据出现频率进行排序及通过搜索引擎的查询结果数进行排序,并对异常的排序数据进行过滤后根据排序分值大小生成地名Rank表,将地名Rank表建入搜索引擎的索引程序供在线的相关性使用,提高地图搜索的排序相关性,并提高地图数据重要度的覆盖率和准确率;另外,本发明地图数据重要度计算方法及装置根据不同的应用进行组合使用,提高地图搜索的排序相关性。\n[0078] 以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
法律信息
- 2021-10-22
专利权的转移
登记生效日: 2021.10.09
专利权人由腾讯科技(深圳)有限公司变更为腾讯科技(深圳)有限公司
地址由518044 广东省深圳市福田区振兴路赛格科技园2栋东403室变更为518000 广东省深圳市南山区高新区科技中一路腾讯大厦35层
专利权人变更为腾讯云计算(北京)有限责任公司
- 2019-02-05
- 2015-05-13
实质审查的生效
IPC(主分类): G06F 17/30
专利申请号: 201210266470.3
申请日: 2012.07.30
- 2014-02-12
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2012-07-04
|
2010-12-31
| | |
2
| |
2009-01-21
|
2008-09-16
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |