著录项信息
专利名称 | 一种运单地址分级方法及装置 |
申请号 | CN201410174568.5 | 申请日期 | 2014-04-28 |
法律状态 | 暂无 | 申报国家 | 中国 |
公开/公告日 | 2015-11-04 | 公开/公告号 | CN105022748A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F16/29 | IPC分类号 | G;0;6;F;1;6;/;2;9;;;G;0;6;F;1;6;/;9;5;3;7;;;G;0;6;F;1;7;/;2;7查看分类表>
|
申请人 | 北京图盟科技有限公司 | 申请人地址 | 浙江省杭州市滨江区长河街道网商路699号4号楼5楼508室
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 阿里巴巴(中国)有限公司 | 当前权利人 | 阿里巴巴(中国)有限公司 |
发明人 | 周强;刘超;翁楚昊;吴克贤 |
代理机构 | 北京领科知识产权代理事务所(特殊普通合伙) | 代理人 | 张丹 |
摘要
本发明涉及地址分级处理技术领域,尤其涉及一种运单地址分级方法及装置,用以解决现有技术中针对特定的运单中的地址,可能会对一些常用地名错分,降低分词成功率,不利于后续根据分级结果查找坐标的问题,所述方法包括:接收运单地址并进行规范化处理,得到用户地址;对所述用户地址进行分词,并对分词结果赋予词性;根据所述分词结果和对应词性,分别确定所述分词结果是否为行政区划、道路/兴趣点POI、楼栋单元号,若是,则记录本次处理结果;否则,将所述分词结果作为描述性信息;遍历所述分词结果,将处理后的分词结果重新组合为完整运单地址。
1.一种运单地址分级方法,其特征在于,该方法包括:
接收运单地址并进行规范化处理,得到用户地址;
对所述用户地址进行分词,并对分词结果赋予词性;
根据所述分词结果和对应词性,分别确定所述分词结果是否为行政区划、道路/兴趣点POI、楼栋单元号,若是,则记录本次处理结果;否则,将所述分词结果作为描述性信息;
遍历所述分词结果,将处理后的分词结果重新组合为完整运单地址;
所述分别确定所述分词结果是否为行政区划、道路/兴趣点POI、楼栋单元号,包括:在预先设定的分词词典中分别查询所述分词结果是否有对应行政区划、道路/兴趣点POI、楼栋单元号记载内容,其具体包括:
若所述分词词典中查询所述分词结果没有对应行政区划记载内容,则以行政区划规则处理所述分词,并对处理后的结果再次在所述分词词典中查询所述分词结果是否有对应行政区划记载内容,若是,记录本次处理结果;否则,继续下列步骤;在所述分词词典中查询所述分词结果是否有对应道路/兴趣点POI记载内容,若是,则记录本次处理结果;否则,以道路/兴趣点POI规则处理所述分词,并对处理后的结果再次在所述分词词典中查询所述分词结果是否有对应道路/兴趣点POI记载内容,若是,记录本次处理结果;否则,继续下列步骤;
在所述分词词典中查询所述分词结果是否有对应楼栋单元号记载内容。
2.如权利要求1所述的方法,其特征在于,所述对所述用户地址进行分词,并对分词结果赋予词性,包括:
对所述用户地址与预先设定的分词词典进行匹配,根据正向最大匹配进行分词;并对匹配成功的所述分词结果给定不同的类别作为所述分词结果的词性。
3.如权利要求1~2任一所述的方法,其特征在于,所述分词词典根据如下方式设定:
获取地图数据库中原始名称行政区划、道路、POI名称并归类,将同一类所述名称归类为所述分词词典的一个词性;
将所述名称、对应词性编译后形成所述分词词典。
4.如权利要求1~2任一所述的方法,其特征在于,所述接收运单地址并进行规范化处理,得到用户地址,包括:
接收输入的运单地址,并去除其中无效字符,按照省、市、区县的方式拼接成一个符合用户书写习惯的用户地址。
5.一种运单地址分级装置,其特征在于,所述装置包括:
规范化处理模块,用于接收运单地址并进行规范化处理,得到用户地址;
分词模块,用于对所述用户地址进行分词,并对分词结果赋予词性;
地址分级模块,用于根据所述分词结果和对应词性,分别确定所述分词结果是否为行政区划、道路/兴趣点POI、楼栋单元号,若是,则记录本次处理结果;否则,将所述分词结果作为描述性信息;
组合模块,用于将处理后的分词结果重新组合为完整运单地址;
所述地址分级模块,用于在预先设定的分词词典中分别查询所述分词结果是否有对应行政区划、道路/兴趣点POI、楼栋单元号记载内容,其包括:
行政区划子模块,用于在预先设定的分词词典中查询所述分词结果是否有对应行政区划记载内容,如无,则以行政区划规则处理所述分词,并对处理后的结果再次在所述分词词典中查询所述分词结果是否有对应行政区划记载内容,若是,记录本次处理结果;
道路/POI子模块,用于在预先设定的分词词典中查询所述分词结果是否有对应道路/兴趣点POI记载内容,若是,则记录本次处理结果;否则,以道路/兴趣点POI规则处理所述分词,并对处理后的结果再次在所述分词词典中查询所述分词结果是否有对应道路/兴趣点POI记载内容,若是,记录本次处理结果;
楼栋单元号子模块,用于在所述分词词典中查询所述分词结果是否有对应楼栋单元号记载内容。
6.如权利要求5所述的装置,其特征在于,所述分词模块,用于对所述用户地址与预先设定的分词词典进行匹配,根据正向最大匹配进行分词;并对匹配成功的所述分词结果给定不同的类别作为所述分词结果的词性。
一种运单地址分级方法及装置\n技术领域\n[0001] 本发明涉及地址分级处理技术领域,尤其涉及一种运单地址分级方法及装置。\n背景技术\n[0002] 现有的地址信息在社会活动中无处不在,如同人类生活不可缺少的空气和水一\n样。据统计,80%的信息与空间有关系,而关系的主要纽带就是地址信息。这些信息几乎涉及到了所有政府部门、企事业单位和社会公众,如公安户籍、民政地名、国土地籍、工商税务法人单位、综合部门统计信息等等,无不包含着地址信息。\n[0003] 目前,尽管这些地址描述信息已经实现了数字化,但由于缺少空间定位,故而影响了管理的效率,制约了专题信息之间的沟通和集成使用。只有将这些地址信息转换成空间\n坐标,专题信息才能与地理信息叠加,才能利用GIS软件的可视化和空间分析功能辅助用户应用。\n[0004] 目前已有一些实现地址匹配的方法,针对符合标准描述的地址信息,例如“北京市海淀区北太平路16号”采用城市名+区名+道路名+门牌号码的表述方式。而实际情况是,在地址描述中存在着各种各样的表达方式,例如“北京市五棵松中国人民解放军总医院”、“北京市石景山区国际雕塑公园”、“北京市石景山区永乐小区”、“北京市丰台区总部基地11区\n19号楼”等,在很多的地址信息中人们更习惯于采用单位名、标志地物名称等来进行描述。\n同时在国内大多数城市的实际情况中,存在大量的地址没有标准门牌号码的情况。由此,对于表述不规范、一致性差的地址信息,采用上述方法很难对地址信息进行有效地匹配和空\n间定位。\n[0005] 现有的构建地址数据库技术存在若干缺陷。现有的地址数据库在建构时只是利用\n词典、词表、后缀关键字列表和人工总结的方式将接收到的地址数据分词后分类入地址数\n据库,其往往是通过人工来适应接收到的地址数据,举例说明:若接收到的地址为“中关村大街南100号”时,其首先通过词典、词表、后缀关键字列表,进行分词,如,后缀关键字列表可能是:“街”、“道”、“路”、“号”等,那么在遇到如“街”、“道”、“路”、“号”等关键字时,即在关键字后进行分词,举例说明:若接收到的地址为“中关村大街南100号”,则通过后缀关键字列表,将该地址分词为“中关村大街”、“南”、“100号”;在分词结束后,再通过人工适应的方式,为分词后的地址信息加入属性,其属性标注顺序为:道路名-方位名-门牌名,如在“中关村大街”中加入属性为道路名、“南”加入方位名、“100号”中加入属性为门牌名。然而,若接收到的地址为“中关村大街100号南”,除通过上述分词将其分为“中关村大街”、“100号”、“南”后,还要为该分词后的地址信息添加新的属性标注顺序为:道路名-门牌名-方位名,并对该分词后的地址加入属性,如在“中关村大街”中加入属性为道路名、“100号”中加入属性为门牌名、“南”加入方位名。\n[0006] 上述的地址数据建构方法,因要不断的加入新的属性标注顺序,从而导致处理过\n程较为复杂,效率较低,另外,只是通过词典、词表、后缀关键词的方式进行分词,会导致分词准确率较低。\n[0007] 进一步的,针对特定的运单中的地址来说,由于希望根据用户输入的运单地址名\n称获取相应的坐标,名称的随意组合,可能会带来大量的搜索结果,排重困难,而且运单地址一般都是跟地名相关的,都遵循一定的规则的,如果使用统计进行处理,可能会对一些常用地名错分,降低分词成功率,不利于后续根据分级结果查找坐标。\n发明内容\n[0008] 本发明实施例提供一种运单地址分级方法及装置,用以解决现有技术中针对特定\n的运单中的地址,可能会对一些常用地名错分,降低分词成功率,不利于后续根据分级结果查找坐标的问题。\n[0009] 本发明实施例提供一种运单地址分级方法,该方法包括:\n[0010] 接收运单地址并进行规范化处理,得到用户地址;\n[0011] 对所述用户地址进行分词,并对分词结果赋予词性;\n[0012] 根据所述分词结果和对应词性,分别确定所述分词结果是否为行政区划、道路/兴\n趣点POI、楼栋单元号,若是,则记录本次处理结果;否则,将所述分词结果作为描述性信息;\n[0013] 遍历所述分词结果,将处理后的分词结果重新组合为完整运单地址。\n[0014] 所述分别确定所述分词结果是否为行政区划、道路/兴趣点POI、楼栋单元号,包\n括:\n[0015] 在预先设定的分词词典中分别查询所述分词结果是否有对应行政区划、道路/兴\n趣点POI、楼栋单元号记载内容。\n[0016] 所述方法还包括:\n[0017] 若所述分词词典中查询所述分词结果没有对应行政区划记载内容,则以行政区划\n规则处理所述分词,并对处理后的结果再次在所述分词词典中查询所述分词结果是否有对\n应行政区划记载内容,若是,记录本次处理结果;否则,继续下列步骤;\n[0018] 在所述分词词典中查询所述分词结果是否有对应道路/兴趣点POI记载内容,若\n是,则记录本次处理结果;否则,以道路/兴趣点POI规则处理所述分词,并对处理后的结果再次在所述分词词典中查询所述分词结果是否有对应道路/兴趣点POI记载内容,若是,记\n录本次处理结果;否则,继续下列步骤;\n[0019] 在所述分词词典中查询所述分词结果是否有对应楼栋单元号记载内容。\n[0020] 所述对所述用户地址进行分词,并对分词结果赋予词性,包括:\n[0021] 对所述用户地址与预先设定的分词词典进行匹配,根据正向最大匹配进行分词;\n并对匹配成功的所述分词结果给定不同的类别作为所述分词结果的词性。\n[0022] 所述分词词典根据如下方式设定:\n[0023] 获取地图数据库中原始名称行政区划、道路、POI名称并归类,将同一类所述名称\n归类为所述分词词典的一个词性;\n[0024] 将所述名称、对应词性编译后形成所述分词词典。\n[0025] 所述接收运单地址并进行规范化处理,得到用户地址,包括:\n[0026] 接收输入的运单地址,并去除其中无效字符,按照省、市、区县的方式拼接成一个符合用户书写习惯的用户地址。\n[0027] 另一方面,本发明实施例提供一种运单地址分级装置,所述装置包括:\n[0028] 规范化处理模块,用于接收运单地址并进行规范化处理,得到用户地址;\n[0029] 分词模块,用于对所述用户地址进行分词,并对分词结果赋予词性;\n[0030] 地址分级模块,用于根据所述分词结果和对应词性,分别确定所述分词结果是否\n为行政区划、道路/兴趣点POI、楼栋单元号,若是,则记录本次处理结果;否则,将所述分词结果作为描述性信息;\n[0031] 组合模块,用于将处理后的分词结果重新组合为完整运单地址。\n[0032] 所述地址分级模块,用于在预先设定的分词词典中分别查询所述分词结果是否有\n对应行政区划、道路/兴趣点POI、楼栋单元号记载内容。\n[0033] 所述分词模块,用于对所述用户地址与预先设定的分词词典进行匹配,根据正向\n最大匹配进行分词;并对匹配成功的所述分词结果给定不同的类别作为所述分词结果的词\n性。\n[0034] 所述地址分级模块,包括:\n[0035] 行政区划子模块,用于在预先设定的分词词典中查询所述分词结果是否有对应行\n政区划记载内容,如无,则以行政区划规则处理所述分词,并对处理后的结果再次在所述分词词典中查询所述分词结果是否有对应行政区划记载内容,若是,记录本次处理结果;\n[0036] 道路/POI子模块,用于在预先设定的分词词典中查询所述分词结果是否有对应道\n路/兴趣点POI记载内容,若是,则记录本次处理结果;否则,以道路/兴趣点POI规则处理所述分词,并对处理后的结果再次在所述分词词典中查询所述分词结果是否有对应道路/兴\n趣点POI记载内容,若是,记录本次处理结果;\n[0037] 楼栋单元号子模块,用于在所述分词词典中查询所述分词结果是否有对应楼栋单\n元号记载内容。\n[0038] 本发明实施例通过接收运单地址并进行规范化处理,得到用户地址;对所述用户\n地址进行分词,并对分词结果赋予词性;根据所述分词结果和对应词性,分别确定所述分词结果是否为行政区划、道路/兴趣点POI、楼栋单元号,若是,则记录本次处理结果;否则,将所述分词结果作为描述性信息;遍历所述分词结果,将处理后的分词结果重新组合为完整\n运单地址。由于采用了基于规则和统计的地址分级,使得后续根据名称找坐标的效率极大\n提高,对一些常用地名增加了分词成功率,对于后续根据分级结果查找坐标有很大的帮助,降低了搜索的次数,从而提高后续环节的处理效率和搜索效果。\n附图说明\n[0039] 图1为本发明实施例1提供的运单地址分级方法流程图;\n[0040] 图2为本发明实施例4提供的运单地址分级装置结构示意图;\n[0041] 图3为本发明实施例5提供的地址分级模块43结构示意图。\n具体实施方式\n[0042] 本发明实施例通过接收运单地址并进行规范化处理,得到用户地址;对所述用户\n地址进行分词,并对分词结果赋予词性;根据所述分词结果和对应词性,分别确定所述分词结果是否为行政区划、道路/兴趣点POI、楼栋单元号,若是,则记录本次处理结果;否则,将所述分词结果作为描述性信息;遍历所述分词结果,将处理后的分词结果重新组合为完整\n运单地址。通过对用户输入地址习惯的分析,统计出运单地址书写的规则,在对用户地址进行基本分词的基础上,利用统计的规则,再次进行分级处理,将分词后的相关词条重新组合成一个有意义的词条,减少后续的搜索量。由于采用了基于规则和统计的地址分级,使得后续根据名称找坐标的效率极大提高,降低了搜索的次数,从而提高后续环节的处理效率和\n搜索效果。\n[0043] 下面结合说明书附图对本发明实施例作进一步详细描述。\n[0044] 实施例1\n[0045] 如图1所示,为本发明实施例1提供的运单地址分级方法流程图,包括以下步骤:\n[0046] S101:接收运单地址并进行规范化处理,得到用户地址;\n[0047] S102:对用户地址进行分词,并对分词结果赋予词性;\n[0048] S103:根据分词结果和对应词性,分别确定分词结果是否为行政区划、道路/兴趣\n点POI、楼栋单元号,若是,则记录本次处理结果;否则,将分词结果作为描述性信息;\n[0049] S104:遍历分词结果,将处理后的分词结果重新组合为完整运单地址。\n[0050] 可选地,分别确定分词结果是否为行政区划、道路/兴趣点POI、楼栋单元号,包括:\n在预先设定的分词词典中分别查询分词结果是否有对应行政区划、道路/兴趣点POI、楼栋\n单元号记载内容。\n[0051] 这里,若分词词典中查询分词结果没有对应行政区划记载内容,则以行政区划规\n则处理分词,并对处理后的结果再次在分词词典中查询分词结果是否有对应行政区划记载\n内容,若是,记录本次处理结果;否则,继续下列步骤;\n[0052] 在分词词典中查询分词结果是否有对应道路/兴趣点POI记载内容,若是,则记录\n本次处理结果;否则,以道路/兴趣点POI规则处理分词,并对处理后的结果再次在分词词典中查询分词结果是否有对应道路/兴趣点POI记载内容,若是,记录本次处理结果;否则,继续下列步骤;\n[0053] 在分词词典中查询分词结果是否有对应楼栋单元号记载内容。\n[0054] 可选地,对用户地址进行分词,并对分词结果赋予词性,包括:\n[0055] 对用户地址与预先设定的分词词典进行匹配,根据正向最大匹配进行分词;并对\n匹配成功的分词结果给定不同的类别作为分词结果的词性。\n[0056] 可选地,分词词典根据如下方式设定:\n[0057] 获取地图数据库中原始名称行政区划、道路、POI名称并归类,将同一类名称归类\n为分词词典的一个词性;\n[0058] 将名称、对应词性编译后形成分词词典。\n[0059] 可选地,接收运单地址并进行规范化处理,得到用户地址,包括:\n[0060] 接收输入的运单地址,并去除其中无效字符,按照省、市、区县的方式拼接成一个符合用户书写习惯的用户地址。\n[0061] 本发明实施例中,通过接收运单地址并进行规范化处理,得到用户地址;对用户地址进行分词,并对分词结果赋予词性;根据分词结果和对应词性,分别确定分词结果是否为行政区划、道路/兴趣点POI、楼栋单元号,若是,则记录本次处理结果;否则,将分词结果作为描述性信息;遍历分词结果,将处理后的分词结果重新组合为完整运单地址。通过对用户输入地址习惯的分析,统计出运单地址书写的规则,在对用户地址进行基本分词的基础上,利用统计的规则,再次进行分级处理,将分词后的相关词条重新组合成一个有意义的词条,减少后续的搜索量。由于采用了基于规则和统计的地址分级,使得后续根据名称找坐标的\n效率极大提高,降低了搜索的次数,从而提高后续环节的处理效率和搜索效果。\n[0062] 下面,列举一个具体的实施例对本发明作进一步说明。\n[0063] 实施例2\n[0064] 本发明实施例2提供一种运单地址分级方法流程图,包括以下步骤:\n[0065] S201:对于接收到的用户的运单地址进行基本的规范化处理,去除部分无效字符。\n无效字符包括感叹号、冒号、电话号码、旺旺号码、网址等。同时,还需要对运单地址进行转半角、去除不允许的空格、去除括号等操作,目的在于将运单地址规范化,形成比较符合习惯的运单地址。\n[0066] 之后,将运单地址按照省、市、区县的方式拼接成一个符合用户书写习惯的地址。\n例如,可以如如下的运单地址:北京北京市海淀区苏州街3号大恒科技大厦南座18层。\n[0067] S202:构建分词词典。这里集合地图数据中已有行政区划、POI、placename、道路等数据,根据其给定的分级,设置相应的词性。例如“湖北”这个词,数据中认为是省,那么就给定词性S。对于多个词性的,例如,“北京”在数据中既是省又是市,那个其在分词词典中就是一个组合词性。这里的词性,就是对中文不同的词,给定不同的类别,后续据此给定地址级别。\n[0068] 分词词典是预先设定的,构建基本流程如下:\n[0069] 从地图数据库母库抽取原始名称行政区划、POI等,例如,POI:健翔园,给定\n120302,据此将之对应到词典的一个词性,例如P。\n[0070] 对于道路名称,直接从道路数据抽取名称、别名,然后给定词性,例如:R。\n[0071] 对于阿拉伯、中文数字,以及特殊汉字,例如“单元”,“楼栋“、“层“等,单独给定词性。\n[0072] 给定词性后,将名称、词性编译成二进制文件,供后续使用。\n[0073] S203:对用户地址运用词典,结合正向最大匹配进行基本分词、对每个词给定词\n性。所谓正向最大匹配,就是从词典中找出尽可能长的词条与现有的运单地址进行匹配。\n[0074] S204:对于行政区划,主要是依据词性进行基本判定。当一个词存在多个词性的时候,结合人工分析数据、统计等的规则,考虑前一个行政级别,最终筛选出现相关词性,给定行政区划。例如,“北京北京市”,经过处理,“北京”选择省级别,“北京市”选择市级别。\n[0075] S205:当基本的行政区划已经判定完成,接着就需要考虑道路。如果道路,可以直接分出来,直接定级即可。如果没有,则逐词合并。在合并的时候,考虑一些规则,例如,遇到”大道“、”大街“等,则可以考虑给定道路词性,然后将分成此种类型路。对大量运单进行切分,然后进行必要的统计,根据最终统计结果,集合部分人工验证,进而确定该规则是否具有普适性。不断迭代最终完善对未登录道路的识别。\n[0076] 对于POI的判定,也是类似,首先基于对现有的POI数据进行必要关键字的统计,结合高德数据制作规范,总结出一定POI关键字,给定POI词性,然后采用跟跟道路相似的方法进行必要的统计,迭代完善POI识别。\n[0077] 当无法识别成道路、POI等,通常会给出一定的描述性词,例如“对面”、“旁边”等,并据此进行描写信息的判定。\n[0078] 完成上述判定,则进入下一个环境。\n[0079] S206:当上述步骤成立,找到部分道路、POI、村、开发区等,接下来看看是不是可以往楼栋号、单元号等靠拢,借助数字和一定的关键字,例如“楼、栋”等,给定相关级别。\n[0080] 循环上述步骤,直到所有的词性循环完毕,分级结束。\n[0081] 将分级之后的运单分词地址重新组合,可以得到新的运单地址。\n[0082] 进一步来说,在分级的过程也会有些普遍的规则,需要自始至终坚持的。例如,我们一般认为运单地址表达的空间范围,会越来越小,这样通常出现了乡镇,再出现市的概率就比较小了。例如,“北京市海淀区北京市海淀医院”这个地址中,就需要将“北京市海淀医院”作为一个整体,因为“海淀区”已经出现了。类似的规则,在不断的分级统计中,逐步完善规则。\n[0083] 当然,利用规则的时候,有些词难以处理,例如,“水泥路”通常是描述信息,但是有些地方就有这样的路名,那么对于这样的词,我们通常需要强制消歧义的办法解决,即在规定城市给定词性为路,其他地方则作为描述信息对待。\n[0084] 本实施例中,利用恰当规则合并词条,通过设计巧妙的词性来识别众多没有添加\n到词典的行政区划、道路、POI等,使得无需穷举词条,实现新词的发现;利用统计的方法来实现规则总结以及后续词条分析,促进分级效果稳步提升。由于采用了基于规则和统计的\n地址分级,使得后续根据名称找坐标的效率极大提高,降低了搜索的次数,从而提高后续环节的处理效率和搜索效果。\n[0085] 实施例3\n[0086] 本发明实施例3提供一个具体的用户运单地址分级方案,具体如下:\n[0087] 假设用户有如下运单地址:\n[0088] 北京市海淀区苏州街3号大恒科技大厦。\n[0089] 那么分级过程描述如下:\n[0090] 采用正向最大匹配进行基本分词,结果如下:北京市/AB海淀区/D苏州街/R3号/W\n大恒/Z科技大厦/C;\n[0091] 进行基本行政区划判定,根据我们总结的规则,用户通常将行政区划涵盖的范围\n从大到小,这样可以确定如下词条:“北京市”、“海淀区”,类似还可以确定乡镇、村、社区等。\n[0092] 对于道路的确定,主要参考词性,然后结合规则,比如路一般是以“道”、“街”结尾等,对下文进行基本判定,然后确定词条,这样就可以确定词条:“苏州街”。\n[0093] 对于门牌号、单元号、楼栋号的确定,主要参考的是其前一个词条的类型确定。对于其他的暂时无法确认的类型,通常都是以描述信息对待。二次利用词频统计进行词条分\n析,然后进行修正。\n[0094] 可以得到一个完整而准确的运单地址。\n[0095] 实施例4\n[0096] 如图2所示,为本发明实施例4提供的运单地址分级装置结构示意图,包括:\n[0097] 规范化处理模块41,用于接收运单地址并进行规范化处理,得到用户地址;\n[0098] 分词模块42,用于对用户地址进行分词,并对分词结果赋予词性;\n[0099] 地址分级模块43,用于根据分词结果和对应词性,分别确定分词结果是否为行政\n区划、道路/兴趣点POI、楼栋单元号,若是,则记录本次处理结果;否则,将分词结果作为描述性信息;\n[0100] 组合模块44,用于将处理后的分词结果重新组合为完整运单地址。\n[0101] 可选地,上述地址分级模块43,用于在预先设定的分词词典中分别查询分词结果\n是否有对应行政区划、道路/兴趣点POI、楼栋单元号记载内容。\n[0102] 可选地,上述分词模块42,用于对用户地址与预先设定的分词词典进行匹配,根据正向最大匹配进行分词;并对匹配成功的分词结果给定不同的类别作为分词结果的词性。\n[0103] 实施例5\n[0104] 如图3所示,上述运单地址分级装置中的地址分级模块43,进一步包括:\n[0105] 行政区划子模块431,用于在预先设定的分词词典中查询分词结果是否有对应行\n政区划记载内容,如无,则以行政区划规则处理分词,并对处理后的结果再次在分词词典中查询分词结果是否有对应行政区划记载内容,若是,记录本次处理结果;\n[0106] 道路/POI子模块432,用于在预先设定的分词词典中查询分词结果是否有对应道\n路/兴趣点POI记载内容,若是,则记录本次处理结果;否则,以道路/兴趣点POI规则处理分词,并对处理后的结果再次在分词词典中查询分词结果是否有对应道路/兴趣点POI记载内\n容,若是,记录本次处理结果;\n[0107] 楼栋单元号子模块433,用于在分词词典中查询分词结果是否有对应楼栋单元号\n记载内容。\n[0108] 本实施例中,通过接收运单地址并进行规范化处理,得到用户地址;对用户地址进行分词,并对分词结果赋予词性;根据分词结果和对应词性,分别确定分词结果是否为行政区划、道路/兴趣点POI、楼栋单元号,若是,则记录本次处理结果;否则,将分词结果作为描述性信息;遍历分词结果,将处理后的分词结果重新组合为完整运单地址。由于采用了基于规则和统计的地址分级,使得后续根据名称找坐标的效率极大提高,对一些常用地名增加\n了分词成功率,对于后续根据分级结果查找坐标有很大的帮助,降低了搜索的次数,从而提高后续环节的处理效率和搜索效果。\n[0109] 本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机\n可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产\n品的形式。\n[0110] 本发明是参照根据本发明实施例的方法、装置(系统)、和计算机程序产品的流程\n图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流\n程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产\n生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实\n现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。\n[0111] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特\n定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指\n令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或\n多个方框中指定的功能。\n[0112] 这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计\n算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或\n其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一\n个方框或多个方框中指定的功能的步骤。\n[0113] 尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造\n性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。\n[0114] 显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精\n神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围\n之内,则本发明也意图包含这些改动和变型在内。
法律信息
- 2022-12-13
专利权的转移
登记生效日: 2022.12.01
专利权人由阿里巴巴(中国)有限公司变更为高德软件有限公司
地址由310052 浙江省杭州市滨江区长河街道网商路699号4号楼5楼508室变更为102299 北京市昌平区科技园区昌盛路18号B1座1-5层
- 2020-05-29
专利权的转移
登记生效日: 2020.05.09
专利权人由高德软件有限公司变更为阿里巴巴(中国)有限公司
地址由102200 北京市昌平区科技园区昌盛路8号B1座1-5层变更为310052 浙江省杭州市滨江区长河街道网商路699号4号楼5楼508室
- 2019-05-07
- 2016-06-29
专利申请权的转移
登记生效日: 2016.06.08
申请人由北京图盟科技有限公司变更为高德软件有限公司
地址由100080 北京市海淀区苏州街3号14层1402室变更为102200 北京市昌平区科技园区昌盛路8号B1座1-5层
- 2016-03-30
实质审查的生效
IPC(主分类): G06F 17/30
专利申请号: 201410174568.5
申请日: 2014.04.28
- 2015-11-04
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2008-02-13
|
2007-09-25
| | |
2
| |
2010-11-10
|
2010-06-30
| | |
3
| |
2013-07-03
|
2011-12-30
| | |
4
| |
2011-03-30
|
2010-11-10
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |