著录项信息
专利名称 | 一种从企业名称数据中提取区域信息的方法及系统 |
申请号 | CN201210085428.1 | 申请日期 | 2012-03-23 |
法律状态 | 授权 | 申报国家 | 中国 |
公开/公告日 | 2012-08-29 | 公开/公告号 | CN102651013A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/30 | IPC分类号 | G;0;6;F;1;7;/;3;0查看分类表>
|
申请人 | 上海安捷力信息系统有限公司 | 申请人地址 | 上海市长宁区协和路787号D南楼4楼
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 上海安捷力信息系统有限公司 | 当前权利人 | 上海安捷力信息系统有限公司 |
发明人 | 陈扬;王绍虎 |
代理机构 | 北京邦信阳专利商标代理有限公司 | 代理人 | 王昭林;项京 |
摘要
本发明公开了一种从企业名称数据中提取区域信息的方法,包括:A、将企业名称与企业信息数据库中的企业名称进行完全匹配;对完全匹配的数据,从企业信息数据库中提取出对应的区域信息,作为该企业名称数据的区域信息;对未匹配的企业名称数据执行步骤B;B、根据预先设置的分类词典数据库对企业名称进行词条拆分,及对拆分出的词条进行归类;对全部词条能够归类的企业名称执行步骤D,对未全部归类的企业名称执行步骤C;C、根据预先设置的分类词典数据库,人工辅助对拆分出的未归类词条进行归类;D、从归类后的词条中提取区域信息,作为该企业名称数据的区域信息。本发明同时公开了实现上述方法的系统,能够提高获取企业区域信息的工作效率。
1.一种从企业名称数据中提取区域信息的方法,其特征在于,预先将国家行政区划信息按省市县乡村五级进行存储,通过搜索引擎建立相关索引,并收集区域信息中可能出现的形似、音似字存储到相关的转换字库,所述方法包括如下步骤:
A、将接收的企业名称数据中的企业名称与预先设置的企业信息数据库中的企业名称进行完全匹配;所述企业信息数据库中存储有企业名称及对应的完整区域信息;对完全匹配的数据,从企业信息数据库中提取出对应的区域信息,作为该企业名称数据的区域信息,对从企业信息数据库中提取出对应的区域信息进行验证,如果验证通过,则输出该区域信息;否则,执行步骤B;对未匹配的企业名称数据执行步骤B;
B、根据预先设置的分类词典数据库对企业名称进行词条拆分,及对拆分出的词条进行归类;对全部词条能够归类的企业名称执行步骤D,对未全部归类的企业名称执行步骤C; C、根据预先设置的分类词典数据库,人工辅助对拆分出的未归类词条进行归类; D、从归类后的词条中提取区域信息,作为该企业名称数据的区域信息,若区域信息不止一个,将不同的销售额划分为多个等级,每个等级对应一个参考系数,用获得的各个区域信息与相关经销商的距离与该经销商的系数相乘,再除以该距离,计算出一个比例值,从多个比例值中,取出最高值对应的区域信息,作为企业的区域信息;
所述步骤D包括:
D1、判断归类后的词条中是否包括区域类信息,如果是,则执行步骤D2;否则,执行步骤D4;
D2、从归类后的词条中提取区域类信息,并按照行政区划,补充为完整的区域信息,在补全区域信息时,将区域信息类的词条根据其位置先后顺序依次搜索,查找其在区划中的级别并收集其上级区划;
D3、对区域信息进行验证,如果验证通过,则输出该区域信息;否 则,将该数据作为不能处理数据输出;
D4、将该企业名称数据中的企业名称与所述企业信息数据库中的企业名称进行模糊匹配,对匹配的数据,从企业信息数据库中提取出对应的区域信息,执行步骤D3;对于标识为区划类别但没有搜索到匹配区域的数据,进行形似和/或音似转换后再次搜索,将未匹配的数据作为不能处理数据输出。
2.如权利要求1所述的方法,其特征在于:所述对区域信息进行验证为:计算该区域和与该企业相关的经销商所在区域之间的距离,判断该区域与该企业的经销商所在区域是否处于同一行政区划,如果是,则验证通过,否则验证不通过。
3.如权利要求1-2任一项所述的方法,其特征在于:步骤A所述完全匹配为:到企业信息数据库中查找该企业名称数据中的企业名称,如果找到了相同的企业名称,则为完全匹配;否则为未匹配。
4.如权利要求1-2任一项所述的方法,其特征在于:所述分类词典数据库是通过将专业词典按照分类分别读取并存储的方式建立的。
5.如权利要求4所述的方法,其特征在于:所述步骤C中,进一步将人工辅助归类的词条,按照其分类,存储到所述分类词典数据库中。
6.一种从企业名称数据中提取区域信息的系统,其特征在于,预先将国家行政区划信息按省市县乡村五级进行存储,通过搜索引擎建立相关索引,并收集区域信息中可能出现的形似、音似字存储到相关的转换字库,该系统包括:
数据匹配单元,接收企业名称数据,将其中的企业名称与预先设置的企业信息数据库中的企业名称进行完全匹配,对完全匹配的数据,从企业信息数据库中提取出对应的区域信息,作为该企业名称数据的区域信息;将未匹配的企业名称数据输出给词条拆分归类单元;
所述企业信息数据库中存储有企业名称及对应的完整区域信息;
词条拆分归类单元,根据预先设置的分类词典数据库对企业名称进行词条拆分,并对拆分出的词条进行归类;将能够全部归类的企业名称和归类信息输出给区域信息提取单元,将未全部归类的企业名称输出给 未归类词条归类工作台;
未归类词条归类工作台,根据预先设置的分类词典数据库,人工辅助对拆分出的未归类词条进行归类;将归类后的词条输出给区域信息提取单元;
区域信息提取单元,从归类后的词条中提取区域信息,作为该企业名称数据的区域信息,若区域信息不止一个,将不同的销售额划分为多个等级,每个等级对应一个参考系数,用获得的各个区域信息与相关经销商的距离与该经销商的系数相乘,再除以该距离,计算出一个比例值,从多个比例值中,取出最高值对应的区域信息,作为企业的区域信息; 该系统进一步包括区域信息验证单元;
所述数据匹配单元,先将从企业信息数据库中提取出对应的区域信息输出给区域信息验证单元;
所述区域信息验证单元,对从企业信息数据库中提取出对应的区域信息进行验证,如果验证通过,则该区域信息作为该企业名称数据的区域信息输出;否则,将该区域信息输出给词条拆分归类单元;
所述区域信息提取单元包括:区域信息判断模块、区域信息提取模块、区域信息补充模块和模糊匹配模块;
所述区域信息判断模块,判断归类后的词条中是否包括区域类信息,如果是,则将该区域类信息输出给区域信息提取模块,否则将该区域类信息输出给模糊匹配模块; 所述区域信息提取模块,从归类后的词条中提取区域类信息,输出给区域信息补充模块;
所述区域信息补充模块,按照行政区划,将接收的区域类信息补充为完整的区域信息,输出给区域信息验证单元,在补全区域信息时,将区域信息类的词条根据其位置先后顺序依次搜索,查找其在区划中的级别并收集其上级区划;
所述模糊匹配模块,将该企业名称数据中的企业名称与所述企业信息数据库中的企业名称进行模糊匹配,对匹配的数据,从企业信息数据库中提取出对应的区域信息,输出给区域信息验证单元;对于标识为区 划类别但没有搜索到匹配区域的数据,进行形似和/或音似转换后再次搜索,将未匹配的数据作为不能处理数据输出;
所述区域信息验证单元,进一步对从区域信息提取单元接收的区域信息进行验证,如果验证通过,则输出从区域信息提取单元接收的区域信息;否则,将该数据作为不能处理数据输出。
一种从企业名称数据中提取区域信息的方法及系统\n技术领域\n[0001] 本发明涉及企业数据的数据处理技术,特别涉及一种从企业名称数据中提取区域信息的方法及系统。\n背景技术\n[0002] 在对企业数据进行数据处理过程中,获得企业的区域信息是其中非常重要的步骤。如果企业数据中缺少企业的区域信息,这些企业数据就无法被有效的利用,降低了企业相关数据分析的质量,因此相关企业急切的需要包含区域信息的企业数据。\n[0003] 大多数情况下,在省、市一级的企业名称中都包含企业的区域信息,例如:上海市第一人民医院等。而在销售的下游渠道,企业名称越来越不规范,特别是在销售渠道末端的企业,经常出现不包含区域信息或区域信息不全的企业名称。这些企业名称被录入企业数据中进行数据处理时,需要将企业的区域信息补充完整。\n[0004] 现阶段在对企业数据进行区域信息和补充操作时,往往利用相关的销售人员在销售期间对地域信息进行收集和补全,或者向专业的信息调查公司购买相关的服务。显而易见,这两种方式在实际操作时都需要投入大量的人力进行相关的普查工作,并且由于是纯人工操作,整个过程的实施周期会很长,企业需要为此花费相当多的资源。\n发明内容\n[0005] 有鉴于此,本发明的目的在于一种从企业名称数据中提取区域信息的方法及系统,以提高获取区域信息的工作效率。\n[0006] 为达到上述目的的第一个方面,本发明提供了一种从企业名称数据中提取区域信息的方法,预先将国家行政区划信息按省市县乡村五级进行存储,通过搜索引擎建立相关索引,并收集区域信息中可能出现的形似、音似字存储到相关的转换字库,所述方法包括如下步骤:\n[0007] A、将接收的企业名称数据中的企业名称与预先设置的企业信息数据库中的企业名称进行完全匹配;所述企业信息数据库中存储有企业名称及对应的完整区域信息;对完全匹配的数据,从企业信息数据库中提取出对应的区域信息,作为该企业名称数据的区域信息,对从企业信息数据库中提取出对应的区域信息进行验证,如果验证通过,则输出该区域信息;否则,执行步骤B;对未匹配的企业名称数据执行步骤B。\n[0008] B、根据预先设置的分类词典数据库对企业名称进行词条拆分,及对拆分出的词条进行归类;对全部词条能够归类的企业名称执行步骤D,对未全部归类的企业名称执行步骤C。\n[0009] C、根据预先设置的分类词典数据库,人工辅助对拆分出的未归类词条进行归类;\n[0010] D、从归类后的词条中提取区域信息,作为该企业名称数据的区域信息,若区域信息不止一个,将不同的销售额划分为多个等级,每个等级对应一个参考系数,用获得的各个区域信息与相关经销商的距离与该经销商的系数相乘,再除以该距离,计算出一个比例值,从多个比例值中,取出最高值对应的区域信息,作为企业的区域信息;\n[0011] 所述步骤D包括:\n[0012] D1、判断归类后的词条中是否包括区域类信息,如果是,则执行步骤D2;否则,执行步骤D4;\n[0013] D2、从归类后的词条中提取区域类信息,并按照行政区划,补充为完整的区域信息,在补全区域信息时,将区域信息类的词条根据其位置先后顺序依次搜素,查找其在区划中的级别并收集其上级区划;\n[0014] D3、对区域信息进行验证,如果验证通过,则输出该区域信息;否则,将该数据作为不能处理数据输出;\n[0015] D4、将该企业名称数据中的企业名称与所述企业信息数据库中的企业名称进行模糊匹配,对匹配的数据,从企业信息数据库中提取出对应的区域信息,执行步骤D3;对于标识为区划类别但没有搜索到匹配区域的数据,进行形似和/或音似转换后再次搜索,将未匹配的数据作为不能处理数据输出。\n[0016] 为达到上述目的的另一个方面,本发明提供了一种从企业名称数据中提取区域信息的系统,预先将国家行政区划信息按省市县乡村五级进行存储,通过搜索引擎建立相关索引,并收集区域信息中可能出现的形似、音似字存储到相关的转换字库,该系统包括:\n[0017] 数据匹配单元,接收企业名称数据,将其中的企业名称与预先设置的企业信息数据库中的企业名称进行完全匹配,对完全匹配的数据,从企业信息数据库中提取出对应的区域信息,作为该企业名称数据的区域信息;将未匹配的企业名称数据输出给词条拆分归类单元。\n[0018] 所述企业信息数据库中存储有企业名称及对应的完整区域信息。\n[0019] 词条拆分归类单元,根据预先设置的分类词典数据库对企业名称进行词条拆分,并对拆分出的词条进行归类;将能够全部归类的企业名称和归类信息输出给区域信息提取单元,将未全部归类的企业名称输出给未归类词条归类工作台。\n[0020] 未归类词条归类工作台,根据预先设置的分类词典数据库,人工辅助对拆分出的未归类词条进行归类;将归类后的词条输出给区域信息提取单元。\n[0021] 区域信息提取单元,从归类后的词条中提取区域信息,作为该企业名称数据的区域信息,若区域信息不止一个,将不同的销售额划分为多个等级,每个等级对应一个参考系数,用获得的各个区域信息与相关经销商的距离与该经销商的系数相乘,再除以该距离,计算出一个比例值,从多个比例值中,取出最高值对应的区域信息,作为企业的区域信息;\n[0022] 该系统进一步包括区域信息验证单元;\n[0023] 所述数据匹配单元,先将从企业信息数据库中提取出对应的区域信息输出给区域信息验证单元;\n[0024] 所述区域信息验证单元,对从企业信息数据库中提取出对应的区域信息进行验证,如果验证通过,则该区域信息作为该企业名称数据的区域信息输出;否则,将该区域信息输出给词条拆分归类单元;\n[0025] 所述区域信息提取单元包括:区域信息判断模块、区域信息提取模块、区域信息补充模块和模糊匹配模块;\n[0026] 所述区域信息判断模块,判断归类后的词条中是否包括区域类信息,如果是,则将该区域类信息输出给区域信息提取模块,否则将该区域类信息输出给模糊匹配模块;\n[0027] 所述区域信息提取模块,从归类后的词条中提取区域类信息,输出给区域信息补充模块;\n[0028] 所述区域信息补充模块,按照行政区划,将接收的区域类信息补充为完整的区域信息,输出给区域信息验证单元,在补全区域信息时,将区域信息类的词条根据其位置先后顺序依次搜素,查找其在区划中的级别并收集其上级区划;\n[0029] 所述模糊匹配模块,将该企业名称数据中的企业名称与所述企业信息数据库中的企业名称进行模糊匹配,对匹配的数据,从企业信息数据库中提取出对应的区域信息,输出给区域信息验证单元;对于标识为区划类别但没有搜索到匹配区域的数据,进行形似和/或音似转换后再次搜索,将未匹配的数据作为不能处理数据输出;\n[0030] 所述区域信息验证单元,进一步对从区域信息提取单元接收的区域信息进行验证,如果验证通过,则输出从区域信息提取单元接收的区域信息;否则,将该数据作为不能处理数据输出。\n[0031] 由上述的技术方案可见,本发明提供的这种从企业名称数据中提取区域信息的方法及系统,通过将企业名称与企业信息数据库进行数据匹配,对匹配数据,从企业信息数据库中获取区域信息;对未匹配的数据进行拆分和归类,从归类后的信息中获得区域信息,提高了获取企业区域信息的工作效率。\n附图说明\n[0032] 图1为本发明一较佳实施例中提取区域信息的方法流程图;\n[0033] 图2为本发明一较佳实施例中提取区域信息的系统的结构示意图;\n[0034] 图3为图2所示实施例中区域信息提取单元的结构示意图。\n具体实施方式\n[0035] 本发明公开了一种从企业名称数据中提取区域信息的方法及系统,能够提高获取企业区域信息的工作效率。\n[0036] 以下参照附图并举具体实施例,对本发明进行详细的说明。\n[0037] 如图1所示,本发明一较佳实施例中提取区域信息的方法包括如下步骤:\n[0038] 步骤101,接收企业名称数据。\n[0039] 步骤102,将接收的企业名称数据中的企业名称与预先设置的企业信息数据库中的企业名称进行完全相似匹配,对完全匹配的数据,从企业信息数据库中提取出对应的区域信息,执行步骤103,对未匹配的企业名称数据执行步骤104。\n[0040] 本实施例中的企业信息数据库中存储有企业名称及对应的完整区域信息。\n[0041] 本实施例中完全匹配的方法是:到企业信息数据库中查找该企业名称数据中的企业名称,如果找到了相同的企业名称,则为完全匹配;否则为未匹配。\n[0042] 步骤103,对从企业信息数据库中提取出对应的区域信息进行区域信息验证,如果验证通过,则执行步骤111,输出完整的该区域信息;否则,执行步骤104。\n[0043] 在实际应用中,即使完全匹配的数据,也有可能不是唯一的,或者虽然是唯一的,但是不是准确的。因此,本实施例中,增加了区域验证的步骤,以进一步提高准确性。\n[0044] 步骤104,根据预先设置的分类词典数据库对企业名称进行词条拆分,及对拆分出的词条进行归类;对全部词条能够归类的企业名称及归类信息执行步骤106,对未全部归类的企业名称执行步骤105。\n[0045] 步骤105,根据预先设置的分类词典数据库,人工辅助对拆分出的未归类词条进行归类,生成归类信息,并将归类后的词条存储到所述分类词典数据库中。\n[0046] 本实施例中分类词典数据库是通过将专业词典按照分类分别读取并存储的方式建立的。\n[0047] 本实施例中的分类词典数据库中主要划分为三大类:区域类、企业品牌类和行业性质分类。其中区域类又按照行政区划划分为:省、市、5县、乡和村。企业类型类进一步划分为:连锁企业、制造企业、流通渠道末端企业等等…行业性质分类划分为:医药类、快速消费类等等…\n[0048] 举例来说,假设企业名称为“江门市新会区沙堆独联明善堂药店”经过步骤104拆分后将得到如表1所示的结果:\n[0049] \n词条 类别\n江门市 区域\n新会区 区域\n沙堆 未知\n独联 未知\n明善堂 企业品牌\n药店 行业性质\n \n[0050] 表1\n[0051] 此表中,“江门市”、“新会区”、“明善堂”和“药店”属于已归类词条,“沙堆”和“独联”属于未归类词条。因此,要对这个企业名称执行步骤105,即人工进行归类。具体地,就是通过人工资料查询方式补全,并将补全的信息添加到相关专业词典中。如表1中出现的“沙堆”、“独联”经查询为“沙堆镇”和“独联村”两个都为区域信息,则在分词结果中修改属性,并在分类词典数据库中的区域类信息中添加相关信息。\n[0052] 步骤106,根据归类信息判断归类后的词条中是否包括区域类信息,如果是,则执行步骤107,否则执行步骤109。\n[0053] 本实施例中,就是对每个拆分出来的词,用不同的标记作为归类信息进行类别区分。\n[0054] 实际应用中,词条拆分后的企业名称中可能完全不包含区域类别数据。此类数据如“省建职工医院西部市场诊所”,“广仁堂大药房”等,此类数据无法通过名称拆解得到区域信息,需要通过执行步骤109来获得区域信息。\n[0055] 步骤107,从归类后的词条中提取区域类信息。\n[0056] 步骤108,按照行政区划,将提取出的区域类信息补充为完整的区域信息,执行步骤110。\n[0057] 步骤107中就是逐个区域信息与国家的行政规划名称进行搜索匹配,确定其相关的区划信息,如果企业名称中含有的信息量较少则可能出现多个结果。如:蓬江区农林横路益民医药店,全国含有蓬江区的区域不止一个,单从拆解的结果无法唯一确定区域,此时就需要把多个结果补全后同时保存,通过步骤110的区域信息验证进行确认。\n[0058] 步骤109,将该企业名称数据中的企业名称与所述企业信息数据库中的企业名称进行模糊匹配,对匹配的数据,从企业信息数据库中提取出对应的区域信息,执行步骤110,将未匹配的数据作为不能处理数据输出。\n[0059] 本步骤中,系统通过企业名称与企业信息库中的数据进行模糊相似查找,获取匹配度90%以上的数据区域信息作为结果进行后续的区域信息验证处理。\n[0060] 步骤110,对区域信息进行验证,如果验证通过,则执行步骤111,输出完整的该区域信息;否则,将该数据作为不能处理数据输出。\n[0061] 本实施例中,步骤103和步骤110中对区域信息进行验证为:计算该区域和与该企业相关的经销商所在区域之间的距离,判断该区域与该企业的经销商所在区域是否处于同一行政区划,如果是,则验证通过,否则验证不通过。\n[0062] 由于一般非全国性的一级经销商其销售范围多在其周边地区,否则会产生很高的物流成本。因此,本发明基于这个概念,把找到的区域信息与相关经销商所在区域计算其距离,判断经销商和企业是否在同一区划,如果在同一区划,则验证通过,否则验证不通过。\n[0063] 由于在验证前获得的区域信息可能不只是一个,此时就需要将双方间的月销售额等作为相关的参考系数,计算每个结果的有效性得分,将得分最高的数据作为企业区域。例如:将不同的销售额划分为多个等级,每个等级对应一个参考系数,用获得的各个区域信息与相关经销商的距离与该经销商的系数相乘,再除以该距离,计算出一个比例值。从多个比例值中,取出最高值对应的区域信息,作为企业的区域信息。\n[0064] 步骤111,输出完整的区域信息。\n[0065] 本实施例中,为了从企业名称中提取区域信息并补全,预先将国家行政区划信息按省市县乡村五级进行存储,通过搜索引擎建立相关索引,并收集区域信息中可能出现的形似、音似字存储到相关的转换字库。\n[0066] 本实施例中,在补全区域信息时,将区域信息类的词条根据其位置先后顺序依次搜素,查找其在区划中的级别并收集其上级区划。如在对“高淳县”进行搜索时,发现其为县级区划,则会补全其上两级区域,记录为“江苏省南京市高淳县”。依次类推如查找的为乡级区划,则补全省市县三级。\n[0067] 另外,本实施例中还对于标识为区划类别但有没有搜索到匹配区域的数据,进行形似和/或音似转换后再次搜索。这是因为提供的企业名称多为人工录入,极易出现此情况,例如“亳州”和“亳洲”,“滨湖区”和“宾湖区”等。对此类数据则使用其对应的形似,音似子替代原数据进行匹配。\n[0068] 本发明同时提供了一种从企业名称数据中提取区域信息的系统,该系统用于实现上述流程。如图2所示,本发明一较佳实施例的系统包括:数据匹配单元201、企业信息数据库202、词条拆分归类单元203、分类词典数据库204、未归类词条归类工作台205、区域信息提取单元206和区域信息验证单元207。\n[0069] 其中,数据匹配单元201,接收企业名称数据,将其中的企业名称与预先设置的企业信息数据库202中的企业名称进行完全匹配,对完全匹配的数据,从企业信息数据库中202提取出对应的区域信息,作为该企业名称数据的区域信息输出给区域信息验证单元\n207,将未匹配的企业名称数据输出给词条拆分归类单元203。\n[0070] 所述企业信息数据库202中存储有企业名称及对应的完整区域信息。\n[0071] 所述词条拆分归类单元203,根据预先设置的分类词典数据库204对企业名称进行词条拆分,并对拆分出的词条进行归类;将全部词条能够归类的企业名称及归类信息输出给区域信息提取单元,将未全部归类的企业名称输出给未归类词条归类工作台205。\n[0072] 所述未归类词条归类工作台205,根据预先设置的分类词典数据库204,人工辅助对拆分出的未归类词条进行归类;将归类后的词条输出给区域信息提取单元206。\n[0073] 所述区域信息提取单元206,从归类后的词条中提取区域信息,作为该企业名称数据的区域信息输出给区域信息验证单元207。\n[0074] 所述区域信息验证单元207,对从企业信息数据库中提取出对应的区域信息进行验证,如果验证通过,则该区域信息作为该企业名称数据的区域信息输出;否则,将该区域信息输出给词条拆分归类单元203。本实施例中的区域信息验证单元207,还对从区域信息提取单元206接收的区域信息进行验证,如果验证通过,则输出从区域信息提取单元206接收的区域信息;否则,将该数据作为不能处理数据输出。\n[0075] 如图3所示,本实施例中的区域信息提取单元包括:区域信息判断模块301、区域信息提取模块302、区域信息补充模块303和模糊匹配模块304。\n[0076] 其中,区域信息判断模块301,判断归类后的词条中是否包括区域类信息,如果是,则将该区域类信息输出给区域信息提取模块302,否则将该区域类信息输出给模糊匹配模块303。\n[0077] 所述区域信息提取模块302,从归类后的词条中提取区域类信息,输出给区域信息补充模块303。\n[0078] 所述区域信息补充模块303,按照行政区划,将接收的区域类信息补充为完整的区域信息,输出给区域信息验证单元。\n[0079] 所述模糊匹配模块303,将该企业名称数据中的企业名称与所述企业信息数据库中的企业名称进行模糊匹配,对匹配的数据,从企业信息数据库中提取出对应的区域信息,输出给区域信息验证单元;将未匹配的数据作为不能处理数据输出。\n[0080] 本实施例中,对于系统输出的不能处理数据,可以再进行一次完全的人工处理,由人工收集和提取企业的区域信息。\n[0081] 另外,本实施例的整个系统中在实际使用过程中由于专业词典和企业信息库会不断的更新扩充,且相关的信息都经过搜素引擎建立了相关索引进行优化,所以整个系统的处理效率会在大数据量处理的过程中不断提高。\n[0082] 同时,系统在部署时还可以通过分布式架构的方式部署多套,这样通过对大数据的拆分,使用多套系统同时进行处理可以使处理能力提高数倍,以此应对大数据量数据的处理。\n[0083] 由上述的实施例可见,本发明的这种从企业名称数据中提取区域信息的方法和系统,能够提高获取企业区域信息的工作效率。
法律信息
- 2014-04-16
- 2012-10-17
实质审查的生效
IPC(主分类): G06F 17/30
专利申请号: 201210085428.1
申请日: 2012.03.23
- 2012-08-29
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2008-06-25
|
2007-08-17
| | |
2
| |
2008-02-20
|
2007-08-14
| | |
3
| |
2009-03-18
|
2008-09-12
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |