1.一种使用自然语言的车载信息服务系统的语音操作方法,其步骤包括:
1)启动语音输入,接收自然语言的语音输入并生成语音文件;
2)将语音文件转换成纯文本文件;
3)对所述纯文本文件进行文本分词;所述分词采用中文词典,所述中文词典采用树状结构,第一层以中文词条的首字作为索引,采用哈希表存储;第二层,采用线性顺序表存储词条的第二个字,去除相同的字并形成一个有序的线性表,线性表结点以提取汉字的内码值排序,同时存储以此汉字为首的单词的剩余部分构成的线性表的指针以及一个是否为词的标志;在树的其余层次的节点,采用按顺序存储词条中的一个字和指向它所有可能后继字的线性表的指针;
4)建立用户常见的自然语言操作模式库,该模式库存储各类型下的操作模式,每一类型操作模式包含本模式的操作关键词和操作属性;根据分词后的文本识别操作类型及其操作关键词和操作属性;对于未能完成识别的文本,与事先建立的用户习惯行为规则表进行匹配以确定操作类型及其操作关键词和操作属性;
5)根据所述操作类型及其操作关键词和操作属性,执行相应操作。
2.如权利要求1所述的方法,其特征在于,所述类型包括:目的地查询;周边设施查询;
交叉路口查询;音乐下推;拨打电话。
3.如权利要求1所述的方法,其特征在于,启动导航仪语音输入按钮,接收自然语言的语音输入并生成语音文件;导航仪将语音文件通过无线通信方式发送给互联网上的语音处理服务器;所述语音服务器调用语音云服务器接口,将语音文件发送给语音云服务器;由语音云服务器将语音文件转换成纯文本文件,发送给语音服务器的语言处理模块;通过语言处理模块对所书纯文本文件进行文本分词并识别操作类型及其操作关键词和操作属性;
由导航仪根据所述操作类型及其操作关键词和操作属性,执行相应操作。
4.如权利要求1所述的方法,其特征在于,还包括去除口语化词的步骤,去除分词后的文本中的口语化词。
5.如权利要求1所述的方法,其特征在于,所述语音文件经过加密、压缩、编码处理,所述语音服务器对所述语音文件先进行解码、解压、解密处理。
6.如权利要求1所述的方法,其特征在于,解析未识别的文本,通过自学习的方式引入下次识别。
7.一种使用自然语言的车载信息服务系统的语音操作系统,包括:
一导航仪,设录音键和语音输入装置,用以接收语音输入并生成语音文件;
一车载信息服务系统语音服务器,与导航仪无线通信,接收导航仪发送的语音文件;
一语音云服务器,与所述车载信息服务系统设语音云服务器网络连接,接收语音文件并将其转换为纯文本文件并发送给车载信息服务系统语音服务器的语言处理模块;
所述语音处理模块含中文词典和操作模式库,用以将纯文本文件分词,并建立用户常见的自然语言操作模式库,该模式库存储各类型下的操作模式,每一类型操作模式包含本模式的操作关键词和操作属性,进而根据分词后的文本识别操作类型及其操作关键词和操作属性,并将识别结果发送导航仪的操作执行模块,由其执行相应操作;所述中文词典采用树状结构,第一层以中文词条的首字作为索引,采用哈希表存储;第二层,采用线性顺序表存储词条的第二个字,去除相同的字并形成一个有序的线性表,线性表结点以提取汉字的内码值排序,同时存储以此汉字为首的单词的剩余部分构成的线性表的指针以及一个是否为词的标志;在树的其余层次的节点,采用按顺序存储词条中的一个字和指向它所有可能后继字的线性表的指针;
所述语音处理模块还包含一用户行为习惯规则表,用以与未能完成识别的文本进行匹配以确定操作类型及其操作关键词和操作属性。
8.如权利要求7所述的系统,其特征在于,所述语音处理模块还包含
一口语化词词库,用以去除分词后的文本中的口语化词;
一未识别知识库,用以存储未能识别的文本,并经解析后存入操作模式库。
使用自然语言的车载信息服务系统语音操作方法及系统\n技术领域\n[0001] 本发明属于通信技术领域,涉及一种车载信息服务系统的语音操作方法,尤其涉及一种使用自然语言的车载信息服务系统的语音操作方法,以及一种语音操作系统。\n背景技术\n[0002] 远程信息 服务(Telematics)是通信 (Telecommunication)和信息科 学(Informatics)的合成词,所谓Telematics系统即通过内置在汽车上的计算机系统、无线通信设备、卫星导航装置、互联网技术等,来提供文字、语音、图像等信息传送的服务系统。\nTSP平台(Telematics ServicePlatform)为一种基于无线通信技术、卫星定位(GPS)技术、地理信息系统技术、互联网技术和呼叫中心平台而为驾车者提供Telematics服务的软件平台。其中OnStar系统与G-BOOK系统是两个主要成功的应用Telematics系统的厂商,而国内在Telematics正处于起步阶段,\n[0003] 随着语音合成技术在导航领域大量成功应用,在部分导航系统中语音识别技的应用也开始崭露头角。语音识别技术能减少用户操作的次数,提高用户体验。通过语音识别技术让用户体验到“只需动口,不需要动手”的目标。尤其对于驾车者得用户,在开车过程中,尽量减少操作动作,一方面方便用户,一方面提供驾驶者的安全保障。\n[0004] 如中国发明专利申请“车辆导航装置语音控制系统”(公开号:CN 1841312A)公开了一种车辆导航装置控制系统,包含一能识别出语音信息的语音识别模块、判断语音信息是控制指令还是地图地名的指令判别模块。语音识别模块识别出结果后,在语音控制指令库中查询结果,看识别出的语音为控制指令还是地图地名。如果在语音控制指令库中查到结果,则为控制指令;如果在语音控制指令库中未查到结果,则认为是地图地名。\n[0005] 可以看出,该语音控制系统的语音输入必须为控制指令或地图地名;且控制指令限于地图控制指令、导航控制指令和地图查询指令三种指令,无法满足车载信息服务系统的需求。\n[0006] 中国发明专利申请“可用于汽车的语音命令控制方法及系统”(公开号:CN \n101217584A)公开的语音识别模块使用非特定人中文语音识别技术,利用麦克风输入语音命令,通过EM220CN对语音命令进行识别。\n[0007] 因此,该方法的语音输入也限定在命令短语上。\n[0008] 随着车载信息服务系统的发展,目前语音识别在导航仪终端上的使用场景为:先选定需要识别的类型,然后录音按钮,然后开始说话,之后系统自动识别并返回识别结果,如下图所示。\n[0009] 其中操作类型为:查询目的地、查询周边设施、查询交叉路口等等。这种应用虽然能为用户带来一定便利,但是其局限性也非常明显。主要表现为:\n[0010] 1)用户需要先限定待识别的操作类型。\n[0011] 通过限定待识别的操作类型,对于语音识别的难度系数减少,增加了查询命中率,但是带来负面效果是,用户多执行了一步操作,降低了用户体验的便捷性。\n[0012] 2)用户交互内容。\n[0013] 用户说的内容需要为短语,而不是句子。如用户选定查询目的地的操作类型,用户说的内容为:“北京火车站”,而不是“我要去北京火车站”,这样的设计不符合用户自然语言交互的要求。\n发明内容\n[0014] 本发明的目的在于提供一种使用自然语言的车载信息服务系统的语音操作方法。\n[0015] 本发明的另一目的在于提供一种使用自然语言的车载信息服务系统的语音操作系统。\n[0016] 本发明的使用自然语言的车载信息服务系统的语音操作方法,其步骤包括:\n[0017] 1、启动语音输入,接收自然语言的语音输入并生成语音文件;\n[0018] 2、将语音文件转换成纯文本文件;\n[0019] 3、对所述纯文本文件进行文本分词;\n[0020] 4、根据分词后的文本识别操作类型及其操作关键词和操作属性;\n[0021] 5、根据所述操作类型及其操作关键词和操作属性,执行相应操作。\n[0022] 所述类型包括:目的地查询;周边设施查询;交叉路口查询;音乐下推;拨打电话。\n[0023] 本发明通过启动导航仪语音输入按钮,接收自然语言的语音输入并生成语音文件;导航仪将语音文件通过无线通信方式发送给互联网上的语音处理服务器;所述语音服务器调用语音云服务器接口,将语音文件发送给语音云服务器;由语音云服务器将语音文件转换成纯文本文件,发送给语音服务器的语言处理模块;通过语言处理模块对所书纯文本文件进行文本分词并识别操作类型及其操作关键词和操作属性;由导航仪根据所述操作类型及其操作关键词和操作属性,执行相应操作。\n[0024] 本发明还包括去除口语化词的步骤,去除分词后的文本中的口语化词。\n[0025] 本发明设口语化词词库,将文本中的分词与口语化词词库进行匹配,根据匹配结果去除文本中的口语化词。\n[0026] 本发明设操作模式库,存储各种操作类型及其操作关键词和操作属性。将分词后的文本与操作模式库进行匹配,以识别操作类型及其操作关键词和操作属性。\n[0027] 本发明设分词用中文词典,中文词典采用树状结构,第一层以中文词条的首字作为索引,采用哈希表存储;第二层,采用线性顺序表存储词条的第二个字,去除相同的字并形成一个有序的线性表,线性表结点以提取汉字的内码值排序,同时存储以此汉字为首的单词的剩余部分构成的线性表的指针以及一个是否为词的标志;在树的其余层次的节点,采用按顺序存储词条中的一个字和指向它所有可能后继字的线性表的指针。\n[0028] 本发明设用户行为习惯规则表,对于未能完成识别的文本,与用户行为习惯表规则表进行匹配以确定操作类型及其操作关键词和操作属性。\n[0029] 本发明的使用自然语言的车载信息服务系统的语音操作系统,包括:\n[0030] 一导航仪,设录音键和语音输入装置,用以接收语音输入并生成语音文件;\n[0031] 一车载信息服务系统语音服务器,与导航仪无线通信,接收导航仪发送的语音文件;\n[0032] 一语音云服务器,与所述车载信息服务系统设语音云服务器网络连接,接收语音文件并将其转换为纯文本文件并发送给车载信息服务系统语音服务器的语言处理模块;\n[0033] 所述语音处理模块含中文词典和操作模式库,用以将纯文本文件分词,并识别操作类型及其操作关键词和操作属性,并将识别结果发送导航仪的操作执行模块,由其执行相应操作。\n[0034] 上述语音处理模块还含口语化词词库,用以去除分词后的文本中的口语化词。\n[0035] 本发明实现了使用自然语言的车载信息服务系统的语音操作方法,用户只需要在导航仪上用口语化的交流方式说出自已想要进行的操作,而不需要先选定操作类型,再用短语的交互方式来对机器进行操作。\n[0036] 本发明与现有技术相比具有如下优势:\n[0037] 1)是减少了用户操作步骤。由原来三步操作,降低为二步操作;\n[0038] 2)使用口语化的自然语言,代替原来的短语/词组的交互方式。\n附图说明\n[0039] 图1现有语音操作方法示意图;\n[0040] 图2本发明语音操作方法示意图;\n[0041] 图3本发明一实施例的语音操作方法示意图;\n[0042] 图4本发明文本识别流程图。\n具体实施方式\n[0043] 本发明首先要研究了用户使用自然语言识别技术的应用环境、场景、流程。通过对导航用户进行电话回访、调查问卷、论坛收集信息等方式,同时利用Telematics平台的服务录音功能,统计分析用户的真实需求,通过分析实际用户使用情况的分析、研究,我们利用归纳、分类方法,得出真实的应用需求,确定了用户操作的各种类型,其中主要的操作类型包括:\n[0044] 1)目的地查询;\n[0045] 2)周边设施查询;\n[0046] 3)交叉路口查询;\n[0047] 4)音乐下推;\n[0048] 5)拨打电话。\n[0049] 当然,随着信息服务的不断拓展,还会有更多的操作类型,但都可采用本发明的方法和系统来实现语音操作。\n[0050] 如图3所示,本发明的语音操作系统包括三大部分:导航仪、Telematics语音处理服务器、语音云。语音操作流程如下:\n[0051] 第一步:用户在导航仪上按下录音按钮后,启动语音输入,然后以自然语言的方式向导航系统发布操作信息。导航系统生成录音文件,将录音文件进行加密、压缩、编码处理,通过无线通信方式,将处理后的录音文件发送给Telematics语音服务器;\n[0052] 第二步:语音服务器收到录音文件,进行解码、解压、解密处理,然后调用语音云服务器的接口,将录音文件传递给语音云处理。\n[0053] 第三步:语音云收到录音文件,对录音文件进行处理生成TXT文本(纯文本)文件,并返回给语音服务器的自然语言处理模块。\n[0054] 第四步:自然语言处理模块收到TXT文本文件后,进行自然语言处理,解析出用户欲达成的操作,如查询POI目的地操作,将识别结果返回给导航仪的操作执行模块。\n[0055] 第五步:导航仪对收到的识别结果进行处理,执行相应操作。如果是查询结果,则直接显示。如果是拨打电话,则直接拨电话。\n[0056] 下面详细说明本发明的自然语言文本的识别过程。\n[0057] 由于在车载服务系统中的自然语言处理是特定应用领域,而且是口语化的自然语言交互处理流程,经过对问题域的研究,得出该技术的应用就具体应用场景,能归纳总结出主要的应用模式,使用自然语言模式匹配算法处理,能解决自然语言在车载系统的应用问题。\n[0058] 模式匹配算法主要包括:文本分词、去噪处理、操作关键词识别、操作模式匹配、识别结果返回等几部分。对于不能识别的文本内容,本发明提供了系统自学习功能,能够对模式库及其关键词库、口语库进行不断完善与丰富。\n[0059] 一、文本分词\n[0060] 对交互的自然语言处理首先要进行分词处理,目前常用的分词技术有“正向最大匹配分词”、“逆向最大匹配分词”、“基于TRIE索引树的分词词典机制”、“基于逐字二分的分词词典机制”等,这些分词技术在效率、空间使用率都各有优缺点。\n[0061] 本发明的中文词典采用树状结构。词典的第一层以中文词条的首字作为索引,采用哈希表存储,以提高首字的查找速度。这样,首字成为根节点,所有首字相同的词成为一组,属于同一棵树。因为在汉语中二字词较多,如果词条的次字仍以哈希表存储的话,虽然可以提高查找速度,但是这种词典的大小和最为庞大的TRIE树结构比起来改进甚微,所以在森林的第二层,采用线性顺序表来存储词条的第二个字,去除相同的字并形成一个有序的线性表,线性表结点以提取汉字的内码值排序,同时存储以此汉字为首的单词的剩余部分构成的线性表的指针以及一个是否为词的标志。在树的其余层次的节点,仍然采用按顺序存储词条中的一个字和指向它所有可能后继字的线性表的指针。为了使用二分查找来提高匹配速度,第二层以下都是线性表,但是逻辑结构则是一棵汉字构成的单词数,这样构成一个支持逐字查找的、在第一层首字以哈希表存储,以下逐层依照线性有序表存储的森林结构。在分词过程中利用上述数据结构进行逐层分词匹配查询,来解决文本的分词问题。\n[0062] 二、去噪处理(去口语化词)\n[0063] 口语话的语言中经常会夹杂着迟疑、缀语、重复等口头语的词汇,如“啊”、“呢”、“这个”等,去噪处理的作用是将口语自然语言中的口语化词去掉。\n[0064] 一)口语化词词库建立\n[0065] 首先建立日常口语词库S1,然后对Telematics运营过程中积累的客户录音文件中的常用口语整理和统计,得到词库S2。在S2中按照每个词的词频高低不同降序排列,将S1库和S2做合并处理,得到新集合S3,即口语化词词库,S3词库中的口语化词是按照在日常生活中出现词频的从高到低进行排列的。\n[0066] 二)去噪过程处理流程\n[0067] 1)依次取出文本L中各个分词Q1,Q2,…,Qn;\n[0068] 2)用Qi逐条和S3库中每个词Pi进行全字匹配;\n[0069] 3)如果匹配成功,则Qi为口语词,则去掉,如果匹配失败,则继续直到结尾;\n[0070] 4)最后整理出新的分词词组为去噪后的分词后的文本。\n[0071] 三、操作类型、操作关键词和操作属性识别\n[0072] 一)操作模式库\n[0073] 通过对Telematics平台中用户服务录音文件的分析和日常生活中口语化语言分析,归纳总结,本发明建立了用户常见的自然语言操作模式库,该模式库存储各类型下的操作模式,每一类型操作模式包含本模式的操作关键词和操作属性,如下表所示:\n[0074] 表一\n[0075] \n[0076] 其中,对于每一操作类型下的每条操作模式,都存在一条或者多条的操作关键词和操作属性,如编号为MA12的操作模式中“{}”内为操作关键字,“<>”内为操作属性。\n[0077] 二)用户习惯行为规则表\n[0078] 用户使用习惯行为的数据是通过车载终端设备中N1“用户习惯收集模块”,收集所有用户行为,如在一段时间内,用户打电话的次数为10次、打电话的时间、听本地存储的歌曲次数,歌曲名字,听歌曲时间、地点等等,然后通过无线通信技术,在一定条件下(如开机后的某个空闲时间)将“用户习惯数据”在车机上传输到Telematics语音处理服务器中,由其N2“用户习惯处理”模块处理,N2从用户在后台的服务记录数据库中(数据库中记录用户请求服务相关信息,如请求目的地查询的次数8次、给好友打电话转接3次数等等)取出已有的类似的用户习惯数据,N2将二者按照操作类型进行数据融合统计形成用户的“POI查询使用习惯库”、“打电话库”、“查询周边数据库”……等等,然后根据多个数据的数据按照某个用户进行统计,得出用户的某个操作的次数列表,然后对经常性行为按照出现频率分成从高到低进行排序,形成用户习惯行为规则表。如表二所示:\n[0079] 表二\n[0080] \n[0081] 三)操作关键词识别\n[0082] 1)逐条取出自然语言文本L中的每个分词Qi,用Qi与每个模式规则MAj中的关键词MAKm(MAK1,MAK2,…,MAKn)进行匹配;\n[0083] 2)计算每个关键词的匹配率Rm=Qi/MAKm(R1,R2,…,Rn);\n[0084] 3)然后计算平均匹配率Ri=(R1+R2+…+Rn)/n,如果Ri大于约定的匹配率值,则认为该文本L的动作为Aj条动作。否则,继续匹配下去;\n[0085] 4)如果没有任何规则满足文本L,则使用“用户习惯规则表”进行逐项匹文本L,当二者的文字匹配度达到一定值以上,认为这项内容符合文本L,如此会返回给用户多个选择结果。如用户的自然语言是:“青花瓷”,当匹配不到具体规则时,按照用户习惯规则表中该用户使用习惯的高低,先选择查询是否有“青花瓷”的信息点,如果有,则保存起来;然后继续查询是否有好友叫“青花瓷”的人,如果有,保存起来表示要给这个人打电话等等,然后将保存的多个内容和操作需要的相关数据(如信息点名称、坐标、好友电话号码等)发送给终端设备,并提示用户选择某项服务内容,当用户选择后,终端车机执行相应的操作。\n[0086] 四)操作类型及操作属性识别\n[0087] 如果确定文本L属于某个操作类型Ai后,验证每个操作类型Ai的操作模式库中的每条操作模式MAj。每条MAj操作模式的属性匹配率要达到一定阈值以上,即可以认为该文本L符合该操作模式MAj,然后按照该操作模式进行后续处理。\n[0088] 操作模式库建立后,每条操作模式都包含有限的操作属性信息。如POI查询,模式模式表示为:MA2i={Key},
。POI查询中基本包含两类操作属性,一个为P0I名称,一个为行政区名。系统对每个操作属性建立一套属性数据库PDi和一套匹配规则PMi。例如,对于行政区名建立行政区属性数据库PDi,存储全国所有的省、市、县、乡/镇、村的行政区名称,而匹配规则PMi为计算中所有汉字与PDi中各个词的匹配度,当匹配度达到一定阈值以上,如90%,就可以认定这个属性就是行政区的属性,并且属于中的PDi某一个项,标明文本L中含有该操作属性信息。\n[0089] 四、操作执行\n[0090] 对于匹配到操作的文本L,进行相应操作执行。如查询POI,导航仪依据行政区划分可以进行查询,并显示查询结果。\n[0091] 对于没有匹配到任何动作的文本L,则由语音处理服务系统会通知呼叫中心平台的坐席员给用户打电话,人工处理用户的操作请求。\n[0092] 然后将该操作文本L,加入未识别知识库中,由人工进行分析,解析为某个操作的模式,如\n[0093] MAk={key1…keyn},,,…,。\n[0094] 将该操作模式加入到操作模式库中,系统在下次遇到类似自然语言后,会自动识别并解析出正确操作需求。其中未识别知识库是用来保证闭环和系统自我完善、再学习的。\n[0095] 本发明给出了在车载信息服务平台下,利用自然语言的模式匹配算法解决用户与导航仪自由交互的问题。利用本发明提出的自然语言语音操作方法,会极大提高用户与导航仪进行人机交互的体验度,增加用户的粘性。法律信息
- 2019-01-08
未缴年费专利权终止
IPC(主分类): G10L 15/26
专利号: ZL 201210018101.2
申请日: 2012.01.19
授权公告日: 2014.01.15
- 2017-05-17
专利权的转移
登记生效日: 2017.04.24
专利权人由北京赛德斯汽车信息技术有限公司变更为上海惠保数据科技有限公司
地址由100028 北京市朝阳区北三环东路8号静安中心1022变更为上海市金山区朱泾镇临仓街600、612号15幢三楼3022室
- 2014-01-15
- 2012-09-05
实质审查的生效
IPC(主分类): G10L 15/26
专利申请号: 201210018101.2
申请日: 2012.01.19
- 2012-07-04
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有引用任何外部专利数据! |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |