著录项信息
专利名称 | 一种基于语音识别技术的智能化家居语音记录及提醒系统 |
申请号 | CN200610124296.3 | 申请日期 | 2006-12-19 |
法律状态 | 权利终止 | 申报国家 | 中国 |
公开/公告日 | 2007-07-18 | 公开/公告号 | CN101001294 |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | H04M11/00 | IPC分类号 | H04M11/00;H04M1/64查看分类表>
|
申请人 | 中山大学 | 申请人地址 | 广东省广州市新港西路1***
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 中山大学 | 当前权利人 | 中山大学 |
发明人 | 汤韬;罗笑南 |
代理机构 | 广州广信知识产权代理有限公司 | 代理人 | 李玉峰 |
摘要
本发明公开了一种基于语音识别技术的智能化家居语音记录及提醒系统,包括用于接收和发送用户发出的语音信号的语音接收模块、用于对语音进行识别、存储及处理的系统控制模块,以及用于向用户发出语音提示的语音输出模块三个部分。本发明能够对用户的语音进行定制和识别,并对语音数据进行个性化处理并传达给用户,从而实现了直接通过语音进行控制完成自动留言、日记及预约提醒等功能,简化了用户的操作,提高了家居生活的智能化程度,为人们的日常生活带来了极大的便利和舒适,同时也有利于语音识别技术的推广、普及和发展。
1.一种基于语音识别技术的智能化家居语音记录及提醒系统,其特征在于:包括用于接收和发送用户发出的语音信号的语音接收模块、用于对语音进行识别、存储及处理的系统控制模块,以及用于向用户发出语音提示的语音输出模块三个部分;其中
语音接收模块包括:
用于采集用户发出的语音信号的集音器;
用于将集音器收集到的语音信号通过FM调频信号发送到系统控制模块的FM编码及发送子模块;
系统控制模块包括:
用于接收FM信号并转换成适合于语音识别的语音格式,同时对语音进行预处理的信号接收及预处理子模块;
用于根据预定义规则对用户的语音进行辨识,分辨是否为控制语音或信息语音,将控制语音识别为文本信息,同时对调用的文本信息进行语音合成的语音识别与合成子模块;
用于对文本信息进行命令转化、信息存储及搜索的文本信息处理子模块;
用于对信息语音进行压缩编码成通用音频格式,并进行存储的编码及存储子模块;
用于对控制语音中的操作内容部分进行命令解析和执行操作,协调各个子模块之间的工作的语音控制子模块;
语音输出模块包括:
用于接收系统控制模块发送的语音信号并进行解码操作的音频解码子模块;
用于将合成及存储的语音按照系统控制模块的控制设定进行播放的音频播放子模块;
所述语音接收模块的语音发送子模块与系统控制模块的信号接收及预处理子模块连接;所述系统控制模块的语音控制子模块连接语音输出模块的音频解码子模块。
技术领域
本发明涉及一种数据转换控制技术,尤其涉及一种通过对语音的识别自动进行语音记录并做出提示的系统。
背景技术
留言是大多数人经常进行但又不是太留意的一项日常活动。传统的留言行为一般是通过纸质媒介进行的,比如将便条贴在比较显眼的地方或是采用专用的留言本等。而现代的留言方式在电信产品的出现之后有了新的发展,目前比较常用的方式是通过电话进行留言,但在国内这项功能并不是在安装电话后就可以直接使用的,大部分情况下需要用户自行办理和缴纳部分费用后才能够使用留言功能。然而,由于中国人的使用习惯问题,电话留言并不适用于一般的家庭用户。最重要的问题是,大多数的留言对用户来说并没有针对性,当用户没有留意或者由于某些客观原因比如风吹走便条等,留言的到达率则不高,因而起不到应有的作用。更有甚者,如果留言的内容包含秘密信息的话,这种公开的留言方式则是对秘密信息本身最大的挑战,甚至会导致很多不良的后果。因此,采取针对性的留言方式,即只对相关人员提供留言内容的方式将对用户带来极大的方便。
在提醒功能方面,现代很多通信设备和电子设备都带有即时提醒功能。但就目前市场上用户经常使用的产品来说,用得比较多的产品主要是用于时间提醒和事件提醒的产品,通常是以文本显示和铃声提醒的形式,并以时间为触发条件给用户以提醒。其功能比较单一,对家庭用户来说功能也不够强大,而且需要手动设置,因此难以避免由于输入错误而导致出现问题。
日记是记录用户心情经历的手段。电子输入产品和网络出现之后,电脑记录和网上的博客之类的记录开始逐渐代替用户的手写,而博客的出现更是将传统的日记的私密性变成公开。现代社会的竞争压力和日益加快的生活节奏使得越来越多的人很难静下心来记录自己的心情和一些私密的想法和感触。然而,在家庭中很多用户虽然有将自己的心路历程记录下来的想法,但是却对传统的手写记录的方式表示没有动力,而对键盘输入表示又影响心情的表达。因此,传统和现有的日记记录方式不能完全满足现代社会人们的需求。
发明内容
本发明的目的在于提供一种能够对用户的语音进行定制和识别,并对语音数据进行个性化处理并传达给用户,从而实现通过语音控制完成自动留言、日记及预约提醒功能的基于语音识别技术的智能化家居语音记录及提醒系统。
本发明的目的通过以下技术方案予以实现:
本发明提供的一种基于语音识别技术的智能化家居语音记录及提醒系统,包括用于接收和发送用户发出的语音信号的语音接收模块、用于对语音进行识别、存储及处理的系统控制模块,以及用于向用户发出语音提示的语音输出模块三个部分;
其中
语音接收模块包括:
用于采集用户发出的语音信号的集音器;
用于将集音器收集到的语音信号通过FM调频信号发送到系统控制模块的FM编码及发送子模块;
系统控制模块包括:
用于接收FM信号并转换成适合于语音识别的语音格式,同时对语音进行预处理的信号接收及预处理子模块;
用于根据预定义规则对用户的语音进行辨识,分辨是否为控制语音或信息语音,将控制语音识别为文本信息,同时对调用的文本信息进行语音合成的语音识别与合成子模块;
用于对文本信息进行命令转化、信息存储及搜索的文本信息处理子模块;
用于对信息语音进行压缩编码成通用音频格式,并进行存储的编码及存储子模块;
用于对控制语音中的操作内容部分进行命令解析和执行操作,协调各个子模块之间的工作的语音控制子模块;
语音输出模块包括:
用于接收系统控制模块发送的语音信号并进行解码操作的音频解码子模块;
用于将合成及存储的语音按照系统控制模块的控制设定进行播放的音频播放子模块;
所述语音接收模块的语音发送子模块与系统控制模块的信号接收及预处理子模块连接;所述系统控制模块的语音控制子模块连接语音输出模块的音频解码子模块。
本发明通过语音接收模块和语音输出模块实现与用户的交互。高灵敏度的集音器(拾音器)位于家庭成员的主要活动区域以采集用户发出的语音,并通过语音发送子模块发送到系统控制模块的信号接收及预处理子模块,转换成适合于语音识别的语音格式,并对语音进行预处理,使得语音的信号更突出,降低环境噪音对语音识别的影响。
本发明的控制语音,是指用户使用语音进行操作时,语句中包含的符合本系统预定义规则的语音。信息语音为控制语音之外不进行操作的语音,一般出现在控制语音之后,为纯语音内容。语音识别与合成子模块根据预定义规则对用户的语音进行辨识,将控制语音识别为文本信息,然后通过文本信息处理子模块转换为控制命令。而信息语音则由编码及存储子模块压缩编码成通用的音频格式,并进行存储。当控制命令的“触发条件”满足时,语音控制子模块调出控制命令进行解析并执行操作,并调出信息语音发送给语音输出模块。音频解码子模块则将接收到的音频信号进行解码操作并控制所连接的音频播放子模块进行播放。
本发明是应用在家庭中,实现的是短距离的信号传输。为此,结合传输成本和音质保障等方面的因素,本发明通过FM调频信号将语音发送到系统控制模块中,以实现语音信号的传送。
本发明具有以下有益效果:
1、采用语音控制的方式进行留言,与手动控制相比更加方便,操作也更加简单。
2、根据留言中的对象进行直接的留言,只留言给相应的对象,针对性强,简单高效且保密。
3、能够实现定时提醒功能,可以通过多个触发条件实现语音的提醒,效果明显。
4、可以采取语音记录的方式实现日记功能。
5、实现日记语音的识别,可以通过语音操作查询并播放日记的内容。
附图说明
下面将结合实施例和附图对本发明作进一步的详细描述:
图1是本发明实施例的结构组成框图;
图2是本发明实施例留言和提醒功能的工作流程框图;
图3是本发明实施例日记功能的工作流程图。
具体实施方式
图1~图3所示本发明的实施例,如图1所示,本实施例系统包括用于接收和发送用户发出的语音信号的语音接收模块、用于对语音进行识别、存储及处理的系统控制模块,以及用于向用户发出语音提示的语音输出模块三个部分。
一、语音接收模块,包括:
用于采集用户发出的语音信号的集音器;
用于通过FM调频信号将语音发送到系统控制模块的FM编码及发送子模块。
二、系统控制模块,包括:
用于接收FM信号并转换成适合于语音识别的语音格式,同时对语音进行预处理的信号接收及预处理子模块;
用于根据预定义规则对用户的语音进行辨识,分辨是否为控制语音或信息语音,将控制语音识别为文本信息并进行存储,同时对语音进行合成的语音识别与合成子模块;
用于对文本信息进行命令转化、信息存储及搜索的文本信息处理子模块;
用于对信息语音进行压缩编码成通用音频格式,并进行存储的编码及存储子模块;
用于对控制语音中的操作内容部分进行命令解析和执行操作,协调各个子模块之间的工作的语音控制子模块。
三、语音输出模块,包括:
用于接收系统控制模块发送的语音信号并进行解码操作的音频解码子模块;
用于将合成及存储的语音按照系统控制模块的控制设定进行播放的音频播放子模块。
本实施例高灵敏度的集音器(拾音器)布置在家庭成员的主要活动区域,负责用户语音的接收。集音器在应用上可外接附加麦克风(比如特殊指向型麦克风或专业用途麦克风),以减少环境噪声的影响,增加清晰度。集音器接收的语音由FM编码及发送子模块通过FM调频信号发送到系统控制模块。FM调频信号可以工作在87.5-108MHz,但为避免和公共调频节目的冲突,用户可以自行选择频段,系统默认节目较少的高频段。
在系统控制模块中,信号接收与处理子模块负责接收FM编码及发送子模块发来的FM信号,并转换成适合于语音识别的语音格式(一般为wav格式),并对语音进行预处理,使得语音的信号更突出,降低环境噪音对语音识别的影响。
本实施例的控制语音,是指用户使用语音进行操作时,语句中包含的符合本系统预定义规则的语音。信息语音为控制语音之外不进行操作的语音,一般出现在控制语音之后,为纯语音内容。在留言方面,其工作流程见图2。例如语音段为:“开始留言”-“给儿子”-“下午6点”-“妈妈不在家,记得先完成作业再看电视啊,晚上检查”-“结束留言”。此处的“开始留言”、“给儿子”、“下午6点”、“结束留言”皆为控制语音,其余的则为信息语音。语音识别与合成子模块根据预定义规则对用户的语音进行辨识,将控制语音识别为文本信息,然后通过文本信息处理子模块转换为控制命令。在控制语音的格式满足之后,系统暂停识别,并且记录其后的信息语音,如果信息语音后有停顿,开始识别是否为结束语音,如否则继续记录,遇到“结束留言”的控制语音时则结束操作,将信息语音由编码及存储子模块压缩编码成通用的音频格式(如mp3),并进行存储。然后等待下一次操作,或者等到“触发条件”满足时进行播放操作。其中,语句间隔中的“-”表示停顿2秒,系统可以根据停顿划分语句,并通过对前面的语音识别结果判断后面内容分辨是否需要识别。
语音控制子模块在系统控制模块中处于协调者的地位,由其协调各个子模块之间的工作。语音识别与合成子模块与文本信息处理模块的交互是双向的。语音识别与合成子模块将控制语音识别为文本信息,并发送到文本处理子模块进行命令转化、信息存储或者文本搜索的工作。而当系统进行语音提示的时候,需要将存储的语音信息或者用户自定义的文本提示信息进行播放,此时文本信息处理子模块对存储的文本提示信息进行读取并将之发送到语音识别与合成子模块进行语音合成,然后接收并转化成控制命令发送到语音控制子模块进行对外输出。
语音控制子模块与编码及存储子模块的交互发生在:1、当之前用户控制语音的触发条件满足时,需要从存储模块中调出用户存储的留言信息、日记信息和提醒信息中不需要识别直接进行提取播放的内容。2、当系统开始运行时,用户要求进行提示操作,系统通过语音控制子模块从编码及存储子模块调出原有的语音提示信息进行直接播放。
对用户的鉴别可以采用语音识别的方式。此外也可以通过用户随身携带的智能卡进行识别,或者是通过摄像头对用户的脸部进行识别,并通过数字家庭用于控制家庭所有电器设备的总控中心传送给系统。
“触发条件”是指当控制语音里提到的控制条件满足的情况。上述语音段中的“下午六点”和“给儿子”就是触发条件。本实施例可以采用通过对用户语音的识别来鉴定说话人,并通过识别出说话人的存在是否与目标留言人匹配,来作为留言触发条件是否激活的前提。因此,当系统接收到儿子在家的信息,而且当前的时间满足时,系统播放留言“妈妈不在家,记得先完成作业再看电视啊,晚上检查”。
在语音播放时,系统通过语音控制子模块发送的语音信号首先由音频解码子模块进行接收和解码操作,然后发送到音频播放子模块,将合成语音和存储用户语音按照系统控制模块的控制设定进行播放。音频播放子模块可以是专用音响系统或其它音频输出设备。
在日记方面,其工作流程见图3。例如记录的日记信息格式为:“开始日记”-“2006年10月23日星期1”-“今天早上......”-“结束日记”,此时的日期“2006年10月23日星期1”不被识别为控制语音,而是作为信息语音记录到编码及存储子模块中。
如果需要提取日记信息时,系统从编码及存储子模块读取信息,按照日期索引进行查询,通过语音控制子模块从编码及存储子模块调出原有的语音提示信息进行直接播放。在播放日记的时候只对用户指定的日期的日记进行播放。
如果需要对日记的语音内容进行查询时,例如需要对2006年10月23日当天日记中是否提到了“早上”的记录,则编码及存储子模块将存储内容交予语音识别与合成子模块进行识别,并转化成文本信息发送到文本信息处理子模块。文本信息处理子模块对识别出来的文本信息进行处理,如文本的搜索、命令的转换。然后通过语音识别与合成子模块以及语音控制子模块的处理,由语音输出模块将合成语音和存储用户语音按照系统控制模块的控制设定进行播放。如果文本中含有用户需要查询的关键词,如上述的“早上”,则播放该段文本所在的日记记录,如果有多条记录,则按照日期的先后进行播放。
此外,对控制命令的识别转化的文本信息可以做单独存储处理,以便帮助系统更好的学习用户的说话习惯。学习功能可以通过在语音识别与合成子模块中设置自适应学习单元来完成。如果是对信息语音的识别,则将信息语音所对应的文本信息放到其相应的目录之下,当下次需要再次查询时,不需要再次识别,如图3所示,此时查询只是针对未被识别过的日记内容。
法律信息
- 2016-02-10
未缴年费专利权终止
IPC(主分类): H04M 11/00
专利号: ZL 200610124296.3
申请日: 2006.12.19
授权公告日: 2010.10.06
- 2010-10-06
- 2007-09-12
- 2007-07-18
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2000-08-09
|
1999-01-28
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |