著录项信息
专利名称 | 一种精准完成连续自然语音文本化的处理系统及方法 |
申请号 | CN201510364578.X | 申请日期 | 2015-06-26 |
法律状态 | 暂无 | 申报国家 | 暂无 |
公开/公告日 | 2015-12-16 | 公开/公告号 | CN105159870A |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/24 | IPC分类号 | G;0;6;F;1;7;/;2;4;;;G;0;6;F;1;7;/;2;8;;;G;1;0;L;2;1;/;1;0查看分类表>
|
申请人 | 徐信 | 申请人地址 | 北京市海淀区知春路106号太平洋国际大厦1002-1003室
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 北京中科模识科技有限公司 | 当前权利人 | 北京中科模识科技有限公司 |
发明人 | 徐信 |
代理机构 | 北京金智普华知识产权代理有限公司 | 代理人 | 巴晓艳 |
摘要
本发明属于语音文本化技术领域,具体涉及一种精准完成连续自然语音文本化的处理系统及方法。所述处理系统包括云端语音识别引擎及语音识别后修改平台,所述语音识别后修改平台与所述云端语音识别引擎连接。本发明效果如下:实时采集音视频语音信息,信息采集不间断,到毫秒级,采集率达到100%;信息丢失率为0;2、使语音和所记录的文字达到近100%的精准率。建立语音文本化科学、方便的人性化人机交互系统;实现语音文本化100%的转化率与99.7%以上的精准率;创建音频、视频、文字三维一体的电子集成文档。
1.一种精确完成连续自然语音文本化的处理系统,其特征在于,所述处理系统包括云端语音识别引擎及语音识别后修改平台,所述语音识别后修改平台与所述云端语音识别引擎连接,所述语音识别后修改平台包括显示单元、修改操作单元、控制单元及三维一体生成单元;所述显示单元、修改操作单元及三维一体生成单元均连接在所述控制单元上,所述三维一体生成单元生成语音、图像和文字三维一体的电子集成文档,所述语音、图像和文字一一对应映射关联;
所述显示单元同时显示包括操作工具栏、音频波形图、音频信息及文字内容列表及视频播放框的音视频文件图像;
所述修改操作单元包括语音修改、键盘修改、鼠标修改及键盘加鼠标的修改操作方式,所述云端语音识别引擎包括汉语语音分节处理模块、汉语语音识别模块;
所述的汉语语音分节处理模块将输入的语音切分成小节,使得切分点在语音的停顿处或一句话完结处,所述切分点为语音能量的低点,汉语语音分节处理模块输出为针对输入语音的分段时间信息,所述汉语语音识别模块包括:汉语语音特征抽取单元、汉语语音到文字转换识别单元、汉语语音文字关联信息单元、汉语强制切分单元、汉语拼音标注单元、汉语日常词汇单元、汉语声学模型单元、汉语语言模型单元及新词自适应识别单元;
汉语语音特征抽取单元:输入的为经过麦克风USB声卡录制的16K采样,PCM线性16位的分段后的汉语语音数据,输出的为针对输入分段语音的美尔倒谱特征;
汉语语音到文字转换识别核心单元:输入的为被识别经过麦克风USB声卡录制的16K采样,PCM线性16位语音美尔倒谱特征,输出为本段语音的文字内容;
汉语语音文字关联信息单元:对于识别模块输出的文字和原始的经过麦克风USB声卡录制的16K采样,PCM线性16位语音建立时间对应关系;
汉语强制切分单元:输入为经过麦克风USB声卡录制的16K采样,PCM线性16位语音和该段语音被识别的标准文字答案,输出文字和语音的时间对应的信息;
汉语拼音标注单元:为用户输入的文字按照语言模型的要求进行拼音的标注,以备语言模型识别;
汉语日常词汇单元:该单元为标准汉语拼音标注使用,及为语言模型提供引导知识;
汉语声学模型单元:该模型单元为语音识别引擎提供声学指导知识;
汉语语言模型单元:该模型为语音识别引擎提供语言指导知识;
新词自适应识别单元:对加入的新词重新生成语言模型,对于系统进行文本输入第一次出现的专业词语的文本和拼音。
2.根据权利要求1所述的一种精确完成连续自然语音文本化的处理系统,其特征在于,所述控制单元包括音频抽取模块、分划处理判断模块、转换音频波形图模块、三维一体关联模块、中央处理模块;
所述音频抽取模块、分划处理判断模块、转换音频波形图模块、三维一体关联模块均连接在所述中央处理模块上,所述中央处理模块逻辑连接所述显示单元,所述修改操作单元连接所述中央处理模块上。
3.一种精确完成连续自然语音文本化的方法,应用上述权利要求1-2之一所述的处理系统,其特征在于,所述方法包括以下步骤:
A、通过现场音视频信息采集系统或已经完成采集的音视频文件获得音视频流或音视频文件;
B、将音视频流或者音视频文件进行预处理;
C、将预处理后的音视频流或音视频文件中的语音流或片段语音上传至云端语音识别引擎中进行切分并识别;
D、云端语音识别引擎反馈切分及识别结果;
E、对云端语音识别引擎反馈的切分点进行调整;
F、对调整切分点后的语音文本进行修改,修改方式包括:通过人工跟读进行再次语音识别、直接进行再次语音识别及键盘修改;
G、对上述修改后的语音文本进行基础校对;
H、基础校对完成后,继续进行全文校对;
I、全文校对完成后,进行编辑、排版;
J、生成目标文件并存储。
4.根据权利要求3所述的一种精确完成连续自然语音文本化的方法,其特征在于,步骤A中的所述现场音视频信息采集系统包括连接到计算机的音视频输入设备,所述音视频输入实施现场进行音视频语音信息的采集,然后传送给处理系统,实时进行文本化处理;
现场音视频信息采集包括本地采集和异地远程采集两种模式,所述本地采集和异地远程采集两种模式的采集方式均包括文件采集方式和流媒体采集方式;
ⅰ、文件采集方式
i1:首先开始,初始化音频视频采集设备,通过语音采集设备麦克风与视频采集设备摄像机自动采集音视频图像和语音;
i2:任意设定采集时长,自动按设定的时长保存成一个片段文件,自动上传给处理云端语音识别引擎;
i3:人工控制开始采集和结束采集,或人工控制与自动控制相结合的方式完成片段音视频文件的采集;
i4:人工开始采集时可输入文件前缀,在自动采集过程中生成的片段文件的前缀保持不变,人工结束采集,再次开始采集时再次输入新的前缀;
i5:采集的片段文件可按照前缀自动合并成一个文件;
i6:手动任意选择若干采集的片段文件合并成一个文件;
i7:语音识别后修改平台自动合并已处理完成的片段文件;
ⅱ、流媒体采集方式
ⅱ1:通过语音采集设备麦克风与视频采集设备摄像机自动采集音视频图像和语音;
ⅱ2:实时将采集的音视频流,通过处理系统预处理后,将语音流上传给云端语音识别引擎;
ⅱ3:上传音视频流的同时进行硬盘备份;
所述步骤B中对音视频文件的预处理包括以下步骤:
B11音视频文件编码记录:记录为临时文件,对系统外不可见,以便在现场采集过程中不会占用大量内存导致系统崩溃,同时建立时间索引,以便以后处理时使用,系统所能记录的时间由音视频信息处理系统所在计算机硬盘空间的剩余量决定,在默认记录格式下每小时磁盘消耗量约为5G;
B12音视频文件分离:将音频流从联合文件中独立分离出来,视频流保持原有样式;
B13音频流采样频率转换,对于不同的采集文件应用不同的音频采样频率与编码速率;
B14语音分节处理:将音频信号分解为特定时间区间的音频片断,并保留和视频时序对应信息,每一小节的分节处应为一句话的完结处或一句话的中间停顿处;
上述步骤B中对音视频流的预处理,具体包括以下步骤:
B21采集设备直接将音视频流传给处理系统,处理系统波形显示模块按照接收到的音频流实时更新显示波形;
B22处理系统处理过程中直接播放流媒体内容;
B23接收到的语音流直接发往云端语音识别引擎进行识别,并且由云端语音识别引擎对语音流进行段落切分后返回识别结果;
B24返回的语音流识别结果,通过语音识别后修改平台重新调整切分点,再次送到云端语音识别引擎识别。
5.根据权利要求3所述的一种精确完成连续自然语音文本化的方法,其特征在于:
上述步骤F中,直接进行再次语音识别的修改方式为:经过语音分节处理的每一个语音片段,依次送到语音识别引擎直接转化为对应的文字;
选用语音识别引擎进行文本化处理,云端语音识别引擎直接根据输入音频信息将语音转换成文字,并保存文字与音频对应的时序信息;
上述步骤F中,人工跟读进行再次语音识别修改方式为:系统播放录音,处理人员复述系统记录,语音识别引擎识别,人工跟读的音频信息不仅作为处理中的传译信息,还被记录在输出文件中;
上述步骤F中,键盘修改修改方式具体为:对于输入的语音,处理人员通过键盘输入方式按句直接听写,人工转换为文本信息。
6.根据权利要求3所述的一种精确完成连续自然语音文本化的方法,其特征在于:所述步骤G中的文本校对为:校对工作是对生成文本再修订的过程,分为两个步骤:基础校对、全文校对,校对过程仅生成纯文本,不包含排版信息;
其中所述基础校对是以词组或语句为基础的校对,每次组合单个、几个词组或句子,将组合后的词组或语句播放,并相应显示所转换出的文字信息,根据播放的语音与所显示的文字进行校对;
所述全文校对是以段落或全文为基础的校对,每次组合基础校对中的单个或几个语音信息,将组合后的语音播放,并显示相应的文本信息,根据播放的语音与所显示的文字进行校对;
所述步骤I中的编辑及排版具体为:对已经确定的文本信息进行添加标点、标题、换行分段与空格操作;
所述步骤J中的进行目标文件的生成、存储为:将校对、排版后的文档、视频和语音信息打包生成三维一体文件输出、存储,且目标文件保存文字与视频、语音信息的对应时序关系。
一种精准完成连续自然语音文本化的处理系统及方法\n技术领域\n[0001] 本发明属于语音文本化技术领域,具体涉及一种精准完成连续自然语音文本化的处理系统及方法。\n背景技术\n[0002] 随着信息处理技术的不断发展,以自然语言进行人机交互成为现实。实现人机交互的关键是要准确理解用户发出或获得的自然语言指令并进行相应的操作。用户在发出或获得自然语言指令后,该指令被转换为语音文本。在我国100多年以来,如何将连续的自然语音实时转换成文字的速记,一直成为人们不断探索和研究的问题。\n[0003] 目前的速记主要的载体为计算机,然而计算机速记经过多年的实践证明:目前速记社会化服务模式不能满足市场深层次的需求。\n[0004] 传统速记,如手写速记、专业速记机、普通计算机键盘速记都存在着:培训周期长、成才率低,不易普及。速记员工作时高度紧张、劳动强度大。大多数速记员也不可能具有各专业领域的基础知识,难以满足不同行业速记工作的需要,工作质量难以保证等诸多问题。\n[0005] 因此,需要设计并实现一种通过语音识别技术为主体的语音文本化工作平台,来替代以人工键盘技术为主的传统速记。将速记社会化服务的模式转化为本单位自我服务的模式,让本专业高素质的人才不需要进行高强度、长时间的专业速记培训,就可以完成本单位、本专业将语音转化为文字的工作。\n[0006] 本系统正是出于上述诸方面的考虑,建立以语音识别技术为主体的语音文本化工作平台,从而实现降低速记人员的劳动强度、提高工作质量,并实现传统的速记工作从专业速记员的速记服务向单位内部各类人员自我服务的过度,这是市场深度发展的需求。\n[0007] 在以人工键盘技术为主的传统计算机速记存在上述缺陷的情况下,语音识别凸显了它的优势。以计算机语音识别为主体的新技术取代以人工技能为主体的专业速记机或计算机键盘速记是计算机科学技术发展的必然。\n[0008] 对汉语语音,在比较好的普通话、清晰发音的条件下,目前我国的汉语语音识别率可以达到90%或更高的水平。同时语音识别也存在以下缺陷:\n[0009] 汉语语音识别发展到今天,仍然面临着很多挑战,语音识别的准确率受到各种因素的制约。\n[0010] (1)汉语同音字词的问题非常严重\n[0011] 汉字是非常古老原始的文字,汉语使用不拼音的汉字作为记录语音的文字。汉语同音字词的问题非常严重。\n[0012] (2)汉语语音地方方言语系繁多\n[0013] 在汉族中,因方言不同,而分为八大民系。即北方语、了相语、吴语、赣语、粤语(广府语),微语、闽南语(包括闽南、海南、潮州、雷州四种方语)闽北语和客家语八大方言语系。\n[0014] 目前,汉语语音识别基本上局限于比较清晰的汉语普通话。地方方言和地方语调普通话的语音识别,达到实际应用水平,尚需时日。当前这个问题的解决,可以依靠同声传译,由听懂方言的人跟读转为系统能够识别的普通话。\n[0015] (3)普通话的水平因人而异,语音识别的正确率也因人而异,不是100%准确。\n[0016] (4)录音环境的影响,语音识别是对麦克风人声语音进行识别,完成语音文本化的任务。伴随人声的背景噪音、传输设备的物理噪音、语音输入音量的过强、过弱等都会影响语音识别的正确率。\n发明内容\n[0017] 为了有效解决上述问题,本发明提供一种精准完成连续自然语音文本化的处理系统及方法。本发明所要解决的技术问题是:实时采集音视频语音信息,建造了一个以语音识别技术为主体的语音文本化的工作平台,实现语音文本化100%的转化率与99.7%以上的精准率,实现精准完成连续自然语音文本化的处理,并创建音频、视频、文字三维一体的电子集成文档。\n[0018] 本发明的具体技术方案如下:一种精确完成连续自然语音文本化的处理系统,所述处理系统包括云端语音识别引擎及语音识别后修改平台,所述语音识别后修改平台与所述云端语音识别引擎连接。\n[0019] 进一步地,所述语音识别后修改平台包括显示单元、修改操作单元、控制单元及三维一体生成单元;所述显示单元、修改操作单元及三维一体生成单元均连接在所述控制单元上。\n[0020] 进一步地,所述三维一体生成单元生成语音、图像和文字三维一体的电子集成文档(即目标文件),所述语音、图像和文字一一对应关联;\n[0021] 所述显示单元同时显示包括操作工具栏、音频波形图、音频信息及文字内容列表及视频播放框的音视频文件图像;\n[0022] 所述修改操作单元包括语音修改、键盘修改、鼠标修改及键盘加鼠标的修改操作方式。\n[0023] 进一步地,所述控制单元包括音频抽取模块、分划处理判断模块、转换音频波形图模块、三维一体关联模块、中央处理模块;\n[0024] 所述音频抽取模块、分划处理判断模块、转换音频波形图模块、三维一体关联模块均连接在所述中央处理模块上,所述中央处理模块逻辑连接所述显示单元,所述修改操作单元连接所述中央处理模块上。\n[0025] 进一步地,所述云端语音识别引擎包括汉语语音分节处理模块、汉语语音识别模块。\n[0026] 进一步地,所述的汉语语音分节处理模块将输入的语音切分成小节,使得切分点在语音的停顿处或一句话完结处,所述切分点为语音能量的低点,汉语语音分节处理模块输出为针对输入语音的分段时间信息。\n[0027] 进一步地,所述汉语语音识别模块包括:汉语语音特征抽取单元、汉语语音到文字转换识别单元、汉语语音文字关联信息单元、汉语强制切分单元、汉语拼音标注单元、汉语日常词汇单元、汉语声学模型单元、汉语语言模型单元及新词自适应识别单元;\n[0028] 汉语语音特征抽取单元:输入的为经过麦克风USB声卡录制的16K采样,PCM线性16位的分段后的汉语语音数据,输出的为针对输入分段语音的美尔倒谱特征;\n[0029] 汉语语音到文字转换识别核心单元:输入的为被识别经过麦克风USB声卡录制的\n16K采样,PCM线性16位语音美尔倒谱特征,输出为本段语音的文字内容;\n[0030] 汉语语音、文字、图像关联信息单元:对于识别模块输出的文字和原始的经过麦克风USB声卡录制的16K采样,PCM线性16位语音及同步采集的图像建立时间对应关系;\n[0031] 汉语强制切分单元:输入为经过麦克风USB声卡录制的16K采样,PCM线性16位语音和该段语音被识别的标准文字答案,输出文字和语音的时间对应的信息;\n[0032] 汉语拼音标注单元:为用户输入的文字按照语言模型的要求进行拼音的标注,以备语言模型识别;\n[0033] 汉语日常词汇单元:该单元为标准汉语拼音标注使用,及为语言模型提供引导知识;\n[0034] 汉语声学模型单元:该模型单元为语音识别引擎提供声学指导知识;\n[0035] 汉语语言模型单元:该模型为语音识别引擎提供语言指导知识;\n[0036] 新词自适应识别单元:对加入的新词重新生成语言模型,对于系统用计算机进行文本输入第一次出现的专业词语的文本和拼音,以后语音中再出现该词语,系统就能够识别出来。\n[0037] 一种精确完成连续自然语音文本化的方法,应用上述的处理系统,所述方法包括以下步骤:\n[0038] A、通过现场音视频信息采集系统或已经完成采集的音视频文件获得音视频流或音视频文件;\n[0039] B、将音视频流或者音视频文件进行预处理;\n[0040] C、将预处理后的音视频流或音视频文件上传至云端语音识别引擎中进行切分并识别;\n[0041] D、云端语音识别引擎反馈切分及识别结果;\n[0042] E、对云端语音识别引擎反馈的切分点进行调整;\n[0043] F、对调整切分点后的语音文本进行修改,修改方式包括:通过人工跟读进行再次语音识别、直接进行再次语音识别及键盘修改;\n[0044] G、对上述修改后的语音文本进行基础校对;\n[0045] H、基础校对完成后,继续进行全文校对;\n[0046] I、全文校对完成后,进行编辑、排版;\n[0047] J、生成目标文件并存储。\n[0048] 进一步地,步骤A中的所述现场音视频信息采集系统包括连接到计算机的音视频输入设备,所述音频输入实施现场进行音视频语音信息的采集,然后传送给处理系统,实时进行文本化处理;\n[0049] 现场音视频信息采集包括本地采集和异地远程采集两种模式,所述本地采集和异地远程采集两种模式的采集方式均包括文件采集方式和流媒体采集方式;\n[0050] i、文件采集方式\n[0051] i1:首先开始,初始化音频视频采集设备,通过语音采集设备麦克风与视频采集设备摄像机自动采集音视频图像和语音;\n[0052] i2:任意设定采集时长,系统自动按设定的时长保存成一个片段文件,自动上传给处理系统;\n[0053] i3:也可以用人工控制开始采集和结束采集,还可以把人工控制与自动控制相结合的方式完成片段音视频文件的采集;\n[0054] i4:人工开始采集时可输入文件前缀,在自动采集过程中生成的片段文件的前缀保持不变,人工结束采集,再次开始采集时再次输入新的前缀;\n[0055] i5:采集的片段文件可按照前缀自动合并成一个文件;\n[0056] i6:手动任意选择若干采集的片段文件合并成一个文件;\n[0057] i7:系统自动合并已处理完成的片段文件;\n[0058] ii、流媒体采集方式\n[0059] ii 1:通过语音采集设备麦克风与视频采集设备摄像机自动采集音视频图像和语音;\n[0060] ii 2:实时将采集的音视频流,上传给处理系统;\n[0061] ii 3:上传音视频流的同时进行硬盘备份。\n[0062] 所述步骤B中对音视频文件的预处理包括以下步骤:\n[0063] B11音视频语音文件编码记录:记录为临时文件,对系统外不可见,以便在现场采集过程中不会占用大量内存导致系统崩溃,同时建立时间索引,以便以后处理时使用,系统所能记录的时间由音视频信息处理系统所在计算机硬盘空间的剩余量决定,在默认记录格式下每小时磁盘消耗量约为5G;\n[0064] B12音视频语音文件分离:将音频流从联合文件中独立分离出来,视频流保持原有样式;\n[0065] B13音频流采样频率转换,对于不同的采集文件应用不同的音频采样频率与编码速率;\n[0066] B14语音分节处理:将音频信号分解为特定时间区间的语音音频片断,并保留和视频时序对应信息。每一小节的分节处应为一句话的完结处或一句话的中间停顿处;将分节处理后的语音音频传给处理系统,处理系统波形显示模块按照接收到的语音音频显示其波形\n[0067] 上述步骤B中对音视频流的预处理,具体包括以下步骤:\n[0068] B21采集设备直接将音视频流传给处理系统,处理系统波形显示模块按照接收到的音频流实时更新显示波形;\n[0069] B22处理系统处理过程中直接播放流媒体内容;\n[0070] B23接收到的语音流直接发往云端语音识别引擎进行识别,并且由云端语音识别引擎对语音流进行段落切分后返回识别结果;\n[0071] B24返回的语音流识别结果,通过语音识别后修改平台重新调整切分点,再次送到云端语音识别引擎引擎识别。\n[0072] 上述步骤F中,直接进行再次语音识别的修改方式为:经过语音分节处理的每一个音频片段,依次送到语音识别引擎转化直接为对应的文字;\n[0073] 对于普通话水平比较好、清晰语音的输入信息,直接选用语音识别引擎进行文本化处理,云端语音识别引擎直接根据输入音频信息将语音转换成文字,并保存文字与音频对应的时序信息;\n[0074] 上述步骤F中,人工跟读进行再次语音识别修改方式为:系统播放录音,处理人员复述系统记录,语音识别引擎识别,人工跟读的音频信息不仅作为处理中的传译信息,还被记录在输出文件中;\n[0075] 上述步骤F中,键盘修改修改方式具体为:对于输入的语音,处理人员通过键盘输入方式按句直接听写,人工转换为文本信息。\n[0076] 进一步地,所述步骤G中的目标文件校对为:目标文件校对工作是对生成文本文件再修订的过程,分为两个步骤:基础校对、全文校对,校对过程仅生成纯文本文件,不包含排版信息;\n[0077] 其中所述基础校对是以词组或句子为基础的校对,每次组合单个、几个词组、或片段语音,将组合后的语音播放,并相应显示所转换出的文字信息,根据播放语音与所显示的文字进行校对;\n[0078] 所述全文校对是以段落或全文为基础的校对,每次组合基础校对中的单个或几个语音信息,将组合后的语音播放,并显示相应的文本信息,根据播放语音与所显示的文字进行校对;\n[0079] 所述步骤I中的编辑及排版具体为:对已经确定的文本信息进行添加标点、数字、换行、分段,添加大小标题与空格等操作;\n[0080] 所述步骤J中的生成目标文件并存储为:将校对、排版后的文档、视频和语音信息打包生成三维一体的电子集成文档(即目标文件)输出、存储。该文件可以被拷贝、传输,并可以被音视频信息检索系统打开、浏览与查询,但不能被修改。\n[0081] 本发明的有益效果:本发明解决了语音识别的局限性所带来的遗留问题,效果如下:1、实时采集音视频语音信息,信息采集不间断,到毫秒级,采集率达到100%;信息丢失率为0;2、设计并实现了一种科学的、方便的、可行的方法,建造了一个人性化程度极高的语音文本化的修改平台,使操作人员方便的进行语音识别的后修改,使语音和所记录的文字达到近100%的精准率。建立语音文本化科学、方便的人性化人机交互系统;3、实现语音文本化100%的转化率与99.7%以上的精准率;4、创建音频、视频、文字三维一体的电子集成文档。\n附图说明\n[0082] 图1为精准完成连续自然语音文本化流程图;\n[0083] 图2为文件采集方式流程图;\n[0084] 图3为流媒体采集方式流程图;\n[0085] 图4为异地远程采集流媒体采集模式处理流程图;\n[0086] 图5为异地远程采集文件采集模式处理流程图;\n[0087] 图6为音视频语音信息文本化处理系统结构图;\n[0088] 图7为音视频语音预处理流程图;\n[0089] 图8为语音文本化后修改平台流程图。\n具体实施方式\n[0090] 下面结合实例对本发明的技术方案进行详细说明,显然,所描述的实例仅仅是本发明中很小的一部分,而不是全部的实例。基于本发明中的实例,本领域人员在没有做出创造性劳动前提下所获得的所有其他实例,都属于本发明保护的范围。\n[0091] 如图1所示,为本发明实施例提供的一种精确完成连续自然语音文本化方法的流程图,一种精准完成连续自然语音文本化的方法具体包括以下步骤:\n[0092] A、通过现场音视频信息采集系统或已经完成采集的音视频文件获得音视频流或音视频文件;\n[0093] B、将音视频流或者音视频文件进行预处理;\n[0094] C、将预处理后的音视频流或音视频文件上传至云端语音识别引擎中进行切分并识别;\n[0095] D、云端语音识别引擎反馈切分及识别结果;\n[0096] E、对云端语音识别引擎反馈的切分点进行调整;\n[0097] F、对调整切分点后的语音文本进行修改,修改方式包括:通过人工跟读进行再次语音识别、直接进行再次语音识别及键盘修改;\n[0098] G、对上述修改后的语音文本进行基础校对;\n[0099] H、基础校对完成后,继续进行全文校对;\n[0100] I、全文校对完成后,进行编辑、排版;\n[0101] J、进行目标文件存储或存为Word兼容文档。\n[0102] 本发明应用上述多步骤,对音视频文件文本化过程中易出现错误点,均有针对性的解决方案,以下将进行详细解释。\n[0103] 其中步骤A中所述现场音视频信息采集系统包括连接到计算机的音视频输入设备,实施现场进行音视频语音信息的采集,然后传送给处理系统,实时进行文本化处理。\n[0104] 现场音视频信息采集包括本地采集和异地远程采集两种模式,所述本地采集和异地远程采集两种模式的采集方式均包括文件采集方式和流媒体采集方式,如图2所示为文件采集方式的流程图;如图3所示为流媒体采集方式的流程图。\n[0105] i、文件采集方式\n[0106] i1:首先开始,初始化音频视频采集设备,通过语音采集设备麦克风与视频采集设备摄像机(头)自动采集音视频图像和语音。\n[0107] i2:任意设定采集时长(分钟),系统自动按设定的时长保存成一个片段文件,自动上传给处理系统。\n[0108] i3:也可以用人工控制开始采集和结束采集,还可以把人工控制与自动控制相结合的方式完成片段音视频文件的采集。\n[0109] i4:人工开始采集时可输入文件前缀,在自动采集过程中生成的片段文件的前缀保持不变,人工结束采集,再次开始采集时再次输入新的前缀。\n[0110] i5:采集的片段文件可按照前缀自动合并成一个文件。\n[0111] i6:可手动任意选择若干采集的片段文件合并成一个文件。\n[0112] i7:系统自动合并已处理完成的片段文件。\n[0113] ii、流媒体采集方式\n[0114] ii 1:通过语音采集设备麦克风与视频采集设备摄像机(头)自动采集音视频图像和语音;\n[0115] ii 2:实时将采集的音视频流,上传给处理系统。\n[0116] ii 3:上传音视频流的同时进行硬盘备份。\n[0117] 如图4所示为异地远程采集系统的采集处理流程图。\n[0118] 如图5所示为异地远程采集文件采集模式处理流程图,所述异地远程采集系统即采集系统与处理系统分设在不同地点的两台计算机上,通过计算机有线或无线网络连接、将采集到的音视频文件或流媒体传送给异地的处理系统。此时,本地处理系统作为异地远程采集系统的接收端。当远程采集时,采集系统本地留存采集的音视频文件或流媒体,作为备份,保证采集的音视频信息不会丢失。远程采集时,处理系统可通过网络远程控制采集系统的工作,形成无人值守采集端,可远程控制开始采集、结束采集、启动采集数据的传输等所有采集系统的功能。\n[0119] 上述步骤F中,针对修改方式中的直接进行再次语音识别具体为:经过语音分节处理的每一个音频片段,依次送到语音识别引擎转化直接为对应的文字。\n[0120] 对于普通话水平比较好、清晰语音的输入信息,直接选用语音识别引擎进行文本化处理。语音识别引擎直接根据输入音频信息将语音转换成文字,并保存文字与音频对应的时序信息。\n[0121] 上述步骤F中,针对修改方式中的人工跟读进行再次语音识别具体为:对于地方方言、不清晰的普通话或计算机不能识别的语音片段的输入信息,通过语音处理人员跟读后选用语音识别引擎进行文本化处理。流程为系统播放录音,处理人员复述系统记录,语音识别引擎识别。人工跟读的音频信息不仅作为处理中的传译信息,还被记录在输出文件中。\n[0122] 注:当为现场录音文本化,且输入设备为麦克风时,此功能必需使用含有两块声卡(含有两个以上MIC输入)的计算机完成,若计算机仅有一块声卡(仅有一个MIC输入端口)无法使用此功能进行文本生成。\n[0123] 上述步骤F中,针对修改方式中的键盘修改具体为:对于输入的语音,处理人员通过键盘输入方式按句直接听写,人工转换为文本信息。\n[0124] 上述步骤G中的目标文件校对具体为:\n[0125] 目标文件校对工作是对生成文本文件再修订的过程,分为两个步骤:基础校对、全文校对。校对过程仅生成纯文本文件,不包含排版信息。\n[0126] i、基础校对:\n[0127] 基础校对是以词组或句子为基础的校对,每次组合单个、几个词组或句子,进行播放,并相应显示所转换出的文字信息。处理人员可以根据播放的语音信息与所显示的文字进行校对工作,并同时添加标点符号。\n[0128] 校对时语音信息重放,采用下面的方式:\n[0129] ●根据用户设定的间隔时间(由1秒到n秒)自动重放语音信息,\n[0130] ●按照系统定义的特定快捷键(即开关键)重放语音信息。\n[0131] 进行文字校对时,可选择下面的方式:\n[0132] ●在专用的校对行进行校对,与分段语音文字的显示行分开;\n[0133] ●在分段语音文字的显示行本地校对修改;\n[0134] ●在对某段语音文字进行校对时,实时弹出大窗口显示被校对的语音文字行,在特定大窗口中进行校对。\n[0135] ii、上述步骤H中的全文校对具体为:\n[0136] 全文校对是以段落或全文为基础的校对,每次组合基础校对中的单个或几个语音信息,将组合后的语音播放,并显示相应的文本信息。处理人员可以根据语音信息与所显示的文字进行校对工作,并添加或修改标点符号。\n[0137] 校对时语音信息的重放采用定时与快捷键组合的方式,根据用户设定的间隔时间自动重放语音信息,或者按照系统定义的特定快捷键重放语音信息。\n[0138] 实现语音、图像、文字同步播放,保持文字与语音、图像精准对应的时序关联。当播放语音、图像时,与语音对应的文字会自动高亮显示。\n[0139] 上述步骤I-J中的目标文件编辑、排版具体为:\n[0140] 经过转换与校对之后得到的是纯文本信息,该文本信息不包含任何排版信息。本系统提供简单的编辑与排版功能。\n[0141] 编辑功能下不可以对原文本信息增删内容,可以添加标点、数字、换行、分段与空格等信息。排版功能提供已经定义好的字号、字体组合,标记为大标题、小标题等项目内容。\n用户可以根据自己的需要选择相应的组合,并将该组合所定义的格式使用到选定的文字上。不提供页面型的预览方式。用户可以根据自己的需要将文本通过纯文本或富文本格式导出系统,并导入到其它排版系统中进行排版打印。\n[0142] 打印功能提供文档按照排版后的格式打印输出的功能。该功能依赖于.Net Framework打印功能的实现,提供打印机选择、纸型选择并根据打印机情况可以选择是否双面打印。\n[0143] 系统文档高级编辑功能,通过输出微软Word兼容格式文档(RTF),再调用Microsoft Office Word实现文档的高级排版与打印功能。这项功能需要用户的终端上安装有Microsoft Office Word 2003以上的版本。\n[0144] 目标文件的生成与输出具体为:\n[0145] 当处理人员完成校对排版后,系统可以将校对后的文档、视频和语音信息打包生成系统所支持格式的输出文件,该文件可以被拷贝、传输,并可以被音视频信息检索系统打开、浏览与查询,但不能被修改。\n[0146] 目标文件输出的处理速度根据音视频信息时间长度而定,在建议配置下,处理速度高于每秒压缩处理2.5秒音视频信息。\n[0147] 音视频流编码压缩具体为:\n[0148] 当语音信息处理完毕生成相关文档后,系统将相关文档与音视频文件打包,并将音视频文件按照固定的编码与压缩格式进行压缩。音视频信息在文件内以压缩格式存储,以节省硬盘占用空间,生成可供检索机使用但不可修改的相关文件。压缩速度由所选择的格式与计算机的速度决定。在以上处理过程中,始终保持音频与视频相关联的一致性。\n[0149] 如图6所示为本发明音视频语音信息文本化处理系统的示意图。\n[0150] 图7为音视频语音信息文本化处理系统的预处理流程图。\n[0151] 本发明实施例提供一种音视频语音信息文本化处理系统,所述该系统包括云端语音识别引擎及语音识别后修改平台。\n[0152] 所述云端语音识别引擎包括汉语语音分节处理模块、汉语语音识别模块,所述云端语音识别引擎具体处理并实现上述方法中步骤B-D。\n[0153] 其中所述的汉语语音分节处理模块将输入的大段语音切分成细的小节,使得切分点在语音的停顿处或一句话完结处,所述切分点为语音能量的低点,每一小节的长短随讲话人的具体内容而不同,一般在10-20几个字。所述汉语语音分节处理模块输入的″语音数据″为引擎的″语音识别器″需要的语音汉语普通话语音数据。引擎的输出为针对输入语音的分段时间信息。\n[0154] 汉语语音识别模块包括:汉语语音特征抽取单元、汉语语音到文字转换识别单元、汉语语音文字关联信息单元、汉语强制切分单元、汉语拼音标注单元、汉语日常词汇单元、汉语声学模型单元、汉语语言模型单元及新词自适应识别单元。\n[0155] a、汉语语音特征抽取单元:模块输入的为经过麦克风USB声卡录制的16K采样,PCM线性16位的分段后的汉语语音数据,该模块输出的为针对输入分段语音的美尔倒谱特征。\n[0156] b、汉语语音到文字转换识别核心单元:输入的为被识别经过麦克风USB声卡录制的16K采样,PCM线性16位语音美尔倒谱特征,输出为本段语音的文字内容。\n[0157] c、汉语语音文字关联信息单元:对于识别模块输出的文字和原始的经过麦克风USB声卡录制的16K采样,PCM线性16位语音建立时间对应关系。\n[0158] d、汉语强制切分单元:输入为经过麦克风USB声卡录制的16K采样,PCM线性16位语音和该段语音被识别的标准文字答案,输出文字和语音的时间对应的信息。\n[0159] e、汉语拼音标注单元:为用户输入的文字按照语言模型的要求进行拼音的标注,以备语言模型识别。\n[0160] f、汉语日常词汇单元:该单元为标准汉语拼音标注使用,及为语言模型提供引导知识。\n[0161] g、汉语声学模型单元:该模型单元为语音识别引擎提供声学指导知识。\n[0162] 上述的声学模型由下述步骤创建而成,获取多个标准教师语音;从所述多个标准教师语音中选择均衡的语音参数,即为所有标准语音教师的语音均数值,其中,所述的语音参数包括:声学参数、音高、节奏信息;\n[0163] 根据所述多个标准教师语音中的均衡的语音参数合成声调匹配语音;根据声调匹配语音及结合TD-PSOLA算法合成所述汉语声学模型单元。\n[0164] h、汉语语言模型单元:该模型为语音识别引擎提供语言指导知识。\n[0165] 所述该汉语语音模型为现有技术中适用于提供语音指导知识及库的语音模型即可。\n[0166] j、新词自适应识别单元:提供相应的工具,以便能加入新词并重新生成语言模型。\n对于系统用计算机进行文本输入第一次出现的专业词语的文本和拼音,以后语音中再出现该词语,系统就能够识别出来。\n[0167] 将语音流上传给语音识别引擎以后,按照上述的模块及单元自动完成识别。\n[0168] 如图8所示,所述语音识别后修改平台为了解决语音识别的局限性所带来的遗留问题,本发明提出一个人性化程度极高的语音文本化的修改平台,使操作人员方便的进行语音识别的后修改,使语音和所记录的文字达到100%的正确率。并把语音识别及语音识别后修改所取得的成果进一步集成,形成语音、图像和文字(即音频、视频和文字)三维一体的电子集成文档。该电子集成文档把语音、图像和记录语音的文字有机的结合在一起,保持语音、图像和文字一一对应的关联。以后可以通过相关文字方便的进行浏览、检索原来的音视频信息。\n[0169] 所述语音识别后修改平台包括显示单元、修改操作单元、控制单元,及三维一体生成单元,所述显示单元、修改操作单元及三维一体生成单元均连接在所述控制单元上。\n[0170] 所述控制单元与所述云端语音识别引擎连接,控制单元可实现向云端语音识别引擎发送或接收音视频流或音视频文件;所述显示单元显示音视频文件,并同时显示包括操作工具栏、音频波形图、音频信息及文字内容列表及视频播放框的音视频文件图像;所述修改操作单元包括键盘修改、鼠标修改及键盘加鼠标的修改操作方式。\n[0171] 所述控制单元包括音频抽取模块、分划处理判断模块、转换音频波形图模块、三维一体关联模块、中央处理模块;所述音频抽取模块、分划处理判断模块、转换音频波形图模块、三维一体关联模块均连接在所述中央处理模块上,所述中央处理模块逻辑连接所述显示单元,所述手动操作单元连接所述中央处理模块上。\n[0172] 所述处理单元接收修改操作单元的指令,反馈在显示单元上,显示修改操作单元的操作步骤,所述该显示单元还显示包括显示视频波形图栏及处理显示栏。\n[0173] 所述中央处理模块接收并提取音视频文件,所述三维一体关联模块对音视频文件进行验证,抽取音视频文件的映射关系,判断音视频文件所采用的是否为语音、音频、视频一一相互对应的映射关系。\n[0174] 所述音频抽取模块将音视频文件中的音频抽取,抽取出来的音频发送至转换音频波形图模块。\n[0175] 所述转换音频波形图模块将音频转换为波形图,并通过中央处理模块发送至显示单元,显示单元将转换好的波形图进行显示,所述该波形图具有能量低点,所述分划处理判断模块进行判断手动调整的切分点是否在能量低点上,若在能量低点上,则不进行提示,若不在能量低点上,则进行标红显示。
法律信息
- 2021-09-28
专利权的转移
登记生效日: 2021.09.15
专利权人由徐信变更为北京中科模识科技有限公司
地址由102206 北京市昌平区北农路7号变更为100086 北京市海淀区知春路106号太平洋国际大厦1002-1003室
- 2018-06-29
- 2016-01-13
实质审查的生效
IPC(主分类): G06F 17/24
专利申请号: 201510364578.X
申请日: 2015.06.26
- 2015-12-16
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2014-07-02
|
2012-12-30
| | |
2
| |
2009-03-11
|
2008-07-01
| | |
3
| |
2009-09-23
|
2009-04-17
| | |
4
| |
2013-10-02
|
2013-04-26
| | |
5
| |
2002-09-25
|
2002-03-25
| | |
6
| |
2014-12-31
|
2014-09-11
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |