会议纪要的提取方法和装置

发明专利有效专利

申请号：
CN201110448509.9
IPC分类号：H04N7/15
申请日期：
2011-12-28
申请人：
中兴通讯股份有限公司

基础信息

权利要求

说明书

PDF全文

法律信息

引证文献

著录项信息

专利名称	会议纪要的提取方法和装置
申请号	CN201110448509.9	申请日期	2011-12-28
法律状态	授权	申报国家	中国
公开/公告日	2012-07-11	公开/公告号	CN102572372A
优先权	暂无	优先权号	暂无
主分类号	H04N7/15 ? IPC结构图谱： H 电学 H9 电学 H04 电通信技术 H04N 图像通信，如电视 H04N7/00 电视系统（部件入H04N 3/00，H04N 5/00；用于数字视频信号编码，解码，压缩或解压缩的方法或装置；可选的内容分发入H04N 21/00） H04N7/14 双向工作系统〔5〕 H04N7/15 会议系统（电话会议装置入H04M 3/56）〔5〕	IPC分类号	H;0;4;N;7;/;1;5查看分类表>
申请人	中兴通讯股份有限公司	申请人地址	广东省深圳市南山区科技南路55号变更专利地址、主体等相关变化，请及时变更，防止失效
权利人	中兴通讯股份有限公司	当前权利人	中兴通讯股份有限公司
发明人	李霞;付贤会;修岩
代理机构	北京康信知识产权代理有限责任公司	代理人	余刚;梁丽超

摘要

本发明公开了一种会议纪要的提取方法和装置。其中，该方法包括：获取音视频信号；将该音视频信号中的语音信号转化成对应的文本，并获取该音视频信号的发言者的身份，将上述文本与上述发言者建立关联；根据设定的提取规则从上述文本中提取出会议纪要，其中，该会议纪要与上述发言者相关联。通过本发明，解决了相关技术中基于语音识别方式得到的会议记录篇幅冗长，发言内容无法对应到具体发言对象的问题，从而可以将会议内容与具体发言对象相对应，并自动完成会议内容的整理，归纳出发言对象的发言重点，提高了视频会议的智能性，提升了用户体验。

1.一种会议纪要的提取方法，其特征在于包括：
获取音视频信号；
将所述音视频信号中的语音信号转化成对应的文本，并获取所述音视频信号的发言者的身份，将所述文本与所述发言者建立关联；
根据设定的提取规则从所述文本中提取出会议纪要，其中，所述会议纪要与所述发言者相关联；
其中，根据设定的提取规则从所述文本中提取出所述会议纪要包括：根据设定的关键词和/或所述语音信号的语调提取所述会议纪要；
获取所述音视频信号的发言者的身份包括：根据获取的所述音视频信号识别发言者的身份；其中，所述音视频信号来自本端或者远端的发言者；或者，如果所述音视频信号为远端发言者的音视频信号，接收所述远端发言者提供的身份信息；
所述提取方法还包括：对所述会议纪要和/或所述文本进行操作，所述操作至少包括以下方式之一：将所述会议纪要和/或所述文本以邮件或传真形式发送给指定用户；向指定用户提供以网页显示方式浏览所述会议纪要和/或所述文本；将所述会议纪要和/或所述文本与所述音视频信号中的图像组合。
2.根据权利要求1所述的方法，其特征在于，根据所述音视频信号识别发言者的身份包括：
根据所述音视频信号提取特征参数，根据所述特征参数确定发言者标识ID。
3.根据权利要求2所述的方法，其特征在于，根据所述特征参数确定发言者ID包括：
使用所述特征参数在身份索引表中查找发言者ID，其中，所述身份索引表中存储有预先注册的特征参数与ID的对应关系；
如果未查找到发言者ID，根据所述特征参数生成发言者ID，并将所述特征参数与生成的所述发言者ID的对应关系存储在所述身份索引表。
4.一种会议纪要的提取装置，其特征在于包括：
音视频信号获取模块，用于获取音视频信号；
文本转化模块，用于将所述音视频信号获取模块获取的所述音视频信号中的语音信号转化成对应的文本；
身份获取模块，用于获取所述音视频信号获取模块获取的所述音视频信号的发言者的身份；
关联建立模块，用于将所述文本转化模块转化的所述文本与所述身份获取模块获取的所述发言者建立关联；
会议纪要提取模块，用于根据设定的提取规则从所述文本转化模块转化的所述文本中提取出会议纪要，其中，所述会议纪要与所述发言者相关联；
其中，所述会议纪要提取模块包括：
第一提取子模块，用于根据设定的关键词提取所述会议纪要；和/或，
第二提取子模块，用于根据所述语音信号的语调提取所述会议纪要；
所述身份获取模块包括以下之一：身份识别子模块，用于根据获取的所述音视频信号识别发言者的身份；其中，所述音视频信号来自本端或者远端的发言者；或者，身份接收子模块，用于在所述音视频信号为远端发言者的音视频信号的情况下，接收所述远端发言者提供的身份信息；
所述提取装置还用于对所述会议纪要和/或所述文本进行操作，所述操作至少包括以下方式之一：将所述会议纪要和/或所述文本以邮件或传真形式发送给指定用户；向指定用户提供以网页显示方式浏览所述会议纪要和/或所述文本；将所述会议纪要和/或所述文本与所述音视频信号中的图像组合。
5.根据权利要求4所述的装置，其特征在于，所述身份识别子模块包括：
特征参数提取单元，用于根据所述音视频信号提取特征参数；
标识确定单元，用于根据所述特征参数提取单元提取的所述特征参数确定发言者标识ID。
6.根据权利要求5所述的装置，其特征在于，所述标识确定单元包括：
标识查找子单元，用于使用所述特征参数在身份索引表中查找发言者ID，其中，所述身份索引表中存储有预先注册的特征参数与ID的对应关系；
标识生成子单元，用于在所述标识查找子单元未查找到发言者ID的情况下，根据所述特征参数生成发言者ID；
对应关系存储子单元，用于将所述特征参数与生成的所述发言者ID的对应关系存储在所述身份索引表。

会议纪要的提取方法和装置\n技术领域\n[0001] 本发明涉及通信领域，具体而言，涉及一种会议纪要的提取方法和装置。\n背景技术\n[0002] 在当前技术中，视频会议本着面向用户的设计思路，设计了友好的用户界面，用户在自己的办公室或公司的会议室里可以非常方便地自主召集会议并进行会议控制。但是，目前的视频会议不支持会议记录和记录整理的功能，与会者会自带笔记本和笔，把会议过程的要点记录，以便会后重温会议内容，这种方式存在很多弊端，一是用户体验差，视频会议的一个发展趋势是“面对面”沟通，即与会者之间可以通过神态、肢体语言等加强沟通，然而只顾埋头用笔记录的方式可能会错过演讲者精彩的肢体语言，二是可能会出现会议内容的漏记或对会议内容的误解，尤其是当演讲者发表长篇演说时，会议记录对速度要求很快，否则就会遗漏要点，也可能在记录时来不及理解演讲者所要表达的意思，从而造成误解。\n[0003] 目前已有会议纪要自动生成的专利(比如一种可由人工或系统自动进行会议记录的实现方法和设备等)，这些专利都是将语音识别成文字并存储，比如在几十个与会者参加的长达一两个小时的会议中，该方式生成的会议记录篇幅冗长，没办法找到会议的重点内容，在后续翻看此次会议的记录时，不便于用户的理解，因此很难推广使用。\n[0004] 针对相关技术中的自动生成会议纪要的方式无法得到有针对性的会议记录的问题，目前尚未提出有效的解决方案。\n发明内容\n[0005] 针对相关技术中的自动生成会议纪要的方式无法得到有针对性的会议记录的问题，本发明提供了一种会议纪要的提取方法和装置，以至少解决上述问题。\n[0006] 根据本发明的一个方面，提供了一种会议纪要的提取方法，该方法包括：获取音视频信号；将该音视频信号中的语音信号转化成对应的文本，并获取该音视频信号的发言者的身份，将上述文本与上述发言者建立关联；根据设定的提取规则从上述文本中提取出会议纪要，其中，该会议纪要与上述发言者相关联。\n[0007] 上述获取音视频信号的发言者的身份包括：根据获取的音视频信号识别发言者的身份；其中，音视频信号来自本端或者远端的发言者；或者，如果音视频信号为远端发言者的音视频信号，接收远端发言者提供的身份信息。\n[0008] 上述根据音视频信号识别发言者的身份包括：根据音视频信号提取特征参数，根据特征参数确定发言者标识ID。\n[0009] 上述根据特征参数确定发言者ID包括：使用特征参数在身份索引表中查找发言者ID，其中，身份索引表中存储有预先注册的特征参数与ID的对应关系；如果未查找到发言者ID，根据特征参数生成发言者ID，并将特征参数与生成的发言者ID的对应关系存储在身份索引表。\n[0010] 上述方法还包括：对会议纪要和/或文本进行操作，该操作至少包括以下方式之一：将会议纪要和/或文本以邮件或传真形式发送给指定用户；向指定用户提供以网页显示方式浏览会议纪要和/或文本；将会议纪要和/或文本与音视频信号中的图像组合。\n[0011] 上述根据设定的提取规则从文本中提取出会议纪要包括：根据设定的关键词和/或语音信号的语调提取会议纪要。\n[0012] 根据本发明的另一方面，提供了一种会议纪要的提取装置，该装置包括：音视频信号获取模块，用于获取音视频信号；文本转化模块，用于将音视频信号获取模块获取的上述音视频信号中的语音信号转化成对应的文本；身份获取模块，用于获取音视频信号获取模块获取的上述音视频信号的发言者的身份；关联建立模块，用于将文本转化模块转化的上述文本与身份获取模块获取的上述发言者建立关联；会议纪要提取模块，用于根据设定的提取规则从文本转化模块转化的上述文本中提取出会议纪要，其中，该会议纪要与上述发言者相关联。\n[0013] 上述身份获取模块包括以下之一：身份识别子模块，用于根据获取的音视频信号识别发言者的身份；其中，音视频信号来自本端或者远端的发言者；或者，身份接收子模块，用于在音视频信号为远端发言者的音视频信号的情况下，接收远端发言者提供的身份信息。\n[0014] 上述身份识别子模块包括：特征参数提取单元，用于根据音视频信号提取特征参数；标识确定单元，用于根据特征参数提取单元提取的特征参数确定发言者标识ID。\n[0015] 上述标识确定单元包括：标识查找子单元，用于使用特征参数在身份索引表中查找发言者ID，其中，身份索引表中存储有预先注册的特征参数与ID的对应关系；标识生成子单元，用于在标识查找子单元未查找到发言者ID的情况下，根据特征参数生成发言者ID；对应关系存储子单元，用于将特征参数与生成的发言者ID的对应关系存储在身份索引表。\n[0016] 上述会议纪要提取模块包括：第一提取子模块，用于根据设定的关键词提取会议纪要；和/或，第二提取子模块，用于根据语音信号的语调提取会议纪要。\n[0017] 通过本发明，将音视频信号中的语音信号转化成文本，根据音视频信号获取发言者的身份，然后将该文本与该发言者相关联，再从该文本中提取出会议纪要，解决了相关技术中基于语音识别方式得到的会议记录篇幅冗长，发言内容无法对应到具体发言对象的问题，从而可以将会议内容与具体发言对象相对应，并自动完成会议内容的整理，归纳出发言对象的发言重点，提高了视频会议的智能性，提升了用户体验。\n附图说明\n[0018] 此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：\n[0019] 图1是根据本发明实施例的会议纪要的提取方法的流程图；\n[0020] 图2是根据本发明实施例的会议终端的结构示意图；\n[0021] 图3是根据本发明实施例的会议终端的另一种结构示意图；\n[0022] 图4是根据本发明实施例的根据发言者模型识别发言者身份的示意图；\n[0023] 图5是根据本发明实施例的终端提取会议纪要的示意图；\n[0024] 图6是根据本发明实施例的终端提取会议纪要的方法的流程图；\n[0025] 图7是根据本发明实施例的视频会议终端提取会议纪要的方法的流程图；\n[0026] 图8是根据本发明实施例的视频会议终端的示意图；\n[0027] 图9是根据本实施例的会议纪要的提取装置的结构框图；\n[0028] 图10是根据本实施例的会议纪要的提取装置的具体结构框图。\n具体实施方式\n[0029] 下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。\n[0030] 目前的会议纪要自动生成技术只是将语音识别成文字并存储，在识别语音信号中的言语内容时并不考虑发言者是谁，即没有根据发言者的生物特征对发言者身份进行识别。基于此，本发明实施例提供了一种会议纪要的提取方法和装置。下面通过实施例进行详细说明。\n[0031] 本实施例提供了一种会议纪要的提取方法，如图1所示的是会议纪要的提取方法的流程图，该方法以在会议终端实现为例进行说明，包括以下步骤(步骤S102-步骤S106)：\n[0032] 步骤S102，会议终端获取音视频信号。\n[0033] 步骤S104，会议终端将上述音视频信号中的语音信号转化成对应的文本，并获取上述音视频信号的发言者的身份，将上述文本与上述发言者建立关联。\n[0034] 在获取音视频信号的发言者身份时，可以通过该音视频信号中的语音信号中的生物特征进行身份识别，也可以通过该音视频信号中的视频信号携带的生物特征(比如人脸图像识别信号)进行身份识别。\n[0035] 步骤S106，会议终端根据设定的提取规则从上述文本中提取出会议纪要，其中，该会议纪要与上述发言者相关联。\n[0036] 通过上述方法，将音视频信号中的语音信号转化成文本，根据音视频信号获取发言者的身份，然后将该文本与该发言者相关联，再从该文本中提取出会议纪要，解决了相关技术中基于语音识别方式得到的会议记录篇幅冗长，发言内容无法对应到具体发言对象的问题，从而可以将会议内容与具体发言对象相对应，并自动完成会议内容的整理，归纳出发言对象的发言重点，提高了视频会议的智能性，提升了用户体验。\n[0037] 音视频信号的来源有本地发言者的音视频信号和远端发言者的音视频信号，以语音信号为例，对于本端，会议终端可以通过音频采集工具(比如话筒、麦克风)检测是否有语音信号输入，若有，采集发言者(即本端发言者)的音频输入源；对于远端，会议终端接收线路上的音频包，通过音频解码器解码此音频包，将解码后的信息作为音频输入源。\n[0038] 对应于上述本端和远端的两种实施方式，本实施例中的会议终端可以有两种结构。如图2所示的第一种会议终端的结构示意图，该会议终端以采集本端语音信号为例进行说明，其可以包括音频采集模块、A/D(Analog Digital，模数转换，也可以写为A/D)模块、语音识别模块、存储模块。其中，音频采集模块用于采集音频信号；A/D模块用于进行信号的模数转换；语音识别模块用于根据采集到的信号识别发言者的身份；存储模块用于存储发言者的身份信息和采集的信号；图2所示的会议终端工作时，首先音频采集模块采集音频输入源，如果是模拟音频输入源，则需要经由A/D模块进行模数转换，然后输入到语音识别模块进行发言者身份识别，最后将识别出的发言者身份信息与输入的音频流对应存储在存储模块。\n[0039] 图3所示的是会议终端的另一种结构示意图，该会议终端以采集远端语音信号为例进行说明，其包括音频解码模块、语音识别模块和存储模块；其中，音频解码模块用于对接收到的音频网络报进行音频解码，并将解码后的音频流输入到语音识别模块；语音视频模块用于基于语音识别技术对该音频流进行语音识别，识别出发言者的身份；然后，将识别出的发言者身份信息与输入的音频流对应存储在存储模块。\n[0040] 在获取到音视频信号之后，会议终端获取上述音视频信号的发言者的身份，如果音视频信号是本端发言者的音视频信号，则直接根据该音视频信号识别发言者的身份，如果音视频信号是远端发言者的音视频信号，则有两种方式获取发言者的身份，一种方式是远端设备获取到音视频信号后，位于远端的会议终端在其本地根据该音视频信号识别发言者的身份，再将该身份信息发送到本端，另一种方式是远端设备将获取到的音视频信号发送至本端，然后位于本端的会议终端根据该音视频信号识别发言者的身份。\n[0041] 对于上述获取音视频信号的发言者的身份的过程，本实施例提供了一种优选实施方式，该方式可以描述为：会议终端根据获取的音视频信号识别发言者的身份；其中，该音视频信号来自本端或者远端的发言者；或者，如果该音视频信号为远端发言者的音视频信号，接收上述远端发言者提供的身份信息。本优选实施方式可以更方便的确认本端发言者的身份，并且对于远端发言者而言，会议终端也可以更加方便灵活的确定其身份。\n[0042] 会议终端根据音视频信号获取发言者身份的方式可以根据该音视频信号提取特征参数，再根据该特征参数确定发言者的标识(identifiy，简称为ID)，例如，使用特征参数查找预先注册的身份索引表；由此ID即可得知发言者的身份。对于根据特征参数确定发言者的ID的过程，本实施例提供了一种优选实施方式，该方式具体过程是：会议终端建立身份索引表，在该身份索引表中存储了预先注册的特征参数与发言者的ID的对应关系，在音视频信号中提取到特征参数之后，会议终端根据该特征参数在身份索引表中查到与其对应的ID，如果会议终端在身份索引表中没有查找到与上述特征参数对应的ID，则根据该特征参数生成发言者ID，并将该特征参数与该ID的对应关系存储在身份索引表中。\n[0043] 会议终端根据特征参数确定发言者的ID还可以采取另一种优选实施方式，即可以根据特征参数生成发言者模型，将该发言者模型与对应的ID存储在数据库中的身份索引表中。在提取到特征参数之后，会议终端将该特征参数与身份索引表中的发言者模型进行比较，并得到匹配得分。如果匹配得分达到一定分数，则表明索引表中存在该特征参数对应的发言者模型，由此即可得到发言者ID，确认发言者身份。否则，表明索引表中不存在该特征参数对应的发言者模型，则根据该特征参数生成发言者模型以及对应的ID，并存储在身份索引表中，以便后续方便查找应用。上述特征参数可以是上述音视频信号中语音信号携带的发言者语音信号中的语调、音频或者是上述音视频信号中的视频信号携带的面部特征等，在此不再一一列举。通过该优选实施方式，会议终端可以更加清晰形象的根据特征参数确定发言者的身份。\n[0044] 对于上述优选实施方式，下面对于特征参数是语音信号中的语调、音频的情况进行具体说明，对于特征参数是音视频信号中的面部特征等情况时，本实施例对于识别身份的过程不再详细说明。该实施例中的会议终端可以包括：音频采集模块、模数(A/D)转换模块、特征提取模块和模式匹配模块。图4所示的是根据发言者模型识别发言者身份的示意图，发言者的身份识别包括本端发言者的身份识别和远端发言者的身份识别，下面对于本端发言者的身份识别过程进行详细介绍。\n[0045] 首先注册语音，即利用音频采集模块采集发言者的语音信号，并通过A/D转换模块将语音信号转化成数字语音信号，然后特征提取模块将该数字语音信号转化为需要的特征量，以声学特征为例，首先将每个语音段(语音段一般横跨其语音波形的10-30毫秒，即语音帧，相邻语音帧时间存在一定重叠)映射到一个多维的特征空间，然后转化为一个特征变量，这样，一句完整的语音被转化成一个特征向量序列，然后通过注册语音的特征向量生成发言者模型，并存储在数据库中。\n[0046] 在音频采集模块采集到后续的发言者的语音信号时，同样将该语音信号通过A/D转换模块转化成数字语音信号，特征提取模块将该数字语音信号转化为需要的特征量序列。\n[0047] 然后进入模式匹配的阶段，将上述特征向量序列输入模式匹配模块，通过模式匹配技术将该特征向量与发言者模型进行比较，并得到模式匹配得分，该模式匹配得分衡量了实际发言者的特征向量序列和数据库中的发言者模型的相似程度，这样就到了裁决阶段，即如果模式匹配(比如模式匹配得分达到一定分数)，则表明实际发言者的特征量序列已经在数据库中存储，这样就可以数据库中的索引表中获取发言者ID，如果模式不匹配，则根据实际发言者的特征量序列建立发言者模型，将该发言者模型存储在数据库中，并生成对应该发言者的ID号，并将该ID号与对应的发言者模型加入到身份索引表中，方便后续可以直接根据匹配的发言者模型获取发言者的ID，从而确认发言者的身份。\n[0048] 上面介绍的是本端发言者的身份识别过程，对于远端发言者的身份识别过程，也可以采取远端在其本地进行发言者的身份识别，这种方式，本端仅需要向远端发送一个查询请求，远端收到该请求后，将其身份ID反馈给该本端。或者，远端也可以采用主动发送身份ID给该本端，而不需要本端发送查询请求。更方便本端获取远端的身份ID。\n[0049] 在上述步骤S104中，会议终端将上述音视频信号中的语音信号转化成对应的文本，在上述步骤S106中，会议终端根据设定的提取规则从上述文本中提取出会议纪要，在此之后，会议终端可以对上述会议纪要和/或上述文本进行操作，比如可以将会议纪要和/或文本以邮件或传真形式发送给指定用户，向指定用户提供以网页web显示方式浏览会议纪要和/或文本，将会议纪要和/或文本作为字幕与音视频信号中的图像组合等等。该优选实施方式在会议终端根据语音信号转化出文本，并提取出会议纪要之后，对该会议纪要和/或文本进一步应用，使会议终端的功能更加完善，提升了用户体验。\n[0050] 在上述步骤S106中，会议终端根据设定的提取规则从上述文本中提取出会议纪要，该设定的提取规则可以是关键词或者语音信号的语调等，即会议终端可以根据设定的关键词和/或语音信号的语调提取会议纪要。\n[0051] 图5是根据本发明实施例的终端提取会议纪要的示意图，该终端可以包括文本转化模块和生物特征识别模块，如图5所示，终端提取会议纪要的过程如下所示：\n[0052] 步骤1：终端通过文本转化模块将音频输入信号转化成对应的文本；\n[0053] 步骤2：终端通过生物特征识别模块获得能代表发言者身份的发言者ID号；\n[0054] 步骤3：将发言者ID与经过语音识别转化后的所示文本建立关联；\n[0055] 步骤4：在上述文本中提取出会议纪要，对上述文本和/或会议纪要进行操作，该具体操作同上，这里不再描述。\n[0056] 图6是根据本发明实施例的终端提取会议纪要的方法的流程图，该终端可以包括语音识别模块和发言者识别模块，如图6所示，该方法包括如下步骤(步骤S602-步骤S610)：\n[0057] 步骤S602，终端通过麦克风获取发言者的音频流，或者通过音频解码器解码其他会场发言者的音频流。\n[0058] 步骤S604，终端通过语音识别模块将音频流中的语音信号转化成文本文档，并作为会议记录进行存储。\n[0059] 步骤S606，终端通过发言者识别模块对发言者身份进行识别，并建立发言者的ID号与语音文本的映射关系。\n[0060] 步骤S608，终端根据特性词的模式匹配或语音的响度等特征，对发言者的语音文本进行归纳，并通过总结性关键词匹配和发言者的语调分析等，归纳出发言内容的重点内容，并作为会议纪要进行存储。\n[0061] 步骤S610，对上述会议记录和/或会议纪要实施具体操作，该具体操作同上，这里不再描述。\n[0062] 图7是根据本发明实施例的视频会议终端提取会议纪要的方法的流程图，如图7所示，该方法包括如下步骤(步骤S702-步骤S724)：\n[0063] 步骤S702，视频会议终端web界面启动，会议纪要功能可以默认打开或关闭，与会者在召开视频会议前可修改会议纪要是否开启；如果开启，执行步骤S704，如果关闭，执行步骤S724。\n[0064] 步骤S704，采集语音信号，语音输入有两个来源，对于本端，通过话筒可以检测到语音信号输入；对于远端，接收线路上的音频包，可以通过音频解码器解码后获得远端音频输入源。然后执行步骤S706或步骤S710，步骤S706和步骤S710没有时间先后关系。\n[0065] 步骤S706，进行语音识别，将数字语音信号转化成语音内容，并将该语音内容存储在会议纪要存储单元临时缓冲区。\n[0066] 步骤S708，根据总结性关键词匹配，提取发言者的总结性发言，以汉语发言为例，其关键词可以为但不限于“总之”，“首先”，“第一”等等。然后执行步骤S720。\n[0067] 步骤S710，识别发言者身份，提取语音信号中的特征量。\n[0068] 步骤S712，根据上述特征量判断是否存在相匹配的发言者模型，如果不存在，执行步骤S714，如果存在，执行步骤S718。\n[0069] 步骤S714，根据上述特征量建立对应的发言者模型。\n[0070] 步骤S716，生成上述发言者模型对应的ID，将该ID与该发言者模型的对应关系存储在身份索引表中。\n[0071] 步骤S718，根据发言者模型，在身份索引表中获取到对应的发言者的ID。\n[0072] 步骤S720，将发言者的ID与发言者的总结性发言和/或语音内容按规则结合，形成对应于发言者ID的语音文件，对应规则可以但不限于以下两种方式：将发言者身份ID作为语音文件的文件名，或者，将发言者的ID或其对应的名字加在文字前面以区分不同发言者的内容。\n[0073] 步骤S722，对上述语音文件进行操作，该具体操作同上，这里不再描述。\n[0074] 步骤S724，视频会议终端提取会议纪要的流程结束。\n[0075] 上述实施例仅为本发明的优选实施例而已，并不用于限制本发明，比如不只是可以通过语音信号的特征量生成发言者模型，还可以通过其他生物特征等(比如面部特征等)生成发言者模型，在此不再赘述。\n[0076] 图8是根据本发明实施例的视频会议终端的示意图，如图8所示，假设有三个用户参加了一个会议，每个用户使用一个会议终端。在开会过程中，会议终端提取会议纪要的过程可以参考上述图7的流程，在此不再进行详细说明。\n[0077] 对应于上述会议纪要的提取方法，本实施例提供了一种会议纪要的提取装置，该装置用于实现上述实施例。图9是根据本实施例的会议纪要的提取装置的结构框图，该装置可以在会议终端侧实现，如图9所示，该装置包括：音视频信号获取模块90、文本转化模块\n92、身份获取模块94、关联建立模块96和会议纪要提取模块98。下面对该结构进行说明。\n[0078] 音视频信号获取模块90，用于获取音视频信号；\n[0079] 文本转化模块92，连接至音视频信号获取模块90，用于将音视频信号获取模块90获取的音视频信号中的语音信号转化成对应的文本；\n[0080] 身份获取模块94，连接至音视频信号获取模块90，用于获取音视频信号获取模块\n90获取的音视频信号的发言者的身份；\n[0081] 关联建立模块96，连接至文本转化模块92和身份获取模块94，用于将文本转化模块92转化的文本与身份获取模块94获取的发言者建立关联；\n[0082] 会议纪要提取模块98，连接至关联建立模块96，用于根据设定的提取规则从文本转化模块82转化的文本中提取出会议纪要，其中，该会议纪要与上述发言者相关联。\n[0083] 通过上述装置，文本转化模块92将音视频信号中的语音信号转化成文本，身份获取模块94根据音视频信号获取发言者的身份，然后关联建立模块96将该文本与该发言者相关联，会议纪要提取模块98再从该文本中提取出会议纪要，解决了相关技术中基于语音识别方式得到的会议记录篇幅冗长，发言内容无法对应到具体发言对象的问题，从而可以将会议内容与具体发言对象相对应，并自动完成会议内容的整理，归纳出发言对象的发言重点，提高了视频会议的智能性，提升了用户体验。\n[0084] 本实施例中的身份获取模块94获取音视频信号的发言者的身份，该音视频信号可能是本端发言者相对应的音视频信号，也可能是远端发言者相对应的音视频信号，如果音视频信号是本端发言者的音视频信号，则根据该音视频信号识别发言者的身份，如果音视频信号是远端发言者的音视频信号，则有两种方式获取发言者的身份，一种方式是远端设备获取到音视频信号后，位于远端的会议终端在其本地根据该音视频信号识别发言者的身份，再将该身份信息发送到本端，另一种方式是远端设备将获取到的音视频信号发送至本端，然后位于本端的会议终端根据该音视频信号识别发言者的身份。\n[0085] 因此本实施例提供了一种优选实施方式，身份获取模块94可以包括：身份识别子模块或者身份接收子模块，身份识别子模块，用于根据获取的音视频信号识别发言者的身份；其中，该音视频信号来自本端或者远端的发言者；身份接收子模块，用于在音视频信号为远端发言者的音视频信号的情况下，接收该远端发言者提供的身份信息。本优选实施方式可以更方便的确认本端发言者的身份，并且对于远端发言者而言，会议终端也可以更加方便灵活的确定其身份。\n[0086] 身份识别子模块根据音视频信号获取发言者身份，该方式可以是根据该音视频信号提取特征参数，再根据该特征参数确定发言者的ID，由此ID即可得知发言者的身份。因此，身份识别子模块可以包括：特征参数提取单元，用于根据上述音视频信号提取特征参数；标识确定单元，用于根据特征参数提取单元提取的上述特征参数确定发言者标识ID。该特征参数可以是上述音视频信号中语音信号携带的发言者的语调、音频等特征，或者是上述音视频信号中的视频信号携带的面部特征等，在此不再一一列举。\n[0087] 对于根据特征参数确定发言者的ID的过程，本实施例提供了一种优选实施方式，该方式具体过程是：上述装置建立身份索引表，在该身份索引表中存储了预先注册的特征参数与发言者的ID的对应关系，在音视频信号中提取到特征参数之后，上述装置根据该特征参数在身份索引表中查到与其对应的ID，如果在身份索引表中没有查找到与上述特征参数对应的ID，则根据该特征参数生成发言者ID，并将该特征参数与该ID的对应关系存储在身份索引表中。\n[0088] 对于上述根据特征参数确定发言者的ID的过程，本实施例提供了一种优选实施方式，如图10所示，该装置除了包括图9所示的各个模块之外，身份获取模块94中的标识确定单元10可以包括：标识查找子单元100、标识生成子单元102和对应关系存储子单元104。下面对该结构进行说明。\n[0089] 标识查找子单元100，用于使用上述特征参数在身份索引表中查找发言者ID，其中，该身份索引表中存储有预先注册的特征参数与ID的对应关系；\n[0090] 标识生成子单元102，连接至标识查找子单元100，用于在标识查找子单元100未查找到发言者ID的情况下，根据上述特征参数生成发言者ID；\n[0091] 对应关系存储子单元104，连接至标识生成子单元102，用于将上述特征参数与生成的上述发言者ID的对应关系存储在上述身份索引表。\n[0092] 标识确定单元10根据特征参数确定发言者的ID还可以采取另一种优选实施方式，即可以根据特征参数生成发言者模型，这样可以更加清晰形象的根据特征参数确定发言者的身份，该优选实施方式在前面已经进行了详细介绍，在此不再赘述。\n[0093] 文本转化模块92将上述音视频信号中的语音信号转化成对应的文本，会议纪要提取模块98根据设定的提取规则从上述文本中提取出会议纪要，在此之后，上述装置还可以对上述会议纪要和/或上述文本进行操作，因此，在本实施例的一个优选实施方式中，上述装置还可以包括：操作模块，用于对会议纪要提取模块98提取的会议纪要和/或文本转化模块92转化的文本进行操作。\n[0094] 更优选地，上述操作模块可以包括：第一操作子模块，用于将会议纪要和/或文本以邮件形式发送给指定用户；和/或，第二操作子模块，用于向指定用户提供以web显示方式浏览会议纪要和/或文本；和/或，第三操作子模块，用于将会议纪要和/或文本与音视频信号中的图像组合。该优选实施方式在文本转化模块92根据语音信号转化出文本，并且会议纪要提取模块98提取出会议纪要之后，操作模块对该会议纪要和/或文本进一步应用，使上述装置的功能更加完善，提升了用户体验。\n[0095] 会议纪要提取模块98根据设定的提取规则从上述文本中提取出会议纪要，该设定的提取规则可以是关键词或者语音信号的语调等，因此会议纪要提取模块98还可以包括：\n第一提取子模块，用于根据设定的关键词提取会议纪要；和/或，第二提取子模块，用于根据语音信号的语调提取会议纪要。\n[0096] 从以上的描述中可以看出，本发明既能生成整场会议下来与每位发言者对应的会议记录，又能整理出每位发言者表达的要点，提高了视频会议的智能性，并且可以减少会议记录的篇幅，方便发言者后续对会议内容的回顾，提升了用户体验。\n[0097] 显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。\n[0098] 以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
1	CN1584982A	2005-02-23	2004-08-04	语音处理装置失效专利	索尼株式会社

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
该专利没有被任何外部专利所引用！

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供