著录项信息
专利名称 | 会议电话语音选择合成的方法 |
申请号 | CN200410073391.6 | 申请日期 | 2004-12-09 |
法律状态 | 暂无 | 申报国家 | 中国 |
公开/公告日 | 2005-05-25 | 公开/公告号 | CN1620090 |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | H04M3/56 | IPC分类号 | H;0;4;M;3;/;5;6查看分类表>
|
申请人 | 西安大唐电信有限公司 | 申请人地址 | 陕西省西安市西安高新区沣惠南路8号
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 西安大唐电信有限公司 | 当前权利人 | 西安大唐电信有限公司 |
发明人 | 李卫华;廖延娜;戴明;赵占富 |
代理机构 | 陕西电子工业专利中心 | 代理人 | 王品华 |
摘要
本发明涉及一种会议电话语音选择合成方法。主要解决传统会议电话语音合成方法听觉效果差、工作效率低的问题。该方法对ΔT内所有会议电话成员输出的话音信号样本值取绝对平均值,作为该参加者在当前ΔT内的信号能量,再取n次ΔT时间内的能量平均值,作为该成员在当前时间单元ΔT的话音信号累积平均能量;比较各个主发言成员和次发言成员的语音输出的话音信号累积平均能量,通过淘汰环节对主发言者与次发言者进行淘汰替换,更新当前发言成员的名单;最后,将当前主发言者和次发言者集合中的成员话音信号衰减、叠加后作为会议电话的语音输出。本方法具有允许参加会议电话成员数多,话音清晰,易于分辨之优点,可用于各种会议电话业务。
1. 一种会议电话语音选择合成方法,按如下过程进行:
(1)设定时间窗Tw和时间单元ΔT,其中Tw大于ΔT,时间窗Tw以一个时间单 元ΔT为单位向前推进,在时间窗Tw内,计算每个会议电话成员的语音信号平均能量, 作为每个会议电话成员在时间窗Tw内的最后一个时间单元ΔT内的语音信号累积平 均能量;
(2)在会议电话开始的第一个时间单元,对会议电话各个成员在该时间单元的 语音信号累积平均能量进行比较,选择能量最大的成员作为在该时间单元的主发言 者,其他成员为未发言者,次发言者初始数目为0;
(3)在第二个时间单元,根据会议电话每个成员在该时间单元的语音信号累积 平均能量的大小,通过淘汰环节对主发言者与次发言者进行淘汰更新;
(4)淘汰环节结束后,检查次发言者集合中的所有成员,控制次发言者集合中 的成员数目;
(5)次发言者集合中的成员数目被控制之后,将当前主发言者集合和次发言者 集合中的成员的语音信号作衰减,叠加后合成的语音信号作为会议电话在第二个时间 单元内的输出;
(6)重复步骤(3)~步骤(5),处理以后每个时间单元ΔT内的语音信号。
2. 根据权利要求1所述的会议电话语音选择合成方法,其中淘汰环节包括:次 发言者和未发言者对主发言者进行的他人淘汰环节,以及主发言者和次发言者的自我 淘汰环节。
3. 根据权利要求2所述的会议电话语音选择合成方法,其中他人淘汰环节按如 下过程进行:
首先,在当前时间单元内,比较所有主发言者的语音信号累积平均能量,得到主 发言者中语音信号累积平均能量最小的成员A,并在次发言者的和未发言者的合集中 选取语音信号累积平均能量最大的成员B;
然后,比较成员A和成员B,如果成员B的语音信号累积平均能量大于成员A的 语音信号累积平均能量,则A处于被淘汰的预备状态,B处于淘汰他人的预备状态; 如果A和B这对成员在连续的若干个时间单元内一直处于他人淘汰的预备状态,即该 对成员连续处于他人淘汰的预备状态的时间超过他人淘汰时间门限T1,则更新成员B 为主发言者,成员A为次发言者。
4. 根据权利要求2所述的会议电话语音选择合成方法,其中自我淘汰环节是针 对在上一个时间单元内已经被认定是发言的成员,如果在当前的时间单元内,主发言 者集合或次发言者集合中的某个成员C的语音信号累积平均能量值小于特定的语音信 号能量门限G1,则记录成员C处于自我淘汰的预备状态;如果成员C在连续的若干个 时间单元内一直处于自我淘汰的预备状态,即成员C连续处于自我淘汰的预备状态的 时间超过自我淘汰的时间门限T2,则认为成员C发言结束,将成员C更新为未发言者, 即该成员被自我淘汰。
5. 根据权利要求4所述的会议电话语音选择合成方法,其中语音信号能量门限 G1的选取按如下动态更新过程进行:
1)在成员C未进入自我淘汰的预备状态时,如果成员C当前的语音信号累积平 均能量小于上一次该成员的语音信号累积平均能量GX的1/2,则记录成员C处于自我 淘汰的预备状态,并暂时固定成员C的自我淘汰语音信号能量门限G1=GX/2;
2)将成员C的本次自我淘汰以语音信号能量门限G1作为标准,如果成员C的本 次自我淘汰过程中,有一次语音信号累积平均能量大于G1,则成员C的本次自我淘汰 失败,即成员C脱离自我淘汰的预备状态;
3)在下一个时间单元,按照本条第1)、2)步,重新开始判断成员C是否可以再 进入自我淘汰的预备状态。
6. 根据权利要求1所述的会议电话语音选择合成方法,其中控制次发言者集合 中的成员数目,是根据延时门限或预定成员的数目来进行,即如果次发言者集合中的 某个成员D在次发言者集合中停留的时间超过延时门限T3,可强行将成员D淘汰为未 发言者;或者当次发言者集合中的成员数超过预定的数目N2时,再强行将次发言者 集合中当前语音信号累积平均能量最小的成员E淘汰为未发言者。
7. 根据权利要求3或4或6所述的会议电话语音选择合成方法,其中:
他人淘汰时间门限T1的取值范围设定在250-3000ms之间;
自我淘汰时间门限T2的取值范围设定在250-3000ms之间;
延时门限T3的取值范围设定在2-15s之间;
时间窗Tw的取值范围设定在25-250ms之间。
技术领域\n本发明属于通讯技术领域,涉及一种会议电话业务,特别涉及一种会议电话语音 选择合成的方法。\n背景技术\n会议电话,顾名思义就是通过电话召开会议,其原理简言之,即将同一个会议的 参加者的话路输出信号合成后,作为该会议电话所有参加者的话路输入信号,使每一 个参加者听到其他参加者的声音。\n传统的会议电话语音合成的方法是将一个会议的所有参加者直接合成,即将所有 参加者的话路信号衰减后叠加输出,如图1所示。之所以要衰减,是为了防止多路信 号叠加导致溢出,且衰减因子必须和参加者人数成正比。显然这种衰减导致的问题是: 当参加者很多时,衰减因子很大,处理后输出的语音幅度很小甚至听不清;而且由于 参加者很多,会出现语音混杂现象,听觉效果差。产生这个问题的根本原因是对所有 参加者都进行了统一处理,没有判别当前哪些参加者正在说话,哪些没有说话。由于 存在上述缺点,传统会议电话为了保证听觉效果,一般将参加人数限制在一定的范围 内。\n专利号为99105937.9的中国专利提出了一种会议电话的控制方法,该方法涉及改 进的会议电话选择方法,在会议的所有参加者中选择一个输出,这种选择方法虽然避 免了传统会议电话语音合成方法中的语音幅度减小问题,但是输出的信息量太少,降 低了会议电话的工作效率。\n发明内容\n本发明的目的在于克服上述已有技术存在的听觉效果差、工作效率低的问题,提 供一种会议电话语音选择合成的方法,在会议电话的参与者中进行适当的选取后,再 进行语音合成并输出,以实现高清晰度、高信息量的会议电话业务。\n本发明的技术方案是这样实现的:\n设定时间窗Tw和时间单元ΔT,其中Tw大于ΔT,时间窗Tw以一个时间单元ΔT 为单位向前推进。在时间窗Tw内,计算每个会议电话成员的语音信号平均能量,作为 每个会议电话成员在时间窗Tw内的最后一个时间单元ΔT内的语音信号累积平均能 量;\n根据会议电话的各个成员在当前时间单元ΔT内的语音信号累积平均能量进行比 较和选择淘汰,动态更新当前发言成员的名单,并认为其他成员在当前时间单元内保 持沉默;然后将发言的成员对应的语音信号衰减叠加后输出,作为会议电话当前时间 单元内的语音输出。\n假设会议电话共有N个成员参加,其中:\n主发言者有N1个人,N≥N1≥1;\n次发言者有N2个人,N≥N2≥0;\n未发言者有N3个人,N≥N3≥0。\nN1+N2+N3=N,且N1+N2>1,即有多个发言者输出。则\n按如下过程对会议电话语音进行选择合成:\n(1)根据设定的时间窗Tw和时间单元ΔT,计算每个时间单元内每个会议电话 成员的语音信号累积平均能量;\n(2)在会议电话开始的第一个时间单元ΔT内,对会议电话各个成员在该时间单 元的语音信号累积平均能量进行比较,选择N1个能量最大的成员作为当前的主发言 者,其他成员为未发言者,次发言者初始数目为0;\n(3)在第二个时间单元,根据会议电话每个成员在该时间单元的语音信号累积平 均能量的大小,通过淘汰环节对主发言者与次发言者进行淘汰更新;\n(4)淘汰环节结束后,检查次发言者集合中的所有成员,控制次发言者集合中的 成员数目;\n(5)次发言者集合中的成员数目被控制之后,将当前主发言者集合和次发言者集 合中的成员的语音信号作适当地衰减,叠加后合成的语音信号作为会议电话在第二个 时间单元内的输出;\n(6)重复(3~5),处理以后每个时间单元ΔT内的语音数据。\n上述(3)中的淘汰环节包括:次发言者和未发言者对主发言者进行的他人淘汰环 节,以及主发言者和次发言者的自我淘汰环节。其中:\n他人淘汰环节,首先比较所有主发言者在当前时间单元的语音信号累积能量,得 到主发言者中语音信号累积平均能量最小的成员A,并在次发言者的和未发言者的集 合中选取语音信号累积平均能量最大的成员B;然后比较成员A和成员B,如果发现成 员B的语音信号累积平均能量大于成员A的语音信号累积平均能量,则记录A和B这 一对会议电话成员处于他人淘汰的预备状态;其中A处于被淘汰的预备状态,B处于 淘汰他人的预备状态。如果该对成员在连续的若干个时间单元内一直处于他人淘汰的 预备状态,即该对成员连续处于他人淘汰的预备状态的时间超过他人淘汰时间门限T1, 则更新成员B为主发言者,成员A为次发言者,即实现主发言者的他人淘汰更新。\n自我淘汰环节,是针对在上一个时间单元内已经被认定是发言的成员,如果在当 前的时间单元内,主发言者集合或次发言者集合中的某个成员C的语音信号累积平均 能量值小于特定的语音信号能量门限G1,则记录成员C处于自我淘汰的预备状态;如 果成员C在连续的若干个时间单元内一直处于自我淘汰的预备状态,即成员C连续处 于自我淘汰的预备状态的时间超过自我淘汰的时间门限T2,则认为成员C发言结束, 将成员C更新为未发言者,即该成员被自我淘汰。\n所述的自我淘汰环节中语音信号能量门限G1按如下动态更新的方法选取:\n首先,在成员C未进入自我淘汰的预备状态时,如果成员C当前的语音信号累积 平均能量小于上一次该成员的语音信号累积平均能量GX的1/2,则记录成员C处于自 我淘汰的预备状态,同时暂时固定成员C的自我淘汰语音信号能量门限G1=Gλ/2;随 后,成员C的本次自我淘汰都以语音信号能量G1为标准,如果成员C的本次自我淘汰 过程中,有一次语音信号累积平均能量大于G1,则成员C的本次自我淘汰失败,即成 员C脱离自我淘汰的预备状态,然后在下一轮,按照前面叙述的方法,重新开始判断 成员C是否可以再进入自我淘汰的预备状态。\n上述(4)中的控制次发言者集合中成员数目,是根据延时门限或预定成员的数目 来进行,即如果次发言者集合中的某个成员D在次发言者集合中停留的时间超过延时 门限T3,可强行将成员D淘汰为未发言者;或者当次发言者集合中的成员数超过预定 的数目N2时,再强行将次发言者集合中当前累积平均能量最小的成员E淘汰为未发言 者。\n本发明与现有技术相比具有如下优点:\n通过比较会议电话的所有成员在一定时间内的语音能量值,选择一定数目的当前 发言的成员,将其相应的语音衰减合成后输出,避免了会议电话成员过多时,衰减因 子过大导致的语音过小而无法分辨。仅合成发言成员的语音,避免了会议电话成员过 多时,语音和噪声混杂的情况。选择合成后的语音清晰,易分辨。\n选择会议电话的多个成员作为当前发言的成员,在比较选择发言成员时,综合采 用自我淘汰和他人淘汰,及时更新发言成员,保证了会议电话的信息量和效率。\n在比较选择发言成员时,充分考虑到语音本身的特点,使用适当的比较方法,并 设计适当的延时,即他人淘汰时的延时门限与自我淘汰时的延时门限,并进行延时处 理,即他人淘汰后,由主发言者降为次发言者,语音继续输出,避免发生语音截断, 合成后的语音听觉效果好。\n附图说明\n图1为传统会议电话语音合成方法框图,在所有时刻将所有的会议电话成员的语 音衰减合成后输出;\n图2为本发明的会议电话语音合成方法示意图,在每个时间段内,通过选择合成 方法,选择若干个正在发言的会议电话成员的语音,作适当的衰减和合成输出;\n图3为本发明会议电话语音选择方法中他人淘汰的流程示意图;\n图4为本发明会议电话语音选择方法中针对单个成员的自我淘汰的流程示意图。\n具体实施方式\n下面将结合具体完成的实施例,对本发明作进一步详述。\n本实施例中采用8000Hz的采样速率对语音信号进行采样,设时间单元为ΔT =5ms,时间窗Tw=ΔT×n,n的最佳取值在5-50之间。设计允许参加会议的成员数 为M最大值为128,主发言者数目N1=1,次发言者数目N2=5。\n下面详细描述本实施例中使用的语音合成选择的处理过程:\n第一步:缓存ΔT内所有的会议电话成员输出的语音信号,利用信号的幅值计算 信号能量。因为能量计算的目的只是提供一个比较的依据,并非真的需要知道该语音 信号具体的能量值,所以本发明计算能量采用的方法是:对每个参加者的语音样本值 取绝对平均值,作为该参加者在当前ΔT内的语音信号能量。\n第二步:计算每个成员最近n次ΔT时间内的语音信号平均能量值,得到(ΔT ×n)ms内每个成员的语音信号平均能量,作为该成员在当前时间单元的语音信号累 积平均能量。计算和使用累积平均能量,可以更好的保持下一步比较后输出语音的连 贯性。\n在做好上面的两步准备工作以后,下面就可以根据每个成员在当前时间单元的语 音信号累积平均能量,进行发言者选择和比较淘汰。选择与比较淘汰方法中涉及了这 样几个集合和记录表:\n集合1:主发言者集合,包括所有的主发言者;\n集合2:次发言者集合,包括所有的次发言者;\n集合3:未发言者集合,包括所有的未发言者;\n在一轮比较淘汰开始之前:\n集合1+集合2+集合3=全体会议电话参加人员;\n集合1、集合2和集合3两两互不相交。\n记录表1:他人淘汰记录表,该记录表中记录处于替代他人和被替代的预备状态 的一对成员,即淘汰他人者和被淘汰者,以及该对成员处于替代他人和被替代的预备 状态的时间长度,即该对成员在记录表1中的停留时间。\n记录表2:自我淘汰记录表,该记录表中记录处于自我淘汰的预备状态的成员, 和每个成员处于自我淘汰的预备状态的时间长度,即该成员在记录表2中的停留时间, 以及该成员的自我淘汰门限。\n为了完成发言成员选择,以及稍后的比较淘汰,设计这样2个排序:\n排序1:主发言者语音能量排序,即根据当前时间单元的累积平均能量对集合1 中的所有成员排序。\n排序2:非主发言者语音能量排序,即根据当前时间单元的累积平均能量对集合2 和集合3的和集中所有成员排序。\n对集合1、集合2和集合3进行初始化。从会议电话的所有成员当中选取N1个语 音累积平均能量最大的成员,将这些成员归入集合1;其它成员归入集合3;集合2 初始状态为空。\n对记录表1和记录表2进行初始化,将其设置为空。\n做好前面的准备工作后,开始正式进入发言者的选择和淘汰过程。\n第三步:他人淘汰。下面结合图3,详细叙述他人淘汰的流程。\nStep 3-1:检查记录表1中是否为空。\nStep 3-2:如果记录表1为空,则将排序1中的最小成员,即主发言者中当前语音 累积平均能量最小的成员A,和排序2中的最大成员,即非主发言者中当前语音累积 平均能量最大的成员B作为一对记入记录表1;将这一对成员在记录表1中的停留时 间计时器Timer1初始化为0;然后给出记录表1非空标志。\n如果记录表1非空,则不需要上面的操作。\nStep 3-3:比较记录表1中成员A当前时间单元的语音累积平均能量Energy_A和 成员B在当前时间单元的语音累积平均能量Energy_B。\nStep 3-4:如果Energy_B≤Energy_A,则清空记录表1,本时间单元的他人淘汰 结束。\nStep 3-5:如果Energy_B>Energy_A,则这对成员在记录表1中的停留时间计时 器Timer1=Timer1+ΔT。其中:ΔT=5ms,即为前面说明的方法的时间处理最小单元。\nStep 3-6:比较记录表1中一对成员在记录表1中的停留时间Timer1和他人淘汰 时间门限T1。\nStep 3-7:如果Timer1>T1,则将成员B更新为主发言者,列入集合1;将成员A 更新为次发言者,列入集合2;即成员B成功淘汰成员A。将记录表1清空,本时间 单元的他人淘汰结束。\nStep 3-8:如果Timer1≤T1,则保留当前他人淘汰的状态记录。本时间单元的他 人淘汰结束。根据语音信号的特点,他人淘汰时间门限T1的取值范围设定在250-3000 之间。\n第四步:自我淘汰。本具体实施例中的自我淘汰环节仅针对次发言者集和,即对 集合2内的所有成员逐个进行自我淘汰处理。下面结合图4,详细描述在一个时间单 元内对单个成员进行自我淘汰的过程。\nStep 4-1:考察集合2中的一个成员C,是否在记录表2中。\nStep 4-2:如果成员C不在记录表2中,则比较成员C在当前时间单元内的语音 累积平均能量Energy_C和成员C在上一个时间单元内的语音累积平均能量 Last_energy_C。如果成员C在记录表2中,转到Step 4-4。\nStep 4-3:如果Energy_C<(Last_energy_C/2),则在记录表2记录成员C处于自 我淘汰的预备状态;设置成员C在记录表2中的停留时间计时器Timer2=ΔT;并在 记录表2中记录成员C的本次自我淘汰门限G1=Last_energy_C/2。在本时间单元针 对成员C的自我淘汰过程结束。成员C的自我淘汰将在下一个采样时间处理单元继续 进行,如果Energy_C≥(Last_energy_C/2),则直接结束在本时间单元针对成员C 的自我淘汰过程。\nStep 4-4:如果成员C在记录表2中,则比较成员C在当前时间单元内的语音累 积平均能量Energy_C和记录表2中记录的成员C的本次自我淘汰语音信号门限G1。\nStep 4-5:如果Energy_C<G1,则成员C在记录表2中的停留时间计时器Timer2= Timer2+ΔT。否则,转到Step 4-9。\nStep 4-6:比较成员C在记录表2中的停留时间Timer2和自我淘汰时间门限T2。\nStep 4-7:如果Timer2>T2,则更新成员C为未发言者,列入集合3,即成员C自 我淘汰成功。将记录表2中关于成员C的记录清空,本时间单元针对成员C的自我淘 汰过程结束。\nStep 4-8:如果Timer2≤T2,则保留当前成员C在记录表2中的自我淘汰的状态 记录。本时间单元的针对成员C的自我淘汰过程结束。\nStep 4-9:如果Energy_C≥G1,则成员C的自我淘汰失败,清空记录表2中关 于成员C的记录,成员C不再处于自我淘汰的预备状态。本时间单元的针对成员C的 自我淘汰过程结束。\n根据语音信号的特点,自我淘汰时间门限T2的取值范围设定在250-3000ms之间。\n第五步:控制集合2中的成员数目。控制集合2中的成员数目的方法有以下两种:\n(1)查看集合2中成员的数目,如果超过预定的数目N2,则将集合2中当前语 音累积平均能量最小的成员E强行淘汰出集合2,归入集合3。\n(2)为集合2中的每个成员设计一个停留时间计时器,并实时更新。在一个时间 单元的自我淘汰过程完成后,查看集合2中的每个成员在集合2中的停留时间。如果 某个成员D在集合2中的停留时间超过延时门限T3,则将成员D强行淘汰出集合2, 归入集合3。\n根据语音信号的特点,延时门限T3的取值范围设定在2-15s之间。\n第六步:经过上述他人淘汰和自我淘汰以及对集合2的成员控制过程以后,得到 更新后的集合1、集合2和集合3。将集合1和集合2中的所有成员,即所有的主发言 者和次发言者的语音信号作适当的衰减后累加,得到会议电话的合成语音,然后输出 到会议电话的所有参加者。本实施例中,根据设计的输出成员数,衰减因子取4。\n第七步:重复到第一步,处理下一个ΔT时间内的语音数据。\n按照前面描述的过程,会议电话语音选择合成的处理延时小于2倍ΔT,即10ms。 使用本发明的方法,可做到不必限制会议电话的参加人数,而是通过语音选择合成, 自动控制当前的发言人数,自动更新当前的发言成员名单,输出的语音清晰,连贯, 听觉效果良好,且有足够的会议电话信息量。\n对于本领域的专业人员来说,在了解了本发明内容和原理后,能够在不背离本发 明的原理和范围的情况下,根据本发明的方法进行形式和细节上的各种修正和改变, 但是这些基于本发明的修正和改变仍在本发明的权利要求保护范围之内。
法律信息
- 2009-12-30
专利实施许可合同的备案
专利实施许可合同的备案合同备案号: 2009120000126让与人: 西安大唐电信有限公司受让人: 大唐电信(天津)技术服务有限公司发明名称: 会议电话语音选择合成的方法申请日: 2004.12.9授权公告日: 2008.9.10许可种类: 独占许可备案日期: 2009.7.15合同履行期限: 2009.7.1至2014.6.30合同变更
- 2008-09-10
- 2005-07-27
- 2005-05-25
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
1991-10-09
|
1988-11-20
| | |
2
| |
2000-11-01
|
1999-04-26
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |