著录项信息
专利名称 | 从数字音频信号自动产生触觉事件的系统和方法 |
申请号 | CN200780013161.2 | 申请日期 | 2007-04-12 |
法律状态 | 权利终止 | 申报国家 | 中国 |
公开/公告日 | 2009-04-29 | 公开/公告号 | CN101421707 |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F15/00 | IPC分类号 | G;0;6;F;1;5;/;0;0;;;H;0;4;B;1;5;/;0;0查看分类表>
|
申请人 | 伊默生公司 | 申请人地址 | 美国加利福尼亚州
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 意美森公司 | 当前权利人 | 意美森公司 |
发明人 | 克里斯托弗·J·乌尔里希;丹尼·A·格兰特;斯蒂芬·D·兰克;穆尼卜·M·贝吉尔卡尔哲奥卢 |
代理机构 | 北京泛诚知识产权代理有限公司 | 代理人 | 杨本良;文琦 |
摘要
所描述的系统和方法涉及接收数字音频文件并自动地将该文件转换成触觉事件。在一实施例中,所接收的文件是采样的数字音频文件或数字化的模拟音频文件。该系统和方法将音频信号分离成多个子频段信号,并且将该子频段信号分段成多个事件。然后,该系统和方法将触觉效果分配给所述事件,以产生由致动器输出的触觉事件信号。与致动器的物理参数和音频信号中的频率特性一起,该系统和方法利用限幅和最小时间分隔参数,以分析并提供与该音频相对应的不连续的触觉事件。
1.一种用于处理数字音频信号的方法,包括:
将音频信号分离成多个子频段信号,其中该子频段信号包括高频子频段信号、中频子频段信号和低频子频段信号;
将至少一个所述子频段信号分段成多个事件;
将触觉效果分配给至少一个所述事件,以产生由致动器输出的触觉事件;
通过基于混叠量调整一个或多个限幅参数,优化所述高频子频段信号;
执行所述低频子频段信号的频谱分解分析和功率谱计算;
对于所述子频段信号的每一个生成一个或多个备选触觉事件;以及
当检测到来自不同的子频段信号的两个备选触觉事件彼此重叠时,根据频率的子频段,对备选触觉事件设定优先级,其中由致动器输出设定了优先级的备选触觉事件。
2.根据权利要求1的方法,其中所述音频信号的分离还包括计算所述音频信号的频谱分解。
3.根据权利要求1的方法,其中所述分离还包括指定事件之间的最小分隔时间。
4.根据权利要求1的方法,其中所述分离还包括在所述触觉事件之前指定最小的致动器启动时间。
5.根据权利要求1的方法,其中所述分段还包括指定多个触觉事件中的每个触觉事件的最小持续时间。
6.根据权利要求1的方法,其中所述分配还包括指定事件之间的最小分隔时间。
7.根据权利要求1的方法,其中所述分配还包括在第一触觉事件之前指定最小的致动器启动时间。
8.根据权利要求1的方法,其中从所述子频段信号中分段的事件对应于用户规定的每秒钟的触觉效果的平均数。
9.根据权利要求1的方法,其中从所述子频段信号中分段的事件具有小于的最大混叠目标值的混叠值。
10.根据权利要求1的方法,还包括对指定的时间段计算平均值,用于一个或多个子频段信号的参数。
11.根据权利要求10的方法,其中至少一个子频段信号的所述分段还包括:
如果所述子频段信号的所述参数的短期值超过该参数的平均值的多倍,则指定一事件。
12.根据权利要求2的方法,还包括:
计算所述音频信号的频谱分解的功率谱;
至少部分地根据所述功率谱而选择频率;以及
至少部分地根据所述选择的频率而识别事件。
13.根据权利要求1的方法,还包括:
将所述触觉事件存储在能够与网络上的客户机通信的服务器上,其中所述服务器为所述客户机提供所述触觉事件。
14.一种用于处理数字音频信号的设备,包括:
用于将所述音频信号分成离多个子频段信号的电路;
用于将至少一个所述子频段信号分段成多个事件的电路,其中该子频段信号包括高频子频段信号、中频子频段信号和低频子频段信号;和
用于将触觉效果分配给至少一个所述事件以产生触觉事件的电路;
被构造成输出所述触觉事件的致动器;
通过基于混叠量调整一个或多个限幅参数,优化所述高频子频段信号的优化器;
用于执行所述低频子频段信号的频谱分解分析和功率谱计算的电路;
用于对所述子频段信号的每一个生成一个或多个备选触觉事件的电路;以及用于当检测到来自不同的子频段信号的两个备选触觉事件彼此重叠时,根据频率的子频段,对备选触觉事件设定优先级的电路,其中由致动器输出设定了优先级的备选触觉事件。
15.根据权利要求14的设备,其中用于分离的所述电路还包括用于计算所述音频信号的频谱分解的装置。
16.根据权利要求14的设备,其中用于分段的所述电路还包括:
用于指定事件之间的最小分隔时间的装置。
17.根据权利要求14的设备,其中用于分段的所述电路还包括:
用于在第一触觉事件之前指定最小的致动器启动时间的装置。
18.根据权利要求14的设备,其中用于分段的所述电路还包括:
用于指定多个触觉事件中的每个触觉事件的最小持续时间的装置。
19.根据权利要求14的设备,其中用于分配的所述电路还包括:
指定事件之间的最小分隔时间的装置。
20.根据权利要求14的设备,其中在所述子频段信号内的事件对应于由用户规定的每秒钟的触觉效果的平均数。
21.根据权利要求14的设备,其中在所述子频段信号内的事件具有小于最大混叠目标值的混叠值。
22.根据权利要求14的设备,还包括:
在指定的时间段上计算用于一个或多个子频段信号的参数的平均值的装置。
23.根据权利要求22的设备,其中至少一个子频段信号的所述分段还包括:
如果所述子频段信号的参数的短期值超过用于该参数的平均值的多倍,则指定事件的装置。
24.根据权利要求14的设备,还包括:
用于计算所述音频信号的频谱分解的功率谱的电路;
用于至少部分地根据所述功率谱选择频率的电路;以及
至少部分地根据所述选择的频率识别事件的电路。
25.一种用于处理数字音频信号的设备,包括:
用于将所述音频信号分成离多个子频段信号的装置,其中该子频段信号包括高频子频段信号、中频子频段信号和低频子频段信号;
用于将至少一个所述子频段信号分段成多个事件的装置;
用于将触觉效果分配给至少一个所述事件以产生由致动器输出的触觉事件的装置;
用于通过基于混叠量调整一个或多个限幅参数,优化所述高频子频段信号的装置;
用于执行所述低频子频段信号的频谱分解分析和功率谱计算的装置;
用于对所述子频段信号的每一个生成一个或多个备选触觉事件的装置;以及用于当检测到来自不同的子频段信号的两个备选触觉事件彼此重叠时,根据频率的子频段,对备选触觉事件设定优先级的装置,其中由致动器输出设定了优先级的备选触觉事件。
从数字音频信号自动产生触觉事件的系统和方法\n[0001] 相关引用\n[0002] 本申请要求基于2006年4月13日提交的名称为“音乐-触觉码转换”、发明人Stephen D.Rank和Christopher J.Ullrich共同拥有的美国临时专利申请序列号\n60/792,137的优先权的利益。\n技术领域\n[0003] 这里描述的主题总体涉及触觉领域,更具体地说,涉及产生对应于数字音频或音频/视频文件的触觉效果(haptic effect)控制信号或触觉音轨。\n背景技术\n[0004] 在用户接口装置中能触知的振动通常是所希望的。触摸使空间感觉:在整个世界上你用于引导你的途径的那些感觉——视觉、声音、和触摸成为一体。触摸产生几毫秒的反射速率响应,并且提供视觉和声音加在一起也不能替代的完整性。\n[0005] 在用户接口装置中,具有匹配声音的能触知的振动是很有用的,例如当在蜂窝电话上播放音乐文件时。末端用户装置的音频可以用两种方式编码:结构化的表象格式,例如将被播放的声音符号化地编码成已知的符号串(例如,乐器数字接口或“MIDI”)的协议;\n和数字采样的音频,其是一组的音频波形的周期性采样。\n[0006] 近来,采样的音频文件能够通过手工转换来转换。设计人收听、分析并判断采样的音频文件,并且选择采样的音频特征,从所选择的特征中产生触觉效果。但是,人类设计介入是有限的资源。\n[0007] 所需要的是将音乐文件转换成触觉效果的自动或半自动的方法。\n发明内容\n[0008] 在一实施例中,用于处理数字音频信号的方法包括将音频信号分离成多个子频段信号,将至少一个子频段信号分段成多个事件;将触觉效果分配给至少一个事件,以产生由致动器输出的触觉事件。\n[0009] 在一实施例中,用于处理数字音频信号的设备包括用于将音频信号分离成多个子频段信号的电路;用于将至少一个子频段信号分段成多个事件的电路;用于将触觉效果分配给至少一个事件以产生触觉事件的电路;以及被构造成输出触觉事件的致动器。\n[0010] 在一实施例中,用于处理数字音频信号的设备包括:用于将音频信号分离成多个子频段信号的装置;用于将至少一个子频段信号分段成多个事件的装置;和用于将触觉效果分配给至少一个事件以产生由致动器输出的触觉事件的装置。\n[0011] 在 一 实 施 例 中,该 系 统 和 方 法 计 算 音 频 信 号 的 频 谱 分 解(spectraldecomposition)。在一实施例中,该系统和方法指定事件之间的最小的分隔时间。在一实施例中,该系统和方法在第一触觉事件之前指定最小的致动器启动时间。在一实施例中,该系统和方法指定多个触觉事件中的每个触觉事件的最小的持续时间。在一实施例中,该系统和方法指定事件之间的最小的分隔时间。在一实施例中,该系统和方法在第一触觉事件之前指定最小的致动器启动时间。在一实施例中,在子频段内信号的事件对应于用户规定的每秒钟的触觉效果的平均数。在一实施例中,在子频段信号内的事件具有小于最大混叠目标值的混叠值。在一实施例中,该系统和方法在指定的时间段上计算平均值,用于一个或多个子频段信号的参数。\n[0012] 在一实施例中,如果子频段信号的参数的短期值超过用于该参数的平均值的多倍(multiple),则该系统和方法指定事件。在一实施例中,该系统和方法计算音频信号的频谱分解的功率谱;至少部分地根据该功率谱选择频率;并且至少部分地根据所选择的频率识别事件。在一实施例中,该系统和方法将触觉事件存储在能够与网络上的客户机通信的服务器中,其中服务器为客户机提供触觉事件。\n附图说明\n[0013] 包含在本说明书中并构成本说明书的一部分的附图示出了本发明的一个或多个实施例,并且与详细描述一道用于说明本发明的原理和装置。\n[0014] 在附图中:\n[0015] 图1是用包含一系列音符、和弦和休止符的传统的纸页音乐形式以视觉可见的方式表示的音乐作品的一部分。\n[0016] 图2是采样的音频信号的一部分的时间-幅度图。\n[0017] 图3是示出根据实施例的用于触觉效果映射的方法的处理流程图。\n[0018] 图4是根据实施例的系统部件(piece)的整体结构图。\n[0019] 图5是示出根据实施例的用于图4的音乐作品的高频和中频子频段信号的滤波的时间-幅度曲线图。\n[0020] 图6是示出根据实施例的用于分段中频子频段信号的平均功率和瞬时功率的表示(representation)的标准化的时间-幅度曲线图。\n[0021] 图7是根据实施例的用于分段低频子频段信号的频率-功率曲线图。\n[0022] 图8是根据实施例的用于图4的音乐作品例子的一系列触觉效果的时间-符号表示。\n[0023] 图9是根据实施例的构成音乐作品的一系列MIDI事件的时间-音符表示。\n[0024] 图10是根据实施例的构成音乐作品的一系列MIDI事件的替换的时间-乐器-音符表示。\n[0025] 图11A、11B、和11C一起构成处理流程图,示出用于MIDI序列处理以产生对应于根据实施例的一系列触觉效果的方法。\n具体实施方式\n[0026] 在用于自动音频到触觉转换的系统的范围内,描述该主题的实施例。本领域的技术人员将会认识到,本发明的下面的详细描述仅仅是说明性的,并且不意图以任何方式限制。这种技术人员受到这里公开的内容的启发,自己也能够容易地提出本发明的其它实施例。下面详细参考附图中所示的本发明的设备。相同的附图标记将用于所有的附图,并且下面的详细描述将参考相同或类似的零部件。\n[0027] 为了清楚起见,这里没有示出和描述设备的所有的常规特征。当然,应当理解,在任何实际设备的研制中,必需做出特定实现方式的决定以便实现研制者的特定目标,例如符合与应用及业务相关的约束,这些特定的目标随着不同的实现方式而变化,并且随着不同的研制者而变化。而且,应当理解,这种研制工作是复杂和耗时的,但是尽管如此,对于受到本发明公开内容启发的普通技术人员而言所进行的技术工作是常规的。\n[0028] 根据这里描述的主题,能够利用各种类型的操作系统、计算平台、计算机程序、和/或通用机器来制造、操作和/或执行各种部件、系统、装置、处理步骤和/或数据结构。此外,本领域的普通技术人员将会明白,也可以利用不太通用的装置,例如,硬件装置、现场可编程门阵列(FPGA)、专用集成电路(ASIC)等,而不脱离这里公开的发明构思的范围和精神实质。其中,所包含的方法由计算机、装置或机器执行,并且该方法可以被存储为由机器可读的指令,它们可以存储在确定的介质上,例如计算机存储装置,包括但不限于ROM(只读存贮器)、PROM(可编程只读存储器)、EEPROM(电可擦的可编程只读存储器、FLASH存储器、转移装置等)、磁存储介质(例如,磁带、磁盘驱动器等)、光学存储介质(例如,CD-ROM、DVD-ROM、纸卡、纸带等)以及其他熟知类型的程序存储器。此外,应当认识到,该方法可以利用软件工具的选择由人类操作者执行,而不需要人或创造性的判断。\n[0029] 这里所描述的系统和方法涉及接收数字文件并自动地将该文件转换成触觉事件。\n在一实施例中,所接收的文件是采样的数字音频文件或数字化的模拟音频文件。在另一个实施例中,所接收的文件是结构化的表示(representation)文件(例如,MIDI文件)。应当指出,虽然在这里MIDI文件用结构化的表示文件来描述,但是也可以用由系统使用的任何其他协议,从而,协议利用可以输出音频、视频或其它信号的结构化的表示文件。转换的触觉事件由末端设备处理并输出,其中用户感受令人愉快的触觉感受,这种触觉感受与该末端设备和/或其他设备输出的音频相对应。该末端设备包括但不限于音频播放器、移动电话、视频播放器、PDA、计算机、电视机、视频游戏控制板、计算机外围设备(例如,鼠标、操纵杆、滚球、键盘)、转向轮、设备、滑动器、按钮、头戴受话器、触摸屏、便携式或非便携式收音机、单向或双向传呼机、以及其他合适的用户可操作的装置。\n[0030] 还应当注意,虽然在这里该系统和方法被描述成由末端装置输出,但是根据实施例,多个末端装置可以同时或在不同的时间输出相同的触觉事件和/或相同触觉事件的不同部分。应当注意,末端装置在这里可以包括一个或多个致动器。在末端装置中的多个致动器的实施例中,对于每个触觉事件,由多个致动器输出的触觉事件可以同时进行、选择地进行、交替地进行、和/或单个地进行。\n[0031] 图4示出实施根据实施例的系统的整体结构。如图4所示,各种源可以为系统300提供输入信号99。例如,可以从服务器402、音频信号源(CD、DVD、DAT等)404、主计算机\n406、移动装置408和/或商业信息站410接收数字采样的音频信号或结构化的表示信号。\n该输入信号在有线或无线私人或公共网络98上发送到系统300的接收模块412。如在下面更详细地讨论的,该信号然后由处理器414处理。一旦处理之后,系统300通过有线或无线接口(through port)416将触觉事件序列输出到一个或多个末端装置420。当接收具有触觉事件序列(具有或不具有伴随的音频)的输出文件时,末端装置420然后能够利用一个或多个致动器422以及可选的音频扬声器424一道输出该触觉事件。应当指出,在图4中描述的结构是一个实施例,因而可以利用附加的和/或可选的部件而不脱离这里所描述的主题的范围。\n[0032] 现在回到附图,图1示出利用包括一系列音符、和弦和休止符的传统的纸张乐谱形式以视觉可见方式表示的音乐作品的一部分100。该音乐作品可以,例如,以数字采样的形式或结构化的表示形式演奏并记录。每个音乐音符表示机械振动的频率。音符的类型(即,A、A#、B、C、C#、D、D#、E、F、G、G#)在音调上是彼此不同的。全音符,二分音符、四分音符、八分音符、十六分音符等等表示每个音符演奏的持续时间或频率。同样,全休止符,二分休止符、四分休止符、八分休止符、十六分休止符等等表示没有音符被演奏的持续时间。音符序列及其持续时间确定了在何时演奏何种频率的表示法(representation)。\n[0033] 本发明的实施例涉及将触觉事件自动地映射到数字采样的音频文件。采样的音频源(和多个文件)具有但不限于WAV、MP3、MP4、ACC、ASX、WMA格式,所有的都提供基本相同类型的信息,例如采样率和一组(通常左和右声道)时间顺序的采样。但是,与结构化的表示文件不同,从采样的源部能够获得关于乐器的、音调、拍子或其他音乐内容的清楚的信息——只能够获得完全呈现的声音。采样的音频信号的例子的时间-幅度曲线图示于图2中。\n[0034] 附加地,或替换地,系统能够从结构化表象信号中自动地映射触觉事件。具体说,给出一音频文件的特定的结构化表示,系统通过分析由该结构化表象信号固有地提供的数据,能够自动地映射触觉事件。但是,自动地映射任何一种类型的文件,输入信号被仔细地处理,并且由于末端装置中的致动器的性能限制,分析被简化,以从该文件的音频信号中提供令人愉快的特殊的触觉序列。\n[0035] 当前的触觉技术能够演奏多至四个同时的触觉事件,并且用大约1毫秒的控制回路来操作。这是由于现有致动器的限制。给定现有偏心旋转质量(ERM)电机的技术的限制,演奏同时的触觉效果能够导致意想不到的致动器行为。而且ERM电机具有比较低的机械带宽,这种比较低的机械带宽限制了触觉事件的频率最大到每秒钟大约4个触觉事件。ERM电机在到达峰值加速度之前还具有大约50至80毫秒的启动延迟,并且在形成触觉控制信号中必需考虑到这种启动延迟,以驱动这种ERM电机。尽管在这里描述的主题的上下文中描述了ERM电机,但是,考虑到根据末端装置的类型、触觉效果分辨率、将被转换的音频的数字的质量、以及使用的用途,可以使用其他类型的电机或致动器。仅仅作为一个例子,致动器可以是线性共振致动器(LRA),其具有优于ERM电机的分辨能力。考虑到其他类型的致动器,包括但不限于线性电流控制电机、步进电机、磁致动器、气动/液压作用致动器、力矩器(具有有限角度范围的电机),以及声音线圈制动器。\n[0036] 为了向与能够触觉的末端装置相接触的用户提供令人愉快的触觉体验,系统在一个时间周期内不应当产生太多的触觉事件。此外,触觉事件应当足够远地间隔开,使得不产生一个恒定的振动或“模糊”,但是尽管如此,应与声音效果、音乐拍子和/或曲调相一致。\n例外的事件,例如键的改变、旋律的转变等,应当经常被触觉事件所强调。音乐韵律通常应当通过识别音频程序信号的拍子和与音频程序信号的开始相关的拍子的相位偏移而被加重。事先具有基本静音的量的音频事件由于它们在音乐上的重音(例如,作为声音效果的钹、汽车碰撞)也同样可以是触觉事件。\n[0037] 图3是示出根据实施例的用于所接收的数字化采样音频信号的触觉事件映射的系统和方法的处理方块图。一般而言,根据实施例,所接收的采样音频输入被该系统接收并且被自动地“转换”或“映射”,以与该信号中的所识别的音频事件的重放同步的方式,形成在末端装置中控制触觉效果的重放的触觉控制信号或触觉事件。图3中的方块被指定为原生的(generic)部件,其可以是模拟的或数字的硬件,包括但不限于硬连线的电路、集成电路以及ASIC。附加地或可替换地,图3中的方块是软件编码部件,例如由处理器和存储器实施或利用的程序、子程序、编码、线程等。\n[0038] 根据图3中的实施例,所接收的采样音频信号在方块310中被装入计算装置的存储器中。该计算装置可以是常规的个人计算机、处理模块、服务器、客户机、上面定义的末端装置本身,或具有足够处理能力的任何其他的电子器件。采样的音频信号可以取自压缩盘(CD)小磁盘、DVD、DAT、硬盘驱动器或其它介质。在一实施例中,音频信号可以直接地(有线或无线地)从商业或非商业网站下载,其然后由末端装置转换或播放。在另一个实施例中,音频音轨被远程转换并且然后存储在服务器上,从而该转换的触觉音轨能够直接从服务器下载到一个或多个被播放的末端装置。在一实施例中,所接收的文件被系统离线处理,从而在文件被接受之后,系统处理一部分或整个文件。在一实施例中,所接收的文件以实时方式被系统处理,从而当文件被接收时,系统处理并输出数据。\n[0039] 所接收的文件可以被输入到文件阅读器/播放器,其包括在商业计算机软件程序中,例如,Microsoft Windows Media MusicMatch \n或者服务器和/或末端装置上的其他所有者的程序。可替换地,能够与系统一起使用产生PCM类型输出的任何编解码器(codec)(编码器-解码器)。\n[0040] 在一实施例中,系统接收采样的音频作为单一的(非立体声的)输入信号。在一实施例中,系统接收采样的音频作为立体的或多声道输入,例如,其可以通过预先混合或子选择而被转换或映射。附加地,如果希望的话,多个触觉音轨可以被同时处理或者在不同的时间处理。\n[0041] 在一实施例中,在输入信号被加载到系统的可选存储器中之后,系统从该存储器检索该信号并且在方块312中依据其每个时间的能量大小和频率分析该输入信号。在一实施例中,系统利用开窗口的(windowed)快速傅氏变换(FFT)算法,以在方块312中产生音频信号的能量分布数据。在一实施例中,可以用任何其他合适的程序或算法,包括但不限于小波变换,以产生信号的能量分布信息。频谱分解分析还产生相位信息,其被编码作为在处理信号的过程中能够被系统利用的复系数。\n[0042] 在一实施例中,在频率子频段的分段之前,系统对于频谱分析计算利用补偿因子,以说明人耳传输功能和感性的因素。例如,与60Hz的声音相比,人耳对于3-4kHz的声音更加敏感。在一个例子中,系统将使60Hz左右的频率含量衰减大约40dB,而在3kHz和4kHz之间的频率含量不被衰减。因此,即便在60Hz的拍子(beat)中可能存在相当多的能量,由于衰减的缘故,用户可能更明显地感觉出在更高频段中的拍子。\n[0043] 同样,可以考虑用于目标触觉装置的扬声器的音频传输功能并且在分段之前将其应用于频谱分解。例如,大多数耳机扬声器的频率响应是这样的,低于200Hz的频率不被传输。因此,当伴随着由这种扬声器提供的音频信号时,强调在200Hz之下的拍子将产生意想不到的触觉效果。在处理中忽略频谱分解中的这些频段将产生更加一致的效果。\n[0044] 在一实施例中,系统利用来自频谱分解分析的复系数的绝对值,以依据频率来映射音频信号的能量分布,用以允许子频段信号的指定和音频信号的交叉频率。这是图3中的方块314所指出的。\n[0045] 如图3所示,该系统和方法在方块314从输入音频信号的能量分布中来确定许多子频段频率。如上所述,系统能够利用软件、模拟或数字硬件和/或固件进行这种分析。在一实施例中,系统分析信号的能量分布并且根据频率将能量指定为三个子频段类别。在一实施例中,子频段类别是高频子频段、中频子频段和低频子频段。图5示出滤波的时间-频率曲线图的例子,其示出了输入音频信号的高频子频段信号500和中频子频段信号502。\n在一实施例中,系统和方法将输入音频信号的能量分布指定为比三个子频段类别更多或更少。\n[0046] 在一实施例中,低频子频段被系统指定为在低频值的范围内,而高频子频段被指定为高频值的范围内。系统指定中频子频段为在低子频段的最高频和高子频段的最低频之间。应当指出,每个频率子频段范围不限于已讨论的这种,并且根据设计者的愿望,每个子频段能够被指定为具有任何上限频率和下限频率。在一实施例中,低频、中频和高频范围由系统根据整个信号的总的平均功率谱或整个信号的分段部分来确定。可以预期利用任何其他合适的方法由系统来确定低频、中频和高频范围。\n[0047] 具体说,系统和方法依据子频段交叉频率来分析输入音频信号。在一实施例中,系统计算在低频子频段和中频子频段之间的一个或多个子频段交叉频率fm。附加地,系统和方法计算中频子频段和高频子频段之间的一个或多个交叉频率fh。在例子中,fm被指定为在大约300Hz到大约1000Hz之间。在例子中,fh被指定为在大约3500Hz到大约5000Hz之间。应当指出,这些范围仅仅是例子,并且在该系统和方法的范围内,其他频率范围也是被考虑的。\n[0048] 在一实施例中,fm和fh频率被计算为第15和第85百分位频谱下降(衰减)的平均值,其中频谱下降(spectral rolloff)是低于其能够发现音频输入信号的总能量的规定的百分比的频率。该规定的百分比可以从在方块312中计算的信号的能量分布来计算。应当指出,其他频谱下降百分位也是被考虑的,并且不必限制在第15和第85百分位。在一实施例中,该系统和方法使与在每个时间窗中的指定的频率的能量标准化,并且计算对应于规定的百分位的积累值。应当指出,这是计算交叉频率的一种方法,并且计算交叉频率的其他方法也是被考虑的。例如,在一实施例中,可以通过计算整个信号的FFT并且计算下降值来计算子频段信号交叉频率。于是,三个子频段信号可以通过将每个子频段的能量值求和,从输入音频信号的能量分布(频谱)来构造。由于在频谱分解计算中,44KHz时间信息(原始音频采样率)可以被转换成128Hz时间数据,这个过程也可以用于向下采样(down-sample)输入信号。\n[0049] 在一实施例中,高频-中频-和低频子频段信号每个都被系统分段并且被处理。\n如图3所示,中频子频段信号被发送到由方块316指定的中频段优化器。该中频段优化器\n316产生对应于所希望的每秒钟效果(EPS)的数目的不连续事件的音轨。在一实施例中,目标EPS由用户定义,尽管EPS也可以根据特定因素来定义,包括但不限于致动器的分辨率、音乐的类型、末端装置的类型以及该系统的处理能力或用户的希望。\n[0050] 系统执行触觉事件之间的最小分隔,以允许末端装置中的致动器一个合适的时间来启动,并逐步结束其输出的每个触觉事件。该最小的分隔允许末端装置中的致动器产生不连续的多个触觉事件,并且防止两个或更多个触觉事件彼此重叠或者产生彼此重叠的多个触觉事件的一部分的“混淆”感。在一实施例中,根据子频段,限制在触觉事件之间的时间量为50毫秒,并且规定的持续时间为120至250毫秒。应当指出,该系统不限于这些值,并且其他值也在预料中。\n[0051] 中频段优选器316试图通过产生不连续的触觉事件的音轨来捕获有声事件的旋律,以对应于音频输入信号的有声的旋律。系统这样利用限幅参数(clipping parameter),以在希望的EPS的目标范围内识别具有最大能量值的事件。\n[0052] 当限幅的输入信号被从中频段优选器316输出时,该信号被输入到本地分段器\n318,如图3所示。一般而言,本地分段器318利用将限幅输入信号的长时间平均值与限幅输入信号的短时间平均值进行比较的算法,来将中频子频段分段成用于每个事件的一系列的开始和结束时间。如图3中的箭头所示,本地分段器318然后将这种信息向回提供给优选器316,从而优选器316施加一维线搜寻,以单调地调整一个或多个限幅参数,直到不连续事件的分段在所希望的EPS目标范围内。在一实施例中,重复这种处理直到达到用于该信号的所希望的EPS数。在一实施例中,该分段处理被重复预先设定的迭代数目。下面将讨论分段处理的具体情况。\n[0053] 图6示出根据实施例,用于将中频子频段信号分段成不连续的触觉事件的平均功率和短时间功率的表象的时间-信号曲线图。图6的曲线图示出在20秒窗口内的中频子频段信号的时间平均值600以及短时间信号值602。应当指出,其他时间段窗口也可以被系统所利用。\n[0054] 在一实施例中,短时间信号值可以通过用5Hz的Butterworth滤波器低通滤波输入音频信号而得到。应当指出,可以利用任何装置,或者模拟或数字领域的方法对输入信号进行滤波。在一实施例中,系统在特定时间产生新的事件,在这个特定时间点,短时间平均值信号超过用于这个时间点的规定的门限值。依据图6的曲线图,事件在短时间平均值沿着所希望的方向(例如,向上或向下)与长时间平均值交叉的时间点开始和结束。例如,在图6中,本地分段器318通过识别短时间平均值602沿着向上的方向与长期限平均值600交叉的地方来确定事件在何处开始(点604)。本地分段器318还通过识别短时间平均值602沿着向下的方向(点606)与长期限平均值600交叉的地方确定事件在何处结束。应当指出,上面所述仅仅是分段处理的一个例子,很显然系统也可以利用其他分段处理和算法。\n[0055] 对于低频和高频,每秒钟能够有效地产生比末端装置的致动器更多的被看作触觉事件的事件是很平常的。由于在高频和低频子频段中通常固有的密集的频率峰值的数目很大(图5),上面讨论的关于中频子频段的优化处理对于更高或更低频率的子频段不是优选的。这些很大数目的密集的频率峰值能够使致动器产生与输入音频信号的拍子不一致的混叠的结果。\n[0056] 为了解决这个问题,对于高频和低频子频段的信号,系统利用与中频子频段不同的优化和分段方法。图3示出系统不同地处理高频和低频子频段。关于高频子频段,当处理信号时,混叠是系统所考虑的事情。因此,没有考虑到这种混叠所产生的触觉事件可能发生与音乐不一致的节拍或韵律。\n[0057] 一般而言,如图3所示,系统包括高频优化器320方块,其进行一维(1-D)线搜寻,以调整高频信号的一个或多个限幅参数。优化器方块320利用输出信号中的混叠量的测量,并且调整被提供给分段方块322的限幅的值。高频子频段分段器322确定每个触觉事件的开始和/或结束时间,并且如箭头所示,将结果向回提供给优化器方块320。然后,优化器320相应地调整限幅的值,直到达到目标混叠水平或特定数目的预先定义的步骤已经发生。\n[0058] 通过检查所产生的触觉事件的开始时间之间的不同分布,来测量混叠。如果作为由致动器规定的最小效果(effect)分隔,这种分布在同一个delta具有很大的峰值,则分段的结果被认为具有高混叠。合理的目标混叠值应当是30%,这意味着30%的效果具有差别恰好最小间隔值的开始时间。\n[0059] 在分段方块322中所用的算法可以与在一实施例中的中频子频段320所用的相同。在一实施例中,用于由方块322处理高频子频段信号的算法类似于方块318用于中频子频段信号所执行的算法,但是具有若干不同。在一实施例中,对于高频信号,长时间平均值为50毫秒。\n[0060] 在一实施例中,输入信号被预处理,以增加信噪比(S/N)。S/N可以被计算为限幅信号的平均值对信号的最大值之比,从而,被处理的信号通过从输入信号中减去成比例的(scaled)1.5秒移动平均值来计算,并且将负值设置为零。应当指出,这仅仅是一个例子,系统也能够利用其它方法以提高信号的信噪比。\n[0061] 在一实施例中,对于高频信号,被测量为长于250毫秒的触觉事件被限幅为250毫秒的最大值。在一实施例中,在最近的50毫秒窗口中,只有当被限幅的信号大于最高峰值时才产生新的分段。应当指出,上面所说的仅仅是例子,而不限于上面所述的这些因素。还应当指出,上述一个或多个因数可以在执行该算法中被应用。高频子频段分段的结果通常是大致对应于输入音频信号的拍子的一组短触觉事件。\n[0062] 返回来参考图3,在一实施例中,低频子频段信号的处理不同于中频子频段信号。\n输入音频信号的低频部分通常对应于音乐的韵律,并且通常也是由各种类型的打击乐器和/或非常低频的声音(例如,贝斯声音)占优势。正如高频的情况一样,系统和方法处理低频子频段信号以产生与韵律一致的触觉事件,并且产生过多的混叠产物。在音乐中鼓的拍子(beat)在低频子频段频谱中的特定频率范围内是很通常的。因此,在一实施例中,系统考虑低频子频段中的很窄的频率范围,以识别该拍子。\n[0063] 在一实施例中,首先通过利用比方块312长得多的时间框架窗口来对原始输入信号的低频子频段信号进行频谱分解分析(方块324),系统识别这种特定的频率范围。在一实施例中,时间框架窗口是1/32秒或31毫秒,尽管其他的持续时间也在考虑之中并且不限于31毫秒。时间框架窗口在低频范围内比在方块312中计算的频谱分解提供非常高的分辨率,以评估信号的频谱下降。一旦系统和方法计算较高分辨率能量分布(方块324),系统计算该信号的功率谱。这由方块326进行,其中该系统对来自整个指定的时间窗口上的频谱分解的能量分布求和。应当指出,虽然输入信号被示为进行两种不同的频谱分解分析(图3中的方块312和324),但是低频子频段信号的频谱分解可替换地由方块312进行,从而该结果在计算低频子频段信号的功率谱中被方块326所利用。\n[0064] 系统和方法对低频子频段信号利用功率谱计算(方块326),以根据功率水平对频率进行分类(方块328)。在功率谱中若干个频率可以对应于相同的峰值是很常见的,从而冗余频率将被消除,以便能够更有效地对频率峰值进行分类。\n[0065] 图7示出根据实施例,用于对低频子频段信号进行分段的频率-功率曲线图。该功率谱表示在设定数目的频率储存器(frequency bin)中存在于输入信号中的能量值。由\n4\n系统利用该信息,以将频率分类为总功率的储存器(bin)。例如,2.1和2.8(×10)之间的总功率的储存器具有以下降的总功率的方式排列的640Hz、672Hz、416Hz、320Hz以及608Hz的频率峰值。\n[0066] 为了消除这些冗余频率以及消除可能具有完全相同的能量或功率的瞬时分布的其他峰值,例如同样的拍子,系统计算与每个频率储存器相关的瞬时信号之间的互相关矩阵,这在下面更详细地讨论。在一实施例中,如果在频率储存器fi和fj处的时间信号是正相关,则相关矩阵将在位置(I,j)具有近似高值。根据实施例,所有的频率储存器被限幅,这些频率储存器与具有较高的相关功率的储存器具有高于0.5的相关系数。换句话说,系统将保持最高能量信号,并且不使用高于限幅的互相关系数的较低的能量信号。应当指出,相关系数不限于0.5,并且0.5之外的其他值也是被考虑的。对于这些剩余的频率,在方块\n324中所用的算法利用具有15%的最大目标混叠的优化器和分段器(方块330、332),尽管其他目标百分比也是被考虑的。\n[0067] 在一实施例中,系统计算低频段中的所有连续频率储存器之间的互相关系数。对应于周期性的小鼓拍音、拍手等的音频分段通常是高带宽事件,并且最容易通过搜寻最大互相关系数而识别。对于下一频率具有最高互相关系数的频段被系统选择,用于在低通检测算法中进一步处理。两个随机变量x和y的互相关系数由下式给出:\n[0068] \n[0069] 如上所述,在高频、中频、低频被限幅并且分段之后,对于每个子频段信号,系统和方法将生成备选触觉事件表。具体说,如图3所示,分段的高频子频段信号从高频分段方块\n322通过到优先权限幅方块334。此外,分段的中频子频段信号从方块322通过到优先权限幅求和方块334。此外,分段的低频子频段信号从方块322通过到优先权限幅方块334。\n[0070] 对于系统和方法,可以简单地直接输出触觉事件而不使它们通过优先权限幅方块334,但是,这样做使得末端装置中的致动器将可能产生混乱的或模糊的触觉感觉。这是由于若干个触觉事件在时间上重叠造成的。为了克服这个问题,系统利用优先权限幅方块\n334,以从每个子频段信号按优先序排列备选触觉事件。\n[0071] 具体说,优先权限幅方块334能够防止来自相同或不同频率子频段的多于一个的触觉事件被致动器输出,如果它们在彼此的规定时间段内。这也防止重叠的剧烈的或强烈的事件彼此消除。例如,如果剧烈事件和强烈事件两者同时或基本上同时被致动器输出,诸如制动脉冲的剧烈的事件(见下面)可能过早地终止强烈事件。\n[0072] 根据实施例,低频、中频和高频触觉事件的任何优先权可能被优先权限幅方块334输出,不管它们重叠与否。在一实施例中,当来自不同子频段的两个触觉事件被检测为彼此重叠时,频率的子频段能够被赋予优先权。将根据音乐的特定流派、歌声的拍子、致动器的分辨率和/或输入音频信号的信息量(例如,有耗散对无耗散)来赋予这个优先权。\n[0073] 如图3所示,优先权限幅方块334将按优先序排列的触觉事件输出到效果映射方块336。在一实施例中,效果映射方块接收按优先序排列的触觉事件,并且将触觉事件分配给这些不连续的事件。在一实施例中,系统利用两种基本的触觉效果类型:周期性的和与幅度相关的。周期性的效果使振动的周期或速度能够被明确地控制,而与幅度无关。周期性的效果根据该装置而精确地产生振动频率最高到约30Hz。幅度相关的效果以幅度和装置相关的速率振动。\n[0074] 这两种效果类型的其他特征在于三种制动形式或制动效果:强、平缓或剧烈。每种形式具有不同的控制机制,导致对用户的稍微不同的感觉。强效果是用户感觉最强的效果。\n平缓的效果的特征在于在效果的强度逐渐减小,以实现用于周期性效果的较高的频率。对于幅度相关事件,效果强度不逐渐减小。剧烈效果实现了用于周期性效果的最高频率,而不逐渐减小强度,虽然对于幅度相关的效果而言强度明显地逐渐减小。\n[0075] 每种效果包括可调整的参数,或能够由系统或由用户设置的参数。用于周期性触觉效果的这种参数包括但不限于:幅度、周期/频率、持续时间、攻击(attack)时间、攻击水平、渐变(fade)时间、渐变水平以及包络。用于幅度相关触觉效果的参数包括但不限于:\n幅度、持续时间和包络。所描述的触觉效果和上面所示的赋予(assignment)仅仅是说明性的,应当认识到,可以被使用许多触觉效果和赋予。所产生的效果也具有可选的幅度规格,其通常取作整个分段上的信号的最大值(标准化成0至10000)。\n[0076] 图8示出用于与上面讨论的输入音频信号相关的音乐作品的触觉事件序列的时间-符号表示的例子。如图8所示,时间-符号表示800包括输入音频信号802的时间-频率曲线图。此外,该表示800包括指定为贝斯(Bass)804的低频子频段、指定为高通(High Pass)806的高频子频段,以及指定为声音(Vocal)808和中等重音(Mid Accent)810的两个中频子频段。\n[0077] 如图8所示,系统在每个子频段中映射触觉事件,使得在一个时间只有一个触觉事件发生,并且与相邻的触觉事件分隔开指定的时间宽度。在一实施例中,系统在一个时间能够使多于一个的触觉事件发生,其中每个事件的触觉效果的分布特性是彼此不相同的。\n例如,如图8所示,考虑到与强的幅度相关效果808A、808B和短周期效果804A、806A被用户有效地感觉为两个分隔的事件,系统将允许强的幅度相关效果808A、808B和短周期效果\n804A、806A重叠。在图8所示的例子表示中,系统被构造成当允许中频事件与高频和低频事件相重叠时,对高频触觉事件上的低频触觉事件给予优先权。应当指出,系统可以由用户、末端装置,或者由输入的音频信号本身所构造,以对任何频率子频段或部全频率子频段给予优先权和重叠权,并且不限于图8所示的时间-符号表示。\n[0078] 上文讨论了一个或多个实施例,其中系统能够自动地接收、识别并产生对应于采样的音频信号的触觉事件,并且以愉快的方式输出给用户。该系统也能够接收并处理表象地构造的编码的音乐文件,该音乐文件包括但不限于MIDI文件,以产生与编码的音乐文件相对应的触觉事件。应当指出,虽然在这里表象地结构化的文件被描述为音乐文件,但是表象地结构化的文件具有音响效果或与音频有关的其他效果。\n[0079] 图9示出根据实施例构成音乐作品的一系列MIDI事件的时间-音符表示。该MIDI文件格式可以包括同步的乐器的16个声道,从而每个声道能够具有多至127个能够演奏的独特的音调(pitch)(叫做键)。此外,MIDI文件格式包括通常没有音调的保留用于打击乐器的声道。打击乐器横跨在振动声道中键的范围而分布。\n[0080] 图10示出根据实施例构成音乐作品的一系列MIDI事件的时间-乐器-音符表示。\n在MIDI音乐文件中,每种乐器的每个音符是可以由系统指定为触觉事件的事件。但是,考虑到致动器的物理和性能上的限制,系统分析并处理该MIDI文件以产生不连续的触觉事件,该触觉事件产生令用户愉悦的触觉体验。\n[0081] 图11A、11B和11C一起示出系统所用的处理流程图,以自动地处理MIDI文件并且在末端演奏装置上产生触觉事件。一般而言,系统分析MIDI数据并且从结构化的表示中抽取旋律和/或振动事件序列。然后,系统产生用于对应于每种乐器的每个声道的分数(score),从而非振动的声道的分数与这个声道的音符的可变性相关。这被试验发现,在从一组另外的不熟知的输入声道中选择旋律是有效的。对于打击乐器,打分的策略依赖于各种打击乐器的占优势的在先知识。例如,低音鼓最可能是占优势的振动声道,并且因此,与在该振动声道中的低音鼓相关的音符通常得到较高的分数。\n[0082] 除了对来自MIDI序列的输入声道打分之外,该系统和方法对事件进行一个或多个限幅操作,以能够在末端装置上产生不连续的触觉事件。在一实施例中,该系统将一个或多个音符限幅到所希望的持续时间,并且处理该声道以除去重叠的音符,例如,和弦。在一实施例中,该系统可以根据能被处理的参数的数目构造,以在其他声道(例如,振动对旋律)中控制一个或多个声道的相对优先权。\n[0083] 如图11A所示,MIDI序列的所选择的一个、一些或全部声道被接收在系统中(1102)。该序列可以被输入到末端装置的存储器中、与末端装置通信的服务器中、和/或其他中间部件、计算机或处理器中。在一实施例中,来自不是用真正来产生触觉事件的所输入的MIDI文件的信息实际上被从存储器中删除。在一实施例中,不是真正用来产生触觉事件的信息可以由系统保留,以便由研制者或末端用户而使触觉事件能够再构造或细致地调音。\n[0084] 在一实施例中,在接收到文件之后,该系统对该文件执行各种预处理过程。在一实施例中,系统通过分析事件的时间线而对事件执行预音符识别和下一个音符识别技术(图\n11A中的方块1104)。在一个实施例中,在方块1104,每个声道也被处理为在同一个声道中建立一个事件与前一个事件的联系。每个声道也被处理为在同一个声道中建立一个事件与下一个事件的联系。在一实施例中,系统一次分析整个结构化的音频表示文件的时间线。在另一个实施例中,该系统一次分析音频表示文件的时间线的各部分。这使系统能够快速地处理具有长时间线(例如,电影中的声响效果)的大音频文件。\n[0085] 如图11A所示,然后系统通过识别发生旋律和振动事件的声道,而识别感兴趣的旋律的事件和振动的事件,如方块1106所示。当识别旋律事件和振动事件时,系统能够有效地利用该识别的事件,以在图11B中对旋律事件(方块1116)和振动事件(方块1132)打分。\n[0086] 如图11所示,在实施例中,系统可选地处理每个声道,以除去和弦(1108)。在一实施例中,系统从MIDI文件中将和弦识别为在同一个声道中在彼此的某个时间段内开始、并且在非打击乐器声道上的事件。在一实施例中,这个时间段被设置为15毫秒,尽管其他时间段也是预料中的。在一实施例中,一旦系统识别MIDI事件声道中的和弦,系统只保留具有最高音调的事件,并且从该时间线上摒弃构成和弦的其他事件。在另一个实施例中,系统消除最高音调事件并且保留较低或最低音调事件。正如在下面将要详细讨论的,从时间线上去掉和弦减少了给予具有许多和弦的声道的分数,因而帮助系统识别该时间线中的旋律。\n[0087] 在方块1110,系统识别在相同的时间或基本相同的时间具有相同或近似相同的音符的声道对。这经常是两个或更多个乐器以和声(例如,两个吉他同时演奏同一个即兴重复段)演奏时的情况。对于每个声道,产生实时的时间采样矢量,其中该实时是事件发生的时间点。系统通过检查时间线上每个声道的事件而完成时间采样,并且对其间产生事件的时间间隔设置值1。否则,在该矢量中设置值0。这产生一组长度矢量n:\n[0088] \n[0089] 其中T是MIDI输入文件的总持续时间,而ts是采样间隔。\n[0090] 为了识别具有重叠音符的声道,对于每个声道计算相关性。\n[0091] \n[0092] 其中vi、vj是时间采样矢量,而σi是处理为时间序列的矢量vi的标准偏差。如果两个或更多个声道的相关性超过相关性门限值,那么部分声道或整个声道可以从该时间线上消除。\n[0093] 例如,返回参考图9,声道902和904被示出在线900和908之间基本上是相同的。\n当系统对声道902和904执行上述计算时,考虑到它们在相同的时间将演奏相同的曲调,系统将消除两个声道中的其中一个。被消除的两个声道中一个可以决定于由用户和/或系统设置的参数。\n[0094] 如图11A所示,通过利用限幅处理(方块1112)设置最大和最小长度,系统将事件限制为所希望的长度。系统将短于规定的最小持续时间的事件限幅为至少和该最小持续时间一样长。此外,长于规定的最大持续时间的事件被改变成或限幅为不长于最大持续时间。\n此外,在其之间的间隔持续时间小于预先规定的最小持续时间的两个或更多个事件被改变为至少具有最小间隔持续时间。这可通过缩短该序列中一个或两个事件以在其之间产生最小间隔来实现。\n[0095] 现在转到图11B,一旦系统已经完成输入并预处理每个声道之后,系统启动对所接收的文件中的每个声道的打分(方块1116)。应当指出,在一实施例中,当执行所接收的文件的输入/预处理时,系统能够开始打分处理。在一实施例中,在进行文件的输入/预处理之后,系统开始打分处理。\n[0096] 在一实施例中,系统利用两组规则对声道打分。第一规则组被设计成对具有一些可变性的声道给出较高的分数,因为那些声道很可能载有曲调。第二规则组依据其在形成歌声中的韵律的传统重要性而对振动声道提供顺序等级。\n[0097] 通过检查在该时间线上的所有事件来完成打分。每个事件通过打分滤波器,该打分滤波器对单个事件赋予分数。一旦所有的事件已经被处理之后,通过该时间线的第二回路推导出在每个声道中的所有事件的分数,产生每个声道的总分数。在一个实施例中,这是通过简单地积累每个事件的分数来进行。在另一个实施例中,这是用适当的算法完成的。如图11B所示,在一实施例中,系统对旋律事件和振动事件分开地打分,尽管打分可以同时地进行或一个接着一个地进行。在一实施例中,系统能够对旋律事件和振动事件一起打分,从而,对于一种类型的事件(即,旋律的或振动的)而确定的信息可以用于分析或评估另一种类型的事件(即,振动的或旋律的)。\n[0098] 对于时间线上的旋律事件,系统利用对事件打分的规则的子组,如图11B的1116所示。在一实施例中,每个子组规则由系统同时执行。在一实施例中,一个或多个子组规则由系统顺序地执行。\n[0099] 如图11B所示,根据实施例中的方块1118,系统对事件之间的音调变化打分。如在方块1118中,系统计算当前事件的音调和一个或多个在先事件的音调之间的差的绝对值,因而,每个音调具有确定的值。系统能够从音频表示文件中的固有编码的声道数据中,将值分配给音调。在一实施例中,差被作为音调分数输出。在一实施例中,差值通过预定的系数(例如,500)换算以得到音调分数。\n[0100] 如图11B所示,根据实施例的方块1120,系统对事件之间的开始时间打分。在方块1120中,系统分析事件的持续时间以确定在该声道中是否演奏韵律。在一实施例中,在方块1120中计算一个事件和紧邻的前一个事件之间的开始时间的差。在一实施例中,在方块1120中计算前一个事件和该前一个事件之前的事件之间的开始时间的差。在一实施例中,系统在输出开始时间分数之前对这些差加权。在一实施例中,加权的量具有5的系数。\n但是,加权值可以是不同于5的系数也是所预料的。根据该文件中的其他韵律或歌声的流派,系统能够对持续时间打较高或较低的分数,使得系统适当地输出决断的(resolved)触觉事件。\n[0101] 如图11B所示,根据实施例的方块1112,系统对事件的幅度或强度打分。根据该事件的幅度的函数,方块1112指定相等的分数。从结构化的表示文件中固有编码的声道数据,系统能够确定每个事件的幅度。\n[0102] 如图11B所示,根据实施例的方块1124,系统对事件的持续时间打分。方块1124根据事件的持续时间的函数而指定分数。在一实施例中,系统对具有较长持续时间的事件比具有较短持续时间的事件给予较高的分数。在另一个实施例中,系统对具有较长持续时间的事件比具有较短持续时间的事件给予较低的分数。\n[0103] 如图11B所示,根据实施例的方块1126,系统对事件的持续时间的变化打分。具体说,在方块1126中,系统根据当前事件和前一事件之间的持续时间的变化而指定分数。\n[0104] 如图11B所示,根据实施例的方块1126,系统对事件的持续时间的变化打分。具体说,在方块1128中,系统根据事件内的每个音符之前的静音的持续时间而指定分数。例如,如果系统识别在特定声道中,在长的静音持续时间之后发生事件,则系统对这种事件可以给予高分数,使得它最可能被输出为触觉事件。这种情况的例子是在鼓的隆隆声结束时钹的猛烈碰撞。\n[0105] 在一实施例中,如方块1130所示,关于旋律事件的平均信息量(entropy),系统对旋律事件可选地打分。在评估该规则的过程中,系统可以利用被给予声道的分数和与该声道相关的声音的平均信息量之间的关系。为了评估每个韵律声道的平均信息量,由系统构造音符的分布。传统的12音调音阶(tone scale)用于定义音符音调的等效类别{p(k),k=1…12}。根据12个音调音阶中的哪个音调与事件的键相关,而分类每个事件。通过利用百分比排列(scaling)每个事件成分(contribution)而建造分布,从而加权w,w由方程\n4确定:\n[0106] \n[0107] 其中变量d是当前事件和前一时间之间的静音的持续时间(以秒计)。变量τ是饱和休止长度(取作0.5秒),而α是最小可区分的持续时间(取作2秒)。应当指出,对于饱和休止长度和最小可区分的持续时间的其他值也是被考虑的,并且不限于这里所提到的值。\n[0108] 这种分布的平均信息量用等式5中的公式计算:\n[0109] \n[0110] 其中p(k)是声音的音调的类别,从1到12(对于12个音调音阶)\n[0111] 除了对旋律事件打分之外,系统还对振动事件打分,如图11B中方块1132所示。在一实施例中,在对振动事件打分中,系统利用两种规则。具体说,系统对每个振动事件之前的静音的持续时间打分。静音的持续时间被认为是几毫秒,并且在一实施例中该分数被加权。在一实施例中,打分的静音值被4除,尽管其他值也是被考虑的。\n[0112] 如图11B所示,根据打击乐器的类型,系统将值分配给每种打击乐器。在一实施例中,1到5的加权值被系统分配给每种打击乐器,使得更占优势的乐器得到较高的值。例如,归因于低音鼓乐器的事件给予5的值,而归因于踩镲符号(high-hat symbol)的事件给予\n1的值。在一实施例中,在产生每个事件分数的过程中,该值被系数(例如,100)加权。对于振动事件的总的事件分数取决于这些规则的子组。\n[0113] 在一实施例中,当产生声道的绝对值顺序时,用于振动规则和旋律规则两者的打分乘法器由系统加权,以在打击乐器之上强调旋律乐器。这个过程在产生声道分数的方块\n1138中进行。加权可以根据音乐的流派、音频文件的类型(例如,音乐对视频的声响效果)、用户喜好、末端装置的类型等。\n[0114] 现在转到图11C,在产生每个声道的分数(方块1138)之后,系统能够根据分数值对声道进行分类,如方块1142所示。在一实施例中,系统对旋律声道和振动声道单独进行分类,尽管系统也能够对两种声道一起分类。在一实施例中,分类的声道按照下降次序分类,从而具有最高分数的声道被排列为“高”。在一实施例中,被打分的声道以上升的次序分类。在一实施例中,系统对在所希望的分数范围内的声道进行分类,或者仅仅选择具有所希望的分数的声道。在一实施例中,系统从最高到最低排列分数,其中排列为最高的事件将被作为触觉事件输出,而排列为最低的事件将不被作为触觉事件输出。\n[0115] 当系统根据分数排列或选择声道时,系统能够确定哪些声道将提供事件,触觉效果将基于该事件。在一实施例中,系统利用下述伪码在方块1144产生触觉效果:\n[0116] 当声道保留时\n[0117] 对于在振动声道中每个空持续时间>400毫秒\n[0118] 在空隙开始处用100毫秒的缓冲填充该空持续时间,并且用最高打分的通道填充这个间隔中的间隙的末尾。\n[0119] 结束\n[0120] 换句话说,从歌声的开始到结束,系统自动地映射排列为最高的触觉事件。随后,系统“填充空白”,并且再一次映射能够放置在歌声的空白或非触觉事件部分内的下一个排列为最高的触觉事件。考虑到制动器分辨率、持续时间缓冲、用户喜好、触觉事件形式和歌曲的类型,重复这个过程直到歌声中允许的触觉事件的最大数目被映射。应当指出,上面所述仅仅是一个举例的伪码,并且系统可以利用不同的持续时间缓冲以及利用最低打分的声道或其他准则。\n[0121] 当事件被指定为触觉事件时,系统限幅该触觉事件以具有在希望范围内的持续时间。在一实施例中,限幅范围是在200毫秒和300毫秒之间,尽管更大或更小的持续时间也是被考虑的,并且这取决于触觉致动器的性质。此外,事件的开始时间可以被偏置希望的量,以确保不同类型的致动器上的音频和触觉事件之间的知觉的联系。在一实施例中,触觉事件的强度可以在系统中调节。例如,最小持续时间可以设置为较小的值,而缓冲时间可以增加。\n[0122] 如图11C所示,在一实施例中,系统除去振动重叠。系统利用“填充空白”算法而可选地独立地构造韵律和振动声道,并且然后将它们汇合在一起,以产生最终映射的触觉事件。当只利用“强”效果时,这可能是最有效的,由于重叠的剧烈效果能够产生意想不到振动(vibe)行为。可替换地,系统能够衰减具有重叠的振动事件的触觉事件的幅度,从而被衰减的触觉事件然后以最大的幅度被输出。这为末端装置提供保存仍在演奏的该韵律的知觉的重音的特性。\n[0123] 在一实施例中,在结构化的表示信号的时间线上的某个点,系统能够添加自定义渐变(方块1150)。设计者可以选择用渐弱的较短的效果(例如,500毫秒)来代替长持续时间的音符。还有,可以通过添加类似的渐变效果而使乐节或旋律线的末端更有趣。\n[0124] 在一实施例中,当根据上面的规则,具有长持续时间的事件被添加到时间线时,系统寻找该具有长(大于500毫秒)持续时间的事件。如果在特定事件和下一个事件之间还存在大的时间间隙(约1000毫秒),则系统可以自动地淡入或淡出该特定的事件。为了实现这种方法,系统识别并且建立具有触觉效果特性或淡入和/或淡出的特征的这种触觉事件的列表。在构造整个时间线之后,系统用来自该列表中渐变的触觉事件来代替现有的触觉事件。渐变效果可以被实现为在其整个持续时间减弱的周期性的或幅度相关的效果。\n[0125] 用于转换上面所述的数字采样的音频和/或结构化的表示文件的方法可以用于音符到触觉事件的自动转换。一旦转换之后,这些触觉事件序列能够以适当的方式存储并且在分配在其他的末端装置中。例如,触觉事件序列可以作为输出文件存放在与一个或多个网络上的客户机通信的服务器中。当与客户机建立通信联系时,服务器可以以电子方式提供输出文件以在客户机上演奏。同样地,该触觉序列能够被用在本领域已知的各种设置中。例如,通知电话用户或诸如约会、报警的事件,诸如天气预报或文本信息等的输入信息。\n在一实施例中,结构化的表示文件可以应用于卡拉OK歌曲,其中在文件的自动转换之后,末端装置(例如,卡拉OK麦克风)输出触觉效果以提示歌唱者音乐。在一实施例中,末端装置能够自动地转换、映射并且输出触觉事件序列,用于下载到末端装置上的视屏、视频游戏、音乐视频或电影文件的声音效果或其他音频。\n[0126] 虽然已经示出并描述了本发明的实施例和应用,但是对于受到本发明内容启发的本领域的普通技术人员而言,很显然,在不脱离这里的发明构思的情况下能够对上面提到的内容进行许多修改。因此除了在所附权利要求的精神内之外,本发明不被限制。
法律信息
- 2021-03-19
未缴年费专利权终止
IPC(主分类): G06F 15/00
专利号: ZL 200780013161.2
申请日: 2007.04.12
授权公告日: 2012.05.30
- 2014-12-03
专利权人的姓名或者名称、地址的变更
专利权人由伊默生公司变更为意美森公司
地址由美国加利福尼亚州变更为美国加利福尼亚州
- 2012-05-30
- 2009-06-24
- 2009-04-29
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有引用任何外部专利数据! |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 1 | | 2007-04-12 | 2007-04-12 | | |