音乐相似性处理方法

发明专利无效专利

申请号：
CN200910078487.4
IPC分类号：G10L15/28;G10L15/22;G06F17/30
申请日期：
2009-02-25
申请人：
北京派瑞根科技开发有限公司

基础信息

权利要求

说明书

PDF全文

法律信息

引证文献

著录项信息

专利名称	音乐相似性处理方法
申请号	CN200910078487.4	申请日期	2009-02-25
法律状态	权利终止	申报国家	中国
公开/公告日	2009-10-07	公开/公告号	CN101552000
优先权	暂无	优先权号	暂无
主分类号	G10L15/28 ? IPC结构图谱： G 物理 G0 仪器 G10 乐器；声学 G10L 语音分析或合成；语音识别；语音或声音处理；语音或音频编码或解码〔4〕 G10L15/00 语音识别（G10L 17/00优先）〔7，2013.01〕 G10L15/28 语音识别系统的结构细节〔7，2013.01〕	IPC分类号	G;1;0;L;1;5;/;2;8;;;G;1;0;L;1;5;/;2;2;;;G;0;6;F;1;7;/;3;0查看分类表>
申请人	北京派瑞根科技开发有限公司	申请人地址	北京市朝阳区团结湖北路2号215室变更专利地址、主体等相关变化，请及时变更，防止失效
权利人	北京派瑞根科技开发有限公司	当前权利人	北京派瑞根科技开发有限公司
发明人	须清
代理机构	暂无	代理人	暂无

摘要

本发明提出音乐相似性处理方法，包括如下步骤：输入第一音乐的多媒体信息的第一特征信息或者输入第一音乐的多媒体信息后从所述第一音乐的多媒体信息中提取第一特征信息；将所述第一特征信息分解成以任意一起点开始的一定长度的多个信息段；输入第二音乐的多媒体信息的第二特征信息或者输入第二音乐的多媒体信息后从所述第二音乐的多媒体信息中提取第二特征信息；计算所述多个信息段的任意一段与所述第二特征信息中的任意一段信息的相似度数据；从所述相似度数据中选取相似度最大值；判断相似度最大值是否超过设定的阀值，如果超过设定的阀值则判断所述第一音乐与所述第二音乐相似性高，否则所述第一音乐与所述第二音乐相似性低。

音乐相似性处理方法\n技术领域\n[0001] 本发明涉及一种音乐相似性处理方法，特别是涉及判定两首音乐是否相似而出现\n版权侵权的处理方法。\n背景技术\n[0002] 多媒体播放器，如MP3、MP4、移动终端、电脑等已相当普及，这些设备通常都具有较\n大的信息存储容量，存储了很多条多媒体信息。要从这些多媒体信息中选择所需的多媒体\n信息进行播放的方法主要是先将多媒体信息按一定规则进行分类，然后以选择菜单的方式\n由操作者通过操作界面进行选择。当多媒体信息内容很多时，将会使操作界面的菜单层次\n很多，以至于选择到所需的多媒体信息也是比较困难的。而且通常操作界面所显示的菜单\n选项通常只显示多媒体信息的标题，当多媒体信息内容很多时，人们往往看到标题有时也\n不能知道是否是所需内容，往往选中后试听或试看后发现不是所需，再重新选择的情况。\n[0003] 在互联网络发展的今天，网络中的多媒体内容更是十分庞大，从中搜索所需内容\n并不容易，特别是当人们记不清多媒体内容的标题时搜索更是难以获得。\n[0004] 近年来，语音识别技术和基于声音控制操作电子设备的研究也比较多，在一\n些移动终端设备上也一些商用，如通过声音选择进行电话拨打操作等。美国专利文件\nNo.4,277,644和No.6,101,467覆盖了语音识别软件的各个方面。而且用于表征音频内容\n的方法也有描述。特别是美国专利No.6,054,646和No.6,173,250覆盖了用于通过节拍、\n能量、音高等特征来表征音乐的方法。\n[0005] 尽管有针对语音识别、音频信号分析和音乐特征的表征方法的进步和近年来的发\n展，以及在一些电子设备上实现语音控制，但其应用在很多情况下并不能满足人们的需求。\n例如，经常出现的一种情况是，人们使用多媒体播放器选择自己喜欢的多媒体内容时出现\n一些困难，当时也许能够哼出该多媒体信息中乐曲的某个片断或某一句或者仅仅能够哼出\n乐曲旋律的一小节的近似内容，但就是想不起来多媒体内容的标题，因而无法有效地找到\n所需的媒体内容。\n[0006] 在公开日为2005年7月13日，公开号为CN1639975A的中国发明专利申请公开内\n容中提到了通过提取信号源的语音特征后用语音特征去选择所需信号源的内容。特别是该\n公开文件中公开的看门狗功能(Watch Dog)：用户可以向音频记录器-播放器中音频分析\n器唱或哼出一个样式(pattern)，然后音频记录器-播放器可以针对那个特定的音调来监\n视不同的频道，而且用户可以通过声音识别软件将所说的词输入给音频记录器-播放器，\n然后音频记录器-播放器可针对包含这些词的一些或全部的对话和独白而监视不同频道。\n采用高级匹配算法，即当短语在预定的秒数中出现两次或三次时宣布匹配的算法。当出现\n匹配时，可以产生一个控制事件，控制频道的切换。\n[0007] 但上述描述的技术应用到具有较大容量的多媒体播放器时有其缺陷。因为使用多\n媒体播放器并非都是专业人员，所唱出或哼出的片断或一句内容或者乐曲旋律的内容时，\n往往并不是标准的内容，如乐曲旋律的节拍并不一样、或者乐曲旋律的音调并不一样，但其\n所哼出或唱出的内容与所希望选择的内容又有一定的相似性。比如一首乐曲是C调的，录\n制的多媒体信息也是基于C调的，但人们哼出或唱出的内容可以用F调或C升调或C降调，\n但乐曲的韵律却基本相似，人们可以判断出是同一首乐曲；或者一首乐曲是2/4节拍，但哼\n出或唱出的内容却可能是4/4节拍，但乐曲的韵律却基本相似，人们可以判断出是同一首\n乐曲。在这种情况下，现有技术是没有很好解决的。\n[0008] 另一方面，对于媒体播放器，还存在的情况是，人们希望某条媒体信息从某个点开\n始播放，现有技术通常是采用快进按钮或快退按钮，但这种操作方式，只能凭操作者进行预\n估前进或后退位置，通常不准确，需要多次按快进按钮或快退按钮才能完成。现有的数字媒\n体记录方式虽然提供了目录式菜单选择方式以选定某条媒体的播放，但仍然不能解决按人\n们的期望快速控制媒体播放起点的问题。\n[0009] 另外，音乐的版权问题，也越来越受到关注，特别是音乐的抄袭问题时有报道，而\n且一些抄袭者为了躲避相应的法律规定的漏洞，将乐曲的音调或节拍稍作调整，使其与原\n曲从形式上不同，但实体内容仍然相似，这种相似性如何被认为是抄袭，现有技术也没有提\n出相应的方法。\n发明内容\n[0010] 本发明所要解决的技术问题是如何更有效地从媒体存储体或从互联网络中选择\n所需的多媒体信息并有效地随意控制媒体播放的起点。本发明采用语音特征提取、分段提\n取、相似度计算、相似性判定的方法来实现声音控制电子设备或网络操作实现自动获取所\n需多媒体信息。同时本发明的技术还可以用于或者实现乐曲抄袭或相似性的自动判定。\n[0011] 术语说明：本文中所指的语音特征是与输入语音的韵律相关的特征信息，而韵律\n是以每个可识别的音节为基础，也就是说，一段多媒体包含很多音节，而提取语音特征时是\n以每个音节为基础获得的特征，每个音节的特征按顺序组合在一起即构成了这段多媒体信\n息的整个韵律或旋律，因此所提取特征组合可以截取其中任意一段，作为本发明中进行特\n征比对的基础。当一段语音输入包含多个旋律时，可以仅提取主旋律特征或者提取所有旋\n律的特征。在本文中语音特征和特征信息是相同含义。\n[0012] 术语说明：本发明所指的媒体信息与多媒体信息具有相同的含义，都是指包含有\n声音信息的语音信息、音乐信息、视频信息、数据信息或这些信息的任意组合。\n[0013] 术语说明：本发明所指相似度是指两个信息之间采用相关性算法得出的表示信息\n相关性的数据，所述相关性算法包含线性相关性计算方法或非线性相关性计算方法。线性\n相关性计算方法和非线性相关性计算方法在现有的数学领域和实验物理学中已经给出了\n很多种数学模型和计算方法，作为与本发明相关联的现有技术进行引用。\n[0014] 为解决上述问题，提出的技术解决方案是：\n[0015] 1、一种多媒体播放装置第一种方案，包括存储了至少一条多媒体信息的信息存储\n体和多媒体信号输出部件，其特征是还包括：\n[0016] 声音输入部件，既可以是通过声音传感器输入声音，也可以是是一段预先制作的\n声音文件输入信息；\n[0017] 特征提取部件，从所述声音输入部件输入的声音信号或信息中提取第一特征信\n息；\n[0018] 媒体信息特征存储部件，存储了对应于所述每条多媒体信息的第二特征信息；\n[0019] 特征相似性计算部件，用于判断所述第一特征信息与所述每条多媒体信息的第二\n特征信息中的任意一段信息的相似度；\n[0020] 特征相似性判断部件，从所述相似度数据中选取相似度最大值；\n[0021] 多媒体信息选择部件，从所述信息存储体中选择相似度最大值的信息段所在的那\n条多媒体信息传送到所述多媒体信号输出部件。\n[0022] 2、一种多媒体播放装置第二种方案，包括存储了至少一条多媒体信息的信息存储\n体和多媒体信号输出部件，其特征是还包括：\n[0023] 声音输入部件，既可以是通过声音传感器输入声音，也可以是是一段预先制作的\n声音文件输入信息；\n[0024] 特征提取部件，从所述声音输入部件输入的声音信号或信息中提取第一特征信\n息；\n[0025] 媒体信息特征计算部件，计算对应于所述每条多媒体信息的第二特征信息；\n[0026] 特征相似性计算部件，用于判断所述第一特征信息与所述每条多媒体信息的第二\n特征信息中的任意一段信息的相似度；\n[0027] 特征相似性判断部件，从所述相似度数据中选取相似度最大值；\n[0028] 多媒体信息选择部件，从所述信息存储体中选择相似度最大值的信息段所在的那\n条多媒体信息传送到所述多媒体信号输出部件。\n[0029] 3、对于第一特征信息和第二特征信息的提取方法，以大家熟悉的歌曲为例，可提\n取这首歌曲的主旋律特征信息，如用简谱或五线谱表示，简谱中包含了节拍速度和音调的\n信息。可以把主旋律特征信息作为本发明的第二特征信息；而不同的人唱出或哼出这首歌\n曲时，其节拍速度和/或音调可能与这首歌曲本身确定的节拍速度、音调不同，也可能与所\n录制成多媒体信息的信息段中第二特征信息的节拍速度、音调不同，但如果都是针对同一\n首歌曲演唱，他们的主旋律是存在很大的相似性的。因此对于第二特征信息进行节拍调整\n和/或音调调整后，再与第一特征信息进行相似性计算。所述旋律也可以用五线谱或其他\n旋律表示。在音乐的多媒体信息处理中，其中一种音乐媒体格式是乐谱文件，这种文件以表\n示音符、乐器以及清晰度信息的数据形式存储声音，最流行的数据格式是MIDI数据格式。\nMIDI文件包含如何再现声音的规范，可被认为是电可读格式的一张乐谱，它包含有关在重\n放各MIDI文件中存储的数据所表示的乐谱时要考虑的声道、所用的装置以及升学参数的\n信息。集合术语“声学参数”表示定义例如音高、音符或其余值分别为响应等级、音速、音色\n或特殊效果如颤音或混响的描述。因此所述MIDI文件包含了本发明所需要的第二特征信\n息，可以针对每一条或每一首多媒体信息所对应的MIDI文件作为本发明的第二特征信息，\n相应的，第一特征信息的提取也采用相同方法，提取出输入语音的MIDI文件作为第一特征\n信息。或者对于每一条或每一首多媒体信息所对应的MIDI文件再进行数据提取去除乐器、\n响应等级、音色颤音、混响等特征之一或几个后作为本发明的第二特征信息，相应的，第一\n特征信息的提取也采用相同方法，提取出输入语音的MIDI文件去除音速、乐器、响应等级、\n音色颤音、混响等特征之一或几个后作为第一特征信息。\n[0030] 在美国专利No.6,054,646中给出了通过从声音信号中提取特征信号的方法，包\n括倒频谱系数法(MFCC：Mel Frequency Cepstral Coefficients)、线性预测编码法(LPC：\nLinear Predictive Coding)。同时也给出了将MFCC特征转化为MIDI文件的参数映射描\n述。本发明在这里全文引用美国专利No.6,054,646的内容。另外在现有的互联网络中可\n以很容易找到将采集的声音波形文件(WAVE)转换为MIDI文件的软件，还有将MIDI文件转\n换为简谱的软件以及将MIDI文件转换为五线谱的软件。因此本发明在这些现有知识的基\n础之上实现本发明的内容以判定输入的声音信息与存储的多媒体信息之间的关联性。一种\n实现方案可以描述如下：\n[0031] 对于输入的声音信号提取MFCC系数，然后用MFCC系数生成MIDI文件，再将MIDI\n文件转换为简谱文件，以简谱文件作为第一特征信息；对于存储的多媒体信息采用相同的\n方法提取MFCC系数，然后用MFCC系数生成MIDI文件，再将MIDI文件转换为简谱文件，以\n简谱文件作为第二特征信息；然后计算第一特征信息与第二特征信息的相似度，根据相似\n度计算结果就可以实现本发明所需要达到的功能。在不同应用要求中，对于第一特征信息\n与第二特征信息还可以进行进一步的变换，如第二特征信息还包含所述多媒体信息对应的\n简谱文件进一步生成的基于各种大调的简谱文件的组合，即假如原多媒体信息的简谱文件\n是C大调的，可以进一步生成D大调、E大调、G大调等的简谱文件作为第二特征信息的部\n分；再如第二特征信息还包含所述多媒体信息对应的简谱文件进一步生成的基于各种节拍\n的简谱文件的组合，即假如原多媒体信息的简谱文件是2/4拍的，可以进一步生成4/4拍、\n6/8拍等的简谱文件作为第二特征信息的部分；再如将简谱文件每个音调都用一个数字表\n示，将相邻的相同音调合并为一个音调，然后再进行相似度计算，可以排除输入的声音因音\n调不准或节拍不同造成相似度的差异。\n[0032] 一种可选实现方案中，第一特征信息与第二特征信息可以就是MFCC系数或LPC系\n数，直接对于MFCC系数或LPC系数进行相似度计算；还可以就是MIDI文件，直接对于MIDI\n文件进行相似度计算。\n[0033] 4、所述第一特征信息包含声音音调信息和/或音调变化信息；所述第二特征信息\n包含多媒体信息中包含的声音音调信息和/或音调变化信息。\n[0034] 5、或者所述第一特征信息包含声音音高信息和/或音高变化信息；所述第二特征\n信息包含多媒体信息中包含的声音音高信息和/或音高变化信息。\n[0035] 6、一种多媒体信息处理方法第一种方案，从至少一条多媒体信息和每条多媒体信\n息对应的第二特征信息的信息存储体中选择所需的多媒体信息，其特征是包括如下步骤：\n[0036] 第一步：通过声音输入部件输入声音信号或信息；\n[0037] 第二步：从所述声音输入部件输入的声音信号或信息中提取第一特征信息；\n[0038] 第三步：计算所述第一特征信息与所述每条多媒体信息的第二特征信息中的任意\n一段信息的相似度数据；\n[0039] 第四步：从所述相似度数据中选取相似度最大值；\n[0040] 第五步：从所述信息存储体中选择相似度最大值的信息段所属的第二特征信息；\n[0041] 第六步：从信息存储体中根据所属的第二特征信息检索到所对应的那条多媒体信\n息。\n[0042] 7、该方法还包括将所对应的那条多媒体信息输出的步骤。\n[0043] 8、该方法，还包括向信息存储体中输入多媒体信息的步骤，通过有线或无线方式\n从其他介质中将多媒体信息输入到信息存储体中或者通过网络连接把多媒体信息下载到\n信息存储体中。\n[0044] 9、进一步的是该方法，还包括对所述输入的多媒体信息计算对应的第二特征信息\n的步骤并存储在所述信息存储体中。\n[0045] 10、或者该方法还包括直接向信息存储体中输入多媒体信息和对应的第二特征信\n息的步骤。\n[0046] 11、所述第二特征信息中的任意一段信息的长度与所述第一特征信息的长度相\n同，或者所述第二特征信息中的任意一段信息通过节拍调整后和/或音调调整后与所述第\n一特征信息的长度相同。\n[0047] 12、所述第二特征信息与所述第一特征信息是音乐的韵律或旋律信息。\n[0048] 13、或者所述第二特征信息与所述第一特征信息是去除了音拍长度的韵律或旋律\n信息。\n[0049] 14、所述第三步的计算方法是线性相关性计算方法。一种实现是基于简谱的第一\n特征信息和第二特征信息，由于通常简谱可用三个八度音符和节拍完全表示。由于音符都\n是1到7的数字加上高音符或低音符以及停顿音(通常用0表示)表示。当转化为本发明\n所述特征信息可以进行如下处理。对于高音(第三个八度)用8到15共7个数字表示，\n对于低音(第一个八度)用-7到-1共7个数字表示，对于中音(第二个八度)用1-7共\n7个数字表示，停顿音用0表示，因此本发明所述的特征信息在这个实现方案中被转变成了\n数字信息，每个节拍对应一个数字。用线性相关度计算方法，可以很容易计算出第一特征信\n息和第二特征信息的相似性，即使第一特征信息与第二特征信息的音高或音调不同，但如\n果存在相似，则每个节拍音高或音调都会相应地变化。如第二特征信息是音乐中的C调，但\n第二特征信息可以是B调，由于每个节拍的数字都根据所确定的调而发生相应地变化，虽\n然每个节拍的数字不同，计算的相似度却很高。线性相似度的数学计算方法属于公知算法，\n这里就不再赘述。有时也会出现输入语音的第一特征信息所表示的节拍与多媒体信息的第\n二特征信息的节拍不同，如第二特征信息是2/4节拍，而第一特征信息是4/4节拍，但其表\n示的主旋律却可能是相似的，因此计算相似度之前需要对于第一特征信息和/或第二特征\n信息的节拍进行调整。调整方法之一是将一个节拍的数据以相同的数据扩展一个节拍，如\n某个节拍的数据为5可以调整为两个节拍，每个节拍都是5；调整方法之二是将数据相同的\n两个相连节拍缩减为一个节拍，如某两个相连节拍的数据都为5可以调整为一个节拍，节\n拍数据是5。\n[0050] 15、一种多媒体信息处理方法的第二种方案，从至少存储了一条多媒体信息的信\n息存储体中选择所需的多媒体信息，其特征是包括如下步骤：\n[0051] 第一步：通过声音输入部件输入声音信号或信息；\n[0052] 第二步：从所述声音输入部件输入的声音信号中提取第一特征信息；\n[0053] 第三步：计算每条多媒体信息对应的第二特征信息；\n[0054] 第四步：计算所述第一特征信息与所述每条多媒体信息的第二特征信息中的任意\n一段信息的相似度数据；\n[0055] 第五步：从所述相似度数据中选取相似度最大值；\n[0056] 第六步：根据相似度最大值的信息段所属的第二特征信息检索到所对应的那条多\n媒体信息。\n[0057] 第二种方案与第一种方案的差别在于每条多媒体信息的第二特征信息是预先存\n储在存储体中，还是应用需要时才计算出来。\n[0058] 16、一种多媒体信息播放器操作方法的第一种方案，从至少一条多媒体信息和每\n条多媒体信息对应的第二特征信息的信息存储体中选择所需的多媒体信息进行播放，其特\n征是包括如下步骤：\n[0059] 第一步：通过声音输入部件输入声音信号或信息；\n[0060] 第二步：从所述声音输入部件输入的声音信号或信息中提取第一特征信息；\n[0061] 第三步：计算所述第一特征信息与所述每条多媒体信息的第二特征信息中的任意\n一段信息的相似度数据；\n[0062] 第四步：从所述相似度数据中选取相似度最大值；\n[0063] 第五步：从所述信息存储体中选择相似度最大值的信息段所属的第二特征信息；\n[0064] 第六步：从信息存储体中根据所属的第二特征信息检索到所对应的那条多媒体信\n息进行播放输出。\n[0065] 每条多媒体信息对应的第二特征信息可以采用MIDI文件，或者抽出MIDI文件的\n部分要素。\n[0066] 17、一种多媒体信息播放器操作方法第二种方案，从至少存储了一条多媒体信息\n的信息存储体中选择所需的多媒体信息，其特征是包括如下步骤：\n[0067] 第一步：通过声音输入部件输入声音信号或信息；\n[0068] 第二步：从所述声音输入部件输入的声音信号或信息中提取第一特征信息；\n[0069] 第三步：计算每条多媒体信息对应的第二特征信息；\n[0070] 第四步：计算所述第一特征信息与所述每条多媒体信息的第二特征信息中的任意\n一段信息的相似度数据；\n[0071] 第五步：从所述相似度数据中选取相似度最大值；\n[0072] 第六步：根据相似度最大值的信息段所属的第二特征信息检索到所对应的那条多\n媒体信息进行播放输出。\n[0073] 本发明所述技术还可以用于判断两首音乐的相似性，在判断音乐是否抄袭中具有\n较大的用处。\n[0074] 18、一种进行音乐相似性判断方法，对于第一音乐与第二音乐进行相似性判断，其\n特征是包括如下步骤：\n[0075] 第一步：输入第一音乐的多媒体信息的第一特征信息或者输入第一音乐的多媒体\n信息后从所述第一音乐的多媒体信息中提取第一特征信息；\n[0076] 第二步：将所述第一特征信息分解成以任意一起点开始的一定长度的多个信息\n段；\n[0077] 第三步：输入第二音乐的多媒体信息的第二特征信息或者输入第二音乐的多媒体\n信息后从所述第二音乐的多媒体信息中提取第二特征信息；\n[0078] 第四步：计算所述多个信息段的任意一段与所述第二特征信息中的任意一段信息\n的相似度数据；\n[0079] 第五步：从所述相似度数据中选取相似度最大值；\n[0080] 第六步：判断相似度最大值是否超过设定的阀值，如果超过设定的阀值则判断所\n述第一音乐与所述第二音乐相似性高，否则所述第一音乐与所述第二音乐相似性低。\n[0081] 上述一定长度的多个信息段中，对于一定长度的规定可以与相关的法律文件的定\n义进行关联，如规定连续7个节拍的相似被认定为抄袭的话，可以将所述一定长度设定为7\n个节拍的长度。\n[0082] 上述设定的阀值的含义是根据对于相关法律的执行严格程度来确定的。对于严格\n的相似才算抄袭，则设定的阀值就很高，接近1；当执行严格程度降低时设定的阀值就可适\n当降低，如为0.8或0.9。\n[0083] 19、一种对于互联网中的音乐进行音乐相似性判断方法，其特征是包括如下步\n骤：\n[0084] 第一步：输入第一音乐的多媒体信息的第一特征信息或者输入第一音乐的多媒体\n信息后从所述第一音乐的多媒体信息中提取第一特征信息；\n[0085] 第二步：将所述第一特征信息分解成以任意一起点开始的一定长度的多个信息\n段；\n[0086] 第三步：从互联网络中下载第二音乐的多媒体信息的第二特征信息或者从互联网\n络中下载第二音乐的多媒体信息后从所述第二音乐的多媒体信息中提取第二特征信息；\n[0087] 第四步：计算所述多个信息段的任意一段与所述第二特征信息中的任意一段信息\n的相似度数据；\n[0088] 第五步：从所述相似度数据中选取相似度最大值；\n[0089] 第六步：判断相似度最大值是否超过设定的阀值，如果超过设定的阀值则判断所\n述第一音乐与所述第二音乐相似性高，否则所述第一音乐与所述第二音乐相似性低。\n[0090] 上述一定长度的多个信息段中，对于一定长度的规定可以与相关的法律文件的定\n义进行关联，如规定连续7个节拍的相似被认定为抄袭的话，可以将所述一定长度设定为7\n个节拍的长度。\n[0091] 上述设定的阀值的含义是根据对于相关法律的执行严格程度来确定的。对于严格\n的相似才算抄袭，则设定的阀值就很高，接近1；当执行严格程度降低时设定的阀值就可适\n当降低，如为0.8或0.9。\n[0092] 采用本发明的技术还可以用于互联网络中进行媒体信息搜索，提供一种更加有效\n的一种搜索系统和搜索方法。\n[0093] 20、一种网络搜索系统的第一种方案，包括远端服务器部件和近端部件，所述远端\n服务器部件和近端部件通过互联网络或局域网络连接，其特征是：\n[0094] 所述近端部件包含：\n[0095] 声音输入部件；\n[0096] 特征提取部件，从所述声音输入部件输入的声音信号或信息中提取第一特征信\n息；\n[0097] 信息发送部件，将第一特征信息通过网络传递到所述远端服务器部件；\n[0098] 信息接收第一部件，接收所述远端服务器部件发送过来的多媒体信息；\n[0099] 所述远端服务器部件包含：\n[0100] 信息接收第二部件，接收从所述近端部件发送过来的第一特征信息；\n[0101] 媒体信息存储部件，存储了至少一条多媒体信息、计算并存储或预先存储了对应\n于所述每条多媒体信息的第二特征信息、每条多媒体信息与其第二特征信息对应关系；；\n[0102] 特征相似性计算部件，用于判断所述第一特征信息与所述每条多媒体信息的第二\n特征信息中的任意一段信息的相似度；\n[0103] 特征相似性判断部件，从所述相似度数据中选取相似度最大值或相似度超过设定\n阀值的多个相似度数据；\n[0104] 多媒体信息选择部件，从所述媒体信息存储体中选择所述相似度最大值或相似度\n超过设定阀值的多个相似度数据的信息段所在的第二特征信息对应的一条或多条多媒体\n信息传送到所述近端部件。\n[0105] 21、采用第一种方案的网络搜索系统实现多媒体信息搜索方法，其特征是包含如\n下操作步骤：\n[0106] 步骤1：在所述近端部件输入声音信号或信息；\n[0107] 步骤2：所述近端部件提取所述声音信号或信息的第一特征信息；\n[0108] 步骤3：将所述第一特征信息通过互联网络或局域网络发送到远端服务器部件；\n[0109] 步骤4；所述远端服务器部件计算所述第一特征信息与远端服务器部件中存储的\n每条媒体信息的第二特征信息的相似度；\n[0110] 步骤5；所述远端服务器部件根据所述相似度的最大值或相似度超过设定阀值的\n多个相似度数据相应的第二特征信息从所述远端服务器部件中检索到所对应的多媒体信\n息作为选中的多媒体信息；\n[0111] 步骤6：所述远端服务器部件将所选中的多媒体信息通过互联网络或局域网络发\n送到近端部件。\n[0112] 22、一种网络搜索系统的第二种方案，包括远端服务器部件和近端部件，所述远端\n服务器部件和近端部件通过互联网络或局域网络连接，其特征是：\n[0113] 所述近端部件包含：\n[0114] 声音输入部件；\n[0115] 特征提取部件，从所述声音输入部件输入的声音信号或信息中提取第一特征信\n息；\n[0116] 下载部件，从所述远端服务器部件下载每条多媒体信息的第二特征信息；\n[0117] 近端存储部件，存储来自下载部件的每条多媒体信息的第二特征信息\n[0118] 特征相似性计算部件，用于判断所述第一特征信息与所述每条多媒体信息的第二\n特征信息中的任意一段信息的相似度；\n[0119] 特征相似性判断部件，从所述相似度数据中选取相似度最大值或相似度超过设定\n阀值的多个相似度数据；\n[0120] 选择部件，从所述存储部件中取出相似度最大值或相似度超过设定阀值的多个相\n似度数据所对应的第二特征信息；\n[0121] 信息发送部件，将选择部件所选择的第二特征信息通过网络传递到所述远端服务\n器部件；\n[0122] 信息接收第一部件，接收所述远端服务器部件发送过来的多媒体信息；\n[0123] 所述远端服务器部件包含：\n[0124] 信息接收第二部件，接收从所述近端部件发送过来的第二特征信息；\n[0125] 媒体信息存储部件，存储了至少一条多媒体信息、计算并存储或预先存储了对应\n于所述每条多媒体信息的第二特征信息、每条多媒体信息与其第二特征信息对应关系；；\n[0126] 多媒体信息选择部件，从所述媒体信息存储体中选择与所述信息接收部件中接收\n到的第二特征信息所对应的一条或多条多媒体信息传送到所述近端部件。\n[0127] 23、采用第二种方案的网络搜索系统实现多媒体信息搜索方法，其特征是包含如\n下操作步骤：\n[0128] 步骤1：所述近端部件通过互联网络或局域网络从所述远端服务器部件下载每条\n多媒体信息的第二特征信息\n[0129] 步骤2：在所述近端部件输入声音信号或信息；\n[0130] 步骤3：所述近端部件提取所述声音信号或信息的第一特征信息；\n[0131] 步骤4：所述近端部件计算所述第一特征信息与所述每条媒体信息的第二特征信\n息的相似度；\n[0132] 步骤5：将所述相似度的最大值或相似度超过设定阀值的多个相似度数据所对应\n的第二特征信息通过互联网络或局域网络发送到远端服务器部件；\n[0133] 步骤6：所述远端服务器部件根据所收到的第二特征信息从所述远端服务器部件\n中检索到所对应的多媒体信息作为选中的多媒体信息；\n[0134] 步骤7：所述远端服务器部件将所选中的多媒体信息通过互联网络或局域网络发\n送到近端部件。\n[0135] 24、一种网络搜索系统的第三种方案，包括远端服务器部件和近端部件，所述远端\n服务器部件和近端部件通过互联网络或局域网络连接，其特征是：\n[0136] 所述近端部件包含：\n[0137] 声音输入部件；\n[0138] 信息发送部件，将来自所述声音输入部件的声音信号或信息通过网络传递到所述\n远端服务器部件；\n[0139] 信息接收第一部件，接收所述远端服务器部件发送过来的多媒体信息；\n[0140] 所述远端服务器部件包含：\n[0141] 信息接收第二部件，接收从所述近端部件发送过来的声音信号或信息；\n[0142] 特征提取部件，从所述信息接收第二部件接收到的声音信号或信息中提取第一特\n征信息；\n[0143] 媒体信息存储部件，存储了至少一条多媒体信息、对应于所述每条多媒体信息的\n第二特征信息、每条多媒体信息与其第二特征信息对应关系；\n[0144] 特征相似性计算部件，用于判断所述第一特征信息与所述每条多媒体信息的第二\n特征信息中的任意一段信息的相似度；\n[0145] 特征相似性判断部件，从所述相似度数据中选取相似度最大值或相似度超过设定\n阀值的多个相似度数据；\n[0146] 多媒体信息选择部件，从所述媒体信息存储体中选择所述相似度最大值或相似度\n超过设定阀值的多个相似度数据的信息段所在的第二特征信息对应的一条或多条多媒体\n信息传送到所述近端部件。\n[0147] 25、采用第三种方案的网络搜索系统实现多媒体信息搜索方法，其特征是包含如\n下操作步骤：\n[0148] 步骤1：在所述近端部件输入声音信号或信息；\n[0149] 步骤2：将所述声音信号或信息通过互联网络或局域网络发送到远端服务器部\n件；\n[0150] 步骤3：所述远端服务器部件提取所收到声音信号或信息的第一特征信息；\n[0151] 步骤4：所述远端服务器部件计算所述第一特征信息与远端服务器部件中存储的\n每条媒体信息的第二特征信息的相似度；\n[0152] 步骤5：所述远端服务器部件根据所述相似度的最大值或相似度超过设定阀值的\n多个相似度数据相应的第二特征信息从所述远端服务器部件中检索到所对应的多媒体信\n息作为选中的多媒体信息；\n[0153] 步骤6：所述远端服务器部件将所选中的多媒体信息通过互联网络或局域网络发\n送到近端部件。\n[0154] 26、所述多媒体信息是下列信息之一或其组合：文字、图片、声音、乐曲、电影、电\n视。\n[0155] 本发明的技术还可以用于根据声音输入自动翻页的装置，如演奏家的乐谱翻页\n等。\n[0156] 27、一种自动翻页装置，包括存储了至少一条多媒体信息的媒体信息存储体和显\n示部件，其特征是还包括：\n[0157] 声音输入部件；\n[0158] 特征提取部件，从所述声音输入部件输入的声音信号中提取第一特征信息；\n[0159] 媒体信息特征存储部件，计算并存储或预先存储了对应于所述每条多媒体信息的\n第二特征信息；\n[0160] 特征相似性计算部件，用于判断所述第一特征信息与所述显示部件所显示的多\n媒体信息的部分所对应第二特征信息相似度最大的信息段所对应的多媒体信息的当前位\n置；\n[0161] 翻页判断部件，当所述多媒体信息的当前位置是所述显示部件所显示的多媒体信\n息的部分的结尾则所述显示部件显示所述多媒体信息的下一页内容；\n[0162] 28、一种唱歌辅助学习系统的一种方案，包括存储了至少一条多媒体信息的存储\n体，其特征是还包括：\n[0163] 声音输入部件；\n[0164] 特征提取部件，从所述声音输入部件输入的声音信号中提取第一特征信息；\n[0165] 媒体信息选择部件，选择准备学习的某条多媒体信息；\n[0166] 媒体信息特征提取部件，提取所选定多媒体信息的第二特征信息；\n[0167] 特征相似性计算部件，用于计算并判断所述第一特征信息与所选定多媒体信息对\n应第二特征信息相似度；\n[0168] 信息提示部件，根据信息相似度给出输入的声音与多媒体信息的差异。\n[0169] 29、一种唱歌辅助学习系统的第二种方案，包括存储了至少一条多媒体信息和与\n每条多媒体信息对应的第二特征信息的存储体，其特征是还包括：\n[0170] 声音输入部件；\n[0171] 特征提取部件，从所述声音输入部件输入的声音信号中提取第一特征信息；\n[0172] 媒体信息选择部件，选择准备学习的某条多媒体信息；\n[0173] 特征相似性计算部件，用于计算并判断所述第一特征信息与所选定的多媒体信息\n对应第二特征信息相似度；\n[0174] 信息提示部件，根据信息相似度给出输入的声音与多媒体信息的差异。\n[0175] 本发明的有益效果：采用本发明的技术可以实现更有效地从媒体存储体或从互联\n网络中选择所需的多媒体信息，通过输入媒体相关的部分语音特征信息，如哼唱某首歌曲\n的片断即可检索到这首歌曲的完整信息；同时本发明的技术还可以更有效地区分一首乐曲\n是否有抄袭其他乐曲。本发明采用语音特征提取、分段提取、相似度计算、相似性判定的方\n法来实现声音控制电子设备或网络操作实现自动获取所需多媒体信息，或者实现乐曲抄袭\n或相似性的自动判定，并还可以实现乐曲自动翻页功能、唱歌辅助学习功能。本发明实现媒\n体播放器可以实现通过语音输入从媒体播放器中选择与输入语音具有很大相似度的媒体\n信息，完全改变了现有媒体播放器的操作方式，具有更准确的媒体信息定位特征，而且大多\n数情况不用手的操作，直接通过说或唱就可进行媒体信息的选择并可以控制媒体的播放起\n点，大大降低了用户的操作难度，即使对于盲人或不懂播放器操作的用户都可以实现媒体\n播放器的操作。本发明实现媒体搜索系统可以实现通过语音输入从互联网络或局域网络中\n的各种媒体服务器中选择与输入语音具有很大相似度的媒体信息，完全改变了现有网络搜\n索引擎或搜索工具的搜索方式，具有更准确的媒体信息定位特征，而且大多数情况不用手\n的操作，直接通过说或唱就可进行媒体信息的搜索，大大简化了用户的操作难度，即使对于\n盲人或不懂电脑操作的用户都可以实现媒体信息的搜索。\n附图说明：\n[0176] 图1是本发明第一种实现多媒体信息检索的系统工作原理示意图。\n[0177] 图2是本发明第二种实现多媒体信息检索的系统工作原理示意图。\n[0178] 图3是本发明中第一特征信息与第二特征信息进行相似度计算的第一种算法工\n作原理示意图。\n[0179] 图4是本发明中第一特征信息与第二特征信息进行相似度计算的第二种算法工\n作原理示意图。\n[0180] 图5是本发明中第一特征信息与第二特征信息进行相似度计算的第三种算法工\n作原理示意图。\n[0181] 图6是本发明通过声音输入选取多媒体信息的工作流程示意图。\n[0182] 图7是本发明通过声音从互联网络中选取多媒体信息的第一种系统实现示意图。\n[0183] 图8是本发明通过声音从互联网络中选取多媒体信息的第二种系统实现示意图。\n[0184] 图9是本发明实现乐谱自动翻页系统原理示意图。\n[0185] 图10是本发明实现唱歌辅助学习系统原理示意图。\n[0186] 图11是本发明实现媒体播放器原理示意图。\n[0187] 图12是本发明判断两首音乐相似性的流程示意图。\n具体实施方式：\n[0188] 本发明的核心点在于，对输入的声音信息进行处理，提取第一特征信息，然后采用\n特定算法与多媒体信息中的第二特征信息进行相似度计算。选出相似度最大的那条多媒体\n信息作为所输入的声音所希望选定的多媒体信息。当多媒体信息与声音输入及其处理部件\n集中在一个嵌入式系统中，可以设计出基于本发明的媒体播放器、掌上电脑、移动终端、笔\n记本电脑等便携式设备。当多媒体信息存储在服务器中，而声音输入在客户端中，声音信息\n处理部件既可以集成到服务器中又可以集成到客户端中，服务器与客户端通过局域网络或\n互联网络进行连接，可以设计出基于本发明的媒体搜索系统、音乐侵权判定系统、歌唱学习\n系统、乐谱自动翻页装置。\n[0189] 下面结合附图进一步描述本发明的具体实施方案。\n[0190] 图1是基于本发明实现声音输入选择的媒体播放系统第一种实现方案。该方案\n中，特征相似度计算部件105的包含两个输入：一个是来自第一特征信息提取部件103，它\n通过处理来自语音输入部件101的语音信息，从中提取特征信息；另一个是来自第二特征\n信息中的任意一段信息截取部件104，它通过从媒体信息特征存储部件102取出媒体信息\n的特征，然后截取任意一段特征信息。特征相似度计算部件105将计算出的多个相似度数\n据输出给特征相似度判断部件106，由该部件进行筛选比较，从中选取相似度最大的那段特\n征信息所属的第二特征信息作为多媒体信息选择部件108从信息存储体107中选择所需多\n媒体信息。媒体信息特征存储部件102所存储的第二特征信息与信息存储体107存储的\n媒体信息是一一对应的，即媒体信息特征存储部件102的一条第二特征信息与信息存储体\n107中的一条媒体信息是一一对应的。这种对应关系也存储在媒体信息特征存储部件102\n中或信息存储体107中。具体实现中，媒体信息特征存储部件102和信息存储体107可以合\n并成由一个存储部件，其中第二特征信息与媒体信息的对应可以采用数据表格存储形式，\n也可以采用数据库的存储形式。典型的语音输入部件101具体实现比如是由麦克风、麦克\n风信号处理电路及语音信号数字化采集电路构成。第一特征信息提取部件103从所输入的\n语音中提取的特征比如是语音中的韵律信息、音高信息等，并进一步可以转化为乐谱信息，\n作为特征。作为媒体播放系统的实现，具体设计中，其中第一特征信息提取部件103、第二\n特征信息中的任意一段信息截取部件104、特征相似度计算部件105、特征相似度判断部件\n106和多媒体信息选择部件108都由媒体播放器的处理器通过软件实现。其实现的效果是，\n当人们希望媒体播放器播放某条媒体信息时，可以对着语音输入部件101的由麦克风哼唱\n该媒体信息所包含的音乐信息的片断，利用本发明的方法媒体播放器就可以自动选择出与\n所哼唱片断最近似的媒体信息进行播放，因而省却了因忘记媒体信息名称或因媒体信息太\n多而进行多级菜单操作的烦恼。即使媒体播放器的使用者所哼唱的乐曲片断并不太准确，\n只有基本的韵律相似即可，因而具有很大的实用性、适应性、可操作性。本发明实现媒体播\n放器可以实现通过语音输入从媒体播放器中选择与输入语音具有很大相似度的媒体信息，\n完全改变了现有媒体播放器的操作方式，具有更准确的媒体信息定位特征，而且大多数情\n况不用手的操作，直接通过说或唱就可进行媒体信息的选择，大大简化了用户的操作难度，\n即使对于盲人或不懂播放器操作的用户都可以实现媒体播放器的操作。\n[0191] 图2是基于本发明实现声音输入选择的媒体播放系统第二种实现方案。该方案与\n图1所示方案的不同之处在于，第二特征信息并不是预先存储在存储体中，而是由媒体信\n息特征计算部件202通过读取信息存储体107中的媒体信息来计算出第二特征信息。这种\n实现方案相比于第一种方案的好处在于，可以利用人们对于语音特征的进一步研究成果通\n过随时更新媒体信息特征计算部件202的算法来提高所提取特征的效率或调整所提取的\n特征内容。\n[0192] 图3是基于本发明的第一特征信息与第二特征信息进行相似度计算的第一种方\n法原理示意图。在该图中，假定第一特征信息的长度为4字节，特征内容302每个字节位置\n分别标记为a、b、c、d，第一特征信息301的长度为16字节，每个字节的位置标记为1、2、3、\n4、5、6、7、8、9、10、11、12、13、14、15、16。截取第二特征信息的方法是以任一字节为起点截取相同长度的字节数，省去字节长度不够的截取值。这样得到13个截取段，每个截取段的\n字节位置分别为1、2、3、4；2、3、4、5；3、4、5、6；4、5、6、7；5、6、7、8；6、7、8、9；7、8、9、10；8、9、\n10、11；9、10、11、12；10、11、12、13；11、12、13、14；12、13、14、15；13、14、15、16。每个截取段分别与第一特征信息进行相似度计算得到计算结果303，计算结果303包含13个数值，表示\n为R1、R2、R3、R4、R5、R6、R7、R8、R9、R10、R11、R12、R13。对于n条多媒体信息，假定每条多媒体信息的第二特征信息长度相同，都为16字节，则按上述相似度计算共有13*n个值，\n从13*n个值中再选取最大值，根据该最大值所对应的第二特征信息段，就可以得知该第二\n特征信息，然后根据媒体信息与第二特征信息的对应关系检索到相应的那条媒体信息。\n[0193] 由于每个人哼唱相同的曲调，或说出相同内容的话，哼唱或说话的速度不一定相\n同，因此所哼唱或说出内容的韵律特征可能比媒体信息的韵律特征的相同片断的长度不\n同，如某个音节再媒体信息中是单个1/4拍，而哼唱或说出该音节的韵律特征可能是两个\n1/4拍；或者某个音节再媒体信息中是两个1/4拍，而哼唱或说出该音节的韵律特征可能是\n单个1/4拍。因此为了提高相似度计算的兼容性和可靠性，在进行相似度计算中，包含对于\n第一特征信息和/或第二特征信息的相邻的相同特征字节合并为一个特征字节的情况。图\n4是基于本发明的第一特征信息与第二特征信息进行相似度计算的第二种方法原理示意\n图。该图中，除了按图3的方式，在对第一特征信息402和第二特征信息401都不做合并处\n理，计算相似度结果403，计算结果403包含13个数值，表示为R1、R2、R3、R4、R5、R6、R7、\nR8、R9、R10、R11、R12、R13。图中第二特征信息401有两处相邻特征相同，即特征2和特征\n6，我们将相邻相同特征合并为一个特征，此时，第二特征信息变成第二特征信息的合并信\n息404，然后第一特征信息402与合并信息404按相同的相似度计算方法得到结果405，计\n算结果405包含10个数值，表示为R14、R15、R16、R17、R18、R19、R20、R21、R22、R23。对于n条多媒体信息，做上述相同的处理和计算，再选取最大值，根据该最大值所对应的第二特\n征信息段，就可以得知该第二特征信息，然后根据媒体信息与第二特征信息的对应关系检\n索到相应的那条媒体信息。\n[0194] 图5是基于本发明的第一特征信息与第二特征信息进行相似度计算的第三种方\n法原理示意图。与图4相比，该图中的第一特征信息存在需要合并处理的相邻的相同特征。\n先按原第一特征信息502与第二特征信息501做相似度计算得到结果503，计算结果503包\n含13个数值，表示为R1、R2、R3、R4、R5、R6、R7、R8、R9、R10、R11、R12、R13，然后把第一特征信息的合并信息504与第二特征信息501做相似度计算得到结果505，计算结果503包\n含13个数值，表示为R14、R15、R16、R17、R18、R19、R20、R21、R22、R23、R24、R25、R26、R27。\n对于n条多媒体信息，做上述相同的处理和计算，再选取最大值，根据该最大值所对应的第\n二特征信息段，就可以得知该第二特征信息，然后根据媒体信息与第二特征信息的对应关\n系检索到相应的那条媒体信息。\n[0195] 对于第一特征信息与第二特征信息都存在可以合并的特征信息时，则包含四种情\n况计算，即第一特征信息与第二特征信息直接计算相似度；第一特征信息与第二特征信息\n的合并信息计算相似度；第一特征信息的合并信息与第二特征信息计算相似度；第一特征\n信息的合并信息与第二特征信息的合并信息计算相似度。\n[0196] 图6是基于本发明采用声音输入选择多媒体信息的处理流程示意图。该图更进一\n步给出实现实例，以提取MFCC系数后转换为MIDI文件后，再转换为简谱信息作为特征信\n息。具体流程是：在步骤601进行声音信号输入，如哼唱一段，对于输入的声音信号在步骤\n602时提取MFCC系数，在步骤603把得到的MFCC系数转换为MIDI文件，然后在步骤604转\n换为简谱信息，在步骤605生成第一特征信息；假定媒体存储器中已经存储了每条多媒体\n信息对应的MIDI文件，如果没有，可以先转换出MIDI文件，进入步骤606读取第一条多媒\n体信息的MIDI文件，在步骤607转换为简谱信息，在步骤608生成第二特征信息，然后在步\n骤609计算第一特征信息与第二特征信息的相似度；在步骤610判断是否最后一条多媒体\n信息？如果不是则进入步骤614读取下一条多媒体信息的MIDI文件，继续步骤607、步骤\n608、步骤609、步骤610的处理，如果是则进入步骤611判定相似度最大值所对应MIDI文\n件，在步骤读612取与相似度最大值所对应MIDI文件相关联的多媒体文件，最后在步骤613\n输出选定多媒体文件。\n[0197] 图7是基于本发明实现媒体搜索系统的第一种原理示意图。媒体搜索系统包含\n服务器端700和客户端710，客户端710通过互连网络或局域网络704连接服务器端700。\n其中服务器端700包含媒体信息数据库701、媒体访问处理部件702、网络接口703；客户端\n710包含信息展示部件706、语音输入部件707、语音信号处理部件708、网络接口705。用户\n通过语音输入部件707输入语音，如哼唱乐曲的片断，或拷贝预先制作的语音文件，由语音\n信号处理部件708进行处理，包括语音信号的数字化、语音第一特征信息的提取，然后将提\n取的第一特征信息通过网络接口705发送到互连网络或局域网络704中，由服务器端700\n的网络接口703接收到第一特征信息送到媒体访问处理部件702。媒体访问处理部件702\n从媒体信息数据库701取出每条媒体信息的第二特征信息，然后与收到的第一特征信息采\n用相似度计算方法计算出每条第二特征信息的每个片断与第一特征信息的相似度，选取相\n似度最大值所对应的第二特征信息，然后根据每条媒体信息与第二特征信息的对应关系从\n媒体信息数据库701取出与相似度最大值所对应的第二特征信息相关联的媒体信息，并将\n所选取的媒体信息通过网络接口703发送到互连网络或局域网络704中，由客户端710的\n网络接口705该媒体信息并送到语音信号处理部件708，由语音信号处理部件708将该媒体\n信息送到信息展示部件706进行展示。如媒体信息是单纯音乐信息，展示部件706可以是\n声音信号输出放大器和喇叭或耳机。如媒体信息是包含音乐信息的视频，展示部件706可\n以是包含显示屏和声音信号输出放大器和喇叭或耳机的组合部件。如收到媒体信息包含多\n条可供选择的媒体信息，则可以将信息按条目方式显示在展示部件706的显示屏上供用户\n选择。本发明实现媒体搜索系统可以实现通过语音输入从互联网络或局域网络中的各种媒\n体服务器中选择与输入语音具有很大相似度的媒体信息，完全改变了现有网络搜索引擎或\n搜索工具的搜索方式，具有更准确的媒体信息定位特征，而且大多数情况不用手的操作，直\n接通过说或唱就可进行媒体信息的搜索，大大简化了用户的操作难度，即使对于盲人或不\n懂电脑操作的用户都可以实现媒体信息的搜索。\n[0198] 图8是基于本发明实现媒体搜索系统的第二种原理示意图。媒体搜索系统包含\n服务器端800和客户端810，客户端810通过互连网络或局域网络704连接服务器端800。\n其中服务器端800包含媒体信息数据库701、媒体访问处理部件802、网络接口703；客户端\n810包含信息展示部件706、语音输入部件707、语音信号处理部件808、网络接口705和本\n地媒体第二特征信息存储部件809。在进行语音搜索之前，客户端810需要先通过互连网络\n或局域网络704从服务器端800下载每条媒体信息所对应的第二特征信息，然后存储到第\n二特征信息存储部件809中。用户通过语音输入部件707输入语音，如哼唱乐曲的片断，或\n拷贝预先制作的语音文件，由语音信号处理部件808进行处理，包括语音信号的数字化、语\n音第一特征信息的提取，然后语音信号处理部件808从第二特征信息存储部件809读取每\n条媒体信息的第二特征信息，然后与提取的第一特征信息采用相似度计算方法计算出每条\n第二特征信息的每个片断与第一特征信息的相似度，选取相似度最大值所对应的第二特征\n信息，将选取的第二特征信息通过网络接口705发送到互连网络或局域网络704中，由服务\n器端800的网络接口703接收到第二特征信息送到媒体访问处理部件802。媒体访问处理\n部件802根据每条媒体信息与第二特征信息的对应关系从媒体信息数据库701取出与所收\n到第二特征信息相关联的媒体信息，并将所选取的媒体信息通过网络接口703发送到互连\n网络或局域网络704中，由客户端810的网络接口705该媒体信息并送到语音信号处理部\n件808，由语音信号处理部件808将该媒体信息送到信息展示部件706进行展示。如媒体\n信息是单纯音乐信息，展示部件706可以是声音信号输出放大器和喇叭或耳机。如媒体信\n息是包含音乐信息的视频，展示部件706可以是包含显示屏和声音信号输出放大器和喇叭\n或耳机的组合部件。如收到媒体信息包含多条可供选择的媒体信息，则可以将信息按条目\n方式显示在展示部件706的显示屏上供用户选择。本发明实现媒体搜索系统可以实现通过\n语音输入从互联网络或局域网络中的各种媒体服务器中选择与输入语音具有很大相似度\n的媒体信息，完全改变了现有网络搜索引擎或搜索工具的搜索方式，具有更准确的媒体信\n息定位特征，而且大多数情况不用手的操作，直接通过说或唱就可进行媒体信息的搜索，大\n大简化了用户的操作难度，即使对于盲人或不懂电脑操作的用户都可以实现媒体信息的搜\n索。\n[0199] 图9是本发明实现乐谱自动翻页系统原理示意图。乐谱自动翻页系统包含乐谱显\n示部件901、处理部件902和语音输入部件903。其中处理部件902包含存储乐谱信息的存\n储体、处理器和储存程序软件的存储体。语音输入部件903包含收集语音的麦克风和语音\n数字化采集和存储电路。乐谱显示部件901是电子显示部件，如液晶显示器、有机发光管显\n示部件、电子纸显示部件等。在演奏乐曲时，乐谱显示部件901在处理部件902的控制下\n显示相应乐曲的乐谱的第一页内容，在演奏过程中，语音输入部件903不断采集输入所演\n奏的声音，由处理部件902提取出声音的韵律作为第一特征信息并与预先存储的所演奏乐\n曲的第二特征信息的片断作相似度计算，根据相似度最大值可以判断已经演奏到乐谱的位\n置，从而处理部件902一旦分析到显示在显示部件901的乐谱内容已经演奏完毕则自动将\n乐谱的下一页内容显示在显示部件901上，避免演奏者手动进行乐谱翻页造成演奏的短暂\n中断。通常演奏家演奏的乐曲与乐谱的快慢是十分接近的，因此进行相似度计算时可以不\n需要进行合并处理相邻的相同特征。\n[0200] 图10是本发明实现唱歌辅助学习系统原理示意图。唱歌辅助学习系统包含显示\n部件1001、处理部件1002和语音输入部件1003。其中处理部件1002包含存储乐曲信息的\n存储体、处理器和储存程序软件的存储体。语音输入部件1003包含收集语音的麦克风和语\n音数字化采集和存储电路。乐谱显示部件1001是电子显示部件，如液晶显示器、有机发光\n管显示部件、电子纸显示部件等。在唱歌或演奏乐曲时，显示部件1001在处理部件1002的\n控制下显示相应乐曲的乐谱，在唱歌或演奏过程中，语音输入部件903不断采集输入所演\n奏的声音，由处理部件902提取出声音的韵律作为第一特征信息，一首乐曲结束后，将所提\n取的第一特征信息与预先存储的所演奏乐曲的第二特征信息按音节作相似度计算，根据相\n似度计算结果给出在唱歌或演奏乐曲时每个音节与标准乐曲的音节的差异，从而处理部件\n902将这种差异显示在显示部件901上，唱歌或演奏乐者根据所显示音节的差异来发现错\n误，并调整自己的演奏达到学习辅助的目的。\n[0201] 图11是本发明实现媒体播放器原理示意图。媒体播放器1100包含处理器主机\n1101、控制操作按钮1102、耳机1103和麦克风1104。处理器主机1101通过连接导线1105\n与控制操作按钮1102、耳机1103和麦克风1104连接，这种连接的信号是双向的，即控制\n操作按钮1102的按键信号和麦克风1104输入的声音信号可以传送到处理器主机1101，处\n理器主机1101的输出信号可以输出到耳机1103。在其他实现中，处理器主机1101通过\n无线信号与控制操作按钮1102、耳机1103和麦克风1104进行无线连接，如采用蓝牙技术\n(BlueTooth)或WiFi技术实现无线连接，无论有线连接或无线连接方式，都是现有成熟技\n术。处理器主机1101包含存储媒体信息及其第二特征信息的存储体1105和信息处理部件\n1106。控制操作按钮1102上包含第一按键1107和第二按键1108。由于人们使用媒体播\n放器时，当播放某首媒体时会跟着媒体的音乐哼唱，而本发明的播放器在选择媒体和控制\n媒体的播放起点时也是采用操作者哼唱媒体片断进行的，为了使媒体播放器区分使用者是\n跟随正在播放的媒体进行哼唱还是哼唱片断来控制媒体播放器重新选择媒体或播放起点，\n采用控制操作按钮1102上的第一按键1107和第二按键1108实现。当操作者按下第一按\n键1107时表示是通过哼唱片断来选择媒体，当操作者按下第二按键1108时表示是通过哼\n唱片断来选择媒体的播放起点，当第一按键1107和第二按键1108都没有按下时，是跟随正\n在播放的媒体进行哼唱。控制操作按钮1102的按键信号送入到处理器主机1101，由处理\n主机进行判断处理。如操作者按下第一按键1107，信息处理部件1106通过处理来自麦克\n风1104的语音信息，从中提取特征信息；从存储体1105取出媒体信息的特征，然后截取任\n意一段特征信息计算出的多个相似度数据进行筛选比较，从中选取相似度最大的那段特征\n信息所属的第二特征信息作为选择所需多媒体信息的依据，然后根据第二特征信息与媒体\n信息对应关系选取媒体信息进行播放。如操作者按下第二按键1108，信息处理部件1106通\n过处理来自麦克风1104的语音信息，从中提取特征信息；从存储体1105取出媒体信息的特\n征，然后截取任意一段特征信息计算出的多个相似度数据进行筛选比较，从中选取相似度\n最大的那段特征信息所属的第二特征信息作为选择所需多媒体信息的依据，然后根据第二\n特征信息与媒体信息对应关系选取媒体信息并从与第二特征信息片断相似度最大的位置\n点开始播放。这样就实现了媒体播放器的媒体选择与媒体播放起点的自动定位。\n[0202] 图12是本发明判断两首音乐相似性的流程示意图，该图更进一步给出实现实例，\n以提取MFCC系数后转换为MIDI文件后，再转换为简谱信息作为特征信息。具体流程是：\n在步骤1201输入第一音乐，对于第一音乐在步骤1202提取MFCC系数，在步骤1203把得到\n的MFCC系数转换为MIDI文件，然后在步骤1204转换为简谱信息，在步骤1205生成第一特\n征信息；对于第二音乐采取相同的处理：在步骤1206输入第二音乐，对于第二音乐在步骤\n1207提取MFCC系数，在步骤1208把得到的MFCC系数转换为MIDI文件，然后在步骤1209\n转换为简谱信息，在步骤1210生成第一特征信息。然后在步骤1211计算第一特征信息与第\n二特征信息的相似度；在步骤1212从所述相似度数据中选取相似度最大值并在步骤1213\n判断相似度最大值是否超过阀值？如果超过阀值则进入步骤1214得出结论：第一音乐与\n所述第二音乐相似性高；如果没有超过阀值则进入步骤1215得出结论：第一音乐与所述第\n二音乐相似性低。

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
1	CN101271457A	2008-09-24	2007-03-21	一种基于旋律的音乐检索方法及装置失效专利	中国科学院自动化研究所
2	CN101140580A	2008-03-12	2007-09-24	一种音乐搜索的方法无效专利	武汉大学

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
该专利没有被任何外部专利所引用！

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供