著录项信息
专利名称 | 获得文本的表示的方法和系统 |
申请号 | CN200680042744.3 | 申请日期 | 2006-11-03 |
法律状态 | 权利终止 | 申报国家 | 中国 |
公开/公告日 | 2008-11-19 | 公开/公告号 | CN101310277 |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/30 | IPC分类号 | G;0;6;F;1;7;/;3;0查看分类表>
|
申请人 | 皇家飞利浦电子股份有限公司 | 申请人地址 | 荷兰艾恩德霍芬
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 皇家飞利浦电子股份有限公司 | 当前权利人 | 皇家飞利浦电子股份有限公司 |
发明人 | J·H·M·科斯特;G·格莱恩斯 |
代理机构 | 中国专利代理(香港)有限公司 | 代理人 | 李静岚;谭祐祥 |
摘要
一种获得包括文本的表示-例如歌曲的歌词-的数据文件(20;22)的方法,包括:根据提交给服务器系统(5)的搜索查询而获得包含字符串的多个候选文件(13;25),该服务器系统(5)被安排成允许执行至少一个服务器(1-3)的内容的搜索;形成该多个候选文件的子组(19;35);以及仅仅从该子组(19;35)中的至少一个候选文件形成文本的表示。该方法还包括比较候选文件中的基于至少某些字符串的数据,以及从对于其而言、基于至少某些字符串的数据满足相似性测度的候选文件来形成所述子组(19;35)。
1.获得包括文本的表示的数据文件(20;22)的方法,包括:
根据提交给服务器系统(5)的搜索查询而获得包含字符串的多个候选文件(13;25),其中该服务器系统(5)被安排成允许执行对至少一个服务器(1-3)的内容的搜索,通过以下方式而形成该多个候选文件的子组(19;35),
(A)选择至少一个初始候选文件,用于包括在基本组(31)中,
(B)对于该多个候选文件的进一步的复数个候选文件的每一个,确定基于至少某些字符串的数据与基于至少某些仅在以前被选择来包括在基本组(31)的候选文件中的字符串的数据相比较,是否满足相似性测度,以及
(C)在确定该相似性测度被满足后,把该候选文件加到基本组(31),以及仅仅从该子组(19;35)中的至少一个候选文件形成文本的表示。
2.按照权利要求1的方法,包括:
其中在步骤(B)中从该多个候选文件(13;25)的每一个中提取一定数目的不同字符串,以对于该多个候选文件(13;25)的每一个形成一个字符串表征组,且将多个字符串表征组与该字符串表征组的至少另外一个相比较,以及
其中在步骤(C)中将那些其字符串表征组共同具有大于一定数目的字符串的候选文件加到所述子组(19;35)。
3.按照权利要求2的方法,其中从多个候选文件(13;25)的每一个中提取一定数目的不同字符串的步骤包括:把在多个候选文件(13;25)的每一个的至少一部分中的不同字符串按照它们的长度进行分类,以及从最长的字符串中间选择该一定数目的不同字符串。
4.按照权利要求3的方法,包括按照另一个规则从具有相等长度的不同字符串中间选择字符串。
5.按照权利要求2的方法,其中从候选文件中提取一定数目的不同字符串的步骤(14;
28)包括:
确定至少所选择的不同字符串在候选文件中的出现频率,以及
由所选择的不同字符串中的至少在选定频率范围内具有最高出现频率的那些字符串来形成表征组。
6.按照权利要求1-5的任一项的方法,包括:
通过以下步骤获得附加候选文件(37)
根据对于其而言、基于至少某些字符串的数据满足相似性测度的多个候选文件所共有的至少一个字符串来制定搜索查询,以及
把制定的搜索查询提交到被安排成允许搜索至少一个服务器(1-3)的内容的服务器系统(5)。
7.按照权利要求1-5的任一项的方法,其中所述多个候选文件(13;25)是根据被提交到服务器系统(5)的搜索查询而获得的,该服务器系统(5)被安排成下载被存储在至少一个服务器(1-3)上的数据、维护所下载的数据的高速缓存、形成被高速缓存的内容的索引、和比较该搜索查询与该索引,其中该多个候选文件(13;25)是根据从由服务器系统(5)维护的高速缓存中检索的数据而获得的。
8.按照权利要求1的方法,其中如果对于该多个候选文件的进一步的复数个候选文件的每一个,已确定基于至少某些字符串的数据是否满足相似性测度,以及基本组(31)包括少于一定数目的成员,则通过选择至少一个初始候选文件来包括在另一个基本组(31)中而形成另一个基本组(31),每个被选择的初始候选文件不同于被选择来包括在任何以前形成的基本组中的初始候选文件,以及重复进行步骤(A)-(C),以完成该另一个基本组。
9.按照权利要求8的方法,包括:在形成多个基本组(31)和确定每个组包括少于一定数目的成员后,选择具有最多成员的基本组作为子组(35),从该子组的候选文件中形成文本的表示。
10.按照权利要求1-5的任一项的方法,包括:
使用选择准则,从多个候选文件(13;25)的每一个中提取一定数目的不同字符串,以对于该多个候选文件的每一个形成一个字符串表征组,
按照通过选择准则确定的字符串的至少一个的重要性来排列字符串表征组,选择其表征组在对于以前被选择作为初始候选文件的任何候选文件的表征组之下在排列中呈现为最高的文件,作为初始候选文件的至少之一。
11.按照权利要求1-5的任一项的方法,其中通过检索多个源文件(10;24)而获得所述多个候选文件,其中该多个源文件包括字符串和代表用于控制客户机的控制代码的串;
以及其中按照一组规则从多个源文件(10;24)中过滤字符串,以便形成多个候选文件。
12.按照权利要求1-5的任一项的方法,其中所述文本是歌曲的歌词。
13.用于获得包括文本的表示的数据文件(20;22)的系统,包括:
用于根据提交给服务器系统(5)的搜索查询而获得包含字符串的多个候选文件(13;
25)的装置,该服务器系统(5)被安排成允许执行对至少一个服务器(1-3)的内容的搜索,用于通过以下方式而形成该多个候选文件的子组(19;35)的装置,
(A)选择至少一个初始候选文件,用于包括在基本组(31)中,
(B)对于该多个候选文件的进一步的复数个候选文件的每一个,确定基于至少某些字符串的数据与基于至少某些仅在以前选择来包括在基本组(31)的候选文件中的字符串的数据相比较,是否满足相似性测度,以及
(C)在确定相似性测度被满足后,把该候选文件加到基本组(31),以及
用于仅仅从该子组(19;35)中的至少一个候选文件形成文本的表示的装置。
14.按照权利要求13的系统,被配置成执行按照权利要求1-12的任一项的方法。
15.按照权利要求13-14的任一项的系统,还包括用于经由网络端口与被安排成允许执行对至少一个服务器(1-3)内容的搜索的服务器系统(5)通信的装置。
16.按照权利要求13的系统,其中所述文本是歌曲的歌词。
获得文本的表示的方法和系统\n[0001] 本发明涉及一种获得包括文本的表示-例如歌曲的歌词-的数据文件的方法,包括: \n[0002] 根据提交给服务器系统的搜索查询而获得包含字符串的多个候选文件,其中该服务器系统被安排成允许执行至少一个服务器的内容的搜索, \n[0003] 形成该多个候选文件的子组,以及 \n[0004] 仅仅从该子组中的至少一个候选文件形成文本的表示。 \n[0005] 本发明还涉及一种用于获得包括文本的表示-例如歌曲的歌词-的数据文件的系统,包括: \n[0006] 客户机,用于提交搜索查询给被安排成允许执行至少一个服务器内容的搜索的服务器系统,和用于响应于该搜索查询而获得包含字符串的多个候选文件, \n[0007] 其中该系统被配置成形成该多个候选文件的子组,以及 \n[0008] 仅仅从该子组中的至少一个候选文件形成文本的表示。 \n[0009] 本发明还涉及一种消费电子设备,其包括网络端口并且被配置成经由该网络端口与服务器系统进行通信,该服务器系统被安排成允许执行至少一个服务器的内容的搜索。 [0010] 本发明还涉及一种计算机程序。 \n[0011] 这样的方法、系统、消费电子设备和计算机程序的各自的例子从Evillyrics,http//www.evillabs.sk/evillyrics FAQ:“How does itdetermine where to look for lyrics(如何确定在哪里查找歌词)?”:browse candidates manually(手动浏览候选者),2003年11月22日,已知。EvilLyrics使用通常的搜索引擎(Google,Alltheweb,Altavista)来查找歌词。从返回的结果中,它挑选被称为歌词站点的那些结果。它下载它们的第一个,并尝试通过使用内置的过滤器分析它。如果页面看来是适合的,则它在歌词框中显示它认为是歌词的东西。有时,它从歌词站点返回并不是实际歌词页面的页面,而是例如用于整个歌曲集的歌词的列表。在这种情形下,EvilLyrics分析该页面并尝试找出到相应的歌词页面的链接。如果这个尝试失败,则它从搜索引擎返回的结果组中以另一个命 中(hit)重新开始。如果所有的结果都被使用而它们中没有一个看来是所寻找的东西,则显示一个错误消息,以及歌词页面仍旧是空白的。 \n[0012] 该已知方法的问题在于,它不是非常适合于由联网的设备进行的自动访问。这是由于以下事实,即:这样的设备必须被编程以使它适配于歌词页面上的特定标记。当专门化的歌词页面的供应者改变布局或阻塞访问时,则该设备必须重新编程。 \n[0013] 本发明的目的是提供用于根据从各种源提供结果的搜索查询而获得基本上正确的文本表示的方法、系统、消费电子设备和计算机程序。 \n[0014] 这个目的是通过按照本发明的方法来实现的,该方法的特征在于,比较候选文件中的基于至少某些字符串的数据,以及从对于其而言、基于至少某些字符串的数据满足相似性测度的候选文件来形成子组。 \n[0015] 因为该方法牵涉到根据提交给服务器的搜索查询而获得多个候选文件,该服务器被安排成允许执行至少一个服务器的内容的搜索,所以它有利地适合于结合通常的搜索引擎来使用,使得该方法不限于一个特定的数据库。因为该方法牵涉到候选文件中基于字符串的数据的比较,所以它不受包含指令的标签限制,其中所述指令诸如是有关可被提供到浏览器程序等等的页面布局的指令。该比较可以允许将多个候选文件分类(sort),这样,该方法能应付由搜索查询产生多个候选文件的事实。它适合于自动化,因为所述比较不需要人为干预。例如,因为正确的文本表示多半是在多个候选文件内最常出现的文本,所以该方法适合于提供正确的文本表示。 \n[0016] 一个实施例包括: \n[0017] 从多个候选文件的每一个中提取一定数目的不同的字符串,以对于该多个候选文件的每一个形成一个字符串表征组, \n[0018] 将多个字符串表征组与该字符串表征组中的至少另外一个相比较, \n[0019] 其中将对于其而言、字符串表征组共同具有大于一定数目的字符串的候选文件加到子组中。 \n[0020] 这些特征的效果是使得比较在计算方面是相对高效的。两个候选文件的每一比较在由两个候选文件中所有字符串形成的文本的长度上是线性。为了提取一定数目的,即相应数目的字符串,比如说,来自n个字符串的主体的k个字符串,需要O(n)次运算。为了按次序,例如按字母表次序分 类k个字符串,需要O(k·logk)次运算。为了比较k个字符串,需要O(k)次运算。用于一次比较的总运算数目因此是O(n+k+k·logk),这与诸如需要\n2\nO(n)次运算的最长公共子串比较那样的比较相比是有利的。 \n[0021] 在本实施例的第一变例中,从多个候选文件的每一个中提取一定数目的不同字符串的步骤包括:把在多个候选文件的每一个的至少一部分中的不同字符串按照它们的长度进行分类,以及从最长的字符串中间选择一定数目的不同字符串。 \n[0022] 这使得由比较结果产生的分类是相对有效的,因为文本中最长的字符串通常是最表征该文本的。因此,最长的字符串在区分文本时是非常有效的。 \n[0023] 一个变例包括按照另一个规则从具有相等长度的不同字符串中间选择字符串。 [0024] 因此,在发现相等长度的几个不同字符串的情形下,存在一个用来选择少于它们全部的字符串来形成表征组的准则。该实施例有助于满足这样的要求:每个表征组是通过从多个候选文件中提取一定数目的,也就是说固定数目的字符串而被形成的。 [0025] 在可替换实施例中,从候选文件提取一定数目的不同字符串的步骤包括: [0026] 确定至少所选择的不同字符串在候选文件中的出现频率,以及 \n[0027] 由所选择的不同字符串中至少在选定频率范围内具有最高出现频率的那些字符串来形成表征组。 \n[0028] 通常,除了字符串代表常见的或“无用”词的情况以外,最频繁出现的字符串相当好地定义了文本。因此,其出现频率被确定的所选不同字符串可以被选择为不在这样的常见或“无用”词的预定列表中。替换地,所选定的频率范围可以排除这样的“无用”词趋于在任何文本中出现的(较高的)频率。 \n[0029] 该方法的一个实施例包括: \n[0030] 通过根据多个候选文件所共有的至少一个字符串来制定搜索查询而获得附加候选文件,对于所述多个候选文件而言,基于至少某些字符串的数据满足相似性测度,以及 [0031] 把制定的搜索查询提交到被安排成允许搜索至少一个服务器的内容的服务器系统。 \n[0032] 本实施例有助于克服不完美地制定的初始搜索查询的负面效果。它拓宽了候选文件的范围,以及在文本通过各种标题而已知的场合下是特别有用的。 \n[0033] 在一个实施例中,根据被提交到服务器系统的搜索查询而获得多个候选文件,其中该服务器系统被安排成下载被存储在至少一个服务器上的数据、维护所下载数据的高速缓存、形成高速缓存的内容的索引、和比较该搜索查询与该索引, \n[0034] 其中该多个候选文件根据从由服务器系统维护的高速缓存中检索的数据而获得。 [0035] 本实施例特别适合于自动化的实现,因为它避免了以下情况时可能发生的故障,即:在被存储于至少一个服务器上的数据已被移动后、但在索引被更新之前,试图直接从该服务器下载该数据时。 \n[0036] 在一个实施例中,通过至少执行一次以下的步骤而形成子组: \n[0037] (A)选择至少一个初始候选文件,用于包括在基本组中, \n[0038] (B)对于该多个候选文件的进一步的复数个文件的每一个,确定基于至少某些字符串的数据与仅在以前选择来包括在基本组的候选文件中的、基于至少某些字符串的数据相比较,是否满足相似性测度,以及 \n[0039] (C)在确定相似性测度被满足后,把该候选文件加到基本组。 \n[0040] 本实施例是相对高效的,因为它通常避免了需要比较每个候选文件的基于至少某些字符串的数据与每个其它候选文件的基于至少某些字符串的数据。换句话说,减少了比较的次数。实际上,形成了候选文件的集群。 \n[0041] 在本实施例的变例中,如果对于该多个候选文件的该进一步的复数个文件的每一个,已经确定基于至少某些字符串的数据是否满足相似性测度,以及基本组包括少于一定数目的成员,则通过选择至少一个初始候选文件来包括在另一个基本组中而形成另一个基本组,每个被选择的初始候选文件不同于被选择来包括在任何以前形成的基本组中的初始候选文件,以及重复进行步骤(A)-(C),以完成该另一个基本组。 \n[0042] 因此,避免了初始候选文件的次最佳选择导致有缺点的结果。形成了相似候选文件的几个集群。 \n[0043] 另一个增强的变例包括,在形成多个基本组和确定每个组包括少于一定数目的成员后,选择具有最多成员的基本组作为子组,从该子组的候选文件中形成文本的表示。 [0044] 因此,即使在多个候选文件的字符串有很大不同的情形下,也总是得到一个结果。 [0045] 一个实施例包括:从多个候选文件的每一个中提取一定数目的不同的字符串,以通过使用选择准则来对于该多个候选文件的每一个形成一个字符串表征组, \n[0046] 按照通过选择准则确定的字符串的至少之一的重要性(significance)来排列(rank)字符串表征组, \n[0047] 选择其表征组在对于以前被选择作为初始候选文件的任何候选文件的表征组之下在排列中呈现为最高的文件,作为初始候选文件的至少之一。 \n[0048] 本实施例具有如下优点:在选择初始候选文件中相当有效,很可能导致足够尺寸的基本组来假定成员最好地代表文本。因此,本实施例也是相对高效的,因为对最好的初始候选文件的选择允许进行较少的比较。 \n[0049] 在一个实施例中,通过检索多个源文件而获得多个候选文件,其中该多个源文件包括字符串和代表用于控制客户机的控制代码的串,以及 \n[0050] 按照一组规则从多个源文件中过滤字符串,以便形成多个候选文件。 [0051] 本实施例特别适用于通过使用用于搜索包括标记代码的文本文件-诸如HTML(超文本标记语言)文件-的搜索引擎而获得文本的表示,因为文本是与标记代码分开的。 [0052] 按照另一个方面,按照本发明的系统的特征在于,该系统还被配置成比较候选文件中的基于至少某些字符串的数据,以及从对于其而言、基于至少某些字符串的数据满足相似性测度的候选文件来形成子组。 \n[0053] 优选地,该系统被配置成执行按照本发明的方法。 \n[0054] 按照另一个方面,本发明提供一种消费电子设备,其包括网络端口并且被配置成经由该网络端口与被安排成允许搜索至少一个服务器的内容的服务器通信,其中该消费电子设备包括按照本发明的系统。 \n[0055] 按照另一个方面,本发明提供一种包括一组指令的计算机程序,该组指令当在机器可读媒体中被引入时能够引起具有信息处理能力的系统执行按照本发明的方法。 [0056] 本发明还提供一种用于获得包括文本的表示的数据文件的设备,所述设备被配置成: \n[0057] 获得包含字符串的多个候选文件, \n[0058] 形成该多个候选文件的子组,以及 \n[0059] 仅仅从在该子组中的至少一个候选文件形成文本的表示,其特征在于,该设备还被配置成比较候选文件中的基于至少某些字符串的数据,以及从对于其而言、基于至少某些字符串的数据满足相似性测度的候选文件来形成子组。 \n[0060] 现在将参照附图更详细地解释本发明,其中: \n[0061] 图1示意地图示用于应用获得文本表示的方法的系统的实施例, \n[0062] 图2是显示获得文本表示的方法的第一例子的流程图, \n[0063] 图3是显示获得文本表示的方法的第二例子的流程图,以及 \n[0064] 图4是图示在图3所示方法中的附加步骤的流程图。 \n[0065] 在以下的说明中,将给出方法的细节,其中根据向实施传统搜索引擎的服务器系统进行的查询而获得包含歌曲的歌词的文本文件。然而,该方法同样适用于获得其不同版本在多个服务器-例如存储HTML文件的服务器-上宿有的其它种类的文本的表示。例子包括包含熟知的语音或书籍(例如《在葛底斯堡的演说(Gettysburg address)》、《圣经书》文本等等)的文本的文件。 \n[0066] 在图1上,第一、第二和第三web服务器1-3被连接到广域网(WAN)4,例如互联网。web服务器1-3的每一个宿有多个HTML文件,这些文件包括代表文本的字符串和代表用于由浏览器控制文本的呈现的控制代码的串,即,由web服务器1-3宿有的、使用户能显示HTML文档并与其互动的软件应用。当然,为了简明起见,在图1上web服务器1-3的数目被限于三个,但在实际的实现中可以有更多的服务器。 \n[0067] 服务器系统5被安排成允许搜索web服务器1-3上宿有的文件的内容。服务器系统5实施搜索引擎。该搜索引擎有本身已知的类型,例如是Google,Yahoo!搜索,MSN搜索等等。在可替换实施例中,服务器系统5有提交搜索查询到几个这样的搜索引擎并且合并结果的类型。本发明不局限于HTML文档,而是也可以使用被提交到如下搜索引擎的搜索查询的结果,其中该搜索引擎被安排成搜索包括RSS馈送(一种用于web企业联合组织的可扩展标记语言格式)和.PDF文件(便携式文档格式)的其它类型的内容。另外,虽然web服务器1-3按照HTTP协议运行,但下面给出的方法的变例利用 由用于搜索FTP服务器的搜索引擎或用于Gopher协议的搜索引擎提供的结果。 \n[0068] Web搜索引擎,诸如在图1所示的情形中使用的那些web搜索引擎,通过检索来自web服务器1-3的文件而起作用。由蜘蛛(Spider)或爬行者(Crawler)检索这些文件。如果检索到的文件是另外一种格式的话,则它们首先被变换成HTML,随后被高速缓存。高速缓存的HTML文件的内容通过分析它们的内容而被加索引。从加索引过程得出的数据被存储在索引数据库。当搜索查询被提交到服务器系统5时,把这个搜索查询对照索引数据库中的数据进行比较,以返回一个结果,当由爬行者(Crawler)检索到时,该结果包括到索引的文件被存储到的位置的链接。 \n[0069] 搜索查询以常规表达的形式被提交到服务器系统5。常规表达是按照某些句法规则来描述或匹配于一组字符串的串。它是描述一组串的表达,有时被称为图案。 [0070] 图1所示的系统包括歌词服务器6。该系统还包括移动内容播放器7,例如是具有用于译码压缩的音乐文件(诸如采用MP3、WMA或类似格式的文件)的译码器应用的蜂窝电话。移动内容播放器7经由网关8和蜂窝无线通信网9被连接到WAN。歌词服务器6被安排成执行如下面将描述的方法,以便向移动内容播放器7提供包括歌曲的歌词的表示的文件。 \n[0071] 移动内容播放器7把包含对于歌词文件的请求的消息发送到歌词服务器6。该请求包括与其歌词被请求的歌曲相关联的数据。例如,移动内容播放器7可以从包含压缩的音频数据的文件中检索一个或多个识别标签。这样的识别标签通常包括艺术家的名字和曲目的名称。 \n[0072] 歌词服务器6接收请求和从请求中检索标识所请求的歌曲的数据。这个数据被使用来制定搜索查询、常规的表达,其经由WAN 4提交到服务器系统5。包装器(wrapper)程序被使用来从包括搜索引擎的服务器系统5获得搜索结果。包装器程序从服务器系统5提供作为到搜索引擎的接口的web站点提取数据。包装器程序使用由服务器系统5提供的web站点的相干结构(coherent structure)来检索匹配于搜索查询的文件被存储到的位置的URL(统一资源定位器)。歌词服务器6优选地使用由搜索引擎提供的API(应用程序接口)来检索作为搜索结果被指示的URL的内容。 \n[0073] 在一个实施例中,API提供被称为高速缓存请求的方法,通过它URL被提交到搜索引擎的API服务。后者在搜索引擎的爬行者(crawler)最后 访问URL时,返还由服务器系统5高速缓存的URL的内容。效果是:歌词服务器5不需要处理在内容已被移动后它试图从web服务器1-3的其中一个服务器检索该内容的情况下可能出现的错误消息。优选地,由服务器系统5维护的高速缓存是采用仅仅HTML文件的形式。这避免了需要由歌词服务器6进行转换。 \n[0074] 在一个实施例中,如图2所示,歌词服务器6通过提交一系列高速缓存请求到服务器系统5而检索HTML文件组10(步骤11)。 \n[0075] 在随后的步骤12,歌词服务器6生成候选文件组13。应当指出,正如这里使用的,术语文件是指作为单个单元被存储的比特序列。这些单元不需要对应于由歌词服务器6上使用中的文件系统维护的文件。然而,在简单的和为此而优选的实现中,候选文件组13由一组纯文本文件形成。每个文本文件基于HTML文件组10中的相应的一个文件。 [0076] 当执行从HTML文件组10中提取歌词的步骤12时,歌词服务器分析字符串和代表用于控制浏览器客户机的控制代码的串。字符串被滤出,以形成候选文件组13,各自基于HTML文件组10中的相应的文件。在这个过程中,HTML标签、广告和周围的文本被丢弃,或是用纯文本文件中的相应字符码来替换。例如,
标签用换行符来替换。提取歌词以形成候选文件组13的过程根据歌词的结构特征来实行,以便识别在HTML文档的总的内容内的歌词。因此,使用一组规则来形成候选文件组13。 \n[0077] 规则的例子包括: \n[0078] -歌曲的歌词由以空白行分隔开的文本块组合而成。典型地有1到10个块。每个块典型地由1到10行组成,每行典型地由3到60个字符组成,其中至少一半是字母。 [0079] -歌词的行由
标签明显地断开,以及不包含其它HTML标签。 \n[0080] -歌词通常在前面是一个包含至少歌曲标题并且有时包含艺术家名字、曲集名称、或名词“歌词”的行。这一行通常采用与歌词的字体不同的字体。 \n[0081] 在随后的步骤14,从组13中的多个候选文件的每一个中提取一定数目k个不同的字符串,以对于该多个候选文件的每一个形成一个字符串表征组。这些表征组在这里被称为指纹,并在图2上被显示为指纹表15。虽然在这里使用术语指纹,但应当指出,这些不是传统意义上的指纹,因为指纹不需要对于为其产生该指纹且基于其产生该指纹的候选文件是唯一 的。数目k对于组13中的每个候选文件是相同的。在本实施例中,它是预定的数目。它可以是一个取决于组13中候选文件数目的变量。 \n[0082] 提取指纹的步骤14的多个可替换的可能实现之一被利用。 \n[0083] 在第一实施例中,在组13中的多个候选文件每一个的至少一部分中的不同字符串按照它们的长度被分类,并从最长的字符串中间选择k个字符串。原则上,选择k个最长的。然而,可以有一个或多个禁止选择某些字符串的规则。例如,这些可包括相应于在标题中的字词的字符串。在一个变例中,候选文件组13的每个候选文件整体地被分析。在另一个变例中,每个候选文件的仅仅一部分被分析,以确定k个最长的字符串。如果分析表明,有几个相等长度的不同的字符串,则按照另一个规则来选取足够数目的字符串,以便得到一组k个字符串。例如,在其字符串已按照它们的长度被分类的候选文件的部分中以最高频率出现的那些具有相等长度的字符串可被选取来完成指纹。 \n[0084] 在第二实施例中,歌词服务器6确定候选文件中至少所选择的不同字符串的出现频率。由所选择的不同字符串中的那些至少在选定的频率范围内具有最高出现频率的字符串来形成指纹。为了防止选择常见的无用词,诸如“该”,“一个”,动词的派生词“to be(是)”和“to have(具有)”等等,这些词可以从选择中被排除。在应用域中的常见的无用词也可以被排除。例如,当应用于歌词时,单字“爱”和“你”的组合可被排除。替换地,以所考虑的歌词的语言的文本中的无用词的通常出现频率的知识可被使用来限制频率范围。借助于由移动内容播放器7提交的请求可以使歌词的语言为歌词服务器6所知。 \n[0085] 不管用以获得指纹表15中的指纹的方式如何,随后形成匹配指纹的表16(步骤\n17)。在这个步骤17,基于(即,对应于)候选文件中的至少某些字符串的指纹被各自地与至少另一个指纹进行比较,以确定它们是否满足相似性测度。在图2的实施例中,与图3的实施例相对照,把每个指纹与每个其它指纹进行比较。如果指纹中k个字符串的b个相匹配,则相似性测度被满足。在一个变例中,满足相似性测度并且具有最多成员的那批指纹被选择来形成匹配指纹的表16。 \n[0086] 随后(步骤18)确定与匹配指纹的表16中的指纹相关联的候选文件。这些形成了候选文件的一个子组19,根据它形成单个歌词文件20(步骤21)。 \n[0087] 步骤21可以以许多方式的任一种来实施。一个简单的实现是从子组19中随机地选择歌词文件20。在另一个变例中,把进一步的分析施加到子组19,以便更进一步地减小它的尺寸。例如,图2的方法可以用m个字符串的指纹来重复,m>k。在另一个变例中,候选文件的内容被划分成分段。在这个变例中,歌词文件20被形成为有序的分段序列,其中的至少一个分段根据来自满足某个准则的子组19中的候选文件的分段集群被构建。因此,歌词文件20的内容是从子组19中的多个候选文件得出的。这个实施例可以使用在题目为“Method,System and device for obtaininga representation of a text(用于获得文本的表示的方法、系统和设备)”的、具有与本专利申请相同的EP优先权日期的、被公布为_____的、本申请人的共同待决的专利申请中更全面地陈述的技术。歌词文件20经由WAN4、网关8和蜂窝无线通信网9被提供到移动内容播放器7。 \n[0088] 获得歌词文件22的第二种方法被图示于图3和图4中。第一步骤23对应于图2的方法中的第一步骤11,且被使用来获得HTML文件组24。以上相对于图2所示方法的第一步骤11而讨论的任何变例可用来实施图3所示的第一步骤23。 \n[0089] 候选文件组25以与图2所示方法的相应步骤12完全相同的方式被创建(步骤\n26)。第一指纹表27如在图2方法的相应步骤14中那样被创建(步骤28)。 \n[0090] 在图3的变例中,使用集群算法,以便相对高效地匹配指纹。在第一步骤29,通过如由用于选择字符串以便包括在指纹中的准则所确定的、按照每个指纹中至少一个字符串的重要性来排列第一表27中的指纹而创建有序的指纹表30。因此,在组25的候选文件中的字符串已按照它们的长度被分类以便从中选择最长的k个字符串的场合下,第一表27中的指纹现在按照被包括在它们中的字符串的长度被分类。在一个变例中,每个指纹中最长字符串的长度被使用来排列指纹。在另一个变例中,取最短的字符串的长度。在另一个变例中,确定每个指纹中字符串的平均长度,并使用它来排列指纹。在又一个变例中,使用指纹中各个字符串的长度的总和。在一个有利的变例中,通过首先比较指纹的最重要的字符串而实行排序。当与其关联的测度相等时(两个指纹中最长字符串的长度相等),比较两个指纹中下一个最重要的字符串,等等。 \n[0091] 在提取指纹的步骤28中,在使用所选字符串的出现频率的场合下, 有序表30按照与各个指纹中一个或几个字符串相关联的频率来排列指纹。在一个变例中,按照形成各个指纹的字符串的出现频率的和值来排列指纹。 \n[0092] 现在选择候选文件的基本组31(步骤32)。基本组31从对于其指纹出现在指纹有序表30顶部的至少一个候选文件开始。分类操作(步骤29)的效果是:出现在有序表30顶部的指纹多半是对于完整歌词的指纹,而靠近底部的那些指纹多半是对于不完整歌词的指纹。因此,集群从最可能代表“正确的”歌词的候选文件开始。 \n[0093] 在优选的变例中,搜索有序表30的顶部,查找共同具有至少C个字符串的两个指纹。相关联的候选文件作为初始候选文件被指配给基本组31。因为初始候选文件是从其指纹出现在有序表30顶部的那些候选文件中选择的,所以它们最可能代表完整版本的歌词。 [0094] 在下一个步骤33,把另一个指纹与仅用于那些已被加到基本组31的候选文件的指纹进行比较。如果该另一个指纹不满足相似性准则,则选择有序表30中的下一个指纹。\n如果该指纹确实满足相似性准则,则关联的候选文件被加到基本组(步骤34)。 [0095] 假设在组25中有N个候选文件,把候选文件加到基本组31的步骤33、34被重复进行,直至基本组足够大为止。对于这一点的准则是,它包括大于N/i个成员,其中2<i<N。如果在比较所有的指纹后不满足该准则,则选择初始候选文件的不同配对以便包括在至少一个另外的基本组中。这是以这样一种方式进行的,即该不同配对中没有一个已被选择作为用于任何先前形成的基本组的初始候选文件。 \n[0096] 如果第一或任何另外的基本组满足包括大于N/i个成员的准则,则候选文件子组\n35被形成(步骤36),它是由满足具有足够数目成员的准则的基本组31构成的。 [0097] 如果在形成多个基本组并确定每个包括少于N/i个成员后,发现不再有基本组可以或应当被形成,则先前形成的多个基本组中最大的那个被使用来构成候选文件子组35。\n形成基本组的步骤32-34的迭代次数例如可以被限于预定的数目。替换地,歌词服务器6可以确定在组25中的每个候选文件已被选择作为用于基本组31的初始候选文件。 [0098] 在一个实施例中,现在通过使用以上相对于图2方法中的相应步骤21予以概述的方法,根据候选文件子组35形成歌词文件22。 \n[0099] 在图3和图4所示的实施例中,如果确定候选文件子组35包括少于X个成员,则歌词服务器6扩展该子组。这被示意地图示于图4。歌词服务器6通过根据先前获得的候选文件子组35中的多个候选文件所共有的至少一个字符串来制定(步骤38)至少一个搜索查询而获得附加候选文件组37。 \n[0100] 该搜索查询是常规表达。它被提交到服务器系统5所宿有的搜索引擎。以先前相对于图2和图3中所示类似步骤11、23予以概述的方式,获得附加HTML文件组40(步骤\n41)。 \n[0101] 附加候选文件组37是以与图2和图3所示的相应步骤12、26相同的、并且在上文中相对于图2所示的步骤12予以描述的方式获得的(步骤42)。 \n[0102] 随后,从组37内的附加候选文件中提取附加指纹43(步骤44)。附加指纹43被加到第一指纹表27(步骤45)。附加候选文件37被加到候选文件组25(步骤46)。然后,重复步骤29、32-34、36,以形成新的候选文件子组35,并根据该子组,在图3和图4所示方法的最后步骤47中形成歌词文件22。这个最后步骤47对应于在图2所示的方法中的最后步骤21。该步骤21的任何实现可以在图3和图4所示方法的最后步骤47中被使用。 [0103] 通过制定新的搜索查询以获得附加HTML文件组40从而扩展候选文件子组35的效果是:歌词文件是基于更多的候选文件。这使得更有可能歌词文件22的内容是正确的。\n另一个效果是不太需要用户干预,因为该方法通过分析当由诸如歌词服务器6那样的数据处理系统自动地执行第一步骤23、26、28-29、32-34、36时所获得的候选文件子组35的内容,而自动地扩展候选文件组25。因此,该方法被安排成允许自动地执行,这样,执行该方法的数据处理系统是与任何一个歌词服务器或搜索引擎无关的。替换地,通过使用声称包含正确版本的文本并且从相应服务器获得的多个文件,而形成最正确版本的文本。 [0104] 应当指出,上述的实施例是举例说明而不是限制本发明,本领域技术人员将能够设计出许多可替换实施例而不背离所附权利要求的范围。在权利要求中,放置在括号之间的任何参考标号不应被看作为限制权利要求。单词“包括”不排除除了权利要求中列出的那些单元或步骤以外的单元或步骤的存在。在单元前面的单词“一”或“一个”不排除多个这样的单元的存在。仅仅是某些措施在互相不同的从属权利要求中被陈述的事实并不表示这些措施的组合不能被使用来获益。 \n[0105] 例如,虽然描述了使用移动内容播放器7和歌词服务器6的实施例,但可替换实施例包括在具有网络连接的单个计算机(例如个人计算机)上的仅仅一个程序。替换地,移动内容播放器7可以执行导致文本文件的整个方法,或整个方法可以由也包括用于搜索互联网的搜索引擎的服务器系统5来执行。
法律信息
- 2013-12-18
未缴年费专利权终止
IPC(主分类): G06F 17/30
专利号: ZL 200680042744.3
申请日: 2006.11.03
授权公告日: 2011.10.05
- 2011-10-05
- 2009-01-14
- 2008-11-19
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2003-03-12
|
2001-08-22
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |