1.一种用于自动制作题材产品的方法,其包括使用计算机系统来执行以下步骤:
自动将多个先前已编索引的数字图像资源分组成事件;
根据兴趣和活动本体论按事件类型将每个分组分类;
标识在所述分组中描绘的重要人物;
基于用户简档和所标识的重要人物来标识每个分组的适当的子类;
根据所确定的、每个分组的子类来标识适当的产品类型;
基于所选择的产品类型自动制作题材产品,其中所述产品包含自动从所述数字图像资源的分组中选择的资源;以及
通知用户所述题材产品已被生成。
2.根据权利要求1所述的方法,其中基于分等级地构造的兴趣和活动本体论来确定所述适当的子类。
采用语义分类器的自动题材创建\n技术领域\n[0001] 本发明关于多媒体制作方法、系统、软件和产品发行媒体。特别是,本发明基于用户的存储的媒体文件自动生成单媒体或多媒体呈现,从而为需要最低的用户工作量的用户自动生成定制题材(story)。\n背景技术\n[0002] 观看以在文中被称为“题材”的单媒体或多媒体主题呈现的形式、或者以硬拷贝主题相册的形式的图像要比浏览很多随机的硬拷贝印刷品或者看采用幻灯片投影仪、计算机或电视按顺序呈现的静止图像的随机序列更吸引人,此点是人们广泛认可的。向所述呈现有选择地添加例如适合图像内容的声迹的其他元素,在图像之间插入有趣的过渡,添加视频或者包括渐变和渐隐、图像拼贴、背景和边框以及色化处理的各种视频样式特效使所述呈现对于观看者来说有趣得多,而且能够极大地增强所呈现的图像的情感内容。家庭中的能够适应包括DVD、视频CD播放器、家庭媒体服务器和高清晰度数字显示器的多媒体的基于电视的新观看平台的激增也增加了对这类题材或呈现的需求。\n[0003] 对于普通摄影消费者而言,目前,静止图像的多媒体呈现或相册的创建还不是很容易或很方便。数字图像资源的选择和布局可能是一个非常重要而又很耗时的过程。即使TM\n可以得到以数字形式的图像,消费者也必须具有带有诸如Macromedia Director 或Adobe TM\nPremier 的多媒体制作软件工具的设施,以创建此类呈现。这些软件工具尽管非常灵活,但是其目标更多地面向专业的呈现创建者,这些软件工具具有多个功能选项并且需要大量TM\n的时间和经验来提高使用这些功能获益所需的技能。最近,诸如Shockwave.com 提供的TM TM\nPHotojam 的基于模板的多媒体呈现应用、或者诸如Apple的i-Movie 的基于PC的“movie making(电影制作)”应用已经变得可用了。尽管这些应用能够为消费者简化多媒体呈现的创建,但是它们对于很多题材制作选项的自动化没有帮助。当前的应用经常要求用户选择呈现主题并选择诸如图片、视频和音乐之类的、用来自动生成图像产品的资源。此外,这些应用也不能提供诸如针对特殊的场合、节日、周年纪念日或者针对所选定的其他事件或日期来自动生成图像产品的方法。\n[0004] 因而,仍然需要一种自动制作系统,在所述系统中,缺乏经验的用户能够接收自动生成的单媒体或多媒体题材,并且通过各种渠道获得具有适用于各种类型的呈现装置的各种格式的呈现副本。\n发明内容\n[0005] 作为对这些和其他需求的回应,并且根据本发明的一个优选实施例,提供了一种用于自动生成用户所提供的一组数字媒体文件的定制题材、图像产品或在数字存储设备上的呈现的方法,其包括步骤:对所述数字媒体文件进行分析,以获得包括元数据的语义信息,以及结合所选的呈现格式并在用户可以观看的介质上组织所述数字图像资源,所述格式是根据所述语义和元数据信息被自动选择的或者是由用户或由计算机系统预选的。\n[0006] 本发明的另一优选实施例是用于从资源(静止图像、视频、音乐、公开内容)的收集中、利用应用于所述收集的指定模板规则来进行自动题材创建的方法、软件和程序化计算机系统。所述模板规则依赖于与所述资源相关的元数据、个人简档和/或从用户获取的用户偏好数据。元数据可以采取EXIF数据、来自图像理解和分类算法的索引值、GPS数据和/或个人简档/偏好的形式。这些规则或其子集在被自动应用于系统内的收集时,将生成用于通过多媒体输出引擎呈递的题材。可以在各种存储媒体上将题材递送给用户,所述存储媒体诸如CD、DVD、磁盘和便携式闪速存储媒体。可以经由蜂窝网络、由卫星提供商、或者通过本地有线区域网来传输所述题材。用户可以在诸如PDA和蜂窝电话之类的各种手持显示设备上接收并观看所述题材。可以在家中接收所述题材,并将其显示在计算机、电视上,或者将其通过影院型投影系统加以显示。\n[0007] 本发明的另一优选实施例包括用于自动创建图像产品的方法,其包括获得与诸如生日、节日、周年纪念日或其他场合之类的事件相关的多个数字媒体文件的步骤。基于对数字媒体文件的分析以及基于所述分析自动确定输出产品的格式、并且然后根据所述输出图像产品的要求选择所述数字媒体文件中的哪些将被包括,来完成对事件的分类。\n[0008] 本发明的另一优选实施例包括程序存储设备,其存储用于在计算机系统上运行的计算机程序。所述程序能够利用存在于所述计算机系统中的多个数字媒体文件来自动生成图像产品。所述程序被设计为首先检测图像产品触发,所述触发可以是日历日期、用户对图像产品的请求或者向计算机系统上载多个数字媒体文件(诸如图像、声音文件、视频等)。如果所述触发是例如日历事件,那么所述程序对多个与事件相关的数字媒体文件进行定位,或者如果所述触发是媒体文件的上载,那么所述程序将判断所述媒体文件是否满足输出产品格式类型。所述程序基于分析与数字媒体文件相关的元数据来自动地将所述多个数字媒体文件进行分类,并基于所述分类步骤自动选择那些满足输出产品格式类型的文件。基于诸如图像值索引的各种量度中的一种或多种对所选择的媒体文件进行排列,以及以与事件相关的适当的图像产品格式来包括一些或全部经排列的文件。\n[0009] 本发明所设想的其他实施例包括计算机可读媒体和程序存储设备,其有形地体现或承载可以由机器或处理器读取的指令程序,从而使所述机器或计算机处理器运行存储在其上的指令或数据结构。此类计算机可读媒体可以是通用计算机或专用计算机能够访问的任何可用媒体。例如,此类计算机可读媒体可以包括物理计算机可读媒体诸如RAM、ROM、EEPROM、CD-ROM或其他光盘存储器、磁盘存储器或其他磁存储设备。能够用来承载或存储能够由通用或专用计算机访问的软件程序的任何其他媒体都被认为落在本发明的范围内。\n[0010] 在结合下述说明和附图考虑时,本发明的这些以及其他方面和目的将得到更好的认识和理解。但是,应当理解,下述说明尽管指示本发明的优选实施例及其诸多具体细节,但是下述说明是从举例说明的意义上而不是限定的意义上给出的。在不背离本发明的精神的情况下,可以在本发明的范围内进行许多变更和修改,并且本发明包括所有此类修改。\n附图说明\n[0011] 图1示出了利用本发明的计算机系统的一些方面;\n[0012] 图2示出了本发明实施例可能用来生成产品资源(product asset)之间的语义关系的示例性元数据元素;\n[0013] 图3示出了用于输入与人相关的元数据的用户界面的实施例;\n[0014] 图4示出了用于输入与图像相关的元数据的用户界面的实施例;\n[0015] 图5示出了本发明的一个实施例所利用的示例性语义网络;\n[0016] 图6示出了本发明的实施例所利用的第二示例性语义网络;\n[0017] 图7示出了用于实现本发明的一个实施例的一部分的程序逻辑;\n[0018] 图8是示出了生成图像产品的方法的流程图;\n[0019] 图9是示出了生成图像产品的第二方法的流程图;\n[0020] 图10示出了图像产品的示例性用户编辑的版本;\n[0021] 图11示出了用于发送图像产品已完成的通知以及用于发送图像产品本身的通信方案;以及\n[0022] 图12示出了规则以及使其工作所需的相关元数据和/或算法。\n具体实施方式\n[0023] 概述:\n[0024] 关于图1,其示出了在合作实施中互相作用以实现本发明的若干基本计算机系统组件。该图的顶部116表示用户接口组件的实施例,该用户接口组件包括资源上载器101、题材观看器102和题材通知器103。资源上载器101用于上载媒体资源,例如,静止图片、照片、音频、视频、图像、图形、音乐等。例如,可以将数字资源表示为各种类型和格式的文件,诸如JPEG、GIF、MPEG。可以从诸如数字照相机、蜂窝电话、多功能手持设备、扫描仪、记录装置等资源捕获装置上载数字媒体资源。可以将这些装置手动地连接至计算机以进行上载,或者这些装置可以通过无线协议与计算机通信,或者所述装置可以在资源捕获过程中保持附着于计算机,因为很多计算机可以配备扩音器和照相机等。也可以从诸如因特网的网络下载资源并将其存储在计算机上。\n[0025] 题材观看器102可以用于在耦合到计算机系统的监视器或其他显示装置上观看图像产品或其他媒体资源,且题材观看器102可以包括用于编辑媒体资源的能力。许多计算机实现的图像编辑应用在本领域中众所周知,在此不再对其做进一步的说明。尽管将其称为题材观看器,但是在题材观看器中也可以包括数字音频资源的音频回放,其中,所述回放可以与观看图像资源同时进行,也可以与其分开进行。\n[0026] 题材观看器可以利用到网络的计算机系统连接(诸如因特网连接)来向另一计算机系统发送或从另一计算机系统接收所完成的多媒体题材。还可以利用网络连接来通过蜂窝网络向诸如有多媒体能力的蜂窝电话或PDA之类的手持设备发送所完成的题材或其他媒体资源收集,或者发送至打印机以打印题材。本发明的区别性特征之一是选择算法,其自动选择媒体资源并对其排序。\n[0027] 题材通知器103用于自动通知用户系统已经生成了图像产品。题材通知器可以通过网络向另一计算机发送通知,利用到RSS源(RSS feed)的计算机系统连接以发送已经生成了题材的通知,或者通过蜂窝网络向诸如蜂窝电话或PDA之类的手持设备发送通知。在后一种情况下,可以在计算机系统上实现SMS(短消息系统)协议。还可以将计算机系统编程为经由显示屏消息或者通过音频信号通知用户。用户还可以访问题材通知器以使用任何上述手段将通知转发到另一设备。\n[0028] 尽管图1示出了适于实现本发明的计算机系统组件的类型的示例(其基于客户-服务器范例),但是读者应当认识到,在不对本发明做出根本性改变的情况下可以用其他方式构造所述系统组件。特别是,所示出的系统组件可以全部存在于同一主机系统上,或者它们可以像在分布式计算机系统中那样以多种方式跨越不同主机之间的大或小的计算机网络进行分布。例如,题材通知器、资源上载器、资源存储器等可以每个均存在于通过LAN或WAN耦合的一个或多个单独的主机系统上。此外,这些主机系统中的每一个可以由一个或多个服务提供商操作,每一提供商提供专门的服务并收费。文中描述的功能可以存在于TM\n诸如家庭媒体服务器的设备上,所述设备本身可能与诸如Kodak Gallery 的一种或多种在线服务通信。\n[0029] 图1的底部117示出了所述计算机系统的后端组件。在优选实施例中,后端系统组件117经由中间数据库113在它们之间传递信息。可以通过划分、复制等以各种方式配置该数据库。所述数据库可以归不同的人所有,或者只能通过用户帐户口令访问。可以通过公共信息站提供访问。本领域技术人员应当认识到,也可以使用包括系统总线、网络分组(因特网和蜂窝网络)、消息传递和发布-订阅的其他通信范例。此外,后端组件117可以被多个用户共享,用于因特网连接的设备的基于web的服务典型地就是这种情况。在该优选实施例中,资源存储器112和数据库113将包含来自多个用户的资源和信息。通常,所述资源存储器将包含资源,且所述数据库将包含元数据。\n[0030] 参考前端用户界面,用户通过激活资源上载器101来将选定的资源引入系统数据库内。然后,此组件与资源输入104组件通信。资源输入用于将资源的副本存储到资源存储器112内,并告知系统管理器107上载已完成。资源输入组件可以位于计算机系统上,或者其可以位于本地地或通过网络连接至计算机的服务器上。在一个优选实施例中,资源输入和系统管理器之间的通信是通过数据库113发生的,但是,可以将每一后端组件实现为直接与系统管理器107通信。为了便于举例说明,图1没有示出系统管理器107和各种其他后端系统组件之间的连接线,但是,组件104-106、108-110、112-113和115全部耦合至系统管理器。系统管理器107通过语义索引器实用程序(Indexer Utility)110发起语义索引过程,由此从上载的资源的元数据提取或导出各种语义信息,并将其存储在数据库113中。\n例如,这些语义索引算法可以包括用于将图像资源中所描绘的场景分类成一个或多个场景类型(即海滩、室内、户外等)的场景分类器、用于确定图像中脸的存在的脸部检测和采用面部特征识别图像中的人的脸部识别。将所导出的信息作为元数据与相应的图像资源存储在一起。人物识别是采用面部特征和/或诸如衣物识别的其他上下文信息对人的识别。索引器110还包括事件分割算法,其自动地将未经组织的资源集合分类、分割、并群集为单独的事件和子事件。\n[0031] 语义索引器110包括元数据提取机构,其用于提取已经包含在数字资源内的元数据,例如,如上文所解释的由数字照相机嵌入的元数据,并将其存储在数据库内。此类元数据的其他示例包括捕获日期和时间,此外还有如文中描述的很多其他示例。所述索引器还可以包括复杂算法,该算法对所存储的资源加以分析,以生成更为复杂的元数据。本发明的优选实施例对组织媒体资源的集合的各种语义索引器的操作进行排序,因为一些索引器可能依赖于其他索引器的输出来进行其操作。该次序将由系统管理器107来管理,或者可以通过用于严格排序方案的表格查找对该次序进行排序,或者可以将该次序存储到依存树(dependency tree)或者其他适当的数据结构中。将所有生成的元数据记录到数据库113内,并适当地使之与其相应的媒体资源相关联。在优选实施例中,可以将任何元数据存储到三元组存储库(triplestore)115内、该三元组存储库115即为一种类型的被优化以存储大量的非结构化数据的数据库。\n[0032] 在最后一个语义索引器完成时,或者在至少足够数量的预选索引器完成时,系统管理器107将激活题材建议器106,以判断是否应当创建一个或多个适当的题材,如果经判断应当创建,那么其将使得生成图像产品或题材。接着,题材建议器将激活推断引擎111,以评估规则库114内存储的各种规则,从而判断当前的媒体资源的收集能否满足其中存储的任何题材规则。这被称为用于题材生成的基于事件的触发。其他类型的可编程触发可能包括监控用户实施的资源的上载。例如,如果用户上载了一定数量的资源,如果推断引擎判断足够数量的题材规则已被满足,那么题材建议器将开始对所述资源进行分析,以生成可能的题材。推断引擎的一个优选实施例是具有规则库114的Prolog推断引擎,所述规则库被表示为一组Prolog子句,所述子句被组织成多组存储在XML文件内的经命名的规则,并根据请求由Prolog引擎进行评估。Prolog是如下文详细说明的那样使用的一种说明性逻辑编程语言。\n[0033] 当题材建议器在诸如周年纪念日、节日、生日或其他事件之类的基于日期的触发的基础上搜索题材以创建时,题材建议器106请求推断引擎111评估Prolog子句suggestStoryByEvent,以寻找若干自由变量的有效绑定,所述自由变量包括但不必然限于用户、题材类型、预期接收者和产品类型。如果(例如,由Prolog推断引擎)识别出一组有效的变量绑定,那么题材建议器则将从智能资源选择器109获得与所建议的题材相配的适当的资源组,然后请求产品生成器108创建所希望的产品表示,所述产品表示可以包括相册或者在杯子(mug)或T恤上渲染图像。产品生成器将创建表示图像产品的适当格式的一个或多个文件,如果图像产品要求这样,那么所述文件可以包括通过网络发送给产品制造商的指令。产品生成器可以将所得到的(多个)文件存储到资源存储器112内,从而使得能够将所得到的产品视为用户的收集中的另一资源。如果只有少量的满足题材规则的资源,那么可以决定制作包含单个图像或少数图像的杯子或其他产品。在已经生成了图像产品时,产品生成器将通知系统管理器107,在此点上,系统管理器警告题材通知器服务105,其又使得题材通知器103通知用户已经创建了新的产品或者产品预览。除了先前所述的通知方法之外,所述通知可以采取显示器上的弹出视窗的形式,该视窗包含指示图像产品已经被创建并准备好用于观看的文本和图形信息。然后,用户可以采用题材观看器102观看所述产品。可以将所述题材观看器实现为诸如Internet Explorer的浏览器或者诸如Windows Media Player的视频回放设备。在优选实施例中,用户具有向题材观看器请求如果合适则将产品发送至打印机以获得产品的诸如装订相册之类的硬拷贝再现的选择。用户还可以请求例如制作并交付杯子。此类实现需要可呈现给用户的定购屏,以提供履行提供商的可以包括提供商网站的直接链接的联系信息,并且获得用户的交付请求信息。为了显示产品,题材观看器向资源存储器112发出请求并由其获得必要的资源。\n[0034] 系统管理器还可以基于周期性地(例如,每晚、每月或者某其他周期)运行题材建议器,以判断是否能够由存储在计算机系统上的数字媒体文件创建日历事件驱动题材。可以可选地基于用户所选择的时间视窗由即将发生的事件对其进行驱动。读者应当认识到,替代性的体系结构也可以产生在根本上相同的行为。例如,可以将题材建议器106和智能资源选择器109组件结合到单个组件中,或者题材建议器可以直接调用智能资源选择器,以确定适当的资源组可用于特定的题材。在为特定用户建议和创建题材的过程中,题材建议器和智能资源选择器可以仅考虑该用户所拥有的资源和元数据,或者它们可以考虑该用户已经访问的系统中的所有资源,包括其他系统用户可以与该用户共享的资源。图1示出了下述数据库,该数据库用于将数据库113中的元数据的至少某子集存储到被称为三元组存储库115的独立类型的数据库内,但是也可以采用其他类型的数据库或其组合,包括关系数据库。可以从第三方源获得一些元数据,该功能将由可访问诸如因特网的外部网络的外部数据存取器118来执行。还可以基于用户使用模式由个人日历条目或者通过监控用户在与其他人的基于web的交互中的参与来采集这些类型的数据。\n[0035] 元数据:\n[0036] 元数据包含与媒体资源一起存储并与之相关的数据。一般而言,通过举例而非通过限制的方式,存在三种元数据来源:捕获设备元数据,例如由数字照相机提供的时间、日期和位置;用户提供的元数据,例如,经由捕获设备用户界面或者图像编辑应用界面;以及导出元数据,例如,通过脸部识别或者场景分类应用导出的。导出元数据还包括由任何类型的现有元数据推知的元数据。可以在将捕获图像数据的文件存储到计算机上时生成元数据。例如,元数据可以由捕获设备自动生成,也可以由用户在捕获图像时手动输入到存储器内。其也可以在用户不知道的情况下由图像识别软件的程序化操作自动生成。此类软件可以能够基于对现有的元数据信息进行外推来生成很多级别的元数据。例如,给定在所存储的图像媒体收集中所描绘的已知家庭成员的足够的现有元数据,可以推断出家族树。\n[0037] 参考图2,其示出了本发明的系统可以采用的示例性元数据元素的列表。静物照片(still)和视频的时间事件群集201、202是通过将未经组织的媒体资源组自动排序、分割和群集成单独的时间事件和子事件来生成的,如共同转让的2003年8月12日授权的题为“A Method For AutomaticallyClassifying Images Into Events”的美国专利No.6606411和共同转让的2002年2月26日授权的题为“A Method For Automatically Comparing Content OfImages For Classification Into Events”的美国专利No.6351556中所详细说明的那样。基于内容的图像检索(CBIR)203从数据库中检索与示例(或查询)图像类似的图像,如共同转让的2002年11月12日授权的题为“MethodAnd Computer Program Product For Subjective Image ContentSimilarity-Based Retrieval”的美国专利No.6480840中所详细说明的那样。可以基于很多不同的量度(例如颜色、纹理或者诸如脸部的其他可识别内容方面的相似性)来判断图像是相似的。可以将此原理扩展至图像的部分或感兴趣的区域(ROI)。所述查询可以是整个图像,或者是图像的部分(ROI)。可以将所检索到的图像作为整个图像进行匹配,或者可以对每个图像进行搜索以得到与所述查询类似的相应区域。在本发明的上下文中,可以采用CBIR自动选择与某些其他自动选择的资源类似的资源。例如,情人节主题可能需要找到以红色为主的图像,而秋色用于万圣节主题。场景分类器将场景识别或者分类成一个或多个场景类型(例如,海滩、室内等),或者一个或多个活动(例如,跑步等)。在204处列出了示例性的场景分类类型,下述文献中描述了它们的操作的细节,所述文献为:题为“Method For Automatic Determination Of Main Subjects In PhotographicImages”的美国专利No.6282317;题为“Image Processing Method ForDetecting Human Figures In A Digital Image Assets”的美国专利No.6697502;题为“Method For Detecting Sky In Images”的美国专利No.6504951;题为“Method For Semantic Scene Classification Using CameraMetadata And Content-Based Cues”的美国专利公开No.US2005/0105776;题为“Method Of Using Temporal Context For Image Classification”的美国专利公开No.US2005/0105775;\n以及题为“Method For Detecting Objects InDigital Image Assets”的美国专利公开No.2004/003746。采用脸部检测器205在图像收集中寻找尽可能多的脸,并且该脸部检测器205在下述文献中加以描述,所述文献为:2006年9月19日授权的题为“Method For LocatingFaces In Digital Color Images”的美国专利No.7110575;2005年9月6日授权的题为“Face Detecting Camera And Method”的美国专利No.6940545;2003年3月12日提交的题为“Method And System For Face Detection InDigital Image Assets”的美国专利公开No.2004/0179719。脸部识别206是基于面部特征对以人或者与人相关的标志作为示例的脸部的识别或分类,如下述文献所述,所述文献为2006年11月14日提交的题为“User InterfaceFor Face Recognition”的序列号为11/559544的美国专利申请;\n2006年1月27日提交的题为“Finding Images With Multiple People Or Objects”的序列号为11/342053的美国专利申请;以及2005年10月31日提交的题为“Determining A Particular Person From A Collection”的序列号为11/263156的美国专利申请。在此将本段中列出的现有技术参考文献全文引入以供参考。\n[0038] 脸部群集使用由检测和特征提取算法生成的数据以聚合看起来相似的脸部。如下面详细解释的那样,可以基于数值的置信值触发此选择。如2004年11月17日提交的题为“Variance-Based Event Clustering”的美国专利公开No.US2006/0126944中所述的基于位置的数据207可以包括蜂窝塔位置、GPS坐标和网络路由器位置。捕获设备可以包括,或可以不包括用图像或视频文件归档的元数据;但是,这些通常被捕获图像、视频或声音的记录装置作为元数据与图像存储到一起。在与其他属性一起用于媒体群集时,基于位置的元数据可能是非常强大的。例如,U.S.Geological Survey的Boardon Geographical Names保持Geographic Names Information System,其提供了将纬度和经度坐标映射到普遍认识的特征名称和类型的手段,所述类型包括诸如教堂、公园或学校的类型。项目208举例说明将检测到的事件识别或划分成诸如生日、婚礼等的语义类别,如在2005年7月11日提交的题为“Identifying Collection Images With Special Events”的美国专利公开No.US2007/0008321中所述。可以使被分类为事件的媒体资源由于每个时间单位的相同的位置、背景或活动而如此相关,并且所述媒体资源旨在与用户或用户群的主观意图相关。\n在每一事件内,还可以将媒体资源群集到被称为子事件的分别的相关内容组中。事件中的媒体与相同的背景或活动相关,而子事件中的媒体则具有事件中的相似内容。图像值索引(IVI)209被定义为单个用户可能与特定的资源相关联的重要性(显著性、吸引性、有用性或效用)的程度的度量(而且其可以是用户作为元数据输入的被存储的评价),在美国专利公开No.2007/0263092(E.Fedorovskaya等)和2006年4月13日提交的题为“Camera User Input Based Image Value Index”的序列号为11/403583的美国专利申请中对此给出了详细说明。自动IVI算法可以利用诸如清晰度、光照和其他质量指标的图像特征。与照相机相关的元数据(曝光、事件、日期)、图像理解(皮肤或脸部检测以及皮肤/脸部区域的尺寸)或行为度量(观看时间、放大率、编辑、打印或共享)也可以用于计算任何特定媒体资源的IVI。在此将本段中列出的现有技术参考文献全文引入以供参考。\n[0039] 视频关键帧提取210是提取关键帧和/或突出的镜头、场景或事件以及相关的音频从而提供视频序列的摘要或最显著部分的过程,在美国专利公开No.2007/0183497(J.Luo等)中对此给出了详细说明。EXIF数据211(用于数字静物照相机的可交换图像文件格式:EXIF Version 2.2,JEITACP-3451,Japan Electronics and Information Technology IndustriesAssociation,April 2002)是由记录设备生成的数据,并且该EXIF数据211与捕获的媒体文件一起存储。例如,数字照相机可能包括诸如f制光圈、速度和闪光信息之类的与图像相关的各种照相机设置。这些照相机生成的数据还可以包括指示与捕获图像的地点相关的地理位置的GPS数据。所有的元数据,不管其是由用户输入的,由记录装置提供的,还是由计算机系统推断的,均可以被程序化计算机系统用于基于能够从现有的元数据确定的推断来生成附加的元数据。在此将本段中列出的现有技术参考文献全文引入以供参考。\n[0040] 参考图3,其示出了用于输入与叫“Peter Jones”的人相关的简档元数据的示例性计算机系统用户界面(UI)。可以针对收集中的任何媒体资源实现此用户元数据输入模式。在此UI中可以由用户(例如)通过键盘输入的信息字段包括该人的个人信息,例如,地址、城市、州、国家、电话、电子邮件地址和其他记录。所述记录可能包括诸如昵称、职业、身体特征之类的关键字或计算机系统将用来与“Peter Jones”这个人相关联的任何其他输入数据。个人信息还可以包括个人兴趣、爱好以及共同参与的活动的列表。为了使系统能够更好地解释此类兴趣,用户界面可以包含可能的选择的组,以允许用户从分等级地构造的兴趣和活动本体论(ontology)中选择多类兴趣和爱好。可以针对本发明专门开发此类本体论,可替代地,公共可用的本体论可被用于或适合于该目的。例如,由英国政府出版的“Integrated Public Sector Vocabulary”尤其包括了包含运动、宗教信仰、爱好和其他闲暇活动的分级和结构化列表。可以对计算机系统编程,以允许用户按照自由形式的方式输入此类兴趣,其中,使计算机系统能够识别某些关键字并将这些关键字映射至相应的本体论术语(term)。\n[0041] 此用户简档(profile)还包括关于与“Peter Jones”相关的人(例如家人和朋友)的信息,其还将被程序与被简介的人(profiled person)相关联。对与人相关的用户输入信息的描述不应仅局限于图3中所示的示例。与人相关联的相关信息还可以包括关于下述内容的信息,所述内容为例如,过去和现在的朋友、同事、家人和其他与该人相关联的人;居住地点和所游览过的地点;以及包括车辆、衣物、乐器等的财产和宠物及家畜。每一条此类关于该人的相关信息或元数据又可以具有相关联的元数据,例如:姓名、生日、获取日期、使用信息和其他代表图片。\n[0042] 对于家庭关系而言,系统不要求用户输入所有的家庭关系,例如,不需要说Jane是Ann的女儿,Jane是Mary的孙女,Jane是Bill的侄女等。而是,系统只要求输入配偶和父母/子女的规范关系;系统能够自动推断出所有其他家庭关系。可以类似地推断出关于婚姻的关系,例如,婆母。例如,系统可以为用户提供指定因离婚而终止此类关系的方式。\n[0043] 参考图4,其示出了用于输入与(例如)存储在图1的计算机系统数据库113上的图像相关的元数据的示例性用户界面。此UI中的信息字段包括与所述图像或者所述图像中描绘的人、地点、动物或事物相关联的那些信息,并且还可以包括关于所述图像中出现的其他人、地点、事物、动物等的信息。这些字段包括日期信息、用于描述与所述图像相关的事件的事件字段以及由用户输入的用于促进对所述图像的以搜索为目的的语义推断的关键字。在编译与图像相关的各类元数据的过程中,用于描述与图像相关的位置的位置字段和资源细节字段也会有所助益。所述信息字段还可能包括与图像中描绘的任何东西都不相关的数据。更确切地说,该信息可以包括情境(contextual)信息。例如,如果所述图像包括来自英式足球赛的场景,那么信息字段可能陈述这场比赛输了,或者其可以包括关于那天谁对该队执教的信息,或者其可以包括关于天气的信息(其可以由程序生成的元数据利用可以连同诸如GPS位置以及时间和日期之类的EXIF数据一起在线得到的信息来自动获得)或者关于赛前或赛后事件的信息,以及由用户输入的由程序化计算机系统与所存储的图像相关联的其他种类不受限制的数据。可以在关键字字段内添加关键字以促进对图像的搜索。可以实现脸部识别工具以通过自动识别图像中所描绘的人来辅助生成元数据,该人的信息已经基于在数据库内存储的另一图像中出现的那些人而被存储了。例如,如果能够基于可用于一组人的家庭关系元数据来推断关系链,那么系统就有可能自动生成家族树。\n[0044] 可以从诸如天气或日历服务的第三方源获得某些元数据,如由外部数据存取器\n118所执行的那样。例如,其可以被用于构建题材,从而了解在给定地点的给定天的天气如何。可以将与记录在EXIF文件中的GPS信息结合的日期和时间信息作为输入提供给提供历史天气信息的外部网页服务。位置信息与日期信息一起可以识别事件或者可能的特殊兴趣。可替换地,可以将此类信息提供给描述事件的服务,使系统能够知道例如在特定的日期在体育场发生了什么。\n[0045] 一般算法:\n[0046] 本发明的优选实施例包括自动检查用户的媒体数据库中是否存在题材所需的成分的算法。可以使用任何可编程事件来触发对媒体数据库的针对题材创建的可能性的评估。一个或多个媒体文件的上载能够启动对自动题材创建的检查。周期性日历日期或临近的周年纪念日或节日能够触发对媒体资源的检查以用于题材产品。可以基于围绕日历日期的时间段期间用户活动的频率和类型来推断特定日历日期的重要性。还可以根据分析他的或她的媒体资源或者通过跟踪特定类型的资源被访问的经常程度的频率来推断用户偏好的活动。可以对用户的媒体资源以及与那些资源的用户交互进行分析所采取的方式实质上不受限制。文中描述的实施例并非旨在使本发明局限于任何特定的实施例。\n[0047] 至于诸如节日之类的再现日期,可以用Prolog计算机语言来表达优选实施例中的、用于为特定用户建议母亲节题材的示例性算法。其具有如下英语等价物:\n[0048] R-1.给定目标日期Date,如果:\n[0049] R-1.1.目标日期Date是已知的再现节日Holiday\n[0050] R-1.2.Holiday是母亲节\n[0051] R-1.3.系统用户User是接收者Recipient的配偶\n[0052] R-1.4.接收者Recipient是母亲\n[0053] 那么向用户User建议为接收者Recipient设计的题材类型“母亲节相册”和产品“母亲节多媒体相册”。\n[0054] 上述规则描绘了用于判断是否应当为特定用户创建特定题材产品的高级规则。在此点应当注意的是,本领域技术人员将认识到数量几乎不受限制的能够被编程以实现本发明的规则。如果满足上述规则,那么将母亲节题材类型用于题材创建中的下一步骤。\n[0055] 题材类型定义用于挑选用来制作特定题材产品的资源的一组规则。智能资源选择器109执行题材建议器106所请求的规则组,从而为正被创建的题材产品确定适当的资源组。在优选实施例中,用Prolog表达组成规则组的规则,所述Prolog使用了下述Prolog版本,在该Prolog版本中,按照被称为S-expression的括入括号的前缀形式编写子句。图\n7包含针对母亲节相册的规则的子集;可以用英语按照下述方式表达更为完整的规则组:\n[0056] R-2.选择满足以下约束的资源:\n[0057] R-2.1.从至多两张最好的只有母亲的图片开始,其被示为规则701。\n[0058] R-2.2.接下来是至多三张母亲与所有孩子的最好的图片(无丈夫),其被示为规则702。\n[0059] R-2.3.接下来是来自于任一年的母亲单独与每个孩子的最好的图片,其被示为规则703。\n[0060] R-2.4.来自于任一年的母亲与她的母亲的最好的图片(未示出)。\n[0061] R.2.5.来自于去年的母亲与家人(孩子和丈夫)的最好的图片(未示出)。\n[0062] R-2.6.最后是被示为规则704的至多两段视频剪辑,其中,所述视频属于被分类为类型“家庭时刻”的事件,并且所述视频长度小于60秒。\n[0063] 可以根据包括各种图像值索引(IVI)度量的各种程序化度量或其组合来定义“最好”。可以将这些标准扩展至除节日以外的其他类型的日期。上述规则只是示例性的;\nProlog语言使得能够定义任意的约束组。在优选实施例中,使用附加的Prolog子句来定义最佳的确切定义。\n[0064] 图6示出了语义网络数据库,其包含与上述示例性规则组相关的数据的示例性部分。在一个优选实施例中,使用资源描述框架(RDF)数据模型将数据表示为语义网络。在RDF内,将每一“事实”表示为“主谓宾”形式的语句。将主语和宾语示为节点,且将谓语示为连接所述节点的带标记的链接。由识别某些实体或概念的通用资源标识符(URI)表示主语和谓语。可以由通用资源标识符或者由字面值来表示宾语。为了易于说明,这里使用实体的名称而不是所分配的通用资源标识符。例如,由“主语”节点601、带标记的“谓语”链接602和“宾语”节点603的组合来表示事实“Ann是Alex的配偶”。将包括与资源相关的元数据、用户简档信息和辅助数据的整个数据组存储到三元组存储库内,该三元组存储库是一种被优化用于存储主谓宾形式的未以其他方式结构化的事实的数据库。读者应当认识到,可以有效地采用其他数据模型和存储机构实现本发明,而且本发明不限于文中描述的示例性实施例。\n[0065] 题材建议器106请求智能资源选择器计算与规则组“母亲节相册”匹配的资源组。\n接着,智能资源选择器109请求推断引擎111执行规则库114中存储的相关规则,确定哪些资源满足由规则指定的约束。继续前面的示例,假定规则组2为图7中以其固有的Prolog形式部分地示出的规则组“母亲节相册”,并且假定包括图6中所示的子集的数据组,那么智能资源选择器将返回满足指定的约束的图片和视频组。作为特定的示例,在图7中作为框704中的代码示出的规则2.6引用了如所述规则的定义部分中第一行中所示的无约束变量?movie和?date。可以通过将?movie与和资源V1(605)相关的URI联系起来,并且将?date与对应于被捕获的资源V1的日期的字面值联系起来以满足此规则。由于V1属于被分类为具有类型“家庭时刻”(610,611)的事件E3(节点612和链接613),并且视频长度小于60秒(606,607),所以此联系(binding)满足规则。\n[0066] 所满足的规则组将指定多个资源,如果所述资源存在的话。有可能资源存储器将不包含满足规则组的资源。在这种情况下,如果必须生成题材产品,那么可以对默认选择算法进行编程以选择可用资源。规则组可以要求所述规则组或者其组成规则与最小数目的资源匹配;如果不存在足够的资源,则不创建题材产品。规则组还可以指定产品生成器必须遵守的关于资源的进一步约束。例如,规则组可以指定资源在最终产品中必须遵循的顺序和/或将怎样对所述资源分组。本发明的范围包括所有此类实施例。\n[0067] 本发明的另一优选实施例具有事件驱动题材类型的形式。此题材类型是基于事件而被触发的。例如,向计算机系统上载资源可以是一个触发事件。在一个实施例中,系统在接收到一组资源时将试图把那些资源分类为属于一个或多个事件类型。系统将此事件分类与有关用户的附加信息结合起来,以推荐特定的题材类型。一般而言,程序化计算机系统包括下述用于生成此事件类型的题材产品的例程:\n[0068] --兴趣和活动本体论。\n[0069] --产品目录本体论,其使特定的产品类型与特定的兴趣或活动相关联。\n[0070] --由兴趣和活动本体论关联人的兴趣或活动的能力。\n[0071] 所述兴趣和活动本体论定义了可能的活动、兴趣和爱好的可扩展列表。例如,本体论的子集可以包括以下类别:\n[0072] (1)运动活动\n[0073] 1.a)室内运动\n[0074] 1.a.1)团体性运动\n[0075] 1.b)户外运动\n[0076] 1.b.1)团体性运动\n[0077] 1.b.1.a)棒球\n[0078] 1.b.1.b)英式足球\n[0079] 1.b.1.c)足球\n[0080] (2)社交集会\n[0081] 2.a)聚会\n[0082] 2.a.1)婚礼聚会\n[0083] 2.a.2)生日聚会\n[0084] 2.a.3)......\n[0085] 2.b)庄重场合\n[0086] 可以对完整的本体论类别进行缩放以容纳任意量的信息。计算机系统在上载一组资源(例如来自于数字照相机的一系列照片)时,尝试首先使用事件分类器将那些资源分组成事件,此点如上文所述,并且然后根据兴趣和活动本体论对所述事件分类。在一个优选实施例中,程序化计算机系统对属于下述示例性高级事件类型208之一的资源进行分类:\n[0087] --户外运动\n[0088] --聚会\n[0089] --家庭时刻\n[0090] --假期\n[0091] 选择这些事件类型是因为能够使用元数据分析来将图像分类成这四个类别。可以根据前述活动和兴趣本体论将这些类别映射至一个或多个类。例如,将事件类型户外运动映射至本体论中的项1.b户外运动。\n[0092] 类似地,产品目录包含一组可能的产品类型,连同那些产品可能被关联的活动/兴趣:\n[0093] --棒球相册(配合棒球)\n[0094] --英式足球相册(配合英式足球)\n[0095] --棒球DVD(配合棒球)\n[0096] 本发明的优选实施例能够使用此数据实现下述广义规则:\n[0097] R-3.对于特写特定人的给定事件而言,如果该人具有与特定产品匹配的特定兴趣,而且该兴趣是与该事件相关联的高级分类的实例,则给该人该产品。\n[0098] 假定上述情况,系统可以基于一组数字媒体资源的上载来建议主题题材。例如,假设父亲上载了来自于他的女儿Jane的最近的小型联赛的一组图片,并且系统了解下述信息:\n[0099] --Jane喜欢棒球,此点已知是因为用户明确地告知了系统这一点,或者因为系统能够推断此信息。\n[0100] --棒球产品与棒球活动相关联,此点已知是因为产品的制造者或销售者已经联合了该元数据作为产品描述的一部分。\n[0101] --棒球是一种类型的户外运动,户外运动是一种类型的运动,此点是根据系统已被明确告知的活动和兴趣的本体论(诸如在前述兴趣和活动本体论中)而已知的。\n[0102] 在一个优选实施例中,用于基于自动选择与一组图片相关联的主题来挑选题材的特定算法如下:\n[0103] R.4对于包括给定事件Event的一组资源而言,如果满足下述条件,则为用户User建议产品Product:\n[0104] R-4.1.用户拥有事件Event\n[0105] R-4.2.Event具有分类EventType\n[0106] R-4.3.Event包含特写Person(人)的(多个)图片\n[0107] R-4.4.User是Person的父母\n[0108] R-4.5.Person喜欢活动ActivityType\n[0109] R-4.6产品与活动ActivityType相配\n[0110] R-4.7.活动是EventType的子类\n[0111] 此规则连同很多其他此类规则一起被存储在规则储存库114内,并且在由题材建议器106请求时由推断引擎111来执行此规则。\n[0112] 参考图5,其示出了语义网络数据库,该数据库包含与上述示例相关联的数据的示例性部分。主语和宾语被示为节点,而谓语被示为连接所述节点的带有标记的链接。例如,由“主语”节点503、带标记的“谓语”链接504和“宾语”节点506的组合来表示事实“Jane喜欢棒球”。将包括与资源相关联的元数据、用户简档信息和辅助数据的整个数据组存储在三元组存储库内。读者将认识到,可以有效地采用其他数据模型和存储机构来实现本发明,并且本发明不限于文中描述的示例性实施例。\n[0113] 图1的前述推断引擎111关于如下的图5中所示的数据组来执行规则4。推断引擎为用户User和产品Product搜索一组变量联系,从而使得由规则4所定义的约束成立。规则4由若干子子句(sub-clause)4.1到4.7构成,所述子子句又引用了中间变量EventType、Person和ActivityType,该中间变量也必须同时被与有效值联系起来,从而使整个规则为真。\n[0114] 如链接514所示,Event E1 513由用户Alex 501所有,因而Alex满足规则子句\n4.1。Event E1包含图片P1518到Pn。此外,如节点513和510以及“classifiedAs”链接\n512所示,Event E1具有活动类型户外运动。因此,通过将变量EventType与户外运动联系起来而满足了规则子句4.2。\n[0115] 如果在组成事件的一组图片中描绘了特定的人,那么认为所述图片特写了该人。\n对其意味着一组图片特写一人的更复杂的定义可以被定义为要求在那些图片中主要描绘该人,例如,其出现在大多数图片中等。使用简单的定义(即:如果某人出现在属于某事件的图片内,则所述事件特写该人),根据518、515和503所表示的语句,通过将变量Person与Jane联系起来而满足了规则子句4.3。在501、502和503所表示的语句的支持下,通过将User与Alex联系起来而满足了子句4.4,即,Alex是Jane的父亲。在503、504和506所表示的语句的支持下,通过将ActivityType与类别棒球联系起来而满足了子句4.5,即,Jane喜欢棒球。假定将Activitytype与棒球联系起来,则使用519、520和506,通过将Product与棒球相册联系起来而满足了子句4.6。假定棒球是户外运动的子类(506、505、507),则Activity与棒球以及EventType与户外运动的变量联系将满足子句4.7,并且因而,根据此示例,假定User与Alex以及Product与棒球相册的变量联系,则整个规则4就得以满足了。\n更确切地说,所述变量与表示Alex和棒球相册产品的相应通用资源标识符联系起来。\n[0116] 如前所述,优选实施例使用Prolog推断引擎来搜索对规则的解(solution),其中,使用Prolog子句表示所述规则,但是也可以使用其他的用于描述约束的机制。\n[0117] 参考图12,其示出了意图示出规则和相关元数据和/或使其工作所需的算法的一些示例的表格。可以在给定规则组中以各种组合使用这些规则,以促进自动题材生成。这些规则只是对可以在系统内表达的任意复杂的以及不受限制的规则类型的举例说明。\n[0118] 题材创建:\n[0119] 参考图8,其示出了显示用于生成图像产品的方法的一个优选实施例的流程图。在步骤800,程序开始。在步骤801,程序检查是否存在例如被资源上载器101上载到计算机系统中的文件夹或数据库的新图像。如果是,那么系统将在804通过生成将与所述资源一起被存储的元数据来对新上载的资源编索引。所述元数据包括场景和事件分类、人物识别,此外还有如本文已经描述的系统生成的其他元数据。如果否,那么系统检查是否存在任何用于生成题材产品的时间触发802,例如,节日、生日或者其他日历时间或日期。如果不存在,那么系统检查是否存在其他程序化触发803,例如,基于用户活动或者由用户选择的其他时间段的触发。如果存在有效触发或者如果用户已经上载了资源,那么所述系统开始检查所生成的元数据和与图像一起被包含的元数据,例如,所述元数据可能是被捕获装置与图像一起存储的元数据。所述系统在步骤805判断新上载的资源或以前存储的资源是否满足题材规则。如果不满足,那么程序返回检查新上载的资源和触发。如果满足了包括主题和产品的题材规则,那么在步骤806选择满足所述主题和规则的资源并创建产品。读者应当认识到,可以将选择主题、产品和资源的步骤结合到单个步骤中,或者按照各种其他组合来执行所述步骤。在步骤806,基于所选择的资源创建图像产品,并在步骤807通知用户产品可用于观看了。\n[0120] 参考图9,其示出了显示用于生成图像产品的方法的另一优选实施例的流程图。所述方法开始于900。在步骤901,可以自动选择题材的主题902,或者可以由用户手动选择题材的主题906。一个主题示例是母亲节。所选择的主题为选择多个资源以用于创建图像产品定义了一组规则。在主题选择之后,在步骤903处,可以自动选择产品类型909,或者手动选择907。在产品类型选择之后,在步骤904处,可以从资源数据库中自动选择资源905,或者手动预选择908。在资源选择之后,在步骤910处,通过如文中描述的程序化步骤自动创建图像产品(或产品表示),并在步骤911将其呈现给用户以供批准。基于所选择的资源,产品可以包括(例如)硬拷贝相册、幻灯片放映、DVD、拼贴画、多媒体呈现、屏幕保护程序、杯子、T恤、贺卡、日历等。由于产品表示可能影响资源选择规则并且反之亦然,所以可以可选地颠倒资源选择和创建产品表示的步骤。以母亲节的题材主题为例,产品表示可能是硬拷贝相册。相同的资源选择规则可能适用于其他图像产品形式,例如,被选择以制作硬拷贝相册的图像可能恰恰还可以用来制作DVD。\n[0121] 本发明的另一优选实施例包括为用户提供用于编辑被呈现给用户供他或她批准的图像产品的编辑能力的选项。参考图10,其示出了系统生成的产品页面,该页面显示了由系统选择的边框包围的照片。还示出了该产品页面的另一版本,其显示了由用户使用(例如)通常可用于安装在个人计算机上的图像编辑应用程序编辑的再现。如图10中所示,用户重新布置了所述照片,选择了不同的边框图案,并且选择了将被以放大格式显示的照片中的不同的一个。\n[0122] 文中描述的方法、系统、软件和产品发行媒体示出了本发明的实施例,其中,计算机程序自动创建合成图像产品。本发明的能力的一部分在于,其允许自动资源选择,由此计算机系统以智能的方式选择图像子集,从而使得,例如,无需将收集中的所有图片都包含在图像产品中。可以由所希望的输出产品来确定所选择的资源的数量。作为另一个示例,如果选择以每幻灯片四秒的变换速度来呈现两分钟的多媒体,则其将需要三十个图像。可以将此约束指定为程序化规则组的一部分。\n[0123] 计算机系统可以基于标识重要日期的日历条目生成图像产品。所述日期可以是对于个人而言重要的,例如,周年纪念日或生日,或者其可以是诸如母亲节或新年之类的节日。可以由用户将这些日历日期的数据输入到系统当中,或者可以由程序化计算机系统推断所述数据。所述系统推断对于用户重要的日期的一种方法是跟踪捕获图像或将图像上载至系统时的日期以及那些图像的类别。如果在每年或根据某些其他基础在同一时间捕获或上载特定类型的图像,那么系统就能够推断出重要的日期。\n[0124] 参考图11,其示出了通过网络连接耦合的前述组件题材通知器服务105和资源服务器119,所述网络连接可以包括因特网接入或本地网络,其中的任一个可以经由标准电缆或电话线接入来被访问并且还可以包括例如在蜂窝和Wi-Fi网络中常见的无线网络接入。\n所述题材通知器服务和资源服务器能够通过网络连接与各种网络服务交互,以告知用户已经创建了题材,并使用户能够观看所述题材。诸如机顶盒1102、蜂窝电话或PDA 1103、家庭媒体服务器1104、打印机1105和PC1106之类的每个所示设备类型可以包括题材通知器\n103(未示出)和题材观看器102(未示出)。例如,用户可以具有运行于连接至显示器1101的机顶盒1102上的题材通知器。用户可以直接在显示器上观看题材。可替换地,用户可以经由在蜂窝电话1103上运行的题材通知器来接收通知,并且然后直接在有多媒体能力的蜂窝电话和/或诸如具有附加显示器1107的PC 1106之类的更大格式的设备上观看题材。
法律信息
- 2020-05-22
未缴年费专利权终止
IPC(主分类): G11B 27/034
专利号: ZL 200880018884.6
申请日: 2008.06.03
授权公告日: 2015.07.15
- 2018-06-08
专利权的转移
登记生效日: 2018.05.21
专利权人由高智83基金会有限责任公司变更为茂纽门特匹克创投有限责任公司
地址由美国内华达州变更为美国得克萨斯州
- 2015-07-15
- 2013-04-24
专利申请权的转移
登记生效日: 2013.04.01
申请人由伊斯曼柯达公司变更为高智83基金会有限责任公司
地址由美国纽约州变更为美国内华达州
- 2010-08-18
实质审查的生效
IPC(主分类): G11B 27/034
专利申请号: 200880018884.6
申请日: 2008.06.03
- 2010-06-23
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2004-08-11
|
2004-01-21
| | |
2
| | 暂无 |
2004-12-13
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |