著录项信息
专利名称 | 用于自动和动态地构建文件管理应用程序的方法和系统 |
申请号 | CN200510119370.8 | 申请日期 | 2005-11-02 |
法律状态 | 权利终止 | 申报国家 | 中国 |
公开/公告日 | 2006-07-12 | 公开/公告号 | CN1801147 |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/30 | IPC分类号 | G;0;6;F;1;7;/;3;0查看分类表>
|
申请人 | 国际商业机器公司 | 申请人地址 | 美国纽约
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 国际商业机器公司 | 当前权利人 | 国际商业机器公司 |
发明人 | 维卡斯·克里什纳;萨维塔·斯里尼瓦桑 |
代理机构 | 中国国际贸易促进委员会专利商标事务所 | 代理人 | 李德山 |
摘要
一种文件管理系统,应用相关文件分析、元数据抽取、业务处理相关算法和方法来自动、动态地分类文件,以进行路由、处理和执行定制业务逻辑。该文件管理系统从一个或多个通道接受文件,分类该文件,抽取元数据,执行定制的应用文档并触发与该处理相关的业务逻辑。该文件管理系统包括一个规则引擎,用来检测和分类非结构化形式和结构化形式,这里属性的位置和视觉布局的位置是不固定的。该文件管理系统提供管理文件的分立系统间的自动链接,用于完全执行业务处理。
1、一种自动和动态地为一个文件构建多个文件管理应用程序的 方法,包括:
从输入设备接收该文件;
自动获取多个与该文件有关的用户提示的元数据;
自动从该文件抽取多个抽取的元数据;
对该文件、用户提示的元数据、抽取的元数据和分区数据元素中 的任何一个或多个执行业务处理,以获得业务处理执行结果,其中, 基于所述用户提示的元数据和所述抽取的元数据自动分类该文件,并 且基于文件分类,从该文件有选择地抽取关键数据字段作为所述分区 数据元素;
若需要,则自动地通知用户,该文件、用户提示的元数据、抽取 的元数据、和分区数据元素中的任何一个或多个需要验证;以及
将该文件、用户提示的元数据、抽取的元数据、和分区数据元素 集成到输出设备。
2、如权利要求1所述的方法,还包括将该文件、用户提示的元 数据和抽取的元数据中的任何一个或多个提供给用户进行验证。
3、如权利要求1所述的方法,还包括自动地提示用户提供所述 多个用户提示的元数据。
4、如权利要求1所述的方法,其中该文件包括纸件文件、电子 文件、视频记录、音频记录、照片和数字照片中的任何一个或多个。
5、如权利要求1所述的方法,其中验证包括增加数据。
6、如权利要求1所述的方法,其中所述的自动从该文件抽取多 个抽取的元数据的步骤包括对文件执行光学字符识别。
7、如权利要求6所述的方法,其中所述的从该文件有选择地抽 取关键数据字段作为所述分区数据元素的步骤包括在该文件的特定部 分执行光学字符识别。
8、如权利要求7所述的方法,其中该文件的特定部分是所述业 务处理确定的。
9、如权利要求8所述的方法,其中业务处理部分被用户改动, 以改变文件的特定部分的位置。
10、如权利要求1所述的方法,其中该输入设备包括扫描仪、计 算机、打印机和可以在本地阅览器及应用程序中的任何一个或多个中 阅览文件的设备中的任何一个或多个。
11、如权利要求1所述的方法,其中集成的步骤包括创建、更新、 删除和查询中的任何一个或多个。
12、如权利要求1所述的方法,其中集成的步骤包括与外部系统 接口进行接口。
13、如权利要求12所述的方法,其中该外部系统接口是由所述 业务处理指定的。
14、如权利要求1所述的方法,其中用户通过所述业务处理指定 用于验证的验证接口。
15、如权利要求1所述的方法,其中用户通过所述业务处理指定 用于通知的通知接口。
16、如权利要求1所述的方法,其中用户通过所述业务处理指定 对输出设备的访问。
17、如权利要求1所述的方法,其中所述业务处理在分布环境中 操作。
18、如权利要求1所述的方法,其中所述业务处理在包括结构化 格式的文件中规定。
19、如权利要求1所述的方法,其中所述业务处理在包括半结构 化格式的文件中规定。
20、一种文件管理系统,用于自动和动态地为一个文件构建多个 文件管理应用程序,包括:
产生该文件的输入设备;
用于自动地获取与该文件相关的多个用户提示的元数据的模块;
用于自动地从该文件抽取多个抽取的元数据的元数据抽取模块;
执行模块,用于对所述文件、用户提示的元数据、抽取的元数据 和分区数据元素中的任何一个或多个执行业务处理以获得业务处理执 行结果,其中,基于所述用户提示的元数据和所述抽取的元数据自动 分类该文件,并且基于文件分类,从该文件有选择地抽取关键数据字 段作为所述分区数据元素;
若需要,还包括通知模块,用于自动地通知用户,所述文件、用 户提示的元数据、抽取的元数据、和分区数据元素中的任何一个或多 个需要验证;以及
输出设备,用于将所述文件、用户提示的元数据、抽取的元数据、 和分区数据元素集成到输出设备。
技术领域\n本发明总的涉及内容管理。更具体地,本发明涉及一种内容管理 应用程序,其应用相关文件分析、元数据抽取和业务处理相关算法及 方法来自动和动态地对文件进行分类,以便路由、处理和执行定制的 业务逻辑。\n背景技术\n内容管理被定义为在任何介质中或以任何格式建立、组织、管理 和存储数字作品集合的软件。内容管理是指处理各种类型的结构化和 非结构化的信息的过程,该结构化和非结构化信息包括图像和文件, 可包括帐单数据、用户服务信息和其它类型的内容。内容管理还指的 是捕获、存储、分类、编码、集成、更新和保护任何和全部信息的过 程。研究估算超过75%的企业数据是非结构化和与文件相关的 (Lyman Peter等人著“多少信息,2000”,http://www.sims.berkeley. edu/how-much-info.)。\n内容管理市场的关键技术包括文件管理、网络内容管理、数字资 产管理和记录管理。内容管理的典型用户在文件量大的产业中,其中 文件管理是基本需求,通常由于管理和服从的原因。内容包括许多不 同形式的需要管理的非结构化数据:业务文件、动态网络内容、记录 管理和丰富媒体。业务文件包括合同、发货单、表格和电子邮件。举 例来说,业务文件能方便内部后-办公室处理及与用户、合作伙伴和 供应商直接外部通信。动态网络内容包括有关数据库中的业务数据和 个人化信息。记录管理典型地由政府和工业规范来驱动以便有效进行 文件处理、审计索引和数据保留。丰富媒体包括数字音频和视频。丰 富媒体是许多产业中培训、教育、营销和用户关系管理中的快速变化 领域。\n将文件管理与工作流相关的概念已经通用了几十年,许多文件管 理系统包括该特征。一个传统的方法用涉及为一个机器工具公司提供 处理的案例研究来对集成文件和工作流管理的问题提供工具和方法 (Morschheuser,S.,等著的“应用到机器工具公司的提供处理的集成文 件和工作流管理”,有组织的计算系统会议公报,1995)。该传统方法 为一种过程定义语言,使得带有工作流引擎的面向文件的工具更加高 效。\n另一传统方法将活动文件特性的思想利用到文件管理应用程序 (Dourish,P.,等人著“利用用户特定活动特性延伸文件管理系统”, 信息系统的ACM学报(TOIS),第18卷,第2期,2000)。该传 统方法避免以前的分层存储机制,而反映对用户任务很有意义的文件 分类,提供统一交互架构中一个或多个个体的想法的集成手段。基于 特性的文件管理系统增加了活动特性的概念,以便在特性基础结构上 提供基于文件的服务,该活动特性载有可执行码。\n而另一传统的系统捕获基本的自由结构化文件,诸如典型地用于 办公室领域中的文件(Mattos,N.M.,等人著“集成办公室文件处理和管 理的方法”,ACM SIGOIS公报,办公室信息系统会议公报,第11 卷,第2-3期,1990)。该传统系统易于处理包含信息。分析过的文 件存储在文件管理系统中,该文件管理系统连接到几个不同的后续服 务并用作基本工作流。\nFileNet提供一种结合了文件技术的工作流引擎来分别自动操作 制造和特别业务处理(Whelan,D“FileNet集成文件管理数据库使用 和问题”,ACM SIGMOD记录,数据管理1998ACM SIGMOD国际 会议学报,第27卷,第2期,1998)。\n大多数传统文件管理系统由一相关模型支持。关于有关的关系模 型研究,关系方案的正式模型化源自对运行时间方面的强调,诸如查 询表达(Andries M等人著“用于延伸的实体关系模型的混合查询语 言”,视觉语言和计算期刊,8(1),1997,视觉查询系统特刊;和 Angelaccio M等人著“QBD*:完全视觉查询系统”,视觉语言和计算期 刊,1(2),255-273,1990)、查询结果显示和对存储数据的导航。 总的来说,这些任务称作视觉查询系统(VQS)(Catarci,T.,等人著“数 据库的视觉查询系统:一个调查”技术报告SI/RR-95/17,Dipartimento di Scienze dell’Informazione,Universita’di Roma“La Sapienza” 1995)。\n对比来说,在用于定义和操作数据模型和数据库方案的工具所提 供的接口方面,传统系统投入的注意力较少。商用数据库建模产品(例 如Ration工具)提供视觉数据建模文档,其集成到更广泛的软件开发 周期中(Gornik D,“UML数据建模文档”,IBM Rational软件白纸 TP 16205/02,2003)。这些文档通常适应于关系数据库的UML(统一 建模语言)建模。由Wisconsin大学开发的OPOSSUM系统允许数据 库方案通过方案可视化操作来编辑(Haber,E.M.等人著“OPOSSUM: 灵活的方案可视化和编辑工具”,1994ACM CHI会议公报,MA波士 顿,1994年4月;Haber,E.M.等人著“Opossum:通过可定制的可视化 的桌面方案管理”,于第21次国际VLDB会议公报,第527-538页, 瑞典Zurich,1995年9月)。\n文件管理系统典型地包括文件理解和分类的某些方面来支持业 务处理。已经有人探索了分类机器打印的文件的通常问题,其中视觉 布局是识别精细粒化类别的一个关键因素,这是因为文件内容特征相 似。文件管理的一个传统方法利用从文件页的扫描二进制图像检测的 布局结构,而不利用光学字符识别(OCR)结果,而是利用属性关系 图(Bagdanov,A.D.,等人著“利用一阶随机图形的精细粒化文件分类”, ICDAR01学报)。\n另一传统系统在布局上利用基于“逻辑近似性”的学习技术,其中 定向的权重图用于代表文件布局(Li,X.,等人著“带有学习能力的文件 分类和抽取系统”,ICDAR99学报)。而另一传统系统利用基于视觉 相似性的文件分类(Hu,J等人著“文件图像布局比较和分类”, ICDAR99学报)。在该传统系统中,引入间隔编码法来捕获空间布局 的元素。这些传统系统提出基于隐马尔可夫模型的页面布局分类系统, 该系统是可以基于空间特征可训练和延伸的。\n另一传统系统利用面向用户的扫描图像部分的“快速捕获”,其包 括易于访问、编辑、和分配到需要的目的地(如档案、应用程序和网 页等)的工具(Simske,S.J等人著“编辑和创作:面向用户的扫描图像 的分析”,文件工程2003ACM论坛公报,2003)。这些工具利用面向 用户的分区分析(公知为“点击与选择”)和基于统计的区域分类。“点 击与选择”包含从下向上的分区分析引擎。基于统计的区域分类允许区 域的快速重构。\n虽然这些传统技术被证明是有用的,但还需要进一步的改进。文 件管理应用程序的生命周期典型地包括以下阶段:\na)内容的摄取(ingest)或捕获;\nb)管理(包括搜索、检取和工作流);\nc)在业务过程结束时完成;以及\nd)由于服从和规定的原因而建档。\n摄取或捕获阶段典型地产生关于进入文件的元数据,并将该文件 与内容管理系统中定义的方案关联起来。相关于一个方案的元数据使 得管理阶段能在业务处理和工作流的上下文中有效地搜索数据库。在 完成了相关于处理的所有管理和事务之后,可以触发完成(fulfillment) 动作,诸如通知、与其它系统(如记帐、支付、记录等)的集成。如 果文件需要保留一固定的时间段用于审计,可以在断线存储器中建档。\n传统的文件管理系统在分开的捕获子系统中管理摄取阶段,这些 子系统使得元数据在分开的环境中规定。传统文件管理系统中应该管 理的数据放置在不同的位置,如不同的业务分支、相对于主办公室的 现场办公室等。随后文件被“释放”到文件管理系统。由于这些捕获子 系统经常是从总的内容管理系统中分离出来的,所抽取的元数据被松 散地连到方案和业务处理。其结果是,经常有相关于元数据的实际分 配和相关于具体方案和处理的一个人工步骤,这导致总的上下文的效 率降低。例如,一个业务需要的数据典型地通常由人工成批地收集和 处理。此外,在管理阶段之后,摄取阶段总是与业务处理的完成或触 发没有联系。\n因此需要一种系统、一种服务、一种计算机程序产品和相关的方 法,用来自动、动态和有选择地构建(compose)和管理数据和文件。 这种需求目前尚未得到满足。\n发明内容\n本发明满足这一需要提供一个系统、一种服务、一个计算机程序 产品和一相关方法(这里统称为“该系统”或“本系统”),用于应用相 关文件分析、元数据抽取、业务处理相关算法和方法来自动、动态和 选择性地分类文件,以进行路由、处理和执行定制的业务逻辑。\n本发明提供一种智能文件管理架构,具有相关文件分析、元数据 抽取和业务处理相关算法和方法。本系统从一个或多个通道接受文件 -扫描纸件、打印数据流、来自桌上电脑的电子文件,分类这些文件 并抽取元数据,执行定制的应用文档并触发与该处理有关的业务逻辑。\n本发明包括一个元数据提示模块、一个元数据抽取模块、业务处 理过程、一个验证模块和一个执行模块。元数据提示模块安装在诸如 扫描仪或打印机的输入设备中。当用户通过输入设备将一个文件输入 到本系统中时,元数据提示模块通过一个或多个提示从用户请求关于 该文件的信息。这些提示的形式可以是选择、按钮点击、文本输入等。 在一个实施例中,元数据提示模块安装在具有元数据抽取模块的服务 器上。元数据抽取模块自动从文件中抽取元数据。\n执行模块安装在网关上。在一个实施例中,执行模块安装在带有 元数据抽取模块的服务器上。执行模块恢复文件和来自服务器的相关 元数据。执行模块如确定的文件和相关元数据那样,选择性地、自动 地执行业务处理中的指令。\n业务处理包括由执行模块执行的指令。这些指令逐文件地选择地 被执行,逐文件基础是从文件分类确定的。用户可以对于每个文件类 型选择执行业务处理的哪个指令。进一步,用户可以在本系统操作时 修正指令的选择而不改变执行模块的任何部分并且不关闭本系统或重 启本系统。如相关元数据和业务处理确定的,执行模块将文件和相关 元数据发送到一个或多个输出设备。\n传统的内容管理系统构成一个单一的架构,其利用一个共有基础 结构紧密地将收取阶段和管理阶段及完成阶段连在一起。相比较而言, 本系统利用动态和灵活的架构,该架构使得相关于文件管理处理的周 期次数显著减少,提供了处理中的总体效率。\n传统内容管理系统依赖具有特征的可预测位置的结构化的形式, 通常仅仅在视觉特征上操作。本系统包括业务处理形式的一个规则引 擎,来检测和分类非结构化形式和结构化形式,这里属性和视觉布局 的位置不是固定的。本系统使用规则谓语中的文件布局及布局内的文 本内容来检测和分类文件。由本系统管理的文件流可动态配置到一个 应用,这是传统工作流和文件管理产品不能提供的。本系统在动态配 置性能方面可有效定制,并适用于真实世界的文件,如发货单和航运 帐单。\n本系统可以做成一个实用程序,如自动文件管理实用程序。本系 统向用户提供识别自动文件管理实用程序的一个或多个业务处理、然 后调用该自动文件管理实用程序来接收作为输入的文件、从该文件抽 取元数据、分析该文件的元数据并分类该文件的手段。本系统向用户 提供接收文件和相关元数据需要验证的通知的手段。本系统向用户提 供验证或增加文件和相关元数据的手段。本系统还发出一个更新内容 到输出设备,该更新内容包括文件、相关元数据、文件的分类、用户 提供的增加的数据、用户采取的行动及业务处理的执行结果。本系统 还提供当本系统处于操作中用户修改业务处理的手段。\n根据本发明的一个具体的方面,提供一种自动和动态地为一个文 件构建多个文件管理应用程序的方法,包括:从输入设备接收该文件; 自动获取多个与该文件有关的用户提示的元数据;自动从该文件抽取 多个抽取的元数据;对该文件、用户提示的元数据、抽取的元数据和 分区数据元素中的任何一个或多个执行业务处理,以获得业务处理执 行结果,其中,基于所述用户提示的元数据和所述抽取的元数据自动 分类该文件,并且基于文件分类,从该文件有选择地抽取关键数据字 段作为所述分区数据元素;若需要,则自动地通知用户,该文件、用 户提示的元数据、抽取的元数据、和分区数据元素中的任何一个或多 个需要验证;以及将该文件、用户提示的元数据、抽取的元数据、和 分区数据元素集成到输出设备。\n根据本发明的另一个具体的方面,提供一种自动和动态地为一个 文件构建多个文件管理应用程序的方法,包括:为用户提供识别和修 改业务处理的装置;调用自动文件管理实用程序,其中所述文件和所 述业务处理是所述自动文件管理实用程序可用的;为用户提供用于验 证所述文件和与所述文件相关的元数据的装置;产生验证的文件和多 个验证的数据;为用户提供增加文件和相关数据,和产生多个增加的 数据的装置;并且其中验证的文件、验证的数据和增加的数据由自动 文件管理实用程序根据所述业务处理的指示来处理。\n根据本发明的另一个具体的方面,提供一种文件管理系统,用于 自动和动态地为一个文件构建多个文件管理应用程序,包括:产生该 文件的输入设备;用于自动地获取与该文件相关的多个用户提示的元 数据的模块;用于自动地从该文件抽取多个抽取的元数据的元数据抽 取模块;执行模块,用于对所述文件、用户提示的元数据、抽取的元 数据和分区数据元素中的任何一个或多个执行业务处理以获得业务处 理执行结果,其中,基于所述用户提示的元数据和所述抽取的元数据 自动分类该文件,并且基于文件分类,从该文件有选择地抽取关键数 据字段作为所述分区数据元素;若需要,还包括通知模块,用于自动 地通知用户,所述文件、用户提示的元数据、抽取的元数据、和分区 数据元素中的任何一个或多个需要验证;输出设备,用于将所述文件、 用户提示的元数据、抽取的元数据、和分区数据元素集成到输出设备。\n附图说明\n本发明的各种特征和获得方式将参考后续的说明书、权利要求书 和附图做更详细的说明,其中标号适当地重复使用以指明有关项目的 相关性,其中:\n图1是其中可以使用本发明的文件管理系统的示范操作环境的示 意图;\n图2是图1中的文件管理系统的高级体系结构的方框图;\n图3是说明本发明的文件和元数据流的图1和图2中的文件管理 系统的方框图;\n图4是说明图1和图2的文件管理系统的操作方法的处理流程图;\n图5是图1和图2的文件管理系统的示范性业务处理;\n图6是说明图1和图2的文件管理系统的串行连接特性的方框图;\n图7是说明图1和图2中的文件管理系统的可扩展性(scalability) 和分布性质方框图。\n具体实施方式\n图1显示了示范性整体环境(“内容管理系统100”),其中可以 使用本发明的一个系统、一种服务、一个计算机程序产品和相关方法 (文件管理系统10或“系统10”),用于自动、动态地为电子商务 主管服务构建文件管理应用程序。系统10包括典型地嵌入或安装于输 入设备15或服务器20或网关25的软件编程码或计算机程序产品。可 选地,系统10可以存储在合适的存储介质上,诸如盘、CD、硬驱等 设备上。虽然系统10是关于文件提及的,其可以用于管理能电子地传 送、处理、存储的任何类型或形式的内容,例如纸件或电子文件、照 片、视频记录、音频记录等。\n输入设备15可以由多种设备表示,诸如计算机30、扫描仪35 或打印机40。输入设备15是能将内容输入到内容管理系统100的任 何类型的内容捕获设备。用户可以通过输入设备15输入文件、图像、 视频、音频等到内容管理系统100。输入设备15可以通过网络45访 问服务器20。网关25通过网络45访问服务器20和输出设备50。\n输入设备15、服务器20、网关25和输出设备50的每一个都包 括允许通过网络45安全接口的软件。服务器20、网关25和输出设备 50分别经通信链路55、60、65连接到网络45。通信链路55、60、65 包括诸如电话、电缆和卫星链路等链路。输入设备15可以经诸如电话、 电缆或卫星链路的通信链路连接到网络45。计算机30、扫描仪35和 打印机40经通信链路70、75、80连接到网络45。\n虽然系统10是关于网络45描述的,输入设备15、服务器20、 网关25和输出设备50也可以经局域网、广域网或其它任何允许输入 设备15、服务器20、网关25和输出设备50之间通信的网络来通信。 此外,输入设备15、服务器20、网关25或输出设备50中的任何一个 或多个可以共同定位,经过诸如局域网的网络来通信,而输入设备15、 服务器20、网关25和输出设备50中的其它设备可以远地定位,经过 诸如因特网的网络来连接。\n计算机30在内容管理系统100中的功能为输入设备。计算机30 可以用作其它功能,例如作为到内容管理系统100的用户接口。用户 可以从计算机或计算机30所代表的其它设备访问文件以验证或浏览。\n图2说明了系统10的高级层次结构。系统10包括元数据提示模 块205、元数据抽取模块210、业务处理215、执行模块220。元数据 提示模块205安装在输入设备15上。当用户经输入设备15输入一文 件到内容管理系统100时,元数据提示模块205通过一个或多个提示 (prompts)向用户请求关于该文件的信息。这些提示可以采用文本、 音频、视频等形式。在一个实施例中,元数据提示模块205安装在服 务器20上。\n元数据抽取模块210安装在服务器20上。元数据抽取模块210 自动地从该文件抽取元数据。执行模块220安装在网关25上。业务处 理215也安装在网关25上,它包括由执行模块220执行的指令。执行 模块220从服务器20检取该文件和相关元数据。执行模块220分析该 文件和相关元数据来确定文件类型并分类该文件。执行模块220于是 逐个文件地、选择性地、自动地执行业务处理215中的指令,确定文 件类型和文件分类。\n用户可以针对每个文件类型选择业务处理215中的哪个指令被执 行。此外用户可以在系统10操作时修改指令的选择,而不改变执行模 块220的任何部分、关掉系统10或重启系统10。执行模块220发出 外部系统更新到输出设备50来将该文件、相关元数据和执行模块220 的输出集成到输出设备50。外部系统更新包括生成、更新、删除或查 询。虽然输出设备50仅为说明的目的表示为一个设备,应该清楚系统 10也可以应用于例如作为输出设备50操作的附加设备上。此外,附 加设备和输出设备50可以操作多个不同的应用程序,诸如数据库、数 据存储、内容管理系统等。\n图3更详细地显示了内容管理系统100A的例子。图4(图4A和 4B)显示了内容管理系统100A中的操作系统10的方法400。操作中, 结合参考图3和4,用户经输入设备15通过例如扫描一个文件、经打 印机驱动器直接打印一个文件等输入一个文件(步骤405)。元数据 提示模块205针对关于该文件的信息提示用户(步骤410)。元数据 提示模块205允许系统10与用户接口并请求关于与该文件相关的用户 的信息,例如用户名称、用户ID或用户意见。元数据提示模块205 还允许系统10与用户接口并请求不能从该文件识别的关于该文件的 信息。用户提供的关于用户的信息和关于该文件的信息称为用户提示 (user-prompted)元数据。\n例如,对于发货单,元数据提示模块205可以请求交易日期、批 发商等。对于保险索赔,元数据提示模块205可以请求单据号、客户 等。元数据提示模块205检测正输入文件的文件类型并根据文件类型 调整提供给用户的提示。元数据提示模块205通常针对文件中未提供 的关于该文件的信息提示用户。在对于保险公司的内容管理系统100A 的一个例子中,对于产生的不同类型的文件,诸如发货单、索赔、估 算、损害图片、证言的视频、音频采访、修理投标等,提示是不同的。 元数据提示模块205的输出是文件和用户提示元数据。\n文件和与该文件相关的用户提示元数据被发送到服务器20和元 数据抽取模块210(步骤415)。服务器20暂时存储该文件和用户提 示元数据(步骤420)。元数据抽取模块210处理该文件以便获得抽 取的元数据(步骤425);即,通过从该文件自动抽取元数据发现的 关于该文件的数据。从文件自动抽取元数据可以使用任何方法,例如 光学字符识别(OCR),逻辑OCR,命名的实体抽取等等。该文件、 用户提示元数据和抽取的元数据总称为文件/元数据包。\n执行模块220从服务器20检取(retrieve)文件/元数据包(步骤 430)。执行模块220选择性地自动执行业务处理215中的指令。执行 模块220基于用户提示的元数据和抽取的元数据自动分类该文件(步 骤435)。执行模块220自动确定文件是例如发货单、保险索赔中的 证据、一个申请表等。基于文件分类,执行模块220从文件的相关部 分有选择地抽取关键数据字段(步骤440)。例如,执行模块220可 以根据文件分类从文件内的已知位置抽取交易号、文件ID号等。选 择性抽取的结果称作分区(zonal)数据元素。业务处理215确定关键 数据字段及在文件中的位置。\n执行模块220执行的具体抽取是从业务处理215确定的。对于每 个文件类型,业务处理215确定分类要求、要抽取的数据、OCR要求 等。如业务处理215指示的,执行模块220可以选择性地仅OCR文 件中特定的区域,这里称为分区OCR(zonal OCR)。例如,用到保 险索赔处理上,分区OCR可以抽取关于索赔的信息而不是索赔者的 地址。\n如业务处理215指示的,执行模块220发送一个通知给用户,通 知需要验证文件/元数据包及分区数据元素(步骤445)。这个通知可 以通过任何方式提供,如邮件、电子邮件、即时消息、语音邮件、蜂 窝电话、无线、电话或任何其它机制,通知适当的人来验证文件。执 行模块220可以从文件分类确定通知的接收者。例如,可以通知一个 人来验证保险索赔,同时通知另一个人来验证发货单。业务处理215 提供验证通知的指示到一个特定的人或组织。\n执行模块220将文件/元数据包、分区数据元素、业务处理215 确定的分类结果输出到验证模块。用户验证(步骤450)包括浏览和 校正数据、增加(augment)数据及执行任何需要的动作。在一个实 施例中,通过验证接口(例如基于网络的验证接口)向用户提供验证 页面。执行模块220从用户提示的元数据和抽取的元数据提供的信息 中及业务处理215提供的指令中生成一个或多个定制的验证页面“on the fly”。\n用户浏览用户提示的元数据、抽取的元数据和分区数据元素来检 查OCR和印刷错误。用户可以浏览文件的分类以便更精确。用户还 可以在需要时增加数据。此外,用户可以执行文件到达后需要的任何 操作,例如支付发货单。在浏览和修改之后,验证模块将验证的文件/ 元数据包、验证的分区数据元素、验证的分类结果、任何增加的数据、 用户执行的任何操作的记录返回到执行模块。\n验证模块305获得的结果被返回到执行模块220(步骤455)。 执行模块220选择性地自动执行来自业务处理215的任何附加指令(步 骤460)。执行模块220将文件/元数据包与输出设备50关联起来(步 骤465)。输出设备可以是数据库、内容管理系统、内容存储器等。 执行模块220将文件/元数据包、分区数据元素、增加的数据、业务处 理215的执行结果、用户执行的任何动作的记录及任何需要的外部系 统更新输出到输出设备(步骤470)。执行模块220的输出还包括与 输出设备的外部系统集成,如生成、更新、删除和查询。\n执行模块220根据相关于用户提示的元数据和抽取的元数据中的 信息的业务处理215处理文件/元数据包。在一个实施例中,业务处理 215以结构化或半结构化的表述存储,如可扩展的标识语言(XML)、 网络服务的业务处理执行语言(BPEL)等。业务处理215将系统10 定制到某特定业务发展和某具体业务处理。业务处理215是动态可适 应的;业务处理215中编码的逻辑业务处理可简单地通过改变一个文 件(例如XML文件)来改变,而无需改变系统10的任何其它部分、 安装新软件、重启内容管理系统100A、中断内容管理系统100A的操 作。\n业务处理215的示范说明作为XML文件500显示在图5中。虽 然为说明目的业务处理215仅相对于XML文件做了说明,很显然系 统10也可以应用到例如任何结构化或半结构化编程语言。业务处理 215包括分类说明505、分区OCR说明510、通知说明515。根据需 要可以增加另外的说明到业务处理215。\n对业务处理215的每个构成元件,使用说明520可以设定为开 (on)(如图5所示)或关(Off)。如图5所 示,使用说明520对于分类说明505、分区OCR说明510、通知说明 515设定为“开”。分类说明505、分区OCR说明510、通知说明515 之中的一个或多个的使用说明520可在操作内容管理系统100的任何 时间改变。\n分类说明505和分区OCR说明510还包括验证说明525。验证 说明525指定文件自动处理的人工验证。可以为分类说明505和分区 OCR说明510指定验证说明525。验证说明525可以设定为“开”(如 图5所示)或关(Off)。分 类说明505和分区OCR说明510中的一个或多个的验证说明525可 以在内容管理系统100的操作期间的任意时间改变。\n通知说明515包括通知接口说明530、通知接触说明535、通知 文本540。虽然在图5中示为电子邮件通知,该通知接口说明530可 以制作为其它形式的通知,例如邮件、即时消息、语音消息(如蜂窝 电话)、无线、电话等。由通知接口说明530、通知接触说明535和 通知文本540指定的任何一个或多个形式的通知可以在内容管理系统 100操作期间的任意时间改变。\n图6示出一个实施例,其中附加版本的内容管理系统100作为串 行内容管理系统600的节点来操作。内容管理系统100B包括具有元 数据提示模块205(未示出)的输入设备15B、元数据抽取模块210B、 执行模块220B和输出设备50B。类似地,内容管理系统100C包括具 有元数据提示模块205(未示出)的输入设备15C、元数据抽取模块 210C、执行模块220C和输出设备50C。可以增加内容管理系统100 的附加版本,如内容管理系统100N所示的。内容管理系统100N包括 具有元数据提示模块205(未示出)的输入设备15N、元数据抽取模 块210N、执行模块220N和输出设备50N。\n内容管理系统100B、内容管理系统100C和内容管理系统100N 中的每一个在工作流中作为节点运行。执行模块220B的输出发送到 内容管理系统100B的输出设备50B及内容管理系统100C的元数据抽 取模块210C。以类似的方式,执行模块605的输出发送到串行内容管 理系统600的总工作流的下一个元数据抽取模块610。\n例如,串行内容管理系统600可以表示一个发明的专利申请发展 过程的工作流。内容管理系统100B代表专利披露(disclosure)节点。 内容管理系统100C代表专利评估(review)节点。内容管理系统100N 代表专利申请提交节点。输入设备15B代表从一个大公司的世界各地 的发明人收集信息的许多输入设备。输入设备15B包括发明人使用的 计算机、扫描仪、打印机、实验设备或任何其它捕获可以用于专利申 请发展过程的信息的设备。来自输入设备15B的信息发送到元数据抽 取模块210B和执行模块220B,用于如前所述地处理。执行模块的输 出如前所述地进行验证并存储在输出设备50B中。\n执行模块220B的选择输出由执行模块220B自动输入到元数据 抽取模块210C并加到专利评估节点的信息流上。专利评估节点需要 的进一步信息由输入设备15C收集。专利评估节点的验证过程包括管 理者和同伴对专利申请的认同。\n执行模块220C的选择输出自动输入到元数据抽取模块210N并 加到专利申请提交节点的信息流上。到元数据抽取模块210N的输入 包括来自专利评审节点、专利代理人的输入、专利申请写作者的输入、 起草者的输入及发明人的附加输入的选择的文件和信息。执行模块 50N的输出包括专利申请和申请文件。\n图7显示分布式文件管理系统700,该系统说明了系统10的分布 式能力并说明系统10的可扩展性。例如,一个公司可以包括北美分部、 亚太分部和欧洲分部。北美分部包括北美内容管理系统705。亚太分 部包括亚太内容管理系统710。欧洲分部包括欧洲内容管理系统715。\n北美内容管理系统705包括诸如输入设备15AA到15AN中的任 何一个或多个输入设备、诸如元数据抽取模块210AA到210AN中的 任何一个或多个的元数据抽取模块、诸如执行模块220AA到220AN 中的任何一个或多个的执行模块。输入设备15AA到15AN、元数据 抽取模块210AA到210AN和执行模块220AA到220AN中的任何一 个或多个可以在同一房间、同一建筑或整个北美的不同位置。此外, 可以按照需要将输入设备15AA到15AN,元数据抽取模块210AA到 210AN,或执行模块220AA到220AN中的适当数量的单元加入到北 美内容管理系统705之中,以便充分管理文件流。\n亚太内容管理系统710包括输入设备15BB、元数据抽取模块 210BB和执行模块220BB。输入设备15BB、元数据抽取模块210BB 和执行模块220BB中的任何一个或多个可以在同一房间、同一建筑或 整个亚太地区的不同位置。虽然输入设备15BB、元数据抽取模块 210BB和执行模块220BB的每一个都在图7中示出,可以按照需要将 输入设备15AA,元数据抽取模块210BB和执行模块220BB中的适当 数量的设备加入到亚太内容管理系统710之中,以便充分管理文件流。\n欧洲内容管理系统715包括输入设备15CC、元数据抽取模块 210CC和执行模块220CC。输入设备15CC、元数据抽取模块210CC 和执行模块220CC中的任何一个或多个可以在同一房间、同一建筑或 整个欧洲的不同位置。虽然输入设备15CC、元数据抽取模块210CC 和执行模块220CC的每一个都在图7中示出,可以按照需要将输入设 备15CC,元数据抽取模块210CC和执行模块220CC加入到欧洲内容 管理系统715之中,以便充分管理文件流。\n如图7所示,北美内容管理系统705、亚太内容管理系统710和 欧洲内容管理系统715的输出发送到一个输出设备50AA。输出设备 50AA可以放置在北美、亚太地区、欧洲或其他任何位置。因此,使 用系统10的内容管理系统100可以在世界范围串行(图6)或分布式 (图7)管理文件流,或者以结合了串行和分布式特征的方式来管理 文件流。例如,亚太内容管理系统710可以由串行内容管理系统600 代替,输出设备50N的功能由输出设备50AA代替。\n本内容管理系统可以应用的一个例子为信用卡争端管理。例如, 一个客户关系管理公司处理客户和销售商之间因为信用卡收费引起的 争端。信用卡争端管理的传统内容管理系统的争端处理流典型地如下:\n1、客户打电话给客户服务代表(CSR),并接收到一个唯一 的案件ID和客户争端表;\n2、争端管理系统接收销售商争端文件并自动存储该销售商争 端文件到传统的文件管理系统中;\n3、客户利用多种输入通道(例如邮件、电子邮件或传真)将 该争端表和证明文件邮回到客户关系管理公司;\n4、邮件室工作人员扫描客户文件;客户文件放在停放区域直 到客户服务代表浏览该客户文件及将客户文件与争端记录联系起来;\n5、客户还通过电子邮件发送一个证明该争端的收据;此电子邮 件要求在该电子邮件能与争端记录联系起来之前客户服务代表对其进 行阅览。\n利用传统的信用卡争端管理内容管理系统,当客户已经发送了争 端文件时会在步骤3、4之间发生多达一周的延迟,直到客户服务代表 评估争端文件夹。与将客户文件与争端文件夹链接相关的人工步骤是 由争端处理中的不同人员参与的,由此引起延迟。\n利用内容管理系统100和系统10,自上述步骤3的改进的处理过 程如下:\n1、邮件室工作人员使用输入设备15扫描客户文件,响应来自 元数据提示模块205的提示输入案件ID。系统10自动将客户文件与 争端记录关联起来。\n2、收到客户的电子邮件后,客户服务代表通过响应来自元数 据提示模块205的提示输入案件ID,将该电子邮件直接从电子邮件应 用程序插入到正确的争端文件夹。\n3、执行模块220自动地将争端文件夹移动从“悬置”状态移动 到“准备好”状态以便争端办公人员阅览(即验证)。\n内容管理系统100和系统10提供的改进的业务处理能减少争端 解决时间,从大约一周到大约两天,这为客户提供了有吸引力的业务 价值。\n内容管理系统100和系统10可以应用的另一例子可以是管理停 车票据。大城市管理停车票据的过程包括数据中心、呼叫中心、支付 系统和支付应用。美国的一个大城市每年拥有300万手写票据。\n目前,停车票据通过晚上从分支办公室(全城大约30个分支办 公室,平均每个位置有1万张票据)收集纸件文件来管理。在中心位 置,由两个扫描仪操作人员和专门负责扫描后验证文件任务的十个验 证人员,利用高容量扫描仪将文件成批扫描成图像。在建立票据的电 子记录之前这个过程花费3个工作日;因此票据输入和验证是相关于 票据的任何业务处理的关键因素。\n内容管理系统100和系统10在票据事件的1个工作日内生成每 个分支位置的1万张票据的电子记录。系统10还支持票据和相关数据 的分布式验证,这样票据记录可以在两个工作日内触发与票据相关的 业务处理215。总体来说,在处理周期中,利用内容管理系统100和 系统10可以获得高效率。\n应当理解,已经说明的本发明的具体实施例只是本发明原理的特 定应用。可以在不脱离本发明的精神和范围,对本系统、方法和服务 做成很多变动,用于自动和动态地为电子商务主持服务构造文件管理 应用程序。虽然本发明是针对文件的,很显然本发明也可以应用于可 以电子传送、处理或存储的任何形式或类型的内容,例如纸件或电子 文件、照片、视频记录、音频记录等。
法律信息
- 2019-10-25
未缴年费专利权终止
IPC(主分类): G06F 17/30
专利号: ZL 200510119370.8
申请日: 2005.11.02
授权公告日: 2009.01.28
- 2009-01-28
- 2006-09-06
- 2006-07-12
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| |
2002-07-17
|
2001-12-12
| | |
2
| |
1997-11-26
|
1996-10-21
| | |
3
| |
1998-01-21
|
1997-06-25
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |