著录项信息
专利名称 | 病人数据挖掘 |
申请号 | CN02822042.0 | 申请日期 | 2002-11-04 |
法律状态 | 暂无 | 申报国家 | 中国 |
公开/公告日 | 2005-02-16 | 公开/公告号 | CN1582443 |
优先权 | 暂无 | 优先权号 | 暂无 |
主分类号 | G06F17/30 | IPC分类号 | G;0;6;F;1;7;/;3;0;;;G;0;6;F;1;9;/;0;0查看分类表>
|
申请人 | 西门子共同研究公司 | 申请人地址 | 美国堪萨斯州
变更
专利地址、主体等相关变化,请及时变更,防止失效 |
权利人 | 塞纳创新股份有限公司 | 当前权利人 | 塞纳创新股份有限公司 |
发明人 | R·B·劳;S·桑迪尔亚;C·阿米斯;R·S·尼库莱斯库;A·K·格尔;T·R·瓦里克 |
代理机构 | 中国专利代理(香港)有限公司 | 代理人 | 程天正;张志醒 |
摘要
本发明为挖掘高质量结构化的临床信息提供了一种数据挖掘框架。该数据挖掘框架包括数据挖掘器(350),它根据知识库(330)中包含的领域专用的知识从计算机化的病人记录(CPR)(310)挖掘医疗信息。数据挖掘器(350)包括用于从CPR提取信息的部件,随时间以有原则的方式组合所有可用证据的部件(354),以及从这个组合过程做出推理的部件(356)。所挖掘的医疗信息被存储在结构化的CPR(380)中,该CPR可以是一个数据仓库。
1.一种从病人记录产生结构化的临床信息的系统,包括:
多个包含病人记录的数据源(310),所述病人记录包含关于病 人的信息;
其特征在于:
一个包含用于从数据源提取信息的领域专用标准的领域知识库 (330);和
一个数据挖掘器(350),用于使用领域专用标准从数据源提取 临床信息以创建结构化的临床信息;
所述数据挖掘器包含:
用于从数据源提取结构化和非结构化的信息并且应用一预先 确定的规则以创建一组概率断言的装置(352),所述一组概率断言中 的每一个均具有为真的相关概率;
用于组合该组概率断言以创建一个或多个统一标准的概率断 言的组合部件(354);和
用于从一个或多个统一标准的概率断言推断病人状态的推理 部件(356)。
2.权利要求1的系统,其中,该提取部件使用领域专用标准从数 据源提取信息。
3.权利要求1的系统,其中,该组合部件使用领域专用标准来组 合概率断言。
4.权利要求1的系统,其中,该推理部件使用领域专用标准来推 断病人状态。
5.权利要求1的系统,其中,该数据源包括医疗信息、财务信息 和人口统计信息中的一个或多个。
6.权利要求5的系统,其中,该医疗信息包括自由文本信息、医 疗图像信息、室验室信息、处方药信息和波形信息中的一个或多个。
7.权利要求1的系统,其中,该数据挖掘器以任意间隔运行。
8.权利要求1的系统,其中,该数据挖掘器以周期间隔运行。
9.权利要求1的系统,其中,该数据挖掘器在在线模式下运行。
10.权利要求1的系统,其中,该提取部件从自由文本治疗记录中 提取关键短语。
11.权利要求1的系统,其中,概率值被指派给概率断言。
12.权利要求1的系统,其中,所创建的结构化的临床信息被存储 在数据仓库中。
13.权利要求1的系统,其中,所创建的结构化的临床信息包括概 率信息。
14.权利要求1的系统,其中,该推理部件使用统计模型,该统计 模型描述跨越全体病人的疾病进展的模式以及病人的疾病和观察到的 变量之间的关系。
15.权利要求14的系统,其中,该推理部件引起多次推理,每次 推理都有所指派的概率。
16.权利要求1的系统,其中,用于挖掘数据源的领域专用标准 包括机构专用领域知识。
17.权利要求16的系统,其中,该机构专用领域知识涉及医院的 数据、医院的文档结构、医院的政策、医院的方针以及医院的变化中 的一个或多个。
18.权利要求1的系统,其中,该领域专用标准包括疾病专用的 领域知识。
19.权利要求18的系统,其中,该疾病专用的领域知识包括影响 疾病危险的因素、疾病进展信息、并发症信息、与疾病有关的结果和 变量、与疾病有关的措施、以及由医疗实体建立的方针和政策中的一 个或多个。
20.权利要求1的系统,其中,一个信息中心库接口用来访问数 据挖掘器所用的数据源中所包含的信息的至少一些。
21.权利要求20的系统,其中,该信息中心库接口是一个可配置 的数据接口。
22.权利要求21的系统,其中,该可配置的数据接口随医院而变 化。
23.权利要求1的系统,其中,该数据源包括结构化的信息。
24.权利要求23的系统,其中,该结构化的信息被转换成标准化 的单元。
25.权利要求1的系统,其中,该非结构化的信息包括ASCII文本 串、DICOM格式的图像信息和基于领域知识划分的文本文档中的一个或 多个。
26.权利要求1的系统,其中,该数据挖掘器是用因特网运行的。
27.权利要求1的系统,其中,所创建的结构化的医疗信息是通过 因特网访问的。
28.权利要求1的系统,其中,该数据挖掘器被作为一种服务而运 行。
29.权利要求28的系统,其中,该服务是由第三方服务提供商执 行的。
30.权利要求1的系统,其中,所推断出的病人状态包括诊断。
31.权利要求1的系统,其中,所创建的结构化的临床信息包括纠 正的信息。
32.一种从病人记录产生结构化的临床信息的方法,包括下列步 骤:
提供多个包含病人记录的数据源,所述病人记录包括关于病人的 信息;
其特征在于:
提供一个包含用于从数据源提取信息的领域专用标准的领域知 识库;和
从该数据源提取非结构化的信息并且应用一预先确定的规则以 创建一组概率断言;
组合该组概率断言以创建一个或多个统一标准的概率断言并 从所述概率断言推断病人状态。
33.权利要求32的方法,其中,从数据源提取信息包括:使用领 域专用标准来从数据源中提取所提取的信息。
34.权利要求32的方法,其中,组合该组概率断言包括使用领域 专用标准来组合概率断言。
35.权利要求32的方法,其中,推断病人状态包括使用领域专用 标准来推断病人状态。
36.权利要求32的方法,其中,该数据源包括医疗信息、财务信 息和人口统计信息中的一个或多个。
37.权利要求36的方法,其中,该医疗信息包括自由文本信息、 医疗图像信息、实验室信息、处方药信息和波形信息中的一个或多个。
38.权利要求32的方法,其中,概率值被指派给概率断言。
39.权利要求32的方法,其中,所创建的结构化的临床信息被存 储在一数据仓库中。
40.权利要求32的方法,其中,所创建的结构化的临床信息包括 概率信息。
41.权利要求32的方法,其中,用于挖掘数据源的领域专用标准 包括机构专用领域知识。
42.权利要求41的方法,其中,该机构专用领域知识涉及医院的 数据、医院的文档结构、医院的政策、医院的方针以及医院的变化中 的一个或多个。
43.权利要求32的方法,其中,该领域专用标准包括疾病专用的 领域知识。
44.权利要求43的方法,其中,该疾病专用的领域知识包括影响 疾病危险的因素、疾病进展信息、并发症信息、与疾病有关的结果和 变量、与疾病有关的措施、以及由医疗实体建立的方针和政策中的一 个或多个。
45.权利要求32的方法,其中,该数据源包括结构化的信息。
46.权利要求45的方法,其中,该结构化的信息被转换成标准化 的单元。
47.权利要求32的方法,其中,该非结构化的信息包括ASCII文 本串、DICOM格式的图像信息和基于领域知识划分的文本文档中的一个 或多个。
48.权利要求32的方法,其中,该方法是用因特网执行的。
49.权利要求32的方法,其中,该方法是由第三方服务提供商执 行的。
50.权利要求32的方法,其中,所推断出的病人状态包括诊断。
51.权利要求32的方法,其中,所创建的结构化的临床信息包括 纠正的信息。
技术领域\n本发明涉及数据挖掘,更具体而言,涉及用于从病人医疗记录挖掘 高质量结构化的临床信息。\n背景技术\n卫生保健提供者累积了大量的临床信息的存储。然而,挖掘临床信 息的努力已经证明并不成功。一般而言,数据挖掘是一个确定在数据信 息中心库里存储的数据中的有用模式或关系的过程。通常,数据挖掘涉 及分析非常大量的信息来发现隐藏在数据中的趋势。\n由卫生保健组织维护的临床信息通常是非结构化的。因此,难以用 常规方法进行挖掘。此外,因为临床信息被收集是用来治疗病人的,而 不是(例如)用于临床试验的,它可能包含遗漏的、错误的和不一致的 数据。通常关键结果和变量都完全没有记录下来。\n尽管很多卫生保健提供者以相对结构化的格式维护计帐信息,这种 信息受限于保险公司的需求。也就是说,计帐信息通常只捕获需要用来 处理医疗索赔的信息,并且更重要地反映病人的“记帐视图”,即对最 大偿还的帐单编码。结果是,从临床角度来看计帐信息通常包含不准确 的和遗漏的数据。此外,研究表明记帐代码在比例惊人(通常为10%到 20%)的病人中是不正确的。\n假定挖掘临床信息能够导致很难甚至不可能达到的境界,就希望提 供用于挖掘高质量结构化的临床信息的技术,并且提供这样的技术将是 非常有利的。\n发明内容\n本发明提供了一种数据挖掘框架,用于挖掘高质量结构化的临床信 息。\n在本发明的各个实施例中,提供了一种系统和方法,用于从病人记 录挖掘信息。多个数据源被访问。至少一些数据源可能是非结构化的。 系统包括一个领域知识库,该领域知识库包含用于挖掘数据源的领域专 用标准。一个数据挖掘器被配置为使用领域专用标准来挖掘数据源,以 创建结构化的临床信息。\n优选地,该数据挖掘器包括提取部件,用于从数据源提供信息以创 建一组概率断言;组合部件,用于组合所述组概率断言以创建一个或多 个统一标准的概率断言;以及推理部件,用于从一个或多个统一标准的 概率断言推理病人状态。\n该提取部件可以使用领域专用标准来从数据源提取信息。同样,该 组合部件可以使用领域专用标准来组合概率断言,该推理部件可以使用 领域专用标准来推理病人状态。病人状态仅仅是人们可能关心的、与病 人有关的变量的集合,例如,病情和诊断。\n该提取部件可以被配置为从自由文本治疗记录中提取关键短语。其 它自然语言处理/自然语言理解方法也可以用来代替短语提取或与其一 起使用,以便从自由文本中提取信息。\n数据源可以包括医疗信息、财务信息和人口统计信息中的一个或多 个。医疗信息可以包括自由文本信息、医疗图像信息、实验室信息、处 方药信息和波形信息中的一个或多个。\n概率值可以被指派给概率断言。结构化的临床信息可能包括涉及所 存储的信息的概率信息。结构化的临床信息可以存储在数据仓库中。结 构化的临床信息可能包括纠正过的信息,包括纠正过的ICD-9诊断代 码。(国际疾病分类法,第9次修订,临床修订(ICD-9-CM)是基于世 界卫生组织的第9次修订,国际疾病分类法(ICD-9)。ICD-9-CM是向 与美国的医院医疗服务相关的诊断和手续指派代码的官方系统。最近已 经发布了第10次修订(ICD-10),它与第9次修订(ICD-9)有所不同; 希望能够很快实施)\n该系统可以按任意间隔、周期间隔或在线模式下来运行。在按间隔 运行时,当系统被运行时,数据源被挖掘。在在线模式下,数据源可以 被连续不断地被挖掘。\n用于挖掘数据源的领域专用标准可以包括机构专用领域知识。例 如,这可能包括与在特定医院可以得到的数据、医院的文档结构、医院 的政策、医院的方针以及医院的任意变化有关的信息。\n领域专用标准还可以包括疾病专用的领域知识。例如,疾病专用的 领域知识可以包括影响疾病危险的各种因素、疾病进展信息、并发症信 息、与疾病有关的结果和变量、与疾病有关的措施以及由医疗实体建立 的方针和政策。\n此外,信息中心库接口可以用来访问数据挖掘器所用的数据源中包 含的信息的至少一些。这个信息中心库接口可以是一个可配置的数据接 口。该可配置的数据接口可以根据正在研究哪家医院而变化。\n数据源可以包括结构化的和非结构化的信息。结构化的信息可以在 适当的地方被转换成标准化的单元。非结构化的信息可以包括ASCI I文 本串、DI COM(医学数字成像和通信)格式的图像信息、以及基于领域 知识而划分的文本文档。\n在本发明的多种实施例中,可以使用因特网来运行数据挖掘器。所 创建的结构化临床信息也可以用因特网访问。\n在本发明的多种实施例中,可以把数据挖掘器作为一个服务而运 行。例如,几家医院可以参与这个服务以挖掘它们的病人信息,并且这 个信息可以存储在由服务提供商维护的数据仓库中。该服务也可以由第 三方服务提供商(即,与医院无关的实体)来执行。\n本发明的这些和其它方面、特征和优势从下面结合附图对优选实施 例的详细描述中可以清楚地看到。\n附图说明\n图1是一个计算机处理系统的框图,根据本发明的一种实施例可以 将本发明应用于它。\n图2展示了示例性的计算机化的病人记录(CPR);并且\n图3展示了用于挖掘高质量结构化的临床信息的示例性数据挖掘框 架。\n具体实施方式\n为了辅助对本发明的清晰理解,这里提供了一些说明性实例,它们 描述了本发明的确定方面。但是,应该理解这些说明并不是为了限制本 发明的范围,而是为了描述与本发明相关的确定概念。\n还应该理解本发明可以用多种形式的硬件、软件、固件、专用处理 器或它们的组合来实现。优选地,本发明在软件中被实现为确实包括在 程序存储设备上的程序。程序可被上载到包含任意合适的体系结构的机 器上并由其执行。\n优选地,该机器被实现在拥有下列硬件的计算机平台上:例如一个 或多个中央处理单元(CPU)、一个随机访问存储器(RAM)和输入/输 出(I/O)接口。该计算机平台还包括操作系统和微指令代码。这里所描 述的多个进程和函数可以是通过操作系统执行的微指令代码的一部分 或者程序的一部分(或者是它们的组合)。另外,多种其它外围设备可 以被连接到该计算机平台,诸如附加数据存储设备和打印设备。\n应该理解,因为附图中所描绘的组成系统部件或和方法步骤中的一 些优选地以软件实现,系统部件(或过程步骤)之间的实际连接随着本 发明的规划方式会有所不同。\n图1是计算机处理系统100的框图,依照本发明的一种实施例可以 将本发明应用于它。系统100包括至少一个处理器(下文称处理器)102, 它通过系统总线104和其它部件可操作地相耦合。只读存储器(ROM) 106,随机访问存储器(RAM)108、I/O接口110、网络接口112和外部 存储器114都与系统总线104可操作地相耦合。各种外围设备,例如显 示设备、盘式存储设备(例如,磁盘或光盘存储设备)、键盘和鼠标, 可以通过I/O接口110或网络接口112与系统总线104可操作地相耦 合。\n计算机系统100可以是独立系统或通过网络接口112与网络相连。 网络接口112可以是硬布线接口。然而,在多种示例性实施例中,网络 接口112可以包括适于向另一设备传送信息或从另一设备传出信息的任 意设备,诸如通用异步收发器(UART)、并行数字接口、软件接口或已 知或后来开发的软件和硬件的任意组合。网络接口可以连接到不同类型 的网络,包括局域网(LAN)、广域网(WAN)、内联网、虚拟专用网(VPN) 和因特网。\n外部存储器114可以用由处理器102所管理的数据库管理系统 (DBMS)来实现,并驻留在像硬盘这样的存储器上。但是,应该意识到 外部存储器114可以实现在一个或多个附加计算机系统上。例如,外部 存储器114可以包括驻留在一个单独的计算机系统上的数据仓库系统。\n本领域的技术人员将会理解在不偏离本发明的精神和范围的前提 下也可以使用其它替代的计算环境。\n卫生保健提供者越来越多地使用自动化的技术来存储和检索信 息。使用计算机化的病人记录(CPR)来维护病人信息就是一个这样的 例子。如图2所示,示例性CPR(200)包括在病人治疗期间收集到的信 息。这一信息可以包括,例如,计算机X线断层造影(CT)图像、X- 光图像、实验室测试结果、医生进展记录、与医疗过程有关的细节、处 方药信息、放疗报告、其它专家报告、人口统计学信息和计帐(财务) 信息。\n一个CPR通常包括多个数据源,每个数据源通常反映病人关心的不 同方面。结构化的数据源,例如财务、实验室和药房数据库,通常用数 据库表维护病人信息。信息也可存储在非结构化的数据源种,例如自由 文本、图像和波形。通常,关键的临床发现都只存储在医师报告中。\n图3说明了用于挖掘高质量结构化的临床信息的示例性数据挖掘系 统。该数据挖掘系统包括数据挖掘器(350),它使用知识库(330)中 包含的领域专用的知识从CPR(310)挖掘信息。数据挖掘器(350)包 括从CPR提取信息的部件(352)、随时间用有原则的方式组合所有可 用证据的部件(354)以及从这个组合过程做出推理的部件(356)。挖 掘出的信息可以被存储在结构化的CPR(380)中。\n提取部件(352)负责从与病人有关的每个数据源收集小块信息, 这些信息被表示为与病人有关的、在特定时间的概率断言。这些概率断 言被称为元素。组合部件(354)组合在相同时间周期中引用相同变量 的所有元素以形成一个与该变量有关的统一标准的概率断言。这些统一 标准的概率断言被称为仿真陈述(factoid)。推理部件(356)在相同 和/或不同的时间点上处理对这些仿真陈述的组合,以产生病人状态随 时间进展的连贯且简洁的图片。病人状态的这种进展被称为状态序列。\n本发明能够建立病人状态的个人模式。病人状态仅仅是人们能够关 心的、与病人有关的变量的集合。所感兴趣的信息可能包括一个状态序 列,即病人治疗期间在不同时间点上的病人状态的值。\n有利的是,图3中所描述的体系结构支持插件模块,其中,能够很 容易地为新数据源、疾病和医院扩展系统。可以使用新的元素提取算 法、元素组合算法和推理算法来扩充或替换已有的算法。\n上述组件中的每一个都使用与感兴趣的领域(诸如,例如,感兴趣 的疾病)有关的详细知识。这个领域知识库(330)可以有两种形式。 它可被编码为系统的输入,或者编码为产生能够被系统所理解的信息的 程序。领域知识库(330)中被输入系统的当前形式的那部分也可从数 据获取。\n用于挖掘数据源的领域专用的知识可以包括机构专用领域知识。例 如,这可以包括与在特定医院可用的数据、医院的文档结构、医院的政 策、医院的方针以及医院的任何变化有关的信息。\n领域专用的知识还可以包括疾病专用的领域知识。例如,疾病专用 的领域知识可以包括影响疾病危险的各种因素、疾病进展信息、并发症 信息、与疾病有关的结果和变量、与疾病有关的措施、以及由医疗实体 建立的方针和政策。\n如上所述,提取部件(352)从CPR(310)获取信息以产生与病人 有关的概率断言(元素),这些断言是瞬时的或与时段有关。这个过程 在领域知识库(330)中所包含的领域知识的引导下实施。提取所需的 领域知识对每个数据源来说通常是具体的。\n从文本源进行的提取可以通过短语识别来实施,这要求一个规则列 表,用于规定感兴趣的短语以及从中可以做出的推理。例如,如果医生 记录中的某个句子带有单词″There is evidence of metastatic cancef in the liver″,那么为了从这个句子中推断病人患了癌症,就需要一 个规则引导系统以查找短语″metastatic cancer″,并且如果找到了 ″metastatic cancer″,就以高可信度断言病人患了癌症(在本实施例 中转换成产生一个名为″癌症(Cancer)″的元素,值为″真(True)″, 可信度为0.9)。\n数据源包括结构化的和非结构化的信息。结构化的信息可在适当的 地方被转换成标准化的单元。非结构化的信息可以包括ASCII文本串、 DICOM(医学数字成像和通信)格式的图像信息、以及基于领域知识而 划分的文本文档。可以注意可能不正确或遗漏的信息,以便采取动作。 例如,挖掘出的信息可能包括修正后的信息,包括修正的ICD-9诊断代 码。\n从数据库源进行的提取可以通过查询源中的表来完成,这种情况 下,领域知识需要对什么信息位于数据库的哪些字段中进行编码。另一 方面,提取过程可能涉及计算数据库中所包含的信息的复杂函数,这种 情况下,可以用执行这一计算的程序的形式提供领域知识,这一计算的 输出可以被提供给系统的其它部分。\n从图像、波形等进行的提取可以由提供给系统的图像处理或特征提 取程序来完成。\n组合包括在给定时间点上从相同/不同来源的可能冲突的断言中产 生每个变量的统一视图的过程。在本发明的多种实施例中,这是用与由 元素(即先验概率)表示的变量的统计有关的领域知识完成的。\n推理是用与病人有关的所有可用的仿真陈述并通过疾病状态、治疗 协议、实验室化验等产生病人进展的复合视图的过程。基本上,病人的 当前状态可能受到先前的状态和任意新的组合观察的影响。\n这个过程所需的领域知识可以是一个统计模型,它描述跨越所有病 人的感兴趣的疾病的进展的一般模式以及病人的疾病和可以观察到的 变量(实验室化验结果、医生记录等)之间的关系。可以产生病人的总 结,相信它与仿真陈述所包含的信息和领域知识是最一致的。\n例如,如果观察结果似乎说明癌症患者在他或她没有肿瘤生长的同 时正在接受化疗,而领域知识说明只有在病人患了癌症时才能进行化 疗,那么系统会判定:(1)病人没有患上癌症,也没有接受化疗(也 就是说,观察结果可能不正确),或(2)病人患了癌症且正在接受化 疗(初始推理-病人没有患上癌症-是不正确的);取决于这些命题中 的哪一个更有可能给出所有其它信息。实际上,(1)和(2)的结论都 可被得出,但有不同的概率。\n看另一个例子,考虑在医生记录中找到了像″The patient has metastatic cancer″这样的句子的情况,从这个句子可以得出结论<癌 症=真(概率=0.9)>。(注意这等价于断言<癌症=真(概率=0.9),癌症= 未知(概率=0.1)>)。\n现在,进一步假定有一个癌症的基本概率,<癌症=真(概率= 0.35),癌症=假(概率=0.65)>(例如,35%的病人患有癌症)。那 么,我们可以把这个断言和癌症的基本概率组合在一起获得,例如,断 言<癌症=真(概率=0.93),癌症=假(概率=0.07)>。\n同样,假定冲突的证据指示下列断言:\n1.<癌症=真(概率=0.9),癌症=假(概率=0.1)>\n2.<癌症=假(概率=0.7),癌症=真(概率=0.3)>\n3.<癌症=真(概率=0.1),癌症=未知(概率=0.9)>\n4.<癌症=真(概率=0.4),癌症=未知(癌症=0.6)>\n在这种情况下,我们可以把这些元素和癌症的基本概率<癌症=真 (概率=0.35),癌症=假(概率=0.65)>组合在一起得出<癌症=真(概 率=0.67),癌症=假(概率=0.33)>.\n应该理解本发明通常必须访问大量的数据源并处理遗漏的、不正确 的、和/或不一致的信息。例如,在确定病人是否患有糖尿病当中,下 列信息可能必须被提取:\n(a)与糖尿病相关联的二次诊断的ICD-9计帐代码;\n(b)给予病人与糖尿病治疗有关的药物(胰岛素);\n(c)病人的实验值是糖尿病的症候(例如,两个连续的血糖读数超 过250mg/d);\n(d)医生提及病人在H&P(历史&实际)或出院记录(自由文本) 上是糖尿病;以及\n(e)相关的病人过程(例如,脚的检查)是糖尿病。\n可以看出,有多个独立的信息来源,从中的观察结果可以支持(用 不同的可信度)病人是糖尿病患者(或者一般地说有一些疾病/状况)。 它们并不是全部都存在,事实上在某些情况下它们还相互矛盾。可以导 出概率观察结果,具有可变的可信度。从概率上可以把这些观察结果(例 如,有关计帐代码、药物、实验室测试等等)组合在一起以提出最终的 糖尿病概率。注意病人记录中可能有与糖尿病矛盾的信息。例如,病人 具有某种有压力的事件发生(例如,一次操作)并且血糖上不去。\n应该理解提出上面的例子仅仅是为了说明目的,并不是为了限制本 发明。组合元素的实际方式取决于正在考虑的特定领域以及系统使用者 的需求。此外,应该理解,尽管上述讨论指的是以病人为中心的方法, 但是实际的实现可以被扩展到同时处理多个病人。另外,应该理解,在 不偏离本发明的精神和范围的前提下,可以为这些阶段中的任意或全部 (例如,提取、组合、推理)在领域知识库(330)中引入学习过程。\n该系统可以按任意间隔、周期间隔或在在线模式下运行。当以间隔 运行时,在系统运行时挖掘数据源。在在线模式下,可以连续不断地挖 掘数据源。\n可以用因特网运行数据挖掘器。所创建的结构化的临床信息也可以 用因特网来访问。\n另外,可以把数据挖掘器作为一种服务来运行。例如,几个医院参 与该服务以使它们的病人信息被挖掘,并且这个信息可以存储在由服务 提供商所拥有的数据仓库中。该服务可以由第三方服务提供商(即,与 医院无关的实体)执行。\n一旦结构化的CPR(380)被用病人信息填充,它就处于这样一种形 式中,采用该种形式有益于回答与个别病人有关的几个问题,以及与不 同的有代表性的病人有关的几个问题。\n下面描述REMI ND(从非结构化数据的可靠提取与合理推理),由西 门子公司研究院(SCR,西门子公司的子公司)开发的一种创新型数据 挖掘系统。REMI ND基于本发明的实施例。\n首先,提供一种模拟来描述REMIND执行推理的精神。\n一名有一些癌症相关知识的法国医科学生被提供癌症病人的CPR。 CPR包括转录的英文口述和药剂数据。该学生的任务是分类出哪些病人 已经出现了复发,并且如果有的话,确定何时发生。不幸的是他的英语 很差,尽管他知道一些关键的医学词汇和少数药名。然而,他不能完全 依赖于口述中出现的一些关键词,例如转移(metastases),因为他知 道专家们通常进行相反的陈述(″Patient is free of evidence of metastases″)。这名学生怎样才能最好地完成他的任务?\n该学生可以从CPR中收集所有相关的证据-而不相信任何单个的证 据-并组合它以调整任何不一致。他可以使用他的与癌症治疗有关的知 识——例如,注意到病人做过肝脏切除术,该学生可以得出如下结论: 病人以前(可能)曾经复发过。\n问题定义\n假设S是采取表示系统状态的∑中的值的连续时间随机过程。假设 T={t1,t2,…,tn},其中ti<ti+1,是当S必须被推理时的n个″ 感兴趣的时间″。假设Si指的是在时间t i∈T时S的样本。假设V是依 赖于S的变量的集合。假设0是对所有变量v∈V的所有(概率)观察 的集合。假设0i是″指派″给ti∈T的所有观察的集合;即,与和这个时 间步长ti相关的变量v∈V有关的所有观察。同样,\nseqMAP=arg maxseP[seq|O]\n假设Oj i(v)是分配给t i的变量v的第j个观察。假设seq=},说明:布尔变量 ″Recurrent(复发)″在可由″Recurrent″取用的所有可能值上有相关联 的分布。概率不必累加到1.0;任意的余数(这里是0.9)被指派给未 知,并被根据(时间相关的)先验分布在T/F上被平滑。\n从结构化的数据进行的提取:REMIND通过JDBC(Java内置的、到 关系数据库的接口)与所有数据库通信。执行查询(例如,检索给予的 药物)被表示为概率观察。\n从自由文本进行的提取:REMI ND划出文档页眉/页脚条并标记自由 文本。来自标记流的信息通过短语识别被提取,短语识别是来自计算语 言学的一种易于实现的方法。短语识别就像听起来那么简单。一短语识 别规则在一个单独句子被应用,规则:\n[metastasis&malignant]=>{″Recurrent″,}\n说明:如果在一个句子中找到了规则中的两个单词(实际是别名), 就应该产生与复发有关的概率观察。REMIND也具有复合规则,用来检测 ″否定″和″不精确性″,它们修改已有的观察中的概率。\n我们兴趣的主要焦点是估计在跨越T-感兴趣的持续时间病人发生 了什么。对MAP状态序列的估计可以用两步进行,第一步是组合固定时 间点上的观察,第二步是传播这些跨时间的推理。\n每个(平滑的)Oi是采用假定小的上下文并从中提取的变量的后验 概率的形式。关于一个变量的、持续单个时间ti的所有观察Oj i(v)被用 贝叶斯定理以直接的方式组合到一个断言中。\n在每个ti∈T,使用贝叶斯网络建立Si和V之间关系的模型。因为 该状态过程的模型被建立成马尔可夫,并且该状态是我们观察的所有变 量的起因(直接或间接),所以把给定所有观察时seq(跨时间的状态过 程的样本的任意序列)的后验概率和给定对应每个时刻的观察时该状态 的时间局部的后验概率P(Si|Oi)连接在一起就是可能的。基本上,我们 通过把每个状态样本Si的模型建立成下一个样本Si+1的起因而把时间局 部的贝叶斯网络串在一起。\n尽管在这里已经参考附图描述了本发明的说明性实施例,应该理解 本发明并不受限于那些具体的实施例,在不偏离本发明的范围和精神的 前提下本领域的技术人员可以进行多种其它的改动和变更。\n相关申请的交叉引用\n本申请请求了美国临时申请序列号60/335,542的权益,该申请于 2001年11月2日提交,在此将其完全引入以供参考。
法律信息
- 2022-11-22
专利权有效期届满
IPC(主分类): G06F 17/30
专利号: ZL 02822042.0
申请日: 2002.11.04
授权公告日: 2009.01.07
- 2015-08-05
专利权的转移
登记生效日: 2015.07.14
专利权人由美国西门子医疗解决公司变更为塞纳创新股份有限公司
地址由美国宾夕法尼亚州变更为美国堪萨斯州
- 2009-01-07
- 2006-12-13
专利申请权、专利权的转移专利申请权的转移
<变更事项>地址<变更前权利人>美国新泽西州<变更后权利人>美国宾夕法尼亚州<登记生效日>2006.11.10
- 2006-12-13
专利申请权、专利权的转移专利申请权的转移
<变更事项>申请人<变更前权利人>西门子共同研究公司<变更后权利人>美国西门子医疗解决公司<登记生效日>2006.11.10
- 2005-04-20
- 2005-02-16
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 |
1
| | 暂无 |
1998-02-04
| | |
2
| | 暂无 |
1995-12-22
| | |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有被任何外部专利所引用! |