1.一种装置,用于在某个区域中监视可能需要以间歇的方式来 监管的人,所述装置包括:
-控制器(100),程序设计为从位于受监视区域中的环境监视 器(135,305,141,112)接收至少一个监视信号;
-所述监视信号包括图像数据、视频信号以及音频信号中的至少 一种;
-所述控制器被程序设计为响应于可在所述监视信号中检测到的 身体病征和精神状态中的至少一种,其特征在于所述控制器被进一 步程序设计为相应地产生告警信号,其中,所述告警信号至少包括 紧挨在所述告警状况发生之前的一部分所述监视信号。
2.如权利要求1所述的装置,其特征在于所述控制器被配置为 借助网络模型来识别多个身体病征,以便为所述多个身体病征产生 相应的输出。
3.如权利要求1所述的装置,其特征在于所述至少一个监视信 号包括所述第一人的面部图像。
4.如权利要求1所述的装置,其特征在于所述至少一个监视信 号包括表示语音的音频信号,所述控制器被程序设计为检测所述语 音中的字模式,所述告警信号响应于所述字模式。
5.如权利要求1所述的装置,其特征在于所述控制器被程序设 计为区分所述个人的正常声音和所述说话者的异常声音,并且相应 地产生所述告警信号。
6.如权利要求1所述的装置,其特征在于所述告警信号至少包 括紧挨在所述告警状况发生之后的一部分所述监视信号。
7.如权利要求1所述的装置,其特征在于所述告警信号包括音 频信号、文本数据信号以及视频信号中的至少一种。
8.如权利要求1所述的装置,其特征在于所述区域是所述个人 的生活空间。
9.一种监视偶尔需要监管的个人的方法,所述方法包括以下步 骤:
-设计网络模型,从而对视频、图像或者音频信号中的至少一种 作出响应,以分类所述个人的精神状态和健康状况中的至少一种;
-采用所述网络模型来产生表示精神状态和健康状况中的所述至 少一种的第一信号,以产生类信号;
-将所述类信号与其它类数据组合并相应地确定告警状况;
-对所述确定步骤的结果作出响应,响应于所述类信号,将一个 至少包括紧挨在响应于所述类信号的所述告警状况发生之前的一部 分所述视频、图像或者音频信号中的至少一种的信号传送到远程管 理员。
10.如权利要求9所述的方法,其特征在于还包括输出一个引出 所述个人的行为的信号,以产生所述其它类数据。
11.如权利要求9或10所述的方法,所述方法还包括以下步骤:
-接收所述视频信号;
-响应于一段时间中的所述视频信号,确定住宅中的所述个人的 活动模式;
-响应于所述确定步骤的结果,检测所述活动模式中的异常;
-响应于所述检测步骤的结果,产生告警信号。
12.如权利要求9或10所述的方法,所述方法还包括以下步骤:
-检测第一和第二信号;
-通过相应分类器过滤所述第一和第二信号中的各信号,以检测 所述独居人的事件;
-响应于所述过滤步骤的结果,产生告警。
13.如权利要求9或10所述的方法,所述方法还包括以下步骤:
-检测发生在所述个人的环境中的第一和第二事件,并响应于所 述用户的状态或行为,分别产生第一和第二信号;
-除了发生时间以外,所述第一和第二事件在其它方面也有所不 同。
-通过网络分类器过滤所述第一和第二信号;
-响应于所述过滤步骤,检测事件。
14.如权利要求13所述的方法,其特征在于还包括以下步骤: 响应于所述检测步骤,产生告警信号。
15.如权利要求13所述的方法,其特征在于检测第一事件的所 述步骤包括捕捉图像并处理所述图像,所述第一信号响应于所述处 理步骤的结果。
16.如权利要求9或10所述的方法,所述方法包括以下步骤:
-对图像数据进行分类,以检测所述的在家居住且不受监管的人 的精神状态和健康状况之一;
-对音频数据进行分类,以进一步检测精神状态和健康状况中所 述的一种;
-响应于所述第一分类步骤和所述第二分类步骤,对告警状态进 行分类;以及
-响应于所述第三分类步骤,产生告警信号。
本发明涉及自动装置,所述装置在无人监管者周围的状况表示此 人需要帮助时产生告警信号。
远程安全监视系统是本领域中已知的,在这种系统中,摄像机对 准所关心的对象或区域,并由经过训练的观察人员进行监视。市面上 也出现了将音频传送给便携式接收机的婴儿或儿童监视器。不过,这 些装置要求不断的注意,以便对所关心的诸如老年人、婴儿或儿童等 对象或区域提供保护。
脸部机器识别是一种发展完善的技术。在GB 2343945A的对脸部 进行拍照或识别的系统中,控制器识别场景中运动的脸部,并对他们 进行跟踪,以便使图像捕捉能够充分地识别脸部或其中与众不同的特 征。例如,在珠宝商店保安系统中,当识别到压低的帽沿或面罩时, 这种系统会发出声音警报。
受监视人的身体及情绪状态可以通过用于医疗诊断的计算机来确 定。美国专利号5617855描述了一种系统,它对脸部及声音以及脑电 图和其它诊断数据的特征进行分类,以帮助诊断,在这里将此专利的 全部内容结合到本文中,就像在这里完全陈述了一样。该装置针对精 神病学和神经病学。然而,这种装置及其它类似装置不是设计用来监 视正常生活环境中的人们。
EP 0716402B1描述了一种利用红外传感器和模糊推理技术来检 测进入列车或其它场所的人数的方法。当人数超出所需限制或不平衡 时,系统能够对此进行通知,这种通知可以被链接到改正这种状况的 装置上。
UK 2027312A描述了一种利用产生标准视频信号的IR摄像机来 检测鱼的移动的方法。
US 4524243描述了一种系统,在这种系统中,要求使用者在指定 间隔触动某个开关。否则便会产生停顿告警。
US 5905436公开了一种系统,在这个系统中,没有触动家中的各 种传感器会导致在中央监视站产生一个表示这种情况的信号。此公开 针对居家老年人的监管。
UK 2179186A描述了一种系统,在这个系统中,如果在预定时间 没有检测到运动,则触发一个告警。发出警告使用户可以复位开关。
US 6002994公开了一种系统,在这个系统中,当有人出现在触发 发射机的传感器位置时,就会触发放置在屋内关键位置的发射机。另 外,这个系统还采用与要求用户使用的装置和设备连接的其它输入。 该系统用来识别正常的使用模式。如果没有检测到正常模式,发射机 则向中央监视器发送信号。
在此引用中,生理测量可包括用户的血压、心律、体温、体重以 及血糖水平。非生理测量可包括室温、排尿中的氨、变质食物的甲烷、 出现烟雾、用电次数、用水次数、流出水龙头的水温、用户在如运动 传感器所示的所选环境中的运动、设备的使用,其中包括卫生间、电 话、炉灶、微波炉、烤箱、烘箱、冰箱、冷柜、洗碗机、浴缸、淋浴、 垃圾处理装置、洗衣机、烘干机、邮箱、门以及车辆。
在另一应用领域中,为了进行机器授权及验证或者为了方便起 见,机器自动地检测居住者是否在场或者居住者特有的特征。为此, 一些先有技术系统采用了生物统计检测、近程检测器、射频识别标记 或其它装置。
虽然已提议了用于监视老年人活动的自动化系统,但这些系统仍 需要增强的稳定性以及避免假阳性信号的能力,更为重要的是尽早介 入。例如,跌落在传感器范围以外时间过长的老年人可能因诸如 6002994所提议系统的检测失败而导致威胁生命的问题。人类能够察 觉的蛛丝马迹可能在某个问题发生之前出现征兆,但先有技术系统却 无法检测。另外,告警信息可能没有提供足够的信息。由于这些和其 它缺陷,独居者的机器监视并未达到接近人工监管所提供的标准。
简要地说,告警系统监视要求某种监管的独居者的状况,例如独 居家中的老年人。本系统监视各种独立信号并把它们进行组合,以便 识别可能表示将需要监管人介入的蛛丝马迹。
随着计算机更为广泛的应用,并且处理能力使廉价传感器的使用 成为可能,没有人工直接介入的控制能力已经被普遍讨论。例如,在 未来家庭中,供暖系统、照明、音乐系统、设备等都可以改变到这样 一种方式,其中它们自我控制而不是要求用户来对其进行控制。在这 些模式下,用户的意图是通过其动作来推断的。出现在现场可以触发 热或光激活;电视激活可以触发光线转暗以及拉上窗帘。在这样的环 境中,廉价传感器技术通过计算能力进行均衡,以便在系统中产生有 用的响应。未来家庭可以装备各种传感器,允许仅通过软件修改便实 现多种功能。在这种环境中,可以配置一系列传感器数据用于迄今未 知的多种目的。本申请以多种方式对数据进行组合,以允许在观察人 员能够检测细微模式的方式中检测到有用的模式。在这种情况下,目 标应用是监视独居者,例如病人或老年人。
本发明考虑采用遍布传感器的环境,包括视频和音频,同时还包 含人工智能技术的应用,以便允许识别这类蛛丝马迹,例如情绪波动、 不正常行为以及陌生人、物体或动物的出现。当状况被分类为要求或 建议需要介入时,传送包含有关状况的信息的具有丰富信息的告警信 号或消息,以便帮助接收者了解正在发生的情况。在一个实施例中, 告警信号是从对准需要监管的人的摄像机馈送的直播视频和/或音 频。在另一实施例中,告警信号是与产生告警的状态及状况有关的数 据符号集,例如“要求监管的人无动作达N个小时”、“出现陌生面 孔”、“面容表示痛苦”或者“异常高的活动水平”等消息。在其它 实施例中,该系统产生响应来刺激动作、例如来自受监视者的响应, 以便得出识别的行为或其它机器可感知的特征。告警信号可以通过电 话线、因特网或无线信道进行传送。在另一些实施例中,传感器可以 自我调整,例如摄像机,它能够放大居住者的脸部特征以便捕捉可识 别的图像或视频序列。
人工智能和机器人领域已经产生了一种技术,这种技术使机器能 够充分了解其周围环境,以便识别预定状况、操纵车辆以及识别物体 及其方位,例如,已经在实验室里制作了称作自主观测仪的系统部件, 它允许机器在某个区域中跟随观测仪并跟踪安全撤离路线。类似技术 的其它应用包括视频跟踪系统,它们跟随演讲的发言人,并对发言人 的手势命令进行响应。在本发明的实施例中,图像和视频识别、音频 识别以及其它输入等技术可以用来推断要求监管的受监控者的状况。
人工智能(AI)原理由分类引擎用来接收视频、音频和/或其它输 入以模拟当前状况。当状况被分类为要求注意时(危难事件)时,可 为该危难事件缓存的视频、音频和其它数据以及实时数据可与所识别 事件所属的分类的表示一起传送给监视器。例如,由正在呼吁要求监 管的人产生的音频信号可单独分类为“正在呼吁的人”状况,也可与 诸如正在呼吁要求监管的人的视频数据等其它数据一起分类。监视系 统的状况分类可以包括例如以下事件:
1.由生理传感器、如佩带心脏监护器、呼吸传感器或音频传感器 触发,
2.对陌生的声音、面孔、身体或物体的检测,
3.个人的异常运动,例如受伤的表示,如跛行,
4.与跌倒、跑步、正常步行、爬行等对应的突然运动,
5.没有正常运动,例如麻痹,缺乏协调,在处理应急情况时速度 太快,或者异常缓慢的运动,
6.在某个场所中出现需要监管的人或其它个人及其数量,
7.一段时间内某个场所的居住者的衣着、面部特征等的一致性。
8.根据声音特征的高声、正常声音以及异常声音,
9.声源的异常位置,
10.未授权场所的占用,
11.占用模式,例如受监视者在某个特定场所或离开某个特定场 所的时间是否异常,
12.提示对监视系统或者所居住场所中的物体损害的模式,
13.未授权居住者的语音特征或未识别的语音特征,
14.受监视者或其它居住者的身体习惯及面貌,
15.场合中的安全系统的状态,
16.居住场所中未识别的物体或者识别物体运动到非预计位置或 在非预计位置发现识别物体,
17.超出正常范围的温度、湿度、声级或者其它环境变量,以及
18.出现陌生面孔或身体模式。
触发告警状况的事件可以是简单事件,例如监视呼吸或哭喊的先 有技术传感器,或者该事件可以是更为复杂的事件:将多个输入综合 到软件(或硬件)网络(例如神经、贝叶斯网络)中,所述网络被程 序设计或配置为标识或识别环境,或者标识或识别不存在可识别(熟 悉的)环境。根据这种数据,系统最终将环境分类为告警状况或非告 警状况。这种网络装置可包括以下形式的分类器:神经网络、贝叶斯 网络以及用于机器识别物理对象和行为的其它技术。本领域的这种技 术是多样化且迅速增长的,预计将会不断地出现实现本发明的改进装 置。
分类引擎最好是可训练的,从而不需要仅依靠预定的模板模式进 行模式匹配。不过,在一个实施例中,原始数据由例如视频分类器的 AI分类器提炼为精炼信号,以允许在如告警状况是否存在的分类的另 一阶段中定义显式规则。
系统可配备产生模拟对话以提供训练帮助的能力,例如当居住者 能够观察受监视场所时,要求居住者在受监视场所中出现的多个状况 类别中进行选择。它可以被系统用来减少其组合信号的模糊性。例如, 可以利用“chatterbot(话匣子)”技术通过如在以下引用中所公开的 机器生成角色来产生模拟对话,通过引用将以下各参考文献结合到本 文中。
-美国专利序列号09/699606,模拟个人互动的环境响应用户界面/ 娱乐装置;
-美国专利序列号09/686831,电视机上显示的虚拟人物;以及
-美国专利序列号09/699577,模拟个人互动及响应于居住者精神 状态和/或个性的用户界面/娱乐装置。
角色可对特定状况(现有状况模糊分类或仅按照随机或间隔时 间)作出响应,向居住者请求有关当前环境的信息。收到的反馈可由 分类引擎用来进一步推导现有状况和/或与有关环境的其它信息一起 转发给应负责任的一方。上述申请还讨论了对较大输入阵列进行分类 以便决定有关居住者情况的主题。
下面将参照说明性附图并结合某些最佳实施例对本发明进行说 明,以便更透彻地了解。结合附图,要强调的是,所述细节仅作为例 示,用于对本发明的最佳实施例进行描述性说明,并且提出的目的是 为了提供认为是对本发明的原理及概念方面最有用且易于理解的说 明。在这方面,无意说明比基本了解本发明所需的更详细的发明结构 细节,结合附图的说明使本领域的技术人员清楚地知道在实践中实现 本发明的若干形式。
图1是根据本发明的一个实施例能够支持监视系统的硬件系统的 图示。
图2是说明如何对各种形式的输入进行过滤以产生符合本发明的 若干实施例的告警信号的高级流程图。
图3是根据本发明的一个实施例实现监视系统的软件系统的功能 图。
图4是说明根据本发明的一个实施例产生告警信号的流程图。
参照图1,在实现本发明的一个实施例的硬件设备中,可编程控 制器100接收来自各种源的输入,例如,连接到照相机135和136的 连接图像处理器305、麦克风112和传感器141。传感器141可以包括 告警传感器,如呼吸监视器或诸如温度传感器、位置传感器、安全开 关、近程传感器、电力负载传感器、环境光传感器等的任何类型的传 感器。可以通过由云110表示的局域网或广域网或因特网来收集用于 更新控制器100的软件或用于提供其它所需数据、如模拟环境的模板 的数据。远程观测人员可以通过UI(用户界面)122(如终端)跟踪 或接收来自系统的告警信号。控制器可以通过扬声114或其它任何形 式的装置输出音频信号(如合成语音或来自远程扬声器的语音)。为 了进行程序设计及请求居住者输入,可以提供终端116。
图2说明了图1所示控制器100所收集的信息如何可以用来识别 特定状况并产生对应于这些状况的告警。各种形式的输入500,例如 视频数据、音频数据、诸如温度、声级、安全系统状态等的环境状况, 被运用于经过训练的分类器510,以便对所监视环境的可识别特征进 行区分及分类。例如,分类器510可以经过训练用来区分各种面孔以 及将它们分类为属于识别集之一或者不属于识别集中的任何一员。又 如,分类器510可以经过训练用来对例如打碎玻璃或跌落对象等突发 噪声进行分类。其它一些例示包括通过面部表情、相貌、身体习惯、 行为等根据视频信号的数据来识别受监视者的情绪状态和健康。然 后,事件/状态的各个分类可以被组合,并进一步分类为告警状况。例 如,分类器可以经过训练用来将高声之后跟随陌生面孔的情况识别为 告警状况。
训练如510这类的分类器的技术已经完善地发展并且发展迅速。 可以采用一些规则形成例如贝叶斯分类器来直接地训练这种分类器。 或者,可以利用例示对其进行训练,就像对于神经网络。由于除了本 文所讨论的之外,如何设计及训练各种分类器的主题不是本发明的重 点,并且由于设计和训练这类分类器的技术已经成熟发展且差别较 大,因此,这里不对具体细节进行详细说明。某个用于对分类器510 进行程序设计和/或训练的接口由530表示。分类器510的最终目标是 向告警输出520输出状态或告警信息。530和520均可以是联网终端、 蜂窝电话装置、PDA或者任何适当的UI装置。
下面参照图3,可以用来监视居住区域的事件驱动体系结构的功 能图将分类器510的单一“黑框”表示的对象分离为多个对象,它们 的输出被组合,以便对告警状况进行分类。音频输入245、视频输入 255以及其它用户接口装置(未示出)产生一些信号,将这些信号提 供给相应的分类器210、240。可以将可通过麦克风(没有单独示出) 或表示声音及其方向的定向音频检测器(没有单独示出)或者其它任 何适当的音频传感器接收的音频输入245提供到音频分类器210。其 后的数据形成实时信号,音频分类器210通过适当的数字或模拟装置 或者它们的组合来对这种实时信号进行分类。随后,音频分类器210 产生当前状态信息信号,并将这个信号提供到精神状态/健康状态分类 器290以及事件/类处理器207。
音频信号分类器可以输出包含以下分量的矢量。
1.说话人的身份,
2.说话人的数量,
3.声音类型(碎裂、撞击、间歇地、轻叩等),
4.声强水平,
5.所识别声音的持续时间、时刻,
6.音质(低语、大叫、快速、紧张、极高等),
7.声音特征(男声、女声、童声、弱、强、沙哑、清晰等),以 及
8.可从例如开关电灯声、鼾声、细微的收音机或TV声、吸尘器 声等声音中识别的事件。
独立声音事件和/或状态的每个示例可以与表示其开始及结束(如 果已经结束)时间的时间标志相结合,以及所组合的矢量信号被提供 到事件/类处理器207。
视频图像分类器240接收视频输入255,对图像数据进行分类, 并产生状态信息信号,这些信号被提供到精神状态/健康状态分类器 290以及事件/类处理器207。视频图像分类器240可以通过程序设计 来识别某些事件,如手势、快速运动、视野中居住者的人数等。与音 频分类器210相似,它的输出可以是矢量,为了便于说明,该矢量包 括以下分量。
1.居住者数量,
2.居住者身份(包括未识别的),它可根据身体、面部特征、运 动等推导信息,
3.各居住者的身体位置/手势(如站、坐、饮、食),
4.场景内瞬时物体的大小,
5.场景内瞬时物体的性质(如电视机、餐盘、洗衣篮等),
6.居住者图像中心的迅速运动,作为跑动或混乱的表示,以及
7.摄像机角度的改变等。
各个领域的视频处理技术、如验证、机器的手势控制等可以根据 系统设计人员的特定目的而用于当前系统中。
与分类器235关联的其它输入装置将其输出信号提供到事件/类处 理器207。其它UI分类器235可包括监视诸如周围光线水平、时刻、 室温、建筑物安全状态等环境的仪表。
文本数据可以从接收音频输入245并将其转换成文本的语音文本 转换器215得到。从音频获取时,文本可通过语音文本转换器215进 行时间标记。语音文本转换器215采用诸如用于新技术或先有技术对 话模拟器、如用于自然语言搜索引擎或其它适当装置的语法或结构规 则来解析文本。这种解析的结果是提取精神状态/健康状态分类器290 可识别的单词或语言特征。可以采用如对话模拟器中基于规则的模板 匹配或者采用更为复杂的自然语言方法进行解析。随后,可以将表示 情绪的词发送到精神状态/健康状态分类器290,以便对说话者的情绪 进行分类。
精神状态/健康状态分类器290从各种分类器接收信号,并对其进 行处理,以产生情绪/个性状态信号。精神状态/健康状态分类器290 可以是经过训练的神经网络、贝叶斯网络、基于规则的简单系统或者 其它能够采用多种不同输入并预测居住者处于给定情绪状态及具有给 定个性的可能性的任何其它类型的分类器。可以采用从简易到复杂的 各种个性和情绪类型。将某个居住者分类为厌烦的规则集的例示如 下:
-较少的句子/短语数量(居住者的句子包含极少单词)(输入解 析器410信号表示响应单词数量),
-较少出现表示热情、如最高级的单词(输入解析器410信号表 示形容词),
-毫无生气的音调(音频分类器210信号表示调制变形强度),
-缺少身体运动(视频图像分类器240信号表示等),
-头部或身体极少运动,
-标记声音等,
-看表,以及
-缺少与场景中诸如电视机或书籍的对象的视线接触。
其中的每种情况都可以由相应的分类器进行分类。居住者衣服的 颜色、居住者的音调、居住者进入及离开某个场合的次数、居住者打 手势的方式等均可以提供居住者情绪状态和/或个性的线索。输出矢量 可以是任何适当的情绪状态分类。例如,可以使用美国专利号5987415 所建议的价/强度情绪状态类型学。
下表总结了Big Five,它是Myers-Briggs类型学的进化产物。有许 多学术论文是关于模拟情绪状态和个性的主题的,其中有许多都针对 根据语音、面部表情、身体姿势以及其它许多机器输入进行的机器分 类的问题。甚至可经因特网使用某个代理或者经测量基本天气数据、 如日照的仪器获得的天气也可以用来推论精神情绪状态。
消极情绪的六个方面(由1992年的Costa & McCrae改编),显示 连续区的两个极端: 消极情绪的六个方面 复原R+- 反应R- 焦虑 放松,冷静 担忧,不安 愤怒 镇定,不易愤怒 易于发怒 沮丧 不易沮丧 容易气馁 自我意识 难以局促 更易于局促不安 冲动 轻松地抵制欲望 易受诱惑 脆弱 轻松地对待压力 难以应付
外向的六个方面(由1992年的Costa & McCrae改编),显示连续 区的两个极端: 外向的六个方面 内向E- 外向E+ 热情 矜持,形式的 挚爱;友好,亲密 合群 少找同伴 合群,喜好同伴 武断 保持低调 武断;大声说话,带头 活跃 从容的步伐 有力的步伐 寻求刺激 很少刺激需求 渴望刺激 积极情绪 较少活力充沛 愉快;乐观
开放的六个方面(由1992年的Costa & McCrae改编),显示连续 区的两个极端: 开放的六个方面 保守O-- 冒险O+ 想象力 注意当前 富于想象;白日梦 审美观 不喜欢艺术 喜爱艺术和美 感觉 忽视感觉 重视所有感觉 动作 喜好熟悉的事物 喜好变化;尝试新东西 观念 较窄的知识点 广博的求知欲 价值 教条,保守 接收新的价值观
随和性的六个方面(由1992年的Costa & McCrae改编),显示连 续区的两个极端: 随和性的六个方面 挑战A- 顺从A+ 信任 愤世嫉俗;多疑 认为他人诚实、好意 直率 戒备;扩大真相 直率,坦诚 利他主义 不愿受牵连 愿助他人 依从 好斗;争胜 屈服于茅盾;服从 谦虚 感觉优于他人 自谦;谦卑 空想 实事求是;合理 空想;好动
责任心的六个方面(由1992年的Costa & McCrae改编),显示连 续区的两个极端: 责任心的六个方面 灵活C- 集中C+ 胜任 常感觉未好作准备 感觉有能力、有效率 秩序 无组织,不按条理 良好地组织;整洁;有 序 责任 不在意责任义务 由良心支配;可靠 成就奋斗 较低的成就需求 激励取得成功 自律 拖延;分心 集中于完成任务 考虑 自发;仓促 三思而后行
情绪状态/健康状态分类器290输出具有一定自由度的状态矢量, 对应于设计人员所选的个性及精神状态模型。精神状态/健康状态分类 器290可以累积模拟个性中一段时间的即时数据,因为这是一种持续 状态。精神状态将具有更易变化的元素。
可以通过训练分类器来识别某些特征以对健康状态进行分类,这 些特征包括例如:面部表情和面容上可见的病理;身体习惯,身体运 动及姿势、如运动的缓慢或例如跛行、麻痹等其它异常现象。健康和 精神状态分类可以响应于类似事件、如老年人无法穿上睡衣或者换衣 服,这类事件可能信号表示孤独或沮丧以及诸如药物问题之类的某种 物理问题。可以从来自电话的音频输入观察到表示问题的单词选择。
可以通过仅表示综合参数而不是语音内容来保护隐私。当然也可 以调整告警信号来保护隐私。例如,在状况不紧急或者受监视者的状 态不十分清楚的情况下,告警信号的内容可以不那么详细。
精神状态/健康状态分类器290可以输出包含它经过训练所识别的 病理列表的健康状态分类符。它可以也可以不与纯临床或医疗识别或 独特的病理相符。另外,该系统还可以经过训练以便滤出某些病理类 别或严重等级,以便对变化敏感。例如,它可能对显而易见的麻痹程 度不敏感,但对其中的增加或减少敏感。
事件/类处理器207是一种分类器,它结合了来自多个分类器的状 态信息,以产生表示系统环境的当前状态的环境/居住者状态信号,其 中包括居住者、尤其是受监视者。事件/类处理器207还可以产生事件 信号(中断信号),以便在分类器识别了某些事件、例如可能与紧急 状况相符的事件时确保即时响应。事件的识别可以从多个分类器要求 状态信息,因此,事件/类处理器207结合来自多个分类器的状态数据, 以便产生组合的状态信号和组合的事件信号。环境/状态信号可以包括 各种分类器能够识别的所有可能事件类别的指示或者只是超过了置信 度的阈值等级的那些事件类别的指示。
输出发生器415从精神状态/健康状态分类器290接收情绪/个性状 态矢量和健康状态矢量,并从输入解析器410接收所解析的应答数 据。响应发生器415还从事件/类处理器207接收环境/居住者状态信号 以及事件信号。输出发生器415从内部数据库选择一种与精神状态、 环境/居住者状态以及事件信号对应的响应类型并在需要时产生告警 输出。或者,输出发生器可以被程序设计为选择通过诸如终端116(图 1)的用户界面向受监视者或其它居住者请求其它数据的输出模板。例 如,如果各种分类器输出分量表示低置信度,该系统则会通过扬声器 114产生语音,请求与所居住场所的当前状态有关的信息。例如,如 果无法确定地检测到成年人的出现,则可以产生“有人吗”。随后, 系统使用它的其它输入装置、如视频输入255,来减少其状态及事件 信号中的模糊度。注意,可通过如美国专利序列号09/699606、 09/686831所述的对话模拟器来实现的这些功能,并且09/699577可被 嵌入本系统作为机器辅助。
跟踪数据流从视频输入255开始,将视频输入255信号提供给视 频图像分类器240。视频图像分类器240被程序设计为识别视频输入 255信号中各种不同的图像和视频序列类别。例如,它可以被程序设 计为区别坐着和躺着的人、静坐的人和焦虑不安地运动或离开某个特 定位置的人等。可产生这些类中的每一个的可能性并将其作为信号输 出。或者,可产生一个最有可能的单一类并将其作为信号输出。将这 个信号提供给事件/类处理器207,后者将该数据与其它类数据进行组 合,以便产生环境/居住者状态信号。如果事件/类处理器207从视频图 像分类器240接收出现了重要的突发情况的表示、例如受监视者或其 它居住者已经站起来并离开房间,事件/类处理器207则会产生一个事 件信号。如果精神状态/健康状态分类器290从视频图像分类器240接 收到一个信号,表示居住者正在以一种符合焦虑不安的方式进行运 动,该精神状态/健康状态分类器290则可以将这个信息与其它分类器 信号进行组合,以便产生一个表示加剧焦虑的情绪状态的情绪/个性状 态矢量。例如,音频分类器210还可以同时表示说话者的音调比平时 要高,以及输入解析器410可以表示最近所说的单词量较少。
注意,为了允许系统确定当前类或状态是否表示与以往不同的变 化,可为事件/类处理器207和精神状态/健康状态分类器290配置数据 存储能力及用于确定当前居住者的装置,从而可对不同的居住者存储 相应的历史记录。如上所述,居住者的身份可以通过视频图像分类器 240由面部识别进行或通过语音特征进行。还可以通过射频身份 (RFID)令牌、智能卡或者允许居住者用诸如指纹的生物统计指示符 或只是PIN码对其进行标识的简单用户界面进行确认。这样,精神状 态/健康状态分类器290和事件/类处理器207均可以将历史数据与特定 居住者关联,并将它用于识别发展倾向并向输出发生器415发出信号 通知。
事件/类处理器207从音频分类器210和其它分类器接收类信息, 并尝试采用其经过训练能够识别的元类对这些信息进行标识。也就是 说,它将状态的类进行组合以定义符合多种状态的整体状态。本文所 述的体系结构并不是实现本发明各种功能的唯一方式,并且事件/类处 理器207可以简单地被省略,其功能由输出发生器415取代。不过, 分离这些功能的一个优点在于:事件/类处理器207可以采用不同于输 出发生器415所用的分类器类型。例如,输出发生器415可以采用基 于规则的模板匹配器,而事件/类处理器207则可以采用训练神经网络 类型的分类器。由于输出发生器415的输出数量可以远远超过事件/类 处理器207(或其它分类器)经过训练来识别的类的数量,因此,这 些功能分配可能更加适用。这是从以下事实得出的:网络类型分类器 (如神经网络和贝叶斯网络分类器)在具有大量可能输出状态的情况 下难以训练。
视频图像分类器240的过程可包含控制接收视频信息的照相机 (由视频输入255表示)的能力。视频图像分类器240可包含一种过 程,该过程定期尝试区别房间内可以是也可以不是个体的对象,并调 整到这些个体的各种特征上。例如,每当视频图像分类器识别到一个 新的个人时,图像分类器可能尝试识别面孔在视野中的什么地方,并 定期放大该面孔以便获取面部表情信息,该信息可被用于识别这个个 人或识别这个个人的情绪和/或健康。
注意,不使用上述人工智能(AI)技术也可以设计本发明,不过, AI技术的稳固性使其成为本发明的首选。例如,可通过检测大的撞击 声的带通滤波器组以及在滤波器输出超过某个等级时设置时间锁存输 出的检测器来对音频信号进行滤波。同时,可对视频亮度信号进行低 通滤波,并且当其能量超过某个等级时,它还设置时间锁存。如果两 种锁存信号都为正(相邻时间中的高音及较大活动),系统则可以产 生告警。
告警信号可以只包括某种告警状态通知。不过,告警最好应当在 特定设计标准内尽量提供信息。例如,告警信号可以包含在触发告警 状态的事件之前或之后的音频和/或视频数据。它们可由输出发生器 415记录,通过电子邮件传送,通过蜂窝电话连接或具有视频能力的 无线多媒体装置或其它某些装置发送。还可以传送产生告警状况的元 分类的最高有效状态类的符号表示。例如,表示“高噪声”和/或出现 陌生人的符号可以由责任方发送给例如文本寻呼机。
下面参照图4,可如步骤S10所示连续缓存任意数量的信号。如 果指示了告警状况,则在步骤S15确定是否在以前忽略了此特定告警 状况。如果是,则继续缓存信号并且不采取进一步动作。如果没有忽 略此告警状况,则在步骤S20产生一条消息并在步骤S30附上缓存信 号1…N。随后在步骤S40,通过例如电子邮件传送告警消息,并在适 当的情况下,在步骤S50产生可选的实时馈送。可以在包含于电子邮 件传送或作为由自动电话呼叫传送给数字视频电话的消息中的一部分 的URL上实现实时馈送。
缓存信号可以只是表示一个或多个传感器随时间变化的状态的时 间序列。缓存信号无需是引起告警状况指示的信号。例如,在本发明 的一个实施例中,摄像机可以对准某个人的床。告警可由检测呼吸的 机械传感器(如胸带)产生。在检测到人的呼吸中止之前的瞬间所缓 存的视频信号可以是作为告警消息的一部分所发送的信号。缓冲器的 长度可根据需要而定。
每个告警可以是唯一事件,但也可由相同的持续状况、例如婴儿 或儿童一段时间无法呼吸而产生。希望对给定的告警进行确认,使不 同环境所产生的新告警状况不会与当前注意到的现有告警相混淆。处 理这种情况的一种方法是根据产生告警状况的分量的矢量为各告警指 定一个标记。相同告警状况的识别会产生另一个矢量,它可与现有告 警表进行比较(在步骤S15),以确定新的告警是否已经被忽略。可 对这些分量进行量化,以确保矢量分量中的的细微差别被识别为不 同,或者可以使用低灵敏度比较来取得相同的效果。
告警信号可通过以下任一装置进行传送。
1.自动电话呼叫,其中提供告警状况的符号表示(预先记录的短 语或合成语音)的合成语音和/或缓存音频和/或从受监视场所馈送的实 时音频。
2.无线设备,其中视频可包括上述内容加上记录和/或实时数据加 上提供相同信息的文本消息。
3.电子邮件消息,可包含与具有实时或记录数据的URL的链接, 或者可以具有嵌入的提供静止或运动图像的MIME(通用因特网邮件 扩充服务)附件。
4.广播:无线电消息、音频消息、有线控制台上的显示等。
下面是几个例示应用及使用情况。
例示1:
摄像机135、136对准在婴儿床上睡觉的孩子。麦克风112放置在 某个位置来得到婴儿床附近的声音。控制器100从照相机和麦克风接 收实时视频和音频信号,并通过相应的分类器240、210对这些信号进 行滤波并由其它分类器290和207组合信号。控制器100被程序设计 为识别婴儿脸部的正常表情。它产生表示出现面孔的信号以及表示该 脸部与预期值匹配程度的可靠性估计。控制器100还可以被程序设计 为识别其它面孔,例如婴儿、儿童的亲属及宠物。控制器100还被程 序设计为识别哭声,并产生表示出现哭喊的信号。另外,控制器100 被程序设计为识别以下事件并产生相应的信号:婴儿的正常及异常身 体习惯;表明诸如哭喊的不良情绪、满足、玩耍、沮丧等的婴儿面部 表情、快速或缓慢运动、出现的人的数量、房间内出现的新对象及其 “团点(blob)”大小(“团点”是行业术语,表示图像处理器能够 在视频图像中定义的任何封闭的连接形状的特征)、监管者的识别面 孔的情绪。
在上述例示中,可能发生以下事件。婴儿哭喊并产生告警信号。 婴儿不安定暗示生病(发烧)。婴儿的情绪由收到的表示该婴儿正常 睡觉的音频和视频信号来检测。
在告警状况的事件中,合成语音经扬声器114呼叫看护人员,请 求帮助该婴儿。告警信号包括来自告警事件之前的文本消息、缓存视 频和缓存音频。告警信号通过对讲机发送。
例示2:
居住在家中的老年人。系统包括多个布置在整个房间的视频和音 频摄像机。采用这些传感器,系统能够识别人较低的活动水平使精神 状态/健康状态分类器290所输出的全身性的负面健康分类信号的增 加。它还能够识别某种病理的增加,例如老年人髋部关节炎使对应于 关节炎病理状态的概率指标增加。它还经过训练用来识别老年人使用 表示消极情绪的文字表示所说的定期剪辑语音的检测中的挫折。它使 精神状态/健康状态分类器290在其对应于不良情绪的输出信号中产生 较高的概率指标。它还识别异常的睡眠量,同时精神状态/健康状态分 类器290表示沮丧的较高概率。
例示3:
将例2的配置(包括程序设计)结合到本例中。未识别面孔出现 在一个摄像机的视野中。它使事件/分类处理器207输出一个表示,表 示陌生人进入了老年人的住宅。精神状态/健康状态分类器290对音频 分类器的喊叫声表示作出响应,输出一个表示情绪紧张的信号。输出 发生器组合精神状态/健康状态分类器290和事件/类处理器207的信 号,并产生告警信号。
法律信息
- 2022-03-11
专利权有效期届满
IPC(主分类): G08B 21/00
专利号: ZL 02801548.7
申请日: 2002.02.21
授权公告日: 2006.11.22
- 2006-11-22
- 2004-11-10
- 2004-09-08
引用专利(该专利引用了哪些专利)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 该专利没有引用任何外部专利数据! |
被引用专利(该专利被哪些专利引用)
序号 | 公开(公告)号 | 公开(公告)日 | 申请日 | 专利名称 | 申请人 | 1 | | 2012-08-08 | 2012-08-08 | | |