立体门传感器

发明专利无效专利

申请号：
CN03823793.8
IPC分类号：G06K9/00
申请日期：
2003-08-25
申请人：
柯耐克斯公司

基础信息

权利要求

说明书

PDF全文

法律信息

引证文献

著录项信息

专利名称	立体门传感器
申请号	CN03823793.8	申请日期	2003-08-25
法律状态	权利终止	申报国家	中国
公开/公告日	2005-10-26	公开/公告号	CN1689024
优先权	暂无	优先权号	暂无
主分类号	G06K9/00 ? IPC结构图谱： G 物理 G0 仪器 G06 计算；推算；计数 G06K 数据识别；数据表示；记录载体；记录载体的处理（印刷本身入B41J） G06K9/00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置（用于图表阅读或者将诸如力或现状态的机械参量的图形转换为电信号的方法或装置入G06K 11/00；语音识别入G10L 15/00）〔1，7〕	IPC分类号	G06K9/00查看分类表>
申请人	柯耐克斯公司	申请人地址	美国马塞*** 变更专利地址、主体等相关变化，请及时变更，防止失效
权利人	柯耐克斯公司	当前权利人	柯耐克斯公司
发明人	桑贾伊·尼沙尼;大卫·A·沙茨;威廉·西尔弗
代理机构	中原信达知识产权代理有限责任公司	代理人	钟强;谷惠敏

摘要

一种基于立体成像的视觉系统(1)，用以根据观察区域(14)中3D物体的运动，监视门两侧的区域并控制门(12)的运动。该系统进行校准以提供视野中任何点的距地平面的高度。因此，当任何物体进入视野时，生成了被称为“特征”的关注点，对其相对于地平面的高度进行测量。然后，这些点在3D空间中(79)聚类以提供“物体”。然后在多个帧中跟踪这些物体以提供“轨迹”。该系统可以基于关于该物体所生成的多种信息段控制门运动(打开、关闭、停顿)。

1.一种控制门的方法，包括以下步骤：
获取进入区域的立体图像；
通过以下方式自所述立体图像计算3D特征组：
对所述立体图像执行边缘处理以生成多个连接边缘元素；
将具有大于预定阈值长度的连接边缘元素确认为特征；
匹配该特征以生成自所述图像组中的不同图像生成的视差；和
根据所述视差和摄影机的几何结构计算特征点的3D位置，
自所述3D特征组中过滤以生成过滤3D特征组；
计算所述过滤3D特征组的轨迹；和
响应于所述轨迹生成门控制信号。
2.权利要求1的方法，其中所述过滤步骤自所述3D特征组中消除地平面特征。
3.权利要求1的方法，其中所述过滤步骤自所述3D特征组中消除阴影。
4.权利要求1的方法，其中所述过滤步骤自所述3D特征组中消除背景图案。
5.权利要求1的方法，其中所述过滤步骤自所述3D特征组中消除周围灯光效果。
6.权利要求1的方法，其中所述过滤步骤消除预选的3D地域以外的特征。
7.权利要求1的方法，其中所述立体图像是通过组合由立体视觉摄影机获取的图像获取的。
8.权利要求1的方法，其中所述立体图像是通过组合由单目摄影机获取的多个图像获取的。
9.权利要求8的方法，其中所述多个图像中的至少一个图像是由所述单目摄影机通过反射光学部件获取的。
10.权利要求8的方法，其中所述多个图像中的至少一个图像是由所述单目摄影机通过折射光学部件获取的。
11.一种用于控制门的立体视觉装置，所述装置包括：
立体图像获取设备；
3D处理器，其接收来自所述立体图像获取设备的立体图像；
轨迹处理器，其接收来自所述3D处理器的包括3D物体的帧；和
门致动器，其响应于物体轨迹接收来自所述轨迹处理器的门控制信号，
其中所述3D处理器生成所述包括3D物体的帧是通过以下方式进行：确定所述立体图像获取设备的视野中的点离开地平面的高度；和在3D空间中使所述的点聚类以生成物体，以及所述过滤包括：根据所述边缘元素的链构造生成初始群；基于连续的点之间的z坐标的突然变化，将特征的链拆分为相邻的分段；和基于最小距离标准合并两个最接近的群。
12.权利要求11的装置，其中所述立体图像获取设备包括多个电子摄影机。
14.权利要求11的装置，其中相对于预定阈值接近于所述地平面的物体作为地平面噪声而被滤除。
15.权利要求11的装置，其中所述轨迹处理器通过在多个帧中跟踪所述物体来确定物体轨迹。
16.权利要求11的装置，其中所述立体图像获取设备包括被配置用于获取多个图像的单目摄影机。
17.权利要求16的装置，其中所述多个图像中的至少一个图像是通过镜子获取的。

发明领域
本发明涉及机器视觉系统，并且更特定地，涉及一种使用自动化立体视觉系统来控制门操作的方法和装置。
发明背景
多种传感器已知用于自动物体检测和控制系统。例如，光伏式传感器检测阻断可见光束或者UV光的物体。机械开关和荷重单元(load cell)通过直接或者间接接触或者通过检测物体重量来检测物体。热传感器检测辐射热的物体，而电磁传感器检测诸如改变电磁场的金属物体的物体。这些传感器典型地向逻辑电路发送信号，该逻辑电路控制机械致动器，记录物体的存在，并且/或者基于物体的存在或者不存在警告操作员。
由于这些传感器容易受到欺骗，因此它们不能良好地适用于某些应用。它们仅检测移动通过严格受限空间的某一类物体。相似地，它们不能直接地确定物体的方向和速度。这些传感器常常具有这样的问题，即在整个监视空间中或者在时间上维持均匀的灵敏度，并且它们可能是非常昂贵的。
在某些应用中，需要不止一个传感器。例如，在大部分杂货店中使用的典型的自动门控制器使用微波传感器或者超声波传感器检测接近门的人。红外线运动检测器通常被用于确定在允许门关闭之前是否有人在门口徘徊。
而且，多种基于摄影机的系统已知用于物体检测系统和控制系统。基于摄影机的系统具有另外的优点，即提供所监视空间的图像，其可以存储起来用于随后的分析。该系统典型地使用电子照相机或者电子视频摄影机，其捕获电荷耦合器件(CCD)阵列上的图像，并将该图像转化为电子数据文件用于自动分析或存储。例如，自动人脸识别系统长时间以来是实验课题，并且现在用于若干高安全性应用中。对于大部分常见的应用而言，这些系统可能是非常缓慢、昂贵或者不可靠的。
已经使用了电子视频摄影机和帧捕获处理来建立运动检测系统，其检测和跟踪捕获的视频序列的每个帧中的某些特征。例如，已知自动门控制系统逐个帧地跟踪物体的角隅并且计算关于该物体的速度矢量。该速度矢量用于确定打开还是关闭自动门。
迄今为止已知的特征跟踪系统，自单目图像序列中提取数据。该单目系统仅提供了用于计算速度矢量的二维(2-D)数据。该单目系统在使阴影和光亮效果同实际的三维物体相区别方面具有困难。在某些安全系统中，该问题恶化，例如，其中预警条件触发了报警闪光灯，而其影响了所监视空间的检测图像。
操作在2-D图像数据上的单目视频监视系统必须容许盲点或者盲区，其中在摄影机的视野中显现有规律的障碍。例如，由单目视频系统控制的某些门或者门框在每次打开时进入监视摄影机的视野。某些系统被编程为在每次开门时忽略帧或者帧分段。其他的更加精确的系统使用额外的传感器检测门随时间的实际位置，并且仅忽略其中门或者门框被期望显现出来的帧部分，例如参看转让给Spinelli的美国专利申请No.US 2001/0030689。
在第一次安装单目视觉运动检测系统时，必须使用参考图像对它们进行“训练”，以便于建立适于特定环境的参考帧。该训练常常牵涉繁重且昂贵的程序。由于在单目系统中真实3-D坐标是不用的，因此在2-D图像空间中计算、存储或者输出图像坐标。
发明概述
本发明提供了一种由来自立体视觉系统的信号控制的自动门。对入口区域的立体图像进行处理以产生视差图像。由控制器使用该视差图像以确定打开还是关闭门。
本发明的实施例使用工厂校准的立体系统，其提供视野中的点的 3D坐标。在安装时地平面相对于摄影机进行校准。仅有那些相对于地平面具有某些高度的点是得到关注的。因此，任何阴影和高亮由于它们缺乏相对于地平面的高度而被滤除。然后，直接在3D空间中使所关注的点聚类，或者使它们的投影聚类在2D空间中的地平面上。每个单独的群被认为是一个物体并且逐帧地对其进行跟踪。因此，在所选的每个帧中，可用的信息包括：物体的数量；它们在3D空间中的位置(质心)；和瞬时运动矢量(量值和方向)。使用该原始数据，可以生成事件以打开或者关闭门。
在本发明的说明性实施例中，立体门传感器(SDS)包括基于立体成像的视觉系统，用以监视诸如滑动门或者摆动门的门一侧或者两侧的区域。其中通行进入门的区域将被称为“进入区域”(incoming area)，而其中通行离开门的区域将被称为“离开区域”(outgoing area)。进入区域或离开区域的地面将被称为“地平面”。
该系统可以基于多种情况触发、不触发或者假定安全状态。例如，可以在进入区域中物体出现时触发以打开或者关闭门。可替换地，可以基于进入区域中的(多个)物体的轨迹而触发。而且，该系统可以处于这样的状态，即由于离开区域中的物体的出现而不触发或者假定安全状态(基于门的类型)。
由于本发明包括基于摄影机的系统，因此可以记录图像(在侵入情况中是有用的)并且还可以使用本发明的多种实施例收集通行流量统计。在不偏离本发明的精神和范围的前提下，根据本发明的多种实施例的逐帧运动算法还可以更加广泛地适用于许多应用。
与迄今为止已知的基于摄影机的运动检测和控制系统相关的本发明的多种实施例的其他特征和优点包括优良的阴影辨别和背景不变性。由于立体系统的3D性质，因此其较容易在阴影和实际物体之间进行辨别。相对于实际物体，阴影位于地平面上(零高度)。根据本发明的SDS(“SDS”)将与任何结构化的或非结构化的背景一同工作。这是特别重要的，这是因为在门下面会出现多种表面，即，地毯、混凝土、席垫等等。而且这些表面的外观随着时间的消逝而变化。由于本发明中的物体运动检测是基于物理坐标而非背景外观，因此在本发明的多种实施例中消除了现有领域中由阴影和高亮引起的问题。
本发明的特征还在于易于安装以及在不需要初始训练程序的情况下进行设置。SDS仅牵涉一次性安装设置，并且不需要任何类型的进一步训练。该特征提供了相对于基于单目运动的系统的独特的特征，该基于单目运动的系统通常需要参考图像用以同捕获图像进行比较。本系统的另一优点在于，与运动检测系统中所出现的情况不同，静止或者缓慢移动的物体不会变为不可见的。
本发明的特征还在于基于轨迹的触发，由此SDS能够在3D空间中分割物体，并使用定制算法跟踪它们，诸如可获得自Cognex Corp.of Natick MA的Patquick，其远优于使用标准的块匹配算法跟踪它们在2D 图像空间中的投影。
本发明的特征还在于校准的3D系统，由此SDS是以真实世界的单位进行校准的。由此本发明能够接受基于真实世界高度和距离的设置参数和触发。
本发明的特征还在于用于预定时间间隔的可选立体图像存储。该选项可以提供灾难的视频证据或者可用于在扩展周期中重新构建完全 3D场景。该扩展数据可以提供更加客观的分析基础。
本发明的特征还在于灵活的掩蔽能力。该掩蔽能力允许用户在设置过程中在2D中或者在3D中以图形方式指定待掩蔽的地域。该特征可用于，例如，考虑视野中的非定制门道或者静止背景景物。
本发明的特征还在于消除了过多的盲点。通过首先检测门框并且随后简单地忽略位于该平面上的点，可以有效地掩蔽非静止的背景，如门自行打开的运动(朝向外部区域打开)。该系统总是操作中的并且不具有任何盲区间隔。因此，相比于迄今为止的已知的运动检测和控制系统，本发明更易于使用并且更具稳健性。
附图说明
通过下面结合附图进行的针对说明性实施例的详细描述，将更加全面地理解本发明的前面和其他的特征及优点，在附图中：
图1是根据本发明的说明性实施例的立体门传感器布局的示意图；
图2和3是本发明的说明性实施例的可替换系统部件配置的示意性框图；
图4和5是示出了本发明的可替换说明性实施例的步骤的处理流程图；
图6是根据本发明的说明性实施例的立体门传感器装置的示意性框图；和
图7和8是示出了根据本发明的可替换说明性实施例的立体匹配处理步骤的处理流程图。
详细描述
参考图1描述了本发明的说明性实施例的布局。该说明性实施例包括安装在门框12顶部的立体摄影机组10，其朝向进入区域14向下且向外注视。可选地，另一摄影机组(未示出)可以安装在门框的另一侧上，其注视离开区域。本发明进行校准用以为视野中的任何点提供地平面以上的高度。因此，当任何物体进入视野时，生成了被称为 “特征”的关注点，其相对于地平面的高度得到了测量。然后，这些点在3D空间中聚类以提供“物体”。然后在多个帧中跟踪这些物体以提供“轨迹”。然后，该系统可以基于关于该物体所生成的多种信息段操作门(打开、关闭、停顿)。
在说明性实施例中，使用了下面的关于摄影机布置的几何结构。两个(或者三个)立体摄影机10观察进入区域14，并且可选地，另外两个(或者三个)立体摄影机(未示出)观察离开区域。这两组摄影机安装在门框12上方的两侧中的任何一侧上，并且自门框向下且向外注视。图1示出了仅关于进入区域的几何结构。在本说明性实施例中关于离开区域的几何结构是关于门框反射且是对称的(尽管不必需是这样)。
在示例性系统中，摄影机的光心之间的基线距离是12mm，并且镜头具有4mm的焦距(70度水平视野(HFOV))。该摄影机安装在离地约2.2米的高度，并且具有约2.5×2.5米的观察面积。与摄影机平面垂直的表面指向下且指向外，如图1所示，其中调节摄影机的角度使之刚好足够观察门框的底部。在门框的底部，示例性系统中的摄影机角度提供了进入摄影机组和离开摄影机的视野之间的某些重叠。
可以使用至少两个可行的系统配置以实现本发明。在如图2所示的第一说明性系统配置中，监视进入区域和离开区域的系统紧密地整合。帧抓取器20接收来自进入区域摄影机22和离开区域摄影机24的输入，且该输入在处理系统26上进行处理。该处理系统输出适当的控制信号27、28、29。
在如图3所示的第二说明性系统配置中，独立的系统单独地监视进入和离开区域。单独的帧抓取器30、35接收来自进入摄影机组32 或者离开摄影机组34的输入。单独的处理器31、36处理来自每个帧抓取器30、35的各自的输出。在该配置中，对离开区域的监视是可选的。如果执行了对进入区域和离开区域的监视，则一个子系统被指定为主子系统而另一子系统被指定为从子系统。这里被示为离开摄影机系统的从子系统的输出然后输入到主子系统中，其允许主子系统做出关于打开、关闭还是停顿门的最终的决定。
在本发明的说明性实施例中，在工厂中设置多种参数。该工厂设置牵涉关于摄影机的本征参数的校准和计算以及摄影机之间的相对定向。校准牵涉若干子问题的解决，如下文所讨论的，每个子问题具有若干解决方案，其为本领域的普通技术人员所公知。而且，必须计算下文所描述的校正系数以使得能够运行时间图像修正。
立体测量可以在与上述两种摄影机中的任一摄影机的坐标系统不同的坐标系统中进行。例如，场景或者世界坐标对应于观察场景中的点。摄影机坐标(左和右)对应于场景点的以观察者为中心的表示。无失真图像坐标对应于投影到图像平面上的场景点。失真图像坐标对应于经历了镜头失真的点。像素坐标对应于图像阵列中的图像采样栅格。
在说明性实施例中，一个摄影机被指定为“参考摄影机”，立体坐标系统依赖于该参考摄影机。内部定向处理被执行以确定摄影机的内部几何结构。这些参数，其还被称为本征参数，包括以下各项：有效焦距，其还被称为摄影机常数；主点位置，其还被称为图像中心；径向失真系数；和水平比例因子，其还被称为纵横比。在本说明性实施例中使用的摄影机具有焦点固定的镜头，其不能被修改；因此可以在工厂中计算这些参数并且预先设置。
还执行相对定向处理，用以通过场景中的校准点的投影确定两个摄影机之间的相对位置和定向。再一次地，摄影机是机械固定的，使得它们保持对准，并且因此这些参数也可以在工厂中预先设置。
还执行与相对定向紧密相关的校正处理。校正是重新采样立体图像的处理，由此核线对应于图像行。“对应于另一立体图像中的给定点的一个立体图像上的核线是，作为来自另一立体图像的给定点的反向透视投影的三维射线的第一立体图像上的透视投影。(An epipolar line on one stereo image corresponding to a given point in another stereo image is the perspective projection on the first stereo image of the three-dimensional ray that is the inverse perspective projection of the given point from the other stereo image.)”Robert M.Haralick & Linda G. Shapiro，Computer and Robot Vision Vol.II 598(1993)。如果左图像和右图像是共面的，并且水平轴是共线的(没有绕光轴的旋转)，则图像行是核线，并且沿相应的行可以形成立体对应。这些被称为垂直图像对的图像提供了计算上的优点，这是因为仅需要执行一次垂直图像对的校正。
用于校正图像的方法独立于针对两个摄影机的给定姿态所使用的的表示。其依赖于任何透视投影是投射的投影这一原理。对应于该两个摄影机的图像平面由具有所需的几何结构(垂直图像对)的图像平面所替换，同时使由点和投影中心所跨越射线的几何结构保持完整。这导致了平面投射变换。这些系数也可以在工厂中进行计算。
假设参数是在内部定向、相对定向和校正中计算的，则摄影机图像可以在软件或者硬件中针对失真和失准进行修正。所得的修正图像具有垂直图像对的几何结构，即，方形像素、对准的光平面、对准的轴线(行)以及针孔摄影机模型。
在本说明性实施例的工厂设置过程中还执行外部定向处理。由于已知观察场景中的3D点仅与摄影机坐标系统相关，因此需要外部定向处理。外部定向确定摄影机在绝对坐标系统中的位置和定向。绝对3D 坐标系统被建立为，XY平面对应于地平面，并且将原点选为该平面中的任意点。
在安装位置执行地平面校准。将校准靶安置在地面上，用以计算附于参考摄影机的立体坐标系统和附于地平面的世界或场景坐标系统之间的关系。
在安装位置还人工设置所关注的区域。这牵涉捕获来自参考摄影机(立体坐标系统所依赖的摄影机)的图像，校正该图像，显示该图像，并且然后使用图形叠加工具指定待监视的地域。可以预先选择多个地域，以允许不同的运行时间算法在每个该地域中运行。该多个地域典型地包括所关注的特定的3D空间。执行过滤以消除所监视的地域外部的特征。在本发明的可替换的实施例中，通过在地面上安置基准标志或者线带，可以执行自动校准。尽管存在若干方法用于执行根据本发明的立体视觉，但是下面参考图7概述了一种该方法。立体块70 采用输入图像组72A、72B、72C(右、左、顶)并且产生参考图像中的边缘或边界点的3D位置。示出了来自三个摄影机的输入，尽管在大多数情况中两个摄影机将是够用的，特别是在特征主要出现在一个定向上时。例如，如果该特征是垂直的，则水平安置的右和左摄影机将能够提供良好的3D信息，诸如门传感器应用的情况。
在边缘处理步骤75A、75B、75C中，立体算法使用特征检测方案，其包括抛物线平滑、非积分子采样(以特定的粒度)、Sobel边缘检测及随后的真实峰值检测、以及最终的链接。该特征检测方案在本领域中是已知的，并且可获得自Cognex Corp.of Natick MA的Patmax产品。边缘检测步骤75A、75B、75C导致了连接边缘元素(edgelet)(链) 的列表。仅有那些属于足够长的链的特征被传递到下一阶段。例如，仅有那些超过预定长度的链被识别为待传递的特征。在图7中，具有x、 y位置以及它们关于三个摄影机r、l、t的梯度量值(m)和角度(a) 的特征被传递到匹配器。
匹配处理(其还被称为对应处理)73A、73B用于使来自右图像 72A的特征匹配到左图像72B(水平视差)，并且还使来自右图像72A 的特征匹配到顶图像72C(垂直视差)。使用核约束来约束关于每个特征的可能匹配的初始组。然后，通过比较该边缘元素(edgelet)的强度和定向，由初始匹配强度(SOM)描述两个图像中的特征之间的匹配特性。
下一步，通过限制可允许的视差梯度，强加平滑性约束；这提供了排除歧义的能力和处理大范围的表面的能力之间的适当平衡。该步骤牵涉到，通过察看所考虑特征的邻近特征的对应，更新该每个对应的SOM。下一步，由强加唯一性的迭代“赢者全拿(winner-take-all)” 程序接管。该方法按如下方式工作：在每次迭代中，匹配强度对于形成该匹配的两个特征都是最大的那些匹配被选为是正确的。然后，由于唯一性约束，在进一步考虑中排除与这两个特征相关联的所有其他匹配。如果另外的匹配现在对于该两个组成表征具有最高的强度，则这允许将该另外的匹配选为正确的。匹配器73A、73B输出了特征点在参考图像中的x和y位置(xr、yr)以及水平和垂直方向的视差(dri、 drt)。还输出特征的角度(ar)以协助合并。
然后，将水平和垂直视差合并74以产生合并输出。在说明性实施例中，使用了非常简单的多路方案。如果特征的定向在45度和135度之间或者在225度和315度之间，则使用水平视差，否则使用垂直视差。应当注意，如果仅使用了两个摄影机，则不需要执行合并步骤74。合并74的输出是具有视差(xr、yr、d)76的多个特征点。
一旦计算了特征点的位置和视差76且摄影机的几何结构78是已知的(由于校准)，则在立体摄影机或者场景坐标系统中计算77点的 X、Y和Z位置79。
可以执行可选的分割步骤71(其还被称为聚类)。分割步骤71 返回场景中的不同的3D物体，其中每个物体包含由立体算法输出的 3D边界点的相互排斥的子集。匹配方法可以分类为基于特征的方法(如上文参考图7进行描述的)和基于区域的方法。基于特征的技术能容忍更多的视点，但是产生了稀疏的结果。区域相关(匹配)技术产生了密集的结果但是能容忍更少的视点。该区域相关算法具有非常规则的算法结构，因此更易于优化。由已知第三方系统使用的共同已知相关度测量的示例包括LOG(高斯拉普拉斯算子)变换图像的SAD(绝对差的和)。
可以使用标准的图像处理技术，如用于确定是否存在高于地平面的显著高度的直方图、斑点连通性，对密集的视差图像进行处理。然而，这些仅提供了粗略的估算。因此，所需的是，将密集的视差图转化为稀疏的点云。这可以通过仅考虑密集图中的那些“有效的”视差像素来实现。图8概述了用于使用已知的相关技术产生稀疏视差的方法。
如前文参考图7所描述的方法，参考图8描述的可替换的方法将注意力集中于边界点或者边缘(由于遮挡(occlusion)和反射比 (reflectance))，这是因为信息仅在这些点上是最可靠的。右和左图像80B、80A被校正81B、81A并且被传递到产生密集视差图(图像) 83的匹配器84。通过边缘处理器82进一步评估参考图像，如上文参考图7所描述的。边缘处理器82的输出是特征的xr、yr位置，然后其被映射到视差图像83中以评估这些点处的视差。这被称为稀疏化 (sparsification)85。稀疏化处理85的输出是具有视差(xr、yr、d) 的多个特征点，使用了解自预校准的摄影机几何结构88可以容易地将其转化为3D X、Y、Z坐标87。
根据图7和8的立体匹配步骤生成了特征点(边缘或者边界点)，其具有在这些点处的3D信息。参考图4描述该3D点的进一步的处理。
在立体/聚类步骤(诸如上文参考图7和8描述的步骤)中，将该 3D点从以摄影机为中心的坐标系统变换到附于地平面的世界坐标系统。可选地，随后3D点进行聚类，由此一旦提取了图像中特征处的 3D点，则它们被分割为相互排斥的子集。每个子集对应于场景中的不同的物体。
标准的聚类技术可用于形成3D点的群。有效率的技术是归并分层的聚类(agglomerative hierarchical clustering)。通过使用边缘元素 (edgelet)的链构造首先获得了初始群。基于连续的点之间的z中的突然变化，该特征的链被拆分为相邻的分段(该理论是，如果它们在图像坐标上是相邻的并且具有相似的z值，则它们对应于相同的物体，且因此对应于相同的群。)现在，这些分段中的每一个对应于潜在单独的群。下一步，基于“最小距离”标准，合并两个最接近的群。这与贪婪的最小扩张树算法相似。该算法迭代，直至获得了所需的群数量或者“最小距离”大于特定阈值。
上文的技术在3D中聚类，然而，下文概述的技术通过使用约束将问题简化为2D问题。所使用的约束将物体安置在3D空间中的平面中。这在典型的应用中不是非常不利的限制。用于分割为不同物体的标准是，沿特定平面的物体之间的最小距离(2D距离)超过了预设的间距阈值。因此，不言自明，物体在该平面中的投影不会重叠。再一次地，这不是非常不利的，这是因为物体位于该平面上，并且物体的表面通常与该平面垂直。
下一步，执行过滤步骤41，其中滤除在地面上的或者与之接近的所有点。忽略由关注区域掩蔽的任何点，该关注区域是在安装过程中设置的。由于3D坐标系统首先附于地平面，因此假设该平面的表面法线是z轴。这允许选择任意的原点、x轴和y轴。由于物体被限制位于已知的(x，y)平面，因此根据物体如何在该平面中隔开(考虑沿xy平面的2D距离)来分割物体。
在说明性实施例中，所有的3D点首先转化到地平面坐标系统。下一步，距离过远或者过近(范围)的点、过于偏左或者偏右(横向距离)的点、过度高于x-y平面(物体高度)或者过度接近x-y平面的点被消除。消除与地平面接近的点有助于去除阴影和平面的表面特征。然后，未被滤除的剩余点投影到地平面中。然后，这可以转化为2D图像，并且使用标准的2D的标记/斑点连通性以获得不同的区域，即，像素集合，其中每个像素表示多个特征点。
然后执行评分步骤42，其中使用评分函数评估所得的点。累积该分值并且将其同预定的阈值进行比较，以确定物体存在43还是不存在 44。在说明性实施例中，该分值对于每个群是独立累积的。然后，将该阈值按照与所生成的所有点相反的方式应用到每个群。这可以是更加稳健性的，特别是在场景产生了许多隔离的误匹配时，但是是以更大的计算能力为代价的。
通过参考图5描述了可替换的算法，其中该算法的第一部分与图 4的算法相似，不同的是，聚类不再是可选的，而是强制的。一旦检测到物体(群)，则执行轨迹计算步骤，其中计算该群的运动矢量，以进一步验证关于物体是52否53朝向门前进的结果。
通过估算图像序列中的帧组中的2D运动场或者光流(视动)，执行运动估算。大量的运动估算技术在本领域中是已知的。运动估算与视差估算共有某些相似性，诸如用于立体视觉系统的特征和相关匹配。在具有帧之间的短时间间隔的应用中，可以使用其他的微分技术，诸如光流方法。然而，在门传感器应用的说明性实施例中，没有作出有关帧之间的时间间隔是短的假设。因此，在说明性实施例中未使用光流技术。一个已知的运动估算方法牵涉跟踪，由此通过使用逐帧的运动估算或者通过隐性得到该估算，随时间追踪元素。可以使用块匹配方案(广泛地用于运动补偿和视频压缩)或者区域相关方案(如立体匹配中使用的)估算帧之间的运动。
说明性实施例使用了组合基于特征的相关和基于区域的相关的唯一算法。属于物体的点已经分割到给定的帧中。根据该唯一相关算法，通过使后继帧中的期望物体位置的周围区域中的这些特征相关，在该后继帧中确定这些点。在时刻t-1，每个物体特征点包含权重、x和y 位置以及方向。在时刻t，校正参考图像被认为是“运行时间图像”。该图像运行穿过与上文描述的边缘处理器相似的边缘处理器，用以产生梯度量值和角度图像。在粗相关(Coarse correlation)步骤中，训练探测器与角度图像相关，所使用的相关度测量是绝对差的和。在细相关步骤中，使用量值图像产生较锐利的相关峰值。
该技术具有优于标准的区域相关技术的优点。例如，在标准技术中，相关的块或区域具有不同的运动矢量。这产生了差的相关值，并且在某些情况中，产生了错误的相关矢量。根据本说明性实施例的算法受益于这一事实，即所跟踪的物体已被分割。因此本说明性算法仅将注意力集中于这些特征点，并且试图在(多个)后继帧中寻找它们。
一旦针对给定的物体计算了从帧t到t-1的运动矢量，则已知了多种物体点之间的对应。由于这些点的3D位置是已知的，因此可选地，可以计算3D运动。通过假设物体的直线运动，该算法可以无影响地扩展到多个帧以获得平滑化的轨迹。另一算法扩展是使用过滤技术。使用当前输入、过去输入和输出来过滤结果，用以产生当前输出。另一扩展是使用Kalman过滤器。参看R.E.Kalman的“A New Approach to Linear Filtering and Prediction Problems，Transaction of the ASME (March 1960)”，其在此处并入列为参考。该Kalman过滤器是用于在动态系统中执行递增实时估算的有利技术。其允许随时间的信息整合，并且相对于系统和传感器噪声是稳健性的。
事件生成逻辑取决于若干因素：门类型、可选的离开区域系统的存在，使用中的算法。应当注意，单一的系统自身可能具有多个使用中的算法。该逻辑采用来自多种系统中的多种地域的输出，并且将其整合以提供可以直接用于控制门运动的事件。参考图6描述了说明性的立体门传感器装置。立体图像获取设备60，例如，获取监视场景的立体图像的一对机器视觉摄影机是固定的并且瞄准观察区域。在说明性实施例中的该观察区域是门附近的进入区域。
图像获取设备60(典型地通过硬导线)与3D处理器62通信。3D 处理器62根据上文描述的任何方法计算观察场景中3D物体的位置，并且滤除背景2D效果，诸如阴影、图案或者预警灯光效果。3D处理器62可以是能够执行至少上文所述的最小处理步骤的任何处理设备或者块，用于计算3D物体组和滤除2D背景信息。个人计算机、专用处理器或者许多处理设备能够用作根据本发明的3D处理器。本领域的普通技术人员应认识到，该3D处理器还可以是孤立的软件块或者是在较大的软件程序中运行的软件块。
轨迹处理器66与3D处理器64通信，并且自其接收物体的3D位置。轨迹处理器66可以是诸如个人计算机的硬件处理器或者能够执行上文所述的轨迹计算步骤的软件块。在说明性实施例中，轨迹处理器 66基于物体轨迹生成控制信号(即，打开、关闭或者停顿信号)，并且将控制信号传递到门致动器66，其基于该控制信号操作门。
尽管此处根据本发明的说明性实施例描述了多种校准方法，但是本领域的普通技术人员应当认识到，在不偏离本发明的精神和范围的前提下，可以使用许多的校准方法。例如，参看参考1～4。尽管在工厂中使用工厂设置程序设置此处描述的说明性实施例，但是本领域的普通技术人员应当认识到，在不偏离本发明的范围的前提下，还可以执行任何所描述的设置步骤。
尽管内部定向处理用于根据摄影机常数、图像中心、径向失真系数和纵横比确定摄影机的内部几何结构，但是本领域的普通技术人员应当认识到，在不偏离本发明的范围的前提下，可以添加额外的本征参数或者在可替换的实施例中可以忽略这些参数中的一些参数。
尽管在安装位置执行了此处描述的说明性实施例中的地平面校准，但是本领域的普通技术人员应当认识到，在不偏离本发明的精神和范围的前提下，也可以在工厂中或者在供替换的位置执行地平面校准。
尽管在此处描述的说明性实施例中通过执行抛物线平滑、非积分子采样(以特定的粒度)、Sobel边缘检测及随后的真实峰值检测、以及链接来执行边缘处理，但是本领域的技术人员应当认识到，在不偏离本发明的精神和范围的前提下，在边缘处理步骤中可以使用许多的本领域所知的边缘处理方法。
尽管此处根据两个摄影机立体视觉系统描述了本发明，但是本领域的技术人员应当认识到，在不偏离本发明的范围的前提下，可以使用单一的摄影机自不同的位置获得两个或者更多的图像以提供立体图像。例如，摄影机可以在多个位置获得单独的图像。可替换地，多个光学部件可被配置用于向静止的摄影机提供多个连续的景象，以用作根据本发明的立体图像。该光学部件包括反射光学部件，例如，镜子，以及折射光学部件，例如，透镜。
尽管此处描述了说明性实施例的匹配步骤，其中由实现平滑性约束之前的匹配强度描述匹配特征的特性，但是本领域的普通技术人员应当认识到，在不偏离本发明的精神和范围的前提下，可以替换多种可替换的匹配处理，诸如LOG(高斯拉普拉斯算子)变换图像的SAD (绝对差的和)等等。
尽管此处描述的本发明的说明性实施例包括合并步骤，其使用具有特定定向限制的简单的多路方案，通过该特定的定向限制使水平视差同垂直视差相区别，但是本领域的普通技术人员应当认识到，在不偏离本发明的精神和范围的前提下，这些限制在某种范围上是任意的，并且可以拓宽或者缩窄。
尽管通常根据用于选择性地打开、停顿或者关闭门的立体门传感器来描述本发明的说明性实施例，但是本领域的技术人员应想象到保安、安全、运动控制和多种其他应用中的本发明的可替换的实施例。例如，当人或者物体进入特定区域或者在该区域或通道中以特定方向移动时，根据本发明的立体视觉系统可用于触发报警。例如，如果检测到汽车在高速公路或者出口坡道上以错误的方向行进，则本发明的可替换的说明性实施例可以触发报警信号或者关闭门。
尽管根据过滤具有离开地平面的预定高度的物体而描述了本发明的说明性实施例，但是本领域的普通技术人员应当认识到，在不偏离本发明的精神和范围的前提下，根据本发明的立体视觉系统还可以过滤具有离开任意平面(诸如墙壁)的预定距离的物体。
尽管通过示例性实施例示出和描述了本发明，但是本领域的普通技术人员应当认识到，在不偏离本发明的精神和范围的前提下，可以进行形式和细节上的多种其他修改、删节和增补。
相关申请的交叉参考
本申请要求在2002年9月5日提交的题为“Stereo Door Sensor” 的美国临时专利申请Serial No.60/408,266的优先权。