一种基于加速度传感器的手势识别的方法

发明专利有效专利

申请号：
CN200910154018.6
IPC分类号：G06K9/00;G06F3/01
申请日期：
2009-10-22
申请人：
浙江大学

基础信息

权利要求

说明书

PDF全文

法律信息

引证文献

著录项信息

专利名称	一种基于加速度传感器的手势识别的方法
申请号	CN200910154018.6	申请日期	2009-10-22
法律状态	暂无	申报国家	中国
公开/公告日	2010-04-14	公开/公告号	CN101694692A
优先权	暂无	优先权号	暂无
主分类号	G06K9/00 ? IPC结构图谱： G 物理 G0 仪器 G06 计算；推算；计数 G06K 数据识别；数据表示；记录载体；记录载体的处理（印刷本身入B41J） G06K9/00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置（用于图表阅读或者将诸如力或现状态的机械参量的图形转换为电信号的方法或装置入G06K 11/00；语音识别入G10L 15/00）〔1，7〕	IPC分类号	G;0;6;K;9;/;0;0;;;G;0;6;F;3;/;0;1查看分类表>
申请人	浙江大学	申请人地址	浙江省杭州市西湖区智汇众创中心1号楼801-804室变更专利地址、主体等相关变化，请及时变更，防止失效
权利人	浙江浙大西投脑机智能科技有限公司	当前权利人	浙江浙大西投脑机智能科技有限公司
发明人	潘纲;吴嘉慧;张大庆;吴朝晖;李石坚
代理机构	杭州天勤知识产权代理有限公司	代理人	胡红娟

摘要

本发明公开了一种基于加速度传感器的手势识别的方法，其步骤如下：(1)利用手持设备检测并记录用户一个手势的三维加速度数据序列；(2)对三维加速度数据序列分帧处理；(3)帧内特征描述子提取；(4)整体特征描述子的形成；(5)基于支持向量机的手势数据集模型训练；(6)基于支持向量机的动作识别。本发明的积极效果在于减低手势识别过程中环境和用户的依赖性，已经减低加速度信号中噪点和变化得影响，从而提高手势识别的性能。

1.一种基于加速度传感器的手势识别的方法，其步骤如下：
(1)利用三维加速度传感器检测手持该三维加速度传感器的用户整个手势变化过程中相对于三维加速度传感器的三维加速度数据序列；
(2)将所述的三维加速度数据序列进行帧间等长的分帧处理，得到的每个帧为三维加速度数据子序列；
(3)将步骤(2)中得到多个三维加速度数据子序列分别进行帧内三维加速度数据序列的信号特征提取，并将该三维x轴、y轴、z轴上的多个不同的信号特征连接成一个帧内特征描述子；所述的信号特征为：
a)x轴、y轴、z轴三个维度上的加速度时域上的方差；
b)加速度两两维度时域上的相关度；
c)x轴、y轴、z轴三个维度上的加速度频域上的直流分量；
d)x轴、y轴、z轴三个维度上的加速度频域上的交流分量的能量均值；
e)x轴、y轴、z轴三个维度上的加速度频域上的交流分量的信息熵；
(4)将步骤(3)中得到的一个手势的多个帧的帧内特征描述子连接成一个整体特征描述子；
(5)对不同种类的手势按步骤(1)分别检测并记录其三维加速度数据序列，以作模型训练所需的数据样本，并按步骤(2)-(4)得到每个三维加速度数据序列的整体特征描述子，运用多类支持向量机模型对所有整体特征描述子进行建模和参数训练得到在整体特征描述子张成的向量空间中不同种类手势的分界面；
(6)按步骤(1)检测并记录一个新的手势三维加速度数据序列，按步骤(2)-步骤(4)对该三维加速度数据序列进行整体特征描述子的计算，利用步骤(5)训练得出的支持向量机模型的向量空间中不同种类手势的分界面对新的手势数据进行分类识别。
2.根据权利要求1所述的基于加速度传感器的手势识别的方法，其特征是：步骤(2)中在对三维加速度数据序列进行分帧处理时，不同种类手势使用相同分帧数目。
3.根据权利要求1所述的基于加速度传感器的手势识别的方法，其特征是：步骤(2)中在对三维数据序列进行分帧处理时，各帧等长，但帧与帧之间有50％的重叠。

一种基于加速度传感器的手势识别的方法\n技术领域\n[0001] 本发明涉及一种基于加速度传感器的手势识别的方法，尤其涉及一种采用分帧处理、帧内提取时域与频域信号特征来分析三维加速度数据序列，并以多类支持向量机为模型进行手势分类和识别的方法。\n背景技术\n[0002] 随着电器和计算设备在日常生活中的应用越来越广泛，推进各种不同模态的新型人机交互方式的发展成为计算技术研究的热点。其中以用户的动态手势与设备进行交互的方式具有广泛的应用前景，特别是家用电器控制、手持设备(如手机)控制等领域。\n[0003] 传统的手势识别是基于计算机视觉技术实现的。该技术对周围环境的光线和用户所处的位置和方向都有强烈的依赖性，显然不能满足用户多变的日常使用的实际要求。已有的基于加速度传感器的手势识别方法多采用手势过程中加速度信号的时域信息，如隐马尔可夫模型、动态时间规整模型等，使得识别过程中对信号噪点和信号的变化非常敏感，限制了手势识别的准确率。\n发明内容\n[0004] 本发明的目的在于减低已有的手势识别技术中对周围环境和用户位置的高依赖性以及识别过程中噪点和信号变化带来的限制，而提供一种基于加速度传感器的、采用分帧和同时利用信号时域和频域特征的手势识别的方法。\n[0005] 一种基于加速度传感器的手势识别的方法，其步骤如下：\n[0006] (1)利用三维加速度传感器检测手持该三维加速度传感器的用户整个手势变化过程中相对于三维加速度传感器的三维加速度数据序列；\n[0007] 通过装有三维加速度传感器的手持设备(如手机、游戏机控制器、遥控器等，三维加速度传感器则可以采用现有技术)检测用户某个独立的、包含某种语意或表达某种意图的动态手势，并记录该手势从开始到完成的整个过程中由加速度传感器检测的、相对于加速度传感器前后方向x轴、左右方向y轴、上下方向z轴的三个正交方向的加速度数据列(称为三维加速度数据序列)；\n[0008] 步骤(1)中的三维加速度数据序列G采用下述方法标记：\n[0009] G＝(ax，ay，az)，式1\n[0010] 其中ax、ay、az分别表示在前后方向x轴、左右方向y轴、上下方向z轴的三个正交方向的加速度数据序列，而就某一方向上加速度数据序列可以表示为T＝x，y，z，即下标T可以表示x、y或z轴，L为的加速度数据\n序列长度，这样三维加速度数据序列T轴上在第i个加速度数值可以用aTi表示。\n[0011] (2)三维加速度数据序列分帧处理：\n[0012] 将步骤(1)中记录下来的三维加速度数据序列进行帧间等长的分帧处理，得到的每个帧称为三维加速度数据子序列；\n[0013] 步骤(2)将三维加速度数据序列G首先分帧的方法具体为：现将为三维加速度数据序列G分为N+1段，其中每两个相邻的段组成1帧，共N帧。上述分帧方法的特征为各帧等长，相邻两帧之间具有50％重叠。其中第k个三维加速度数据子序列Rk采用下述方法描述：\n[0014] Rk＝(rx，k，ry，k，rz，k)，k＝0，...，N-1，式2\n[0015] 式3\n[0016] 式4\n[0017] 其中rT，k表示第k个三维加速度数据子序列T轴上的加速度子序列，i\n表示三维加速度数据子序列rT，k的长度，rT，k 表示三维加速度数据子序i\n列rT，k的第i个的加速度数值。由于Rk是G的子序列，rT，k 的值可从G中获得，其对应关系见式4。\n[0018] 步骤(2)中N为一个固定的整数值，取值根据实际应用以及手势完成的时间长短取值，一般为4至15中任一整数。\n[0019] (3)帧内特征描述子提取\n[0020] 将步骤(2)中得到N个三维加速度数据子序列分别进行帧内三维加速度数据序列信号特征提取，并将该三维x轴、y轴、z轴上的多个不同信号特征连接成一个帧内特征描述子；\n[0021] 步骤(3)中的信号特征采用信号理论中的时域和频域信号特征，共5种。\n[0022] 可以参见 Ling Bao，Stephen S.Intille.Activity Recognition fromUser-Annotated Acceleration Data：PERVASIVE 2004，LNCS 3001，pp.1-17，2004；\n以及Nishkam Ravi，Nikhil Dandekar，Preetham Mysore，Michael L.Littman.Activity Recognition from Accelerometer Data.Proceedings of the17th conference on Innovative applications of artificial intelligence，2005。\n[0023] 对于第k个三维加速度数据子序列Rk，特征1采用x轴、y轴、z轴三个维度上的加速度时域上的方差σT，k，T＝x，y，z：\n[0024] 式5\n[0025] 式6\n[0026] 其中rT，ki见式4，rT，k表示三维加速度数据子序列Rk在T轴的所有加速度值在时域上的均值。\n[0027] 对于第k个三维加速度数据子序列Rk，特征2采用加速度两两维度时域上的的相关度 T1，T2＝x，y，z：\n[0028] 式7\n[0029] 式8\n[0030] 其中表示三维加速度数据子序列Rk上T1轴和T2轴的相关度。\n[0031] 采用快速傅里叶变换分别将三维加速度数据子序列Rk的x轴、y轴、z轴时域上数据子序列{rT，ki}，T＝x，y，z转换到频域上的数据子序列{tT，kn}，T＝x，y，z：\n[0032] 式9\n[0033] k＝0，...，N-1，\n[0034] n＝0，...，Ls·2-1.\n[0035] 对于第k个三维加速度数据子序列Rk，特征3采用x轴、y轴、z轴三个维度上的加速度频域上的直流分量μT，k，T＝x，y，z：\n[0036] 式10\n[0037] 对于第k个三维加速度数据子序列Rk，特征4采用x轴、y轴、z轴三个维度上的加速度频域上的交流分量的能量均值εT，k，T＝x，y，z：\n[0038] 式11\n[0039] 对于第k个三维加速度数据子序列Rk，特征5采用x轴、y轴、z轴三个维度上的加速度频域上的交流分量的信息熵作为帧内特征描述子δT，k，T＝x，y，z：\n[0040] 式12\n[0041] 式13\n[0042] 其中pT，ki表示第i个交流分量的权重占所有交流分量权重总和的比例。\n[0043] 按上述方法，计算得出第k个三维加速度数据子序列Rk的5种×3维＝15个的(k)\n信号特征，并简单连接成帧内特征描述子τ ：\n[0044] τ(k)＝(σx，k，σy，k，σz，k，\n[0045] γx～y，k，γy～z，k，γz～x，k，\n[0046] μx，k，μy，k，μz，k，.式14\n[0047] εx，k，εy，k，εz，k，\n[0048] δx，k，δy，k，δz，k)\n[0049] (4)整体特征描述子的形成\n[0050] 将步骤(3)中得到的一个手势的N个帧的帧内特征描述子简单连接成一个整体特征描述子；\n[0051] 整体特征描述子τ表示为：\n[0052] \n[0053] 式15\n[0054] \n[0055] 其中τi(k)表示帧内特征描述子τ(k)的第i个元素。\n[0056] (5)基于支持向量机的手势数据集模型训练\n[0057] 对不同种类的手势按步骤(1)分别检测并记录其三维加速度数据序列，以作模型训练所需的数据样本，并按步骤(2)-(4)对每个三维加速度数据序列进行整体特征描述子的计算，最后采用基于结构化输出的多类支持向量机算法，可以参见I.Tsochantaridis，T.Hofmann，T.Joachims，and Y.Altun.Support Vector Learning for Interdependent and StructuredOutput Spaces，ICML，2004.对所有整体特征描述子进行建模和参数训练，最终得到在整体特征描述子张成的向量空间中不同种类手势的分界面；\n[0058] (6)基于支持向量机的手势识别\n[0059] 按步骤(1)检测并记录一个新的手势三维加速度数据序列，按步骤(2)-(4)对该三维加速度数据序列进行整体特征描述子的计算，\n[0060] 利用步骤(5)训练得出的支持向量机模型的向量空间中不同种类手势的分界面对新的手势数据进行分类识别。\n[0061] 本发明的积极效果在于减低手势识别过程中环境和用户的依赖性，已经减低加速度信号中噪点和变化得影响，从而提高手势识别的性能。\n附图说明\n[0062] 图1是本发明的流程图；\n[0063] 图2是本发明的三维加速度传感器；\n[0064] 图3是本发明的分帧示意图；\n具体实施方式\n[0065] 本发明的步骤如图1所示，\n[0066] (1)利用 Wiimote检测并记录用户的手势：\n[0067] 用户手持内置了三维加速度传感器的 Wiimote游戏控制器不同种类的动态手势。加速度数据序列中的x轴、y轴、z轴是相对于加速度传感器建立的三维坐标系，其中前后方向为x轴，左右方向为y轴，上下方向为z轴，见图2。数据采用率为100Hz。\n用户手势的开始与结束通过按按钮来标识。用户手势的三维加速的数据序列通过蓝牙通讯发送至计算机端。手势的三维加速的数据序列\n[0068] G＝(ax，ay，az)，式16\n[0069] 以文件形式记录在计算机内，其中 T＝x，y，z表示T轴\n上长度为L的加速度数据序列。根据Wiimote内置的三维加速度传感器的物理性能，aT0的量纲为重力加速的g，取值范围为[-3，3]。\n[0070] (2)三维加速度数据序列分帧处理\n[0071] 设一个手势样本的三维加速的数据序列G的长度为L。L根据具体的手势样本确定。参数N取N＝9，我们将手势样本的三维加速的数据序列G为10段，其中每两个相邻的段组成1帧，共9帧，见图3。根据上述的方法，每段的长度应为每帧\n的长度应为为了方便描述，我们把每个帧的三维加速度数据子序\n列形式化地写成Rk：\n[0072] Rk＝(rx，k，ry，k，rz，k)，k＝0，...，N-1，式17\n[0073] 式18\n[0074] 式19\nn\n[0075] 其中rT，k表示第k个三维加速度数据子序列T轴上的加速度子序列，rT，k 表示序n\n列的rT，k的第n个的加速度数值。由于Rk是G的子序列，rT，k 的值可从G中获得，其对应关系见式4。\n[0076] (3)帧内特征描述子提取\n[0077] 将步骤(2)中得到N个三维加速度数据子序列分别在x轴、y轴、z轴上提取信号特征σT，k， μT，k，εT，k，δT，k。计算方法如下：\n[0078] 式20\n[0079] 式21\n[0080] 式22\n[0081] 式23\n[0082] 式24\n[0083] 其中，\n[0084] \n[0085] \n[0086] \n[0087] \n[0088] 按上述方法，计算得出第k个三维加速度数据子序列Rk的5种×3维＝15个的(k)\n信号特征，并简单连接成帧内特征描述子τ ：\n[0089] τ(k)＝(σx，k，σy，k，σz，k，\n[0090] γx～y，k，γy～z，k，γz～x，k，\n[0091] μx，k，μy，k，μz，k，式25\n[0092] εx，k，εy，k，εz，k，\n[0093] δx，k，δy，k，δz，k)\n[0094] (4)将步骤(3)中得到的一个手势的9个帧的帧内特征描述子简单连接成一个整体特征描述子；整体特征描述子τ表示为：\n[0095] \n[0096] 式26\n[0097] \n[0098] (5)基于多类支持向量机的手势数据集模型训练\n[0099] 我们要求10位用户做手持Wiimote做12种不同的手势，包括向左、向右、向后、向前、圆圈、方框、直角、字母C、字母S、字母V、字母W、字母Z。每种手势做28次，组成一个规模为10×12×28＝3360的手势数据集。按步骤(2)-(4)对手势数据集分别进行分帧，特征提取，最后使得每一个手势样本均被一个整体特征描述子表示。\n[0100] 多类支持向量机模型训练算法以手势数据集中所有样本的整体特征描述子作为输入，以一个多类支持向量机模型M作为输出；采用基于结构化输出的多类支持向量机算法实现一对多的多类分类策略(winner-takes-all)；核函数采用一次线性核函数。\n[0101] 为了检验模型的有效性，我们通过4折交叉确认方法来验证。将手势数据集中每个用户的数据分为4组，每组均包含了12种不同的手势，每种手势7个样本。每次实验选取某一个用户4组手势中的中3组作为训练数据集，另外1组作为测试数据集。因此实验总共进行次。40次实验结果的平均识别准确率为95.21％。\n[0102] (6)基于支持向量机的手势识别\n[0103] 按步骤(1)检测并记录一个新的手势三维加速度数据序列，按步骤(2)-步骤(4)对该三维加速度数据序列进行整体特征描述子的计算，最后利用步骤(5)训练得出的支持向量机模型M对新的数据样本分类识别。

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
1	CN1218936A	1999-06-09	1998-09-25	手势识别装置失效专利	松下电器产业株式会社;邮政省通信总会研究所
2	CN101344816A	2009-01-14	2008-08-15	基于视线跟踪和手势识别的人机交互方法及装置失效专利	华南理工大学

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
该专利没有被任何外部专利所引用！

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供