基于云计算的CV移动交互应用研究头部姿态估计综述

发表于2017-07-21
评论2 3.8k浏览

本文作者:范传康

| 导语 随便说说,其一,项目的原名是“CV移动交互应用的前后台框架,为了高大上,起了个云计算;其二,这是动手写的第一篇,不过在规划里面第二篇,第一篇项目概述没想好;这篇文章主要来之IEEE的一篇文章,是CV算法实现方案的指导性综述。

概述

1)定义

头部姿态估计(Head Pose EstimateHPE):利用计算机视觉和模式识别的方法在数字图像中判断人头部的朝向问题;头部姿态估计是一个空间坐标系内识别头部的姿态方向参数,也就是,头部位置参数(x,y,z)和方向角度参数(Yaw,Pitch,Roll)

按照估计结果的不同,分为离散的粗糙头部姿态估计(单张图像)、连续的精细头部姿态估计(视频)。

2)应用

         近年来,主要应用有:

智能人机交互(User Interface

u  取代鼠标:头部姿态和注视跟踪

u  识别人的注意力角点

u  疲劳驾驶检测

u  人的行为的理解和分析

人脸身份识别

u  姿态正则化

u  基于模型的面部识别

游戏和娱乐

u  头部运动驱动的游戏

u  虚拟社交(换脸)

u  用户测试分析(注意力)

 

头部姿态估计的方法

基于视觉的头部姿态跟踪和识别技术不仅是一个重要的理论问题,还有着显著的应用前景,因此吸引了国内外众多研究机构的重视。国际上开展头部姿态跟踪研究的有麻省理工学院人工智能实验室、卡内基梅隆大学机器人研究所、瑞士洛桑联邦理工学院((EPFL)计算机视觉实验室、微软Redmond研究院等著名的研究单位。国内也有许多高校和科研机构开展了头部跟踪的相关研究,比如北京大学视觉与听觉信息处理国家重点实验室、清华大学人机交互与媒体集成研究所、中科院自动化所模式识别实验室、上海交通大学系统控制与信息处理教育部重点实验室、南京大学计算机科学与技术系、东南大学学习科学研究中心情感信息处理实验、西安交通大学人工智能与机器人研究所等单位、浙江大学计算机学院等。

经过近20年的研究,已经出现了多种基于视觉的头部姿态估计方法。按照判断头部姿态技术的不同可以分为八种类型(E. Murphy-Chutorian and M.M. Trivedi. Head pose estimation in computer vision:A survey. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 2009.)。

1)模板匹配方法(Appearance Template Methods)

模板匹配的头部姿态估计,具体来说就是选择一些标注了头部姿态的图像作为样本集,如图所示。识别时,把当前图像与样本集中的图像进行对比,找到与当前图像最接近的样本,

并把该样本的姿态作为当前图像的头部姿态。

基于模板匹配的技术与其它方法相比具有实现简单的优点,可以随着使用环境和人员的不同随时对样本库进行扩展。只要采集一些包含头部信息的图像并标注每个图像的头部姿态就可以生成样本库,不需要采集反样本图像,也不需要识别人脸特征点。基于模板匹配的技术同时适合高分辨率和低分辨率图像的识别。

基于模板匹配的技术也有很多不足。首先,头部姿态参数的精度受到模板个数的影响,如果模板个数较少,姿态参数的精度会比较低,如果模板的个数较多,又会带来较大的计算量。当样本集里有很多人的样本时,模板匹配会受到不同头部姿态和不同人脸的双重影响,导致姿态参数的误差较大。

2)多分类器方法(Detector Arrays)

针对不同姿态的人脸训练相应的识别器,然后把多个识别器同时使用,选择匹配程度最高的识别器对应的姿态作为当前图像的头部姿态。和基于模板匹配的方法一样,基于多个分类器的方法也是直接对图像进行处理。

与基于模板匹配方法相比,基于多个分类器的方法具有多个优点。通过采用多个训练样本,可以克服人脸外观的局部变化对头部姿态识别的影响,并且同时适合高精度和低精度的人脸图像。另外不需要单独的头部检测和定位即可完成对头部姿态的估计。其不足之处是需要训练大量的分类器才能识别较多的头部姿态,此外还要提供大量不包含人脸的图像作为反样本,这会增加分类器的训练时间。如果分类器的数量较多的话,对某个识别器的正样本很可能成为另一个识别器的反样本,影响姿态识别的结果。同时具有人脸检测和姿态识别的功能,使训练过程包含很多重复。

 

3)非线性回归方法(Nonlinear Regression Methods)

         非线性回归方法通过学习从图像空间到一个或者多个姿态方向的非线性函数映射来估计头部姿态。

非线性回归方法(神经网络方法)的有点很多,这些系统非常快,只需要提供一组标注了姿态参数的人脸图像就可以方便的完成训练,在近场和远场图像中工作很好;在实践中精度也相对最精确。

这类方法的主要缺点是他们容易出现头部不稳定的错误。

 

4)歧管嵌入方法(Manifold Embedding Methods)

 

歧管嵌入方法寻找模型头部姿势连续变化的低维歧管。新图像可嵌入到这些歧管中,然后用于嵌入模板匹配或回归。

上述的歧管嵌入技术都是线性或非线性方法。线性技术具有嵌入可以通过矩阵乘法执行的优点,但是它们缺乏非线性技术的表示能力。作为这些方法的结合,全局头部在台歧管可以由一组局部线性歧管近似。这已经用于PCALDALPP的头部姿态估计。

5)柔性模型方法(Flexible Models )

         柔性模型将非刚性模型与图像平面中个人的面部结构相结合。从特征级比较或模型参数的实例中估计头部姿势。

AAM(Active Appearance Model)是一种典型的柔性模型。使用AAM通过迭代逐步接近人脸图像,所以能较好的克服头部检测误差的影响,获得准确的头部姿态。AAM的主要问题是训练过程中对所有的训练图像都要标注人脸特征,这限制了该方法对大范围头部旋转的支持,因为此时人脸图像的很多特征点已变的不可见。另外,AAM也不能跟踪分辨率较低的远景人脸图像。

 

6)几何关系方法(Geometric Methods)

几何方法使用诸如眼睛,嘴巴和鼻尖等特征的位置来确定其相对配置的姿势。

 

此类方法过程简单,使用几个特征点就可以得到头部姿态检测结果,但检测过程中不能出现特征点的丢失和遮挡,同时获得的姿态参数的精度也比较低。远场图像是有问题的,因为分辨率可能使得难以或不可能精确地确定特征位置。

 

7)跟踪方法(Tracking Methods)

跟踪方法从观察到的视频帧之间的移动中恢复头部的全局姿态变化。

跟踪方法的主要优点是通过发现视频帧之间的小姿态位移,能够以高精度跟踪头部。在这种跟踪配置中,这些方法始终优于其他头姿态估计方法。通过基于模型的跟踪的另一个优点是能够动态地构建个人头部的个性化原型,避免外观变化的不利影响。

跟踪方法的难度在于准确地初始化位置和姿势,以生成新模型或调整现有模型。没有单独的定位和头部姿态估计步骤,这些方法只能用于发现帧之间的相对变换。在这种操作模式下,这些方法不是绝对意义上估计头部姿势,而是跟踪头部的运动。然而,对于某些应用,仅需要相对运动。一些例子包括使用手动初始化的圆柱模型和递归最小二乘优化跟踪头部,或通过可变3D模型进行跟踪。只要头部姿态估计值接近原始视图,跟踪方法可以自动初始化,使用动态模板重新创建模型。

 

8)混合方法(Hybrid Methods)

         混合方法组合了上述一种或多种方法来克服任何单一方法中固有的限制。

混合方法可以使用两种或更多种独立技术,并将每个系统的估计值融合为单一结果。在这种情况下,系统从多个提示获得信息,从而提高估计精度。具体示例包括外观模板与几何匹配(也包括粒子滤波)以及通过弹性图形匹配进行改进的歧管嵌入方法。

 

本文来自前沿新观察

概述

1)定义

头部姿态估计(Head Pose EstimateHPE):利用计算机视觉和模式识别的方法在数字图像中判断人头部的朝向问题;头部姿态估计是一个空间坐标系内识别头部的姿态方向参数,也就是,头部位置参数(x,y,z)和方向角度参数(Yaw,Pitch,Roll)

按照估计结果的不同,分为离散的粗糙头部姿态估计(单张图像)、连续的精细头部姿态估计(视频)。

2)应用

         近年来,主要应用有:

智能人机交互(User Interface

u  取代鼠标:头部姿态和注视跟踪

u  识别人的注意力角点

u  疲劳驾驶检测

u  人的行为的理解和分析

人脸身份识别

u  姿态正则化

u  基于模型的面部识别

游戏和娱乐

u  头部运动驱动的游戏

u  虚拟社交(换脸)

u  用户测试分析(注意力)

 

头部姿态估计的方法

基于视觉的头部姿态跟踪和识别技术不仅是一个重要的理论问题,还有着显著的应用前景,因此吸引了国内外众多研究机构的重视。国际上开展头部姿态跟踪研究的有麻省理工学院人工智能实验室、卡内基梅隆大学机器人研究所、瑞士洛桑联邦理工学院((EPFL)计算机视觉实验室、微软Redmond研究院等著名的研究单位。国内也有许多高校和科研机构开展了头部跟踪的相关研究,比如北京大学视觉与听觉信息处理国家重点实验室、清华大学人机交互与媒体集成研究所、中科院自动化所模式识别实验室、上海交通大学系统控制与信息处理教育部重点实验室、南京大学计算机科学与技术系、东南大学学习科学研究中心情感信息处理实验、西安交通大学人工智能与机器人研究所等单位、浙江大学计算机学院等。

经过近20年的研究,已经出现了多种基于视觉的头部姿态估计方法。按照判断头部姿态技术的不同可以分为八种类型(E. Murphy-Chutorian and M.M. Trivedi. Head pose estimation in computer vision:A survey. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 2009.)。

1)模板匹配方法(Appearance Template Methods)

模板匹配的头部姿态估计,具体来说就是选择一些标注了头部姿态的图像作为样本集,如图所示。识别时,把当前图像与样本集中的图像进行对比,找到与当前图像最接近的样本,

并把该样本的姿态作为当前图像的头部姿态。

基于模板匹配的技术与其它方法相比具有实现简单的优点,可以随着使用环境和人员的不同随时对样本库进行扩展。只要采集一些包含头部信息的图像并标注每个图像的头部姿态就可以生成样本库,不需要采集反样本图像,也不需要识别人脸特征点。基于模板匹配的技术同时适合高分辨率和低分辨率图像的识别。

基于模板匹配的技术也有很多不足。首先,头部姿态参数的精度受到模板个数的影响,如果模板个数较少,姿态参数的精度会比较低,如果模板的个数较多,又会带来较大的计算量。当样本集里有很多人的样本时,模板匹配会受到不同头部姿态和不同人脸的双重影响,导致姿态参数的误差较大。

2)多分类器方法(Detector Arrays)

针对不同姿态的人脸训练相应的识别器,然后把多个识别器同时使用,选择匹配程度最高的识别器对应的姿态作为当前图像的头部姿态。和基于模板匹配的方法一样,基于多个分类器的方法也是直接对图像进行处理。

与基于模板匹配方法相比,基于多个分类器的方法具有多个优点。通过采用多个训练样本,可以克服人脸外观的局部变化对头部姿态识别的影响,并且同时适合高精度和低精度的人脸图像。另外不需要单独的头部检测和定位即可完成对头部姿态的估计。其不足之处是需要训练大量的分类器才能识别较多的头部姿态,此外还要提供大量不包含人脸的图像作为反样本,这会增加分类器的训练时间。如果分类器的数量较多的话,对某个识别器的正样本很可能成为另一个识别器的反样本,影响姿态识别的结果。同时具有人脸检测和姿态识别的功能,使训练过程包含很多重复。

 

3)非线性回归方法(Nonlinear Regression Methods)

         非线性回归方法通过学习从图像空间到一个或者多个姿态方向的非线性函数映射来估计头部姿态。

非线性回归方法(神经网络方法)的有点很多,这些系统非常快,只需要提供一组标注了姿态参数的人脸图像就可以方便的完成训练,在近场和远场图像中工作很好;在实践中精度也相对最精确。

这类方法的主要缺点是他们容易出现头部不稳定的错误。

 

4)歧管嵌入方法(Manifold Embedding Methods)

 

歧管嵌入方法寻找模型头部姿势连续变化的低维歧管。新图像可嵌入到这些歧管中,然后用于嵌入模板匹配或回归。

上述的歧管嵌入技术都是线性或非线性方法。线性技术具有嵌入可以通过矩阵乘法执行的优点,但是它们缺乏非线性技术的表示能力。作为这些方法的结合,全局头部在台歧管可以由一组局部线性歧管近似。这已经用于PCALDALPP的头部姿态估计。

5)柔性模型方法(Flexible Models )

         柔性模型将非刚性模型与图像平面中个人的面部结构相结合。从特征级比较或模型参数的实例中估计头部姿势。

AAM(Active Appearance Model)是一种典型的柔性模型。使用AAM通过迭代逐步接近人脸图像,所以能较好的克服头部检测误差的影响,获得准确的头部姿态。AAM的主要问题是训练过程中对所有的训练图像都要标注人脸特征,这限制了该方法对大范围头部旋转的支持,因为此时人脸图像的很多特征点已变的不可见。另外,AAM也不能跟踪分辨率较低的远景人脸图像。

 

6)几何关系方法(Geometric Methods)

几何方法使用诸如眼睛,嘴巴和鼻尖等特征的位置来确定其相对配置的姿势。

 

此类方法过程简单,使用几个特征点就可以得到头部姿态检测结果,但检测过程中不能出现特征点的丢失和遮挡,同时获得的姿态参数的精度也比较低。远场图像是有问题的,因为分辨率可能使得难以或不可能精确地确定特征位置。

 

7)跟踪方法(Tracking Methods)

跟踪方法从观察到的视频帧之间的移动中恢复头部的全局姿态变化。

跟踪方法的主要优点是通过发现视频帧之间的小姿态位移,能够以高精度跟踪头部。在这种跟踪配置中,这些方法始终优于其他头姿态估计方法。通过基于模型的跟踪的另一个优点是能够动态地构建个人头部的个性化原型,避免外观变化的不利影响。

跟踪方法的难度在于准确地初始化位置和姿势,以生成新模型或调整现有模型。没有单独的定位和头部姿态估计步骤,这些方法只能用于发现帧之间的相对变换。在这种操作模式下,这些方法不是绝对意义上估计头部姿势,而是跟踪头部的运动。然而,对于某些应用,仅需要相对运动。一些例子包括使用手动初始化的圆柱模型和递归最小二乘优化跟踪头部,或通过可变3D模型进行跟踪。只要头部姿态估计值接近原始视图,跟踪方法可以自动初始化,使用动态模板重新创建模型。

 

8)混合方法(Hybrid Methods)

         混合方法组合了上述一种或多种方法来克服任何单一方法中固有的限制。

混合方法可以使用两种或更多种独立技术,并将每个系统的估计值融合为单一结果。在这种情况下,系统从多个提示获得信息,从而提高估计精度。具体示例包括外观模板与几何匹配(也包括粒子滤波)以及通过弹性图形匹配进行改进的歧管嵌入方法。

 

本文来自前沿新观察

 

如社区发表内容存在侵权行为,您可以点击这里查看侵权投诉指引

标签: