当前位置：首页 > news >正文

人体姿态估计调研

news 2024/5/10 11:01:54

点击上方“计算机视觉工坊”，选择“星标”

干货第一时间送达

基于视觉的单目人体姿势估计是计算机视觉中最基本和最具挑战性的问题之一，旨在从输入图像或视频序列中获取人体姿势。本文调查2014年以来发布的最新基于深度学习的2D和3D人体姿势估计方法，并总结了挑战，方法，基准数据集，评估指标，性能比较，并讨论了一些有前途的未来研究方向。

前言

1.1 挑战

单目人体姿势估计具有一些独特的特性和挑战。如图所示：

主要分为三个方面：

灵活的身体姿态，复杂的关节和肢体可能导致自我遮挡或罕见、复杂的姿势。
多样化的外观，包括不同的衣服和自相似肢体。
复杂的环境，可能导致前景遮挡，各种视角和镜头视图中的截断。

1.2 方法

根据是否使用设计的人体模型，可以将这些方法分为生成方法（基于模型）和判别方法（无模型）。

根据从哪个级别（高级抽象或低级像素）开始处理，它们可以分为自上而下（top-down）的方法和自下而上（bottom-up）的方法。

（1）生成方法 VS 判别方法

生成方法和判别方法之间的主要区别是方法是否使用人体模型。

根据人体模型的不同表示，可以以不同的方式处理生成方法。判别方法直接学习从输入源到人体体态空间的映射，而无需使用人体模型。

判别方法通常比生成方法要快，但对于从未受过训练的姿势而言，判别方法的鲁棒性较差。

（2）自上而下 VS 自下而上

对于多人姿势估计，根据预测的起点，人体姿态估计方法通常可以分为自上而下和自下而上的方法。

自上而下的方法从高级抽象开始，首先是检测人，然后在边界框中生成人的位置，然后对每个人进行姿势估计。相反，自下而上的方法首先在输入图像中预测每个人的所有身体部位，然后通过人体模型拟合或其他算法对它们进行分组。

随着图像中人数的增加，自上而下方法的计算成本显著增加，而自下而上方法则保持稳定。但是，如果有些人重叠很大，则自下而上的方法面临着将相应的身体部位分组的挑战。

（3）基于回归 VS 基于检测

基于不同问题的表述，基于深度学习的人体姿态估计方法可以分为基于回归或基于检测的方法。

基于回归的方法将输入图像直接映射到人体关节的坐标或人体模型的参数。

基于检测的方法基于两种广泛使用的表示将身体部位作为检测目标：图像块（image patches）和关节位置的热图。

从图像到关节坐标的直接映射非常困难，因为它是一个高度非线性的问题，而小区域表示则提供了具有更强鲁棒性的密集像素信息。与原始图像尺寸相比，小区域表示的检测结果限制了最终关节坐标的准确性。

（4）单阶段 VS 多阶段

基于深度学习的一阶段方法旨在通过使用端到端网络将输入图像映射到人体姿势，

而多阶段方法通常在多个阶段中预测人体姿势，并伴有中间监督。

例如，一些多人姿势估计方法首先检测人的位置，然后为每个检测到的人估计人的姿势。其他3D人姿势估计方法则首先在2D平面中预测关节位置，然后将其扩展到3D空间。

单阶段方法的训练比多阶段方法更容易，但中间约束更少。

1.3 人体模型

人体建模是人体姿态估计的关键组成部分。人体是一个灵活而复杂的非刚性物体，具有运动结构，身体形状，表面纹理，身体部位或身体关节的位置等许多特定特征。

基于不同级别的表示和应用场景，如下图所示，人体姿态估计中共有三种常用的人体模型：基于骨骼的模型，基于轮廓的模型和基于volume的模型。

（1）基于骨架

基于骨骼的模型通常采用10到30点来表示一组关节位置，基于骨骼的模型也可以描述为一幅图，其中顶点指示骨骼结构中关节。这种人体拓扑结构非常简单灵活，在2D和3D人体姿态估计和人体姿态数据集中得到了广泛应用。虽然具有表现简单灵活的明显优点，但还存在很多不足，例如缺乏纹理信息，因而导致缺乏人体宽度和轮廓信息。

（2）基于轮廓的模型

基于轮廓的模型在早期的人体姿态估计方法中得到了广泛的应用，它包含了肢体和躯干的粗略宽度和轮廓信息。人体部位大约用矩形或人物轮廓的边界表示。广泛使用的基于轮廓的模型包括硬纸板模型（cardboard model）和活动形状模型（Active Shape Models (ASMs) ）。

（3）基于 volume 的模型

3D人体形状和姿势通常由基于体积的几何形状或网格模型表示。较早的用于建模身体部位的几何形状包括圆柱体，圆锥形等。基于 volume 的现代模型以网格形式表示，通常通过3D扫描捕获。广泛使用的基于体积的模型包括人的形状完成和动画（Shape Completion and Animation of People，SCAPE），蒙皮多人线性模型（Skinned Multi-Person Linear model， SMPL）和统一的变形模型（unified deformation model）。

2D人体姿态估计

CNN类型方法可分为两类：基于回归的方法和基于检测的方法。

基于回归的方法尝试通过端到端框架学习从图像到运动身体关节坐标的映射，并且通常直接产生关节坐标。

基于检测的方法旨在预测身体部位的大概位置或关节，通常由一系列矩形窗口（每个包括特定的身体部位）或热图（每个图都通过以关节位置为中心的2D高斯分布来指示一个关节位置）进行监督。

这两种方法中的每一种都有其优点和缺点。仅是一个点的直接回归学习是一个难题，因为它是一个高度非线性的问题，并且缺乏鲁棒性，而热映射学习则由密集的像素信息监督，从而获得了更好的鲁棒性。与原始图像尺寸相比，由于CNN中的池化操作，热图表示的分辨率要低得多，这限制了联合坐标估计的准确性。从热图获得联合坐标通常是不可微的过程，会阻塞要端到端训练的网络。

表3总结了2D单人姿势估计的最新代表性工作，最后一列是MPII测试集上PCKh@0.5得分的比较。