当前位置: 首页 > news >正文

人体姿态估计调研

点击上方“计算机视觉工坊”,选择“星标”

干货第一时间送达

基于视觉的单目人体姿势估计是计算机视觉中最基本和最具挑战性的问题之一,旨在从输入图像或视频序列中获取人体姿势。本文调查2014年以来发布的最新基于深度学习的2D和3D人体姿势估计方法,并总结了挑战,方法,基准数据集,评估指标,性能比较,并讨论了一些有前途的未来研究方向。

01

前言

1.1 挑战

单目人体姿势估计具有一些独特的特性和挑战。如图所示:

主要分为三个方面:

  • 灵活的身体姿态,复杂的关节和肢体可能导致自我遮挡或罕见、复杂的姿势。

  • 多样化的外观,包括不同的衣服和自相似肢体。

  • 复杂的环境,可能导致前景遮挡,各种视角和镜头视图中的截断。

1.2 方法

根据是否使用设计的人体模型,可以将这些方法分为生成方法(基于模型)和判别方法(无模型)。

根据从哪个级别(高级抽象或低级像素)开始处理,它们可以分为自上而下(top-down)的方法和自下而上(bottom-up)的方法。

(1)生成方法 VS 判别方法

生成方法和判别方法之间的主要区别是方法是否使用人体模型。

根据人体模型的不同表示,可以以不同的方式处理生成方法。判别方法直接学习从输入源到人体体态空间的映射,而无需使用人体模型。

判别方法通常比生成方法要快,但对于从未受过训练的姿势而言,判别方法的鲁棒性较差。

(2)自上而下 VS 自下而上

对于多人姿势估计,根据预测的起点,人体姿态估计方法通常可以分为自上而下和自下而上的方法。

自上而下的方法从高级抽象开始,首先是检测人,然后在边界框中生成人的位置,然后对每个人进行姿势估计。相反,自下而上的方法首先在输入图像中预测每个人的所有身体部位,然后通过人体模型拟合或其他算法对它们进行分组。

随着图像中人数的增加,自上而下方法的计算成本显著增加,而自下而上方法则保持稳定。但是,如果有些人重叠很大,则自下而上的方法面临着将相应的身体部位分组的挑战。

(3)基于回归 VS 基于检测

基于不同问题的表述,基于深度学习的人体姿态估计方法可以分为基于回归或基于检测的方法。

基于回归的方法将输入图像直接映射到人体关节的坐标或人体模型的参数。

基于检测的方法基于两种广泛使用的表示将身体部位作为检测目标:图像块(image patches)和关节位置的热图。

从图像到关节坐标的直接映射非常困难,因为它是一个高度非线性的问题,而小区域表示则提供了具有更强鲁棒性的密集像素信息。与原始图像尺寸相比,小区域表示的检测结果限制了最终关节坐标的准确性。

(4)单阶段 VS 多阶段

基于深度学习的一阶段方法旨在通过使用端到端网络将输入图像映射到人体姿势,

而多阶段方法通常在多个阶段中预测人体姿势,并伴有中间监督。

例如,一些多人姿势估计方法首先检测人的位置,然后为每个检测到的人估计人的姿势。其他3D人姿势估计方法则首先在2D平面中预测关节位置,然后将其扩展到3D空间。

单阶段方法的训练比多阶段方法更容易,但中间约束更少。

1.3 人体模型

人体建模是人体姿态估计的关键组成部分。人体是一个灵活而复杂的非刚性物体,具有运动结构,身体形状,表面纹理,身体部位或身体关节的位置等许多特定特征。

基于不同级别的表示和应用场景,如下图所示,人体姿态估计中共有三种常用的人体模型:基于骨骼的模型,基于轮廓的模型和基于volume的模型。

(1)基于骨架

基于骨骼的模型通常采用10到30点来表示一组关节位置,基于骨骼的模型也可以描述为一幅图,其中顶点指示骨骼结构中关节。这种人体拓扑结构非常简单灵活,在2D和3D人体姿态估计和人体姿态数据集中得到了广泛应用。虽然具有表现简单灵活的明显优点,但还存在很多不足,例如缺乏纹理信息,因而导致缺乏人体宽度和轮廓信息。

(2)基于轮廓的模型

基于轮廓的模型在早期的人体姿态估计方法中得到了广泛的应用,它包含了肢体和躯干的粗略宽度和轮廓信息。人体部位大约用矩形或人物轮廓的边界表示。广泛使用的基于轮廓的模型包括硬纸板模型(cardboard model)和活动形状模型(Active Shape Models (ASMs) )。

(3)基于 volume 的模型

3D人体形状和姿势通常由基于体积的几何形状或网格模型表示。较早的用于建模身体部位的几何形状包括圆柱体,圆锥形等。基于 volume 的现代模型以网格形式表示,通常通过3D扫描捕获。广泛使用的基于体积的模型包括人的形状完成和动画(Shape Completion and Animation of People,SCAPE),蒙皮多人线性模型(Skinned Multi-Person Linear model, SMPL)和统一的变形模型(unified deformation model)。

02

2D人体姿态估计

CNN类型方法可分为两类:基于回归的方法基于检测的方法

基于回归的方法尝试通过端到端框架学习从图像到运动身体关节坐标的映射,并且通常直接产生关节坐标。

基于检测的方法旨在预测身体部位的大概位置或关节,通常由一系列矩形窗口(每个包括特定的身体部位)或热图(每个图都通过以关节位置为中心的2D高斯分布来指示一个关节位置)进行监督。

这两种方法中的每一种都有其优点和缺点。仅是一个点的直接回归学习是一个难题,因为它是一个高度非线性的问题,并且缺乏鲁棒性,而热映射学习则由密集的像素信息监督,从而获得了更好的鲁棒性。与原始图像尺寸相比,由于CNN中的池化操作,热图表示的分辨率要低得多,这限制了联合坐标估计的准确性。从热图获得联合坐标通常是不可微的过程,会阻塞要端到端训练的网络。

表3总结了2D单人姿势估计的最新代表性工作,最后一列是MPII测试集上PCKh@0.5得分的比较。

2.1 2D 单人姿态估计

2.1.1 基于回归的模型

DeepPose首先尝试训练类似AlexNet的深度神经网络,以非常简单的方式从完整图像中学习关节坐标,而无需使用任何人体模型或部位检测器,如图3所示。此外,级联架构细化回归器用于细化上一阶段的裁剪图像从而获进一步提升结果。

‍‍‍‍‍‍‍2.1.2 基于检测的模型

为了提供比关节坐标更多的监督信息并促进CNN的训练,最近的工作采用热图来作为关节的真实值。

如图4所示,每个关节占据一个热图通道,其二维高斯分布以目标关节位置为中心。由于热图表示比坐标表示更健壮,因此最近的大部分研究都基于热图表示。

2.2 2D 多人姿态估计

与单人姿势估计不同,多人姿势估计需要处理检测任务和定位任务,因为在输入图像中没有提示有多少人。

通常,估计方法可以分为自上而下的方法和自下而上的方法

自上而下的方法通常使用人检测器在输入图像中获取一组人的边界框,然后直接利用现有的单人姿势估计器来预测人的姿势。预测的姿势严重依赖于人检测的精度。整个系统的运行时间与人数成正比。

自下而上的方法直接预测所有人的所有2D关节,然后将它们组装成独立的骨架。在复杂环境中正确组合关节点是一项艰巨的研究任务。表4总结了自上而下和自下而上类别中基于深度学习的2D多人姿势估计方法的最新工作。

下表是主流的多人姿态估计方法,最后一列是COCO test-dev数据集的平均精度(AP)评分。

2.2.1 自上而下方法

自上而下的人体姿态估计方法的两个最重要的组成部分是人体区域proposal检测器和一个单人姿态估计器。大多数研究专注于基于现有人体检测器的人体估计,例如Faster R-CNN,Mask R-CNN,FPN。

2.2.2 自下而上的方法

自下而上的人体姿态估计方法的主要组成部分包括人体关节检测和候选关节分组。大多数算法分别处理这两个组件。

【小结】

目前,自下而上方法的处理速度非常快,有些方法可以实时运行。但是,性能可能会受到复杂背景和人为遮挡的很大影响。自上而下的方法在几乎所有基准数据集中都实现了最先进的性能,而处理速度受到检测到的人员数量的限制。

03

3D人体姿态估计

深度神经网络能从单目摄像头估计密集或稀疏点(关节)。

3.1 3D单人姿态估计

与2D HPE相比,3D HPE更具挑战性。首先,需要预测人体关节的深度信息,其次,不容易获得3D HPE的训练数据。

3.1.1. Model-free methods

Model-free 方法不采用人体模型作为预测目标或中间线索。该方法可以大致分为两种类型:1)直接映射图像到3D姿势,以及2)从2D姿势估计方法中间预测的2D姿势之后估计深度。

3.1.2. Model-based methods

Model-based 的方法通常采用参数主体模型或模板,以根据图像估算人类的姿势和形状。

一些工作采用了SMPL的人体模型(Loper等, 2015年),并尝试从图像中估算3D参数。有些工作指出直接学习SIMPLE的参数很难,因此,预测了中间线索作为约束。

3.2 3D 多人姿态估计

单目3D多人姿势估计大都使用3D单人姿势估计和其他深度学习方法。

04

Dataset and evaluation protocols

完整论文获取:

计算机视觉工坊公众号后台,回复:HPE,就可以获取。

————  End  ————

本文仅做学术分享,如有侵权,请联系删文。

下载1

在「计算机视觉工坊」公众号后台回复:深度学习,即可下载深度学习算法、3D深度学习、深度学习框架、目标检测、GAN等相关内容近30本pdf书籍。

下载2

在「计算机视觉工坊」公众号后台回复:计算机视觉,即可下载计算机视觉相关17本pdf书籍,包含计算机视觉算法、Python视觉实战、Opencv3.0学习等。

下载3

在「计算机视觉工坊」公众号后台回复:SLAM,即可下载独家SLAM相关视频课程,包含视觉SLAM、激光SLAM精品课程。

重磅!计算机视觉工坊-学习交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有ORB-SLAM系列源码学习、3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、深度估计、学术交流、求职交流等微信群,请扫描下面微信号加群,备注:”研究方向+学校/公司+昵称“,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近2000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

 圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  


http://www.taodudu.cc/news/show-1781884.html

相关文章:

  • 【Linux】什么是进程?
  • 活动图与状态图:UML中流程图的精细化表达——专业解析系统动态性与状态变迁
  • 500行代码实现贪吃蛇(2)
  • ctfshow web入门 php反序列化 web267--web270
  • 计算机网络【应用层】邮件和DNS
  • 【Excel VBA】深入理解 VBA 中的 CallByName 函数
  • 用OpenCV制作一个低成本的立体相机
  • 2021全球国际化大学排名发布:中国大学居世界第一!
  • 2021全球国际化大学排名出炉,这所中国高校喜提世界第一!
  • 基于TensorRT量化部署RepVGG模型
  • 有哪些激光雷达SLAM算法?
  • 耶鲁华裔硕士被击数枪身亡,嫌犯疑竟是MIT博士生,曾获奥数银牌
  • Yann LeCun送你的春节大礼:免费学习全部2020春季深度学习课程
  • 年度重磅!2020年度中国计算机视觉人才调研报告正式发布
  • 这些大学,推迟返校!
  • 车道线检测技术分析
  • 基于深度学习的视觉目标跟踪方法介绍
  • 一文看懂 9 种Transformer结构!
  • 修改一行代码,将图像匹配效果提升14%
  • 在手机上实现实时的单目3D重建
  • AI技术如何做工程?
  • 深度探索ONNX模型部署
  • 基于TensorRT完成NanoDet模型部署
  • 太真实了!工业界AI项目落地血泪教训总结
  • 基于深度学习的2D和3D仿射变换配准
  • 噩耗!吴孟达去世,终年68岁!
  • 目标检测的模型集成方法及实验
  • 重磅!国内首个三维重建系列视频课程,涉及SFM、立体匹配、多视图几何、结构光等...
  • 超快速的端到端实例分割模型,手把手教你用opencv部署Yolact
  • 思无界实习招聘|移动端SLAM、语义SLAM、三维重建等多个算法岗位
  • CVPR2021中的目标检测和语义分割论文汇总
  • 招聘|华为2012部门招算法工程师
  • 实操教程:Android部署Nanodet模型完成实时高效的物体检测
  • CVPR2021全新Backbone | ReXNet在CV全任务以超低FLOPs达到SOTA水平
  • 一周3篇顶刊!颜宁团队今年已发5篇Science/PNAS等顶级论文
  • CVPR 2021|人脸属性风格解耦