当前位置: 首页 > news >正文

深度学习|三维重建:R-MVSNet

作者丨任乾@知乎

来源丨https://zhuanlan.zhihu.com/p/111210140

编辑丨计算机视觉工坊

这是我之前在泡泡机器人上翻译的文章,放在这里做个备份,原文链接:https://www.sohu.com/a/334072786_715754

一、背景

该文章来自香港科技大学和深圳Altizure公司的研究团队,该团队在2018年ECCV上提出了MVSNet,用于高精度多视图三维重建,但由于该网络内存消耗过大,无法应用到大场景中去,因此他们又提出了R-MVSNet,引入循环神经网络架构,以减小内存消耗。

二、摘要

深度学习已经被证明在多视图三维重建(MVS)中可以取得很好的效果,但是,现有的基于深度学习的三维重建方法最大的限制是尺度问题,大量的内存需求导致这些方法无法被应用在大尺度场景中。在本文中,我们提出了一种基于循环神经网络的方法R-MVSNet,以适应各种尺度的环境。与原有方法一次性构建3D代价体(cost volume)不同,该方法依序地在深度方向通过GRU单元正则化2D代价图(cost map)。这样就可以在显著减小内存消耗的情况下完成高精度三维重建。我们首先展示了该方法在MVS数据集上的优秀表现,然后给出了它在大尺度数据集上的结果,在这种尺度的环境下,原有方法无法完成重建任务。开源代码的链接为:https://link.zhihu.com/?target=https%3A//github.com/YoYo000/MVSNet

三、算法介绍

1. MVSNet

由于本文方法是从MVSNet改进而来,很多东西一脉相承,因此为了把本文方法说清楚,需要先简要介绍下。它的主要贡献包括以下三点:

1)提出了一个用于多视图三维重建的端到端深度学习网络。

2)提出基于单应变换的2D到3D转换方法, 将相机的几何关系结合到神经网络之中。

3)提出一种基于动态的损失度量方法, 以适应不同数目的多视角图像的输入。

MVSNet的网络结构如下图所示

MVSNet先通过特征提取网络提取图像特征,再通过2D到3D的单应变换,把特征映射到参考图像的可视空间中以构建代价体(cost volume),然后使用一个多尺度的三维卷积网络优化代价体得到三维概率空间,通过深度期望的方式得到参考图像的初始深度图以及对应的概率图,最后把参考图像及其深度图传入深度图优化网络,得到优化后的深度图。得到深度图便得到物体的三维模型。

2. R-MVSNet

由于MVSNet需要一次性优化所有的3D代价体,因此需要大量的内存存储所有图像对应的数值,当尺度大了以后,如果内存满足不了要求,便无法再进行三维重建了。我们知道循环神经网络可以按照一定序列处理输入数据,因此作者把这种结构借鉴过来,顺序处理输入图像,以达到节省内存的目的。R-MVSNet的网络结构如下图所示:

在R-MVSNet中,首先使用2D特征提取层提取输入图像的特征,再使用单应矩阵变换到参考影像的相机视锥体的正面平行面上,然后在不同深度计算代价,并经由卷积的GRU单元进行正则化,这样就可以沿着深度方向逐渐获取整个物体的几何信息。

四、实验结果

论文中方法在DTU数据集上的结果如表所示,从表中的数据可以看出,本文提出的方法要优于其他方法。

作者还给出了该方法在大尺度数据集上的效果,以体现该算法的优势。如下图所示

五、总结思考

MVSNet以及R-MVSNet在深度学习与多视图几何相结合的方法上给我们提出了新的思路,过去在三维重建或者SLAM领域有两种方法一直在争论,一种是直接使用端到端的方式,输入图像,输出深度信息和相机外参,另一种认为深度学习没有充分利用已有的几何模型,弃明确模型于不顾,反而求诸于解释性差的深度学习,不明智,因此他们主张深度学习只适合用于特征提取,在完成特征提取以后,便要用传统多视图几何的方法进行后续的位姿解算工作。而本文虽然是使用端到端的方式,但是在构建网络时,把单应矩阵也构建在内,并没有弃模型于不顾,这样就能够把几何模型与前面的特征提取融合在一个网络中,结合二者所长。

本文仅做学术分享,如有侵权,请联系删文。

下载1

在「计算机视觉工坊」公众号后台回复:深度学习,即可下载深度学习算法、3D深度学习、深度学习框架、目标检测、GAN等相关内容近30本pdf书籍。

下载2

在「计算机视觉工坊」公众号后台回复:计算机视觉,即可下载计算机视觉相关17本pdf书籍,包含计算机视觉算法、Python视觉实战、Opencv3.0学习等。

下载3

在「计算机视觉工坊」公众号后台回复:SLAM,即可下载独家SLAM相关视频课程,包含视觉SLAM、激光SLAM精品课程。

重磅!计算机视觉工坊-学习交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有ORB-SLAM系列源码学习、3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、深度估计、学术交流、求职交流等微信群,请扫描下面微信号加群,备注:”研究方向+学校/公司+昵称“,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、orb-slam3等视频课程)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近2000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

 圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  


http://www.taodudu.cc/news/show-1781841.html

相关文章:

  • 【physx/wasm】在physx中添加自定义接口并重新编译wasm
  • excel---常用操作
  • Lora训练Windows[笔记]
  • linux基础指令讲解(ls、pwd、cd、touch、mkdir)
  • InnoDB 事务处理机制
  • 启明云端ESP32 C3 模组WT32C3通过 MQTT 连接 AWS
  • ​观点|我离开AI行业的5个理由
  • Facebook提出Pica模型,为Quest 2带来实时逼真虚拟化身渲染
  • 19所大陆高校上榜!2021泰晤士世界大学影响力排名发布
  • 基于DIou改进的YOLOv3目标检测
  • 自动驾驶中的深度学习
  • 砍掉中国90%的科研人员,对科技发展的影响微乎其微,某教授酒后真言!
  • 66岁比尔盖茨离婚!27年前与下属恋爱修成正果,现在“无法共同成长”,分割8000亿财产...
  • 一文详解深度相机之TOF成像
  • 视频+课件|基于多视图几何方式的三维重建
  • 限时删!字节总监总结一套目标检测、卷积神经网络和OpenCV学习资料(教程/PPT/代码)...
  • 重磅!泰晤士发布重量级学科排名,90所中国大陆高校上榜!
  • CVPR 2021 | 谷歌发布视频全景分割数据集!顺带开发个模型屠榜
  • 视频+课件| 视觉引导系列课程-绪论
  • YOLOv4中的数据增强
  • 这些“大学”,将被除名!
  • 3D视觉关键技术与核心问题包括哪些?
  • 一位算法工程师从30+场秋招面试中总结出的超强面经——目标检测篇(含答案)...
  • 每天2小时,吃透 985博士总结的这份目标检测、卷积神经网络和OpenCV学习资料笔记(20G高清/PPT/代码)...
  • 三维点云配准方法(两帧)
  • 如何更高效、更系统地彻底搞懂3D视觉?
  • 目标跟踪入门篇—相关滤波
  • 视觉三维重建中的关键技术及代码实现视频分享
  • 如何学习多传感器感知融合技术?
  • 最新!泰晤士2021亚洲大学排名发布:91所中国大陆高校上榜!
  • 怎样看pytorch源码最有效?
  • CVPR2021目标检测和语义分割论文分类汇总 | 源码 |
  • 深度学习中的 Attention 机制总结与代码实现(2017-2021年)
  • 使用YOLO V4通过社交距离和口罩检测来缓解COVID
  • 深度学习中的Attention总结
  • CVPR 2021奖项出炉:最佳论文花落马普所,何恺明获提名,首届黄煦涛纪念奖颁布