无需任何标记数据，几张照片就能还原出3D物体结构，自监督学习还能这样用

只给你几张物体的照片，你能准确还原出它在各种刁钻视角下的模样吗？

现在，AI可能比你还原得还要准确。

只给几个3D球的正脸照片：

AI立刻就能将不同视角的球形照片还原出来，大小颜色都接近真实的照片。

稍微复杂一点的结构，如这堆椅子：

AI在经过思考后，也能立即给出椅子在另一视角下的照片，结构大小与真实场景相比，几乎没有跑偏。

这还是在完全没有给出物体深度、边界框的情况下，AI模型纯粹靠自己预测出来的3D效果。

那么，这样的模型到底是怎么做出来的呢？

给模型安排一个“批评家”

这是一个由CNN和MLP（多层感知器）组成的模型，其目的在于通过一组2D图片（不带任何标签），从中还原出物体的3D关系来。

相比于单个3D物体，这个模型能够在整个场景上进行3D训练，并将它还原出来。

例如，根据下图的几张兔子照片，还原出3D兔子模型在俯视角度下拍摄的照片。

但从2D照片中还原出物体的3D关系，并不如看起来这么简单。

在还原过程中，模型不仅要准确推断每个3D物体的位置、深度、大小，还要能还原出它的光照颜色。

通常训练神经网络的第一想法是，将这几个变量直接设为参数，并采用梯度下降算法对模型进行收敛。

但这样效果会很差，因为模型在想办法“偷懒”。

将损失降低到一定程度后，它就不再寻找更好的解决方案。

例如，下图真实目标（蓝色）与当前目标（红色）有差异，然而在进行梯度下降时，尝试移动一定距离，误差没有降低；但在改变大小时，误差却降低了，就对网络模型形成了误导。

对此，研究者利用强化学习中的好奇心驱动，额外给模型加了一个“批评家”（critic）网络，它会利用数据分布中随机提取的有效样本，来褒贬模型的结果。

这样，模型作为“表演者”（actor），为了获得更好的评价，就会再试图去寻找更好的方法，以生成更优的结果。

如下图所示，左边是没有利用好奇心驱动的模型，右边则是加入了好奇心驱动。在“批评家”的驱使下，模型逐渐推导出了正确的参数。

这一“批评家”网络，迫使模型在优化过程中，不能只依赖于同一种（错误的）答案，而是必须在已有数据下寻找更好的解决方案。

事实证明，加了“批评家”网络的模型，不仅收敛下降到了一个新的高度（如上图蓝色线条），而且评论家最终给出的评分也不错。

那么，相比于其他3D关系生成模型，这一结构的优势在哪里呢？

无需任何外部标记，2D还原3D关系

作者与其他模型进行了详细对比，这些模型涵盖不同的3D还原方法，包括深度图、CNN、立体像素、网格等。

在监督学习所用到的参数上，可用的包括深度、关键点、边界框、多视图4类；而在测试部分，则包括2D转3D、语义和场景3种方式。

可以看见，绝大多数网络都没办法同时实现2D转3D、在还原场景的同时还能包含清晰的语义。

即使有两个网络也实现了3种方法，他们也采用了深度和边界框两种参数进行监督，而非完全通过自监督进行模型学习。

这一方法，让模型在不同的数据集上都取得了不错的效果。

无论是椅子、球体数据集，还是字母、光影数据集上，模型训练后生成的各视角照片都挺能打。

甚至自监督的方式，还比加入5%监督（Super5）和10%监督（Super10）的效果都要更好，误差基本更低。

而在真实场景上，模型也能还原出照片中的3D物体形状。

例如给出一只兔子的照片，在进行自监督训练后，相比于真实照片，模型基本还原出了兔子的形状和颜色。

不仅单个物体，场景中的多个3D物体也都能同时被还原出来。

当然，这也离不开“好奇心驱动”这种方法的帮助。

事实上，仅仅是增加“好奇心驱动”这一部分，就能降低不少参数错误率，原模型（NonCur）与加入好奇心驱动的模型（Our）在不同数据集上相比，错误率平均要高出10%以上。

不需要任何外部标记，这一模型利用几张照片，就能生成3D关系、还原场景。

作者介绍

3位作者都来自伦敦大学学院。

一作David Griffiths，目前在UCL读博，研究着眼于开发深度学习模型以了解3D场景，兴趣方向是计算机视觉、机器学习和摄影测量，以及这几个学科的交叉点。

Jan Boehm，UCL副教授，主要研究方向是摄影测量、图像理解和机器人技术。

Tobias Ritschel，UCL计算机图形学教授，研究方向主要是图像感知、非物理图形学、数据驱动图形学，以及交互式全局光照明算法。

有了这篇论文，设计师出门拍照的话，还能顺便完成3D作业？

论文地址：
https://arxiv.org/abs/2012.01230

—完—

量子位年度AI峰会「MEET 2021智能未来大会」定档12.16❤ 李开复博士、尹浩院士、清华唐杰教授，以及来自小米、美团、爱奇艺、小冰、亚信、浪潮、容联、澎思、地平线、G7等知名AI大厂的大咖嘉宾将出席并带来主题演讲。

欢迎关注人工智能、前沿科技的小伙伴们报名参会、共探新形势下智能产业发展之路。点击链接锁定席位：

量子位MEET 2021智能未来大会www.huodongxing.com

无需任何标记数据，几张照片就能还原出3D物体结构，自监督学习还能这样用

给模型安排一个“批评家”

无需任何外部标记，2D还原3D关系

作者介绍

作者信息

文章信息

上一篇

下一篇