你还记得Hinton老爷子在2017年挖的坑吗?
胶囊网络的坑还没填完,刚刚他又挖了一个新坑。
近日Hinton提出了一个称为GLOM的假想系统,将一篇44页的文章发布在arXiv上——只有idea、没有实验,却引起AI界的广泛讨论。
更准确地说,GLOM又不完全是一个新坑,而是在胶囊网络的坑里继续挖了一铲子。
GLOM综合和这些年AI领域的诸多成果,将Transformer、神经场(neural field)、对比表示学习、蒸馏等技术与胶囊网络。
为了解决胶囊网络的缺陷,Hinton这几年来一直关注着计算机视觉领域的最新进展,希望用CV新理论中有价值的部分去改进它。
改进胶囊网络
当初,Hinton根据人类对图像的认知方法,提出了胶囊网络,用于改进CNN。
CNN过去是计算机视觉中的主力,但CNN有很多缺点,比如它无法理解部分与整体之间的关系。
比如将人脸五官打乱,CNN仍然会因为识别到不同元素,而将它视为人脸。
而且CNN也很难从不同视角去理解同一个物体。
Hinton认为,神经网络应该使用识别局部的“胶囊”,而不是使用总结全局特征的单标量输出“神经元”。
经过全球学术界3年多的努力,胶囊网络取得了一些成功,主要是在小型数据集的有监督和无监督学习中,但是还没有成功扩展到更大的数据集上。
Hinton反思了胶囊网络的缺点,提出了GLOM。
GLOM借鉴了心理学的研究成果,即人类识别图像是将场景解析为整体与部分的层次结构,并且对它们的空间关系进行建模。
GLOM的设计思路
GLOM的体系结构如下图所示。图中列出了L层级与另外两个相邻层级之间的自下而上、自上而下和相同层级之间的交互。
其中,自下而上的蓝色箭头和自上而下的红色箭头,是由具有几个隐藏层的两个不同的神经网络实现的。
这些网络在不同层级之间可以有所不同,但是它们可以在列之间和跨时间步共享。
对于静态图像,绿色箭头可以简单地按比例缩放残差连接,实现每个层级嵌入的时间平滑。
对于视频,绿色箭头可以是神经网络,该神经网络基于胶囊的多个先前状态来学习时间动态。
在下面的六组不同最低层级嵌入中,它们都指向同一个目标,且场景级别嵌入未知。
图中所示各个层级上的相同向量的孤岛表示一棵解析树。但是,特征孤岛比短语结构语法要强大得多。
在GLOM中,场景级自上而下的神经网络,将场景矢量和图像位置转换为该位置的目标矢量。该矢量包括有关目标相对于相机的3D姿态的信息。属于同一目标的所有位置都被赋予完全相同的目标级向量。
然后,神经网络将目标级向量加一个位置,转换为适合该位置的部分向量,往下依此类推。
这样,作用在完全相同的人脸矢量上的自上而下网络,能够预测某些位置的鼻子矢量和其他位置的嘴矢量。
与其他方法对比
那么,GLOM相比传统的CV方法有哪些优点呢?
Hinton认为,与胶囊网络对比,GLOM的主要优势是,它避免了在每个层级将神经元预先分配给一组离散的可能部分的需求。
此外,GLOM的还有不需要动态路由的优点,用于形成岛的聚类形成过程,也比胶囊模型中使用的聚类过程好得多。
与Transformer对比,GLOM每层的权重都相同,通过在一定程度上使用嵌入向量作为查询、键值,极大地简化了注意机制。
在GLOM中,原本Transformer的多头被重新设计为用于实现部分整体结构的多个层级,并且多头之间的交互高度结构化,某个层级仅与相邻层级进行交互。
网友怎么看
对于这篇44页仅提供idea的论文,不同网友表现出了完全相反的看法。
一些实用派认为,论文没有实验,甚至都没有描述完整可运行的系统,看到开头声明就被劝退了。
也有人认为,能看到顶尖科学家以这种形式表达自己的想法很好,可以深入了解他们的思维过程。最重要的是,Hinton的关注,可能会加快这个问题的解决,研究人员也会从中受到启发。
最后,来自ETHZ的Yannic Kilcher博士已经在B站上传了对GLOM的详细解读,视频时长超过1小时,有兴趣朋友不妨去看看。
论文地址: https://arxiv.org/abs/2102.12627
参考链接:
[1] https://pechyonkin.me/capsules-1/
[2] https://www.cs.toronto.edu/~hinton/
[3] https://www.bilibili.com/video/BV1Qz4y1y7ea
—完—
@量子位· 追踪AI技术和产品新动态
深有感触的朋友,欢迎赞同、关注、分享三连վ'ᴗ' ի ❤