纯卷积Backbone巅峰MogaNet：超越ConvNeXt、ParC-Net和SWin

自从Vision Transformers（ViT）取得成功以来，对Transformers架构的探索也引发了现代ConvNets的复兴。在这项工作中，通过交互复杂性的角度来探索DNN的表示能力。经验表明，交互复杂性是视觉识别的一个容易被忽视但又必不可少的指标。因此，本文作者提出了一个新的高效ConvNet系列，名为MogaNet，以在基于ConvNet的纯模型中进行信息上下文挖掘，并在复杂度和性能方面进行了更好的权衡。

在MogaNet中，通过在空间和通道交互空间中利用两个专门设计的聚合模块，促进了跨多个复杂性的交互并将其情境化。

对ImageNet分类、COCO目标检测和ADE20K语义分割任务进行了广泛的研究。实验结果表明，MogaNet在主流场景和所有模型规模中建立了比其他流行方法更先进的新SOTA。通常，轻量级的MogaNet-T通过在ImageNet-1K上进行精确的训练设置，以1.44G的FLOPs实现80.0%的top-1精度，超过ParC-Net-S 1.4%的精度，但节省了59%（2.04G）的FLOPs。

1.『简介』

自深度神经网络（DNN）兴起以来，卷积神经网络（ConvNets）一直是计算机视觉的首选方法。受灵长类视觉系统的启发，卷积层可以对具有区域密集连接和平移等方差约束的观测图像的邻域相关性进行编码。通过交错分层，ConvNets获得了被动增加的感受野，并善于识别潜在的语义模式。尽管性能很高，但ConvNets提取的表示已被证明对区域纹理有很强的偏差，导致视觉目标的全局上下文信息的显著丢失。为了解决这一限制，以前的工作提出了改进的宏架构和上下文聚合模块。

相比之下，通过放松局部感应偏差，新出现的Vision Transformers（ViT）及其变种在广泛的视觉基准上迅速超越了ConvNets。几乎一致的共识是，ViT的能力主要来源于自注意力机制，无论拓扑距离如何，它都有助于长距离互动。然而，从实际角度来看，自注意力机制中的二次复杂性限制了ViT的计算效率及其在细粒度下游任务中的应用潜力。

此外，卷积感应偏置的缺失破坏了图像的固有2D结构，从而不可避免地导致图像特定邻域关系的损害。因此，随后的几项努力都有助于重新引入金字塔状分层布局和ViT的平移不变性。

与之前的研究不同，最近的研究从经验上揭示了ViT的表达优势在很大程度上取决于它们的宏级架构，而不是通常推测的token mixer。更重要的是，通过先进的训练设置和结构现代化，ConvNets可以在不增加计算预算的情况下轻松提供与经过良好调整的ViT相当甚至更优异的性能。然而，现有方法仍然存在一个表示瓶颈：自注意力机制或大内核的实现阻碍了区分性上下文信息和全局交互的建模，导致DNN和人类视觉系统之间的认知差距。与特征整合理论一样，人脑不仅提取局部特征，而且同时聚合这些特征以进行全局感知，这比DNN更紧凑和高效。

为了应对这一挑战，作者从特征交互复杂性的角度研究了DNN的表示能力。在图3b中，大多数现代DNN倾向于编码极低或高复杂性的相互作用，而不是信息最丰富的中间相互作用。为此，作者涉及了一个具有相应基本操作的宏ConvNet框架，并进一步开发了一个名为多阶门控聚合网络（MogaNet）的新型ConvNets家族，用于加速具有多重交互复杂性的上下文信息。

在MogaNet中，根据人类视觉引入了一个多阶特征聚合模块。作者的设计将局部感知和上下文聚合封装到一个统一的空间聚合块中，在该块中，复合多阶关联通过并行的选通机制被有效地聚合和上下文。从通道方面来看，由于现有方法易于实现高通道信息冗余，因此定制了一个简单而有效的通道聚合块，该块对输入特征执行自适应通道重分配，并以较低的计算成本显著优于主流对应方（例如SE模块）。

大量实验表明，在ImageNet-1K和多种下游基准上，MogaNet在不同模型尺度下的性能和效率令人印象深刻。经验证明，交互复杂性可以作为高质量视觉识别的重要指标，如感受野。因此，通过1.44G FLOP和5.2M参数，MogaNet-T在ImageNet-1K上使用默认和优化的训练策略，实现了79.6%和80.0%的top-1准确率，在相同设置下，以2.04G的FLOP超过了先前最先进的ParC-Net-S 1.0%。此外，MogaNet-S以4.97G FLOP和25.3M参数达到83.4%的top-1精度，与流行的小型模型相比，产生了可观的计算开销，如图1所示。

2.『准备工作』

由于ViTs在许多视觉任务中大大超过了规范的 ConvNet，一些工作试图解释是什么使ViTs工作。这里从整体框架和基本操作两个方面提出了一个全面的宏观架构。

2.1、总体结构

最近的研究表明，其固有的框架使ViTs优于ConvNet。因此，首先介绍了一个针对ConvNet的分层设计，它考虑了vit的优点，如图2所示。它主要包括3个基本组成部分：

embedding stem
spatial mixing block
channel mixing block

embedding stem是经典ConvNets和ViTs的关键组成部分，它对输入图像进行降采样，以减少图像固有的冗余和计算过载。给定H×W分辨率中的X作为输入图像或前一阶段的输出，在每个阶段开始时将stem视为“尺寸控制器”：

其中，Z被降采样到H/2×W/2分辨率。然后，特征在每个阶段流到一堆残差块。网络模块可以被解耦为两个独立的组件：SMixer和CMixer，用于空间上和通道上的信息传播，

其中，Norm是一个归一化层，例如，批处理归一化（BN）。请注意，SMixer可以是各种空间操作（例如，自注意力，卷积），而CMixer通常是通过 inverted bottleneck 中的通道级MLP和r的扩展比来实现的。

2.2、重新审视基本操作

如何有效地学习上下文和鲁棒特征是视觉表征学习的主要主题。将与表达能力相关的两种重要操作分类：区域性感知和上下文聚合。

2、上下文聚合

除了局部特征之外，高级语义上下文建模对于视觉识别也是至关重要的。经典ConvNets通常使用这些模块的深层堆栈来捕获受其感受野限制的远距离交互。然而，这些设计可能在计算上效率是低下的，并可能会产生冗余特征。为了解决这一难题，本文提出了上下文聚合模块，以自适应地探索和强调潜在的上下文信息，并减少输入特征中的冗余。形式上将上下文聚合概括为一系列网络组件，这些组件自适应地捕获两个嵌入特征之间的交互：