2020学术会议回顾：从这些最佳论文中一窥研究趋势

2020 年，是充满变化的一年。人工智能学术会议也不例外，线上举办、改革评审制度、增加可复现性要求、伦理要求等，这些是「变」。而不变的是大家对学术会议的热情，以及我们总能透过这些会议探究学术前沿发展趋势。

今天，我们就从各大顶会的最佳论文中一窥当前研究热点和趋势。

AAAI 2020

最佳论文：WinoGrande: An Adversarial Winograd Schema Challenge at Scale

论文链接：https://arxiv.org/abs/1907.10641

简介：维诺格拉德模式挑战赛（Winograd Schema Challenge：WSC）是一个用于常识推理的基准测试，该测试有 273 个专家编写的问题，专门应对依赖选择偏好和词语联想的统计学模型。但是近来，许多模型在该基准测试的性能已达到 90%。因此，研究者希望了解，这些模型是否真正获得了鲁棒的常识能力。

因此，研究者提出了 WINOGRANDE，一个有着 44k 个问题的大规模数据集。该数据集在规模和难度上较之前的数据集更大。该数据集的构建包括两个步骤：首先使用众包的方式设计问题，然后使用一个新的 AFLITE 算法缩减系统偏见（systematic bias），使得人类可以察觉到的词汇联想转换成机器可以检测到的嵌入联想（embedding association）。现在最好的 SOTA 模型可以达到的性能是 59.4 – 79.1%，比人脸性能水平（94%）低 15-35%（绝对值）。这种性能波动取决于训练数据量（2% 到 100%）。

此外，研究者还在 5 个相关的基准数据集上进行了测试，取得了以下结果：WSC (→ 90.1%)、DPR (→ 93.1%)、COPA(→ 90.6%)、KnowRef (→ 85.6%) 和 Winogender (→ 97.1%)。这说明，一方面 WINOGRANDE 是一个很好的迁移学习的资源；但另一方面，这说明我们现在高估了模型的常识推理的能力。研究者希望通过这项研究能够让学界重视减少算法的偏见。

最佳论文提名：A Unifying View on Individual Bounds and Heuristic Inaccuracies in Bidirectional Search

论文链接：https://ai.dmi.unibas.ch/research/reading_group/alcazar-et-al-aaai2020.pdf

简介：过去几年，新的双向启发式搜索算法取得了很多成功。这些算法的创新之处在于，它们降低了从 g 个值中双向获取信息的成本。Kaindl and Kainz (1997) 、Sadhukhan (2013) 等都为这一领域做出了贡献，但仍有一些问题没有解决。本文中，研究者在相关领域进行了更多的扩展。

CVPR 2020

最佳论文：Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild

论文链接：https://arxiv.org/abs/1911.11130

简介：这项研究提出了一种基于原始单目图像学习 3D 可变形物体类别的新方法，且无需外部监督。该方法基于一个自编码器，它将每张输入图像分解为深度、反射率、视点和光照（将这四个组件结合起来即可重建输入图像）。该模型在训练过程中仅利用重建损失，未使用任何外部监督。为了在不使用监督信号的前提下将这些组件分解开，研究人员利用了很多物体类别所具备的属性——对称结构。该研究表明，对光照进行推理可以帮助我们利用物体的底层对称性，即便由于阴影等因素造成物体外观看起来并不对称也没有关系。此外，该研究还使用模型其他组件以端到端的方式学得对称概率图，并借助对该概率图的预测对可能并不对称的物体进行建模。实验表明，该方法可以准确恢复单目图像中人脸、猫脸和车辆的 3D 形状，且无需任何监督或先验形状模型。相比于利用 2D 图像对应监督的另一种方法，该方法在基准数据集上的性能更加优越。

模型结构如下所示：

ACL 2020

最佳论文：Beyond Accuracy: Behavioral Testing of NLP Models with CheckList

论文链接：https://www.aclweb.org/anthology/2020.acl-main.442.pdf

简介：尽管衡量留出（held-out）准确率是评估模型泛化性能的主要方法，但它通常会高估 NLP 模型的性能，而其他评估模型的替代性方法要么专注于单项任务，要么只看特定行为。受软件工程中行为测试原则的启发，这项研究提出了一种与任务无关的 NLP 模型测试方法——CheckList。CheckList 不仅包含一些通用语言能力和测试类型以促进全面的测试，还包括一个软件工具，能够快速生成大量不同测试案例。研究人员在三项任务中测试了 CheckList 的效果，在商业化模型和 SOTA 模型中都发现了严重的问题。一项用户调查显示，负责商业化情感分析模型的团队在一个经过大量测试的模型中发现了新的 bug。而在另一项用户调查中，使用 CheckList 的 NLP 从业者创建的测试数量是未使用 CheckList 的两倍，发现的 bug 数量是后者的三倍。

ICML 2020

杰出论文 1：On Learning Sets of Symmetric Elements

论文链接：https://arxiv.org/pdf/2002.08599.pdf

简介：从无序集合中学习是一种基本的学习设置，最近这引起了越来越多的关注。这一领域的研究集中于用特征向量表示集合元素的案例，很少关注集合元素本身即遵循其自身对称性的常见情况。而后者与大量应用具备相关性，如图像去噪、多视图 3D 形状识别与重建等。

这篇论文提出了一种原则性方法来学习一般对称元素的集合。研究者首先描述了线性层的空间。线性层与元素重排序和元素的内在对称性具备等变性。该研究进一步表明，由被称为 Deep Sets for Symmetric elements layers (DSS) 的层构成的网络是不变函数和等变函数的通用逼近器。此外，DSS 层很容易实现。最后，研究者用一系列使用图像、图以及点云的实验，证明该方法比现有的集合学习架构有所改进。

杰出论文 2：Tuning-free Plug-and-Play Proximal Algorithm for Inverse Imaging Problems

论文链接：https://arxiv.org/pdf/2002.09611.pdf

简介：即插即用（PnP）是将 ADMM 或其他近端算法与高级去噪先验结合的非凸（non-convex）框架。近来，PnP 取得了巨大的实验成功，特别是集成了基于深度学习的去噪器。但是，基于 PnP 的方法存在一个关键的问题：这些方法需要手动调参。此类方法必须在成像条件和场景内容具备高度差异的情况下获得高质量结果。

该研究提出了一种免调参的 PnP 近端算法，支持自动设置内部参数，包括惩罚参数、去噪强度以及终止时间。该方法的核心部分是开发一个用于自动搜索参数的策略网络，该网络能够通过混合无模型和基于模型的深度强化学习来高效地学习参数。研究人员通过数值和视觉实验表明，该方法学到的策略能够为不同的状态定制不同的参数，并且比现有的手动调参更加高效。

此外，该研究还探讨了插入式去噪器，它和学得策略一起可达到 SOTA 结果，在线性和非线性的示例逆成像问题中皆是如此，尤其是在压缩感知 MRI 和相位恢复问题上都取得了不错的结果。

杰出论文荣誉提名 1：Efficiently sampling functions from Gaussian process posteriors

论文链接：https://arxiv.org/abs/2002.09309

简介：该研究发现了一种高斯过程（Gaussian process）分解形式，该分解通过从数据中分离出先验，从而自然地进行可扩展采样。在这种因式分解的基础上，研究者提出了一种易用且通用的快速后验采样方法，该方法可以无缝匹配稀疏近似，从而在训练和测试阶段保证可扩展性。该研究进行了一系列实验，表明只需要通常成本的一部分即可利用解耦采样路径准确地表示高斯过程后验。

杰出论文荣誉提名 2：Generative Pretraining From Pixels

论文链接：https://cdn.openai.com/papers/Generative_Pretraining_from_Pixels_V2.pdf

简介：受自然语言无监督表示学习进展的启发，OpenAI 的研究者探究了类似模型是否可以学习图像的有用表示。具体来说，OpenAI 推出了用于图像分类的模型 iGPT，并发现该模型似乎能够理解物体外观和类别等 2D 图像特征。那么，iGPT 缘何能够成功呢？这是因为，在下一像素预测（next pixel prediction）上训练的足够大的 transformer 模型最终可能学会生成具有清晰可识别物体的样本。一旦学会了生成此类样本，那么通过「合成分析」，iGPT 将知道目标类别。实验表明，iGPT 模型的特征在大量的分类数据集上实现了当前 SOTA 性能，以及在 ImageNet 数据集上实现了接近 SOTA 的无监督准确率。

ECCV 2020

最佳论文：RAFT: Recurrent All-Pairs Field Transforms for Optical Flow

论文链接：https://arxiv.org/abs/2003.12039

简介：这项研究提出了一种用于光流的新型深度网络架构——循环全对场变换（Recurrent All-Pairs Field Transforms，RAFT）。RAFT 提取每个像素（per-pixel）的特征，为所有像素对构建多尺度 4D 相关体（correlation volume），并通过循环单元迭代地更新流场，循环单元基于相关体执行查找。

RAFT 在多个数据集上实现了 SOTA 性能：在 KITTI 数据集上，RAFT 的 F1-all 误差是 5.10%，相比先前的最佳结果（6.10%）减少了 16%；在 Sintel 数据集（final pass）上，RAFT 只有 2.855 像素的端点误差（end-point-error），相比先前的最佳结果（4.098 像素）减少了 30%。另外，RAFT 具有强大的跨数据集泛化能力，并且在推理时间、训练速度和参数计数方面具有很高的效率。

最佳论文荣誉提名 1：Towards Streaming Image Understanding

论文地址：https://arxiv.org/abs/2005.10420

简介：具身感知（embodied perception）指自动智能体感知环境以便做出反应的能力。智能体的响应度很大程度上取决于处理流程的延迟。之前的工作主要涉及延迟和准确率之间的算法权衡，但缺少一种明确的指标来对比不同方法的帕累托最优延迟 - 准确率曲线。这篇论文指出标准离线评估和实时应用之间的差异：算法处理完特定图像帧时，周围环境已经发生改变。该研究提出将延迟和准确率协调地集成到一个度量指标中，用于实时在线感知，这就是「流准确率」（streaming accuracy）。

此外，该研究基于此度量指标提出了一个元基准，它可以系统性地将任意图像理解任务转换成流图像理解任务。研究人员主要关注城市视频流中的目标检测和实例分割任务，并创建了具备高质量、时序稠密标注的新数据集。

该研究提出的解决方案及其实证分析结果显示：

在帕累托最优延迟 - 准确率曲线上，存在能够最大化流准确率的最优点；
异步跟踪和未来预测很自然地成为流图像理解的内部表征；
动态调度可用于克服时间混叠（temporal aliasing），得到一个吊诡的结果：什么都不做可能使延迟最小化。

最佳论文荣誉提名 2：NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

论文链接：https://arxiv.org/abs/2003.08934

简介：该研究提出了一种在合成复杂场景新视图任务中实现 SOTA 结果的新方法，该方法通过使用稀疏的输入视图集来优化基础的连续体场景函数。该算法使用全连接深度网络表示场景，其输入为单个连续 5D 坐标（空间位置 (x, y, z) 和视角方向 (θ, φ)），输出为体积密度和在此空间位置上的视图相关 emitted radiance。该研究通过查询沿着摄像头光线的 5D 坐标来合成视图，并使用经典的体渲染技术将输出颜色和密度投影到图像中。

由于体渲染本身是可微的，因此优化表征所需的唯一输入是一组具备已知摄像机位姿的图像。研究者介绍了如何高效优化神经辐射场（neural radiance field），渲染出逼真的具备复杂几何形状和外观的场景新视图，而且其在神经渲染和视图合成方面的效果优于之前的工作。

ICRA 2020

最佳论文：Preference-Based Learning for Exoskeleton Gait Optimization

论文链接：https://arxiv.org/abs/1909.12316

简介：这项研究展示了如何利用「个人偏好」，来定制化提升人类使用下肢外骨骼的舒适感。以往，机械外骨骼一直被美国军队视为提升士兵作战能力的工具，但加州理工和清华大学的这项研究在未来或许可为数千万残障人士带来帮助。该研究提出了一种叫做 COSPAR 的算法，它可以将合作学习应用于下肢外骨骼操作时对人类偏好的适应，并在模拟和真人实验中进行了测试。

CoRL 2020

最佳论文：Learning Latent Representations to Influence Multi-Agent Interaction

论文链接：https://arxiv.org/pdf/2011.06619.pdf

简介：与机器人进行无缝交互非常困难，因为智能体是不稳定的。它们会根据 ego 智能体的行为更新策略，ego 智能体必须预见到可能的变化才能做到共同适应（co-adapt）。受人类行为的启发，研究者认识到机器人不需要明确地建模其他智能体将执行的每一个低级操作。相反，它可以通过高级表示来捕获其他智能体的潜在策略。

该研究提出一个基于强化学习的框架，用来学习智能体策略的潜在表示，其中 ego 智能体确定其行为与另一智能体未来策略之间的关系。然后 ego 智能体利用这些潜在动态来影响其他智能体，有目的地指导制定适合共同适应的策略。在多个模拟域和现实世界曲棍球游戏中，该方法优于其他方法，并学会影响其他智能体。

最佳系统论文：SMARTS: Scalable Multi-Agent Reinforcement Learning Training School for Autonomous Driving

论文链接：https://arxiv.org/pdf/2010.09776.pdf

简介：多智能体交互是现实世界自动驾驶领域的基础组成部分。经历十几年的研究和发展，如何与多样化场景中各类道路使用者进行高效交互的问题依然未能很好地解决。学习方法可以为解决该问题提供很大帮助，但这些方法需要能够产生多样化和高效驾驶交互的真实多智能体模拟器。

所以，为了满足这种需求，来自华为诺亚方舟实验室、上海交大和伦敦大学学院的研究者开发了一个名为 SMARTS（Scalable Multi-Agent RL Training School）的专用模拟平台，该平台支持多样化道路使用者行为模型的训练、积累和使用。这些反过来又可以用于创建日益真实和多样化的交互，从而能够对多智能体交互进行更深更广泛的研究。

最佳 Presentation 论文：Accelerating Reinforcement Learning with Learned Skill Priors

论文链接：https://arxiv.org/pdf/2010.11944.pdf

简介：智能体在学习新任务时严重依赖之前的经验，大部分现代强化学习方法从头开始学习每项任务。利用先验知识的一种方法是将在之前任务中学到的技能迁移到新任务中。但是，随着之前经验的增加，需要迁移的技能也有所增多，这就对在下游学习任务中探索全部可用技能增加了挑战性。还好，直观来看，并非所有技能都需要用相等的概率进行探索，例如当前状态可以提示需要探索的技能。

南加州大学的这项研究提出了一个深度潜变量模型，可以联合学习技能的嵌入空间和来自离线智能体经验的技能先验。研究者将常见的最大熵强化学习方法进行扩展，以使用技能先验引导下游学习。该研究在复杂的导航和机器人操作任务中对提出的方法 SPiRL (Skill-Prior RL) 进行验证，结果表明学得的技能先验对于从丰富数据集上进行高效技能迁移是必要的。

NeurIPS 2020

最佳论文 1：Language Models are Few-Shot Learners

论文链接：https://papers.nips.cc/paper/2020/file/1457c0d6bfcb4967418bfb8ac142f64a-Paper.pdf

简介：用于估计序列中下一个词概率的人工智能系统叫做「语言模型」。语言模型首次出现在 1950 年代，是连接自然语言与当时的新领域——信息论的理论构架。OpenAI 的这篇论文提出了大型复杂语言模型 GPT-3。这项研究表明，如果你使用史无前例的大量算力和数据让语言模型获得足够的准确率，它也就获得了无需额外训练，仅使用简单的自然语言提示即可解决大量任务的能力。比如回答简单的问题、生成文章、确定电影评论是否积极，以及英法互译等。

论文作者表明，GPT-3 在一些任务中的能力胜过其他模型，并用大量篇幅探讨这项技术的优缺点。论文作者还考虑了这项技术的潜在有害影响，如低成本生成难以检测的假新闻，模型因训练数据偏见在种族、性别和宗教等敏感话题上产生倾向性。

GPT-3 因其高达 1750 亿参数、动辄几百万美元的模型训练费用和无与伦比的「文学创作」水平，在推出之后吸引了众多学者，甚至业界以外人们的关注。不过在研究如此大规模模型之后，社区未来应该朝着哪个方向研究，我们还需要很多思考。

最佳论文 2：No-Regret Learning Dynamics for Extensive-Form Correlated Equilibrium

论文链接：https://proceedings.neurips.cc/paper/2020/file/5763abe87ed1938799203fb6e8650025-Paper.pdf

简介：人们的决定会影响到他人。为了保证合理的行事方式，我们需要通过这种「相互依赖」达到经济学家所说的「均衡」（equilibrium）。创建能够找出均衡点的自动程序是非常困难的任务。这篇论文提供了首个解决方法——利用学习方法为通用交互寻找「相关均衡」（correlated equilibria，CE）。

相关均衡要求一个受信任的外部调停者为决策者提供决策建议，典型案例就是红绿灯，红绿灯告诉车辆前进这一行为是否安全。即使在相关法律缺失的情况下，我们仍然应该遵循红绿灯的推荐结果，因为我们知道每个人都可以推断出这是最好的选择，闯红灯是危险的行为。

这篇论文表明，此类均衡可以通过完全独立执行的学习算法来实现，无需外部交通工程师，甚至在决策涉及多个步骤、决策者对于世界的状态一知半解时也是如此。也就是说，存在此类 regret-minimizing 算法使 CE 在更广泛的博弈类别中实现收敛，即扩展形式的博弈。这一结果解决了博弈论、计算机科学和经济学领域中长期存在的开放性问题，并对涉及调停者的博弈产生显著影响，如通过导航 app 高效制定交通路线。

最佳论文 3：Improved guarantees and a multiple-descent curve for Column Subset Selection and the Nystrom method

论文链接：https://proceedings.neurips.cc/paper/2020/file/342c472b95d00421be10e9512b532866-Paper.pdf

简介：从大型矩阵中选择小规模且具代表性的列向量子集是一个困难的组合问题，基于基数约束行列式点过程的方法可以给出实用的近似解。这篇论文推导出近似解近似因子的新型上下界。由于这些近似方法在机器学习领域中广泛应用，因此这篇论文可能带来巨大影响，并为核方法、特征选择和神经网络的双下降现象提供新的理解方式。

随着更多大型数据集变得可用，人们越来越依赖以简明扼要的形式总结复杂数据。数据总结（data summarization）是识别数据中重要的样例及属性以高效表示数据的过程。它能够用于从遗传学数据集中选择具有代表性的基因变体子集，也可用于从文本数据库中选择最具信息量的文档。

此前的研究表明，数据总结是一个棘手的问题，对于有些数据集，不存在能够在合理的时间范围内很好地总结数据的算法。而这篇论文表明，这些分析过于悲观。实际上，对于现实世界中的数据而言，生成可解释总结的成本要低得多。该研究表明，未来的系统将能够创建准确、可解释且高效生成的数据总结，从而极大地提高我们吸收和处理复杂数据集的能力。

IJCAI 2020

杰出论文 1：Synthesizing Aspect-Driven Recommendation Explanations from Reviews

论文链接：https://www.ijcai.org/Proceedings/2020/0336.pdf

摘要：解释有助于理解建议并增加采纳的可能性，然而有些解释性建议方法依赖于严格、标准化的模板。为了获取更加灵活、通俗、多样化的解释，覆盖 interest 各个方面，来自新加坡管理大学的研究者从评论中选择片段来进行综合解释，同时优化了其代表性和连贯性。为了适应目标用户的偏好，研究者基于一个兼容的可解释推荐模型，将观点与上下文相衔接。几个产品类别数据集上的实验表明，在模板、评论摘要、选择和文本生成这些方面，本文方法具备更高的效率。

杰出论文 2：A Multi-Objective Approach to Mitigate Negative Side Effects

论文链接：https://www.ijcai.org/Proceedings/2020/0050.pdf

摘要：非结构化环境内运行的智能体通常会产生设计时不容易识别的负面作用 (NSE) 。来自 UMass Amherst 和微软研究院的研究者分析了在系统部署过程中，如何利用各种形式的人类反馈或自主探索，来学习与 NSE 相关的惩罚函数。他们将降低 NSE 影响的问题描述为一个具备字典式奖励偏好与松弛多目标马尔科夫决策过程。松弛指的是相对于智能体的主要目标允许的最优策略的最大偏差，以减少次要目标 NSE。多项实验评估表明，本文所提出的框架能够成功减少 NSE 的影响，不同的反馈机制会带来不同的偏差，从而影响 NSE 的识别。

SIGIR 2020

最佳论文：Controlling Fairness and Bias in Dynamic Learning-to-Rank

论文链接：https://dl.acm.org/doi/pdf/10.1145/3397271.3401100

简介：排序算法是很多线上平台匹配用户与项目（如新闻、产品、音乐、视频等）的主要途径。在这类双边市场中，不仅用户可以从排序中获益，排序本身也决定了项目提供商（如出版商、卖家、艺术家等）的效益（如曝光度、收益等）。但人们已经注意到，仅针对用户的效益进行优化（几乎所有 learning-to-rank 算法都是这样做的）对于项目提供商而言是不公平的。因此，该研究提出一种新型 learning-to-rank 方法，可以显式地对成组项目（如同一个出版商发布的文章）提供 merit-based 公平性保障。具体而言，该研究提出了一种确保成组项目公平性的学习算法，它还可以同时基于隐式反馈数据学习排序函数。该算法以控制器的形式，集成公平性和效益的无偏估计器，在可用数据增多后可以对二者进行动态适应。该研究提供了严谨的理论基础和收敛保证，此外实验结果表明，该算法具备高度的实用性和稳健性。

最佳论文荣誉提名奖：Models Versus Satisfaction: Towards a Better Understanding of Evaluation Metrics

论文链接：https://dl.acm.org/doi/pdf/10.1145/3397271.3401162

简介：

评估指标在信息检索系统批量评估中发挥重要作用。评估指标基于用来描述用户与排序列表交互过程的用户模型，旨在将多个文档的相关性分数与系统效果和用户满意度估计联系起来。因而，评估指标的有效性包括以下两个层面：

底层用户模型能否准确预测用户行为；
评估指标能否很好地度量用户满意度。

目前已有大量工作涉及不同评估指标的设计、评估和对比，但很少有研究探讨评估指标这两个层面的一致性。具体而言，该研究想探讨与用户行为数据匹配良好的指标能否在估计用户满意度方面取得同样好的效果。为此，该研究对比了不同指标在已经优化可以拟合用户行为的情况下，在估计用户满意度方面的性能。该研究在自己收集的数据集和公开可用的用户搜索行为数据集上进行了实验，结果表明能够拟合用户行为的评估指标在估计用户满意度反馈方面也能实现同样好的性能。该研究还调查了评估指标校准过程的可信度，从而发现调参所需的数据量。该研究为用户行为建模和满意度度量之间的一致性提供了实验支持，同时也为评估指标的调参过程提供了指引。

KDD 2020

最佳论文：On Sampled Metrics for Item Recommendation

论文链接：http://walid.krichene.net/papers/KDD-sampled-metrics.pdf

简介：项目推荐（item recommendation）任务需要根据给定的条件对大型项目目录进行排序。项目推荐算法是使用依赖于相关项目位置的排名度量指标来评估的。为了加快度量指标的计算，近来的一些研究经常使用抽样的度量指标（sampled metrics），仅对较小的一组随机项和相关项进行排序。Google 研究小组对这些抽样指标进行了更详细的研究，结果表明它们与其 exact version 不一致。也就是说，它们没有保持 relative statements。