7 Papers & Radios | Meta「分割一切」AI模型；从T5到GPT-4盘点大语言模型

Segment Anything
Dynamic Prompt Learning via Policy Gradient for Semi-structured Mathematical Reasoning
A Survey of Large Language Models
HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in HuggingFace
RPTQ: Reorder-based Post-training Quantization for Large Language Models
Mod-Squad: Designing Mixture of Experts As Modular Multi-Task Learners
MATHPROMPTER: MATHEMATICAL REASONING USING LARGE LANGUAGE MODELS
ArXiv Weekly Radiostation：NLP、CV、ML 更多精选论文（附音频）

论文 1：Segment Anything

作者：Alexander Kirillov、Eric Mintun 等
论文地址：https://arxiv.org/abs/2304.02643

摘要：Meta 发布了新模型 Segment Anything Model (SAM) 。他们在博客中介绍说，「SAM 已经学会了关于物体的一般概念，并且它可以为任何图像或视频中的任何物体生成 mask，甚至包括在训练过程中没有遇到过的物体和图像类型。SAM 足够通用，可以涵盖广泛的用例，并且可以在新的图像『领域』上即开即用，无需额外的训练。」在深度学习领域，这种能力通常被称为零样本迁移，这也是 GPT-4 震惊世人的一大原因。

除了模型，Meta 还发布了一个图像注释数据集 Segment Anything 1-Billion (SA-1B)，据称这是有史以来最大的分割数据集。该数据集可用于研究目的，并且 Segment Anything Model 在开放许可 (Apache 2.0) 下可用。

如下面动图所示，SAM 能很好的自动分割图像中的所有内容：

推荐：Meta 发布「分割一切」AI 模型，CV 或迎来 GPT-3 时刻。

论文 2：Dynamic Prompt Learning via Policy Gradient for Semi-structured Mathematical Reasoning

作者：Pan Lu、Liang Qiu 等
论文地址：https://arxiv.org/abs/2209.14610

摘要：来自 UCLA 和艾伦人工智能研究院（AI2）的研究人员推出了 Tabular Math Word Problems (TabMWP) ，这是一个包含了 38,431 个开放领域问题的数据集，需要同时在文本和表格数据上进行数学推理得到正确答案。TabMWP 中的每个问题都与一个上下文相关联，这个上下文包含图片、文本或结构化格式的表格。

研究人员在 TabMWP 上评估了包括 Few-shot GPT-3 等不同的预训练模型。正如已有的研究发现，Few-shot GPT-3 很依赖 in-context 示例的选择，这导致其在随机选择示例的情况下性能相当不稳定。这种不稳定在处理像 TabMWP 这样复杂的推理问题时表现得更加严重。为了解决这一问题，作者提出了 PromptPG 方法，这种方法将示例的选择转化成强化学习中的 contextual bandit 问题，并且利用 Policy Gradient 训练一个策略网络来学习从少量的训练数据中选择最优的 in-context 示例。实验结果表明，他们提出的 PromptPG 方法在回答问题的准确性上超过最优基准（Few-shot CoT GPT-3）5.31%，并且相对于随机选择的 in-context examples，他们的方法显著降低了预测的方差，提升了这类方法的稳定性。

推荐：PromptPG：当强化学习遇见大规模语言模型。

论文 3：A Survey of Large Language Models

作者：Wayne Xin Zhao、Kun Zhou 等
论文地址：https://arxiv.org/abs/2303.18223

摘要：考虑到 LLMs 的快速技术进步，中国人民大学的二十几位研究者通过背景知识、关键发现和主流技术等三方面回顾了 LLMs 的最新进展，尤其关注 LLMs 的预训练、自适应调优、使用和能力评估。此外他们还总结和开发 LLMs 的可用资源，讨论了未来发展方向等问题。对于领域内研究人员和工程师而言，这份综述是一份极其有用的学习资源。

在进入正文前，我们先来看 2019 年以来出现的各种大语言模型（百亿参数以上）时间轴，其中标黄的大模型已开源。

推荐：大型语言模型综述全新出炉：从 T5 到 GPT-4 最全盘点，国内 20 余位研究者联合撰写。

论文 4：HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in HuggingFace

作者：Yongliang Shen、Kaitao Song 等
论文地址：https://arxiv.org/abs/2303.17580

摘要：来自浙江大学和微软亚研的研究者最近提出了一种让 LLM 充当控制器的新方法，让 LLM 来管理现有的 AI 模型以解决复杂的 AI 任务，并且使用语言作为通用接口。该研究提出的 HuggingGPT 是一个利用 LLM 连接机器学习社区（例如 HuggingFace）中各种 AI 模型以解决复杂 AI 任务的系统。

具体来说，HuggingGPT 在收到用户请求时使用 ChatGPT 进行任务规划，根据 HuggingFace 中可用的功能描述选择模型，用选定的 AI 模型执行每个子任务，并根据执行结果汇总响应。借助 ChatGPT 强大的语言能力和 HuggingFace 丰富的 AI 模型，HuggingGPT 能够完成覆盖不同模态和领域的复杂 AI 任务，并在语言、视觉、语音等具有挑战性的任务中取得了令人印象深刻的结果。HuggingGPT 为走向通用人工智能开辟了一条新的道路。

HuggingGPT 是一个协作系统，大型语言模型（LLM）充当控制器、众多专家模型作为协同执行器。其工作流程共分为四个阶段：任务规划、模型选择、任务执行和响应生成。

推荐：用 ChatGPT「指挥」数百个模型，HuggingGPT 让专业模型干专业事。

论文 5：RPTQ: Reorder-based Post-training Quantization for Large Language Models

作者：Zhihang Yuan等
论文地址：https://arxiv.org/abs/2304.01089

摘要：在这篇论文中，来自后摩智能、腾讯 AI Lab、华中科技大学、北京大学、伊利诺伊理工学院的研究人员发现量化大型语言模型的主要挑战来自于通道之间不同的激活范围，而不仅仅是离群值问题。

作者提出了一种新颖的基于重排序的量化方法 RPTQ，解决了量化大型语言模型激活的问题。RPTQ 通过重新排列激活中的通道，然后将它们分簇进行量化，从而降低通道范围差异的影响。

此外，作者通过避免显式重新排序来减少存储和计算开销。该工作首次将 LLM 模型的激活量化推向 3 比特。激活值的 3 比特量化同时也能与权重的 3 比特量化共同使用，大幅度降低了大型欲言模型的开销。

推荐：基于重排序的新量化方法RPTQ。

论文 6：Mod-Squad: Designing Mixture of Experts As Modular Multi-Task Learners

作者：Zitian Chen、Yikang Shen 等
论文地址：https://arxiv.org/abs/2212.08066

摘要：UMass Amherst 淦创团队提出了 Mod-Squad 模型，它可以从多任务大模型中提取针对单一任务的相同性能小模型，在 Taskonomy 大数据集和 PASCALContext 数据集上取得了最佳效果。

如下图所示， Mod-Squad 的结构就是将 Mixture-of-expert (MoE) 引入 Vision Transformer (ViT)。MoE 是一种机器学习模型，其中多个专家组成了一个混合模型。每个专家都是一个独立的模型，并且每个模型对于不同的输入有不同的贡献。最后，所有专家的贡献被加权并组合在一起以得到最终的输出。这种方法的优势在于它可以根据输入图像的内容动态地选择最佳的专家并且控制计算量。

Mod-Squad: 将专家组 (mixture-of-expert) 插入到 Vision Transformer.

推荐：模块化 MoE 将成为视觉多任务学习基础模型。

论文 7：MATHPROMPTER: MATHEMATICAL REASONING USING LARGE LANGUAGE MODELS

作者：Shima Imani 、Liang Du 等
论文地址：https://arxiv.org/pdf/2303.05398.pdf

摘要：来自微软的研究者从人类解决数学问题的方式中获得灵感，将其分解为更简单的多步骤程序，并在每个步骤中利用多种方式来验证他们的方法。

本文提出的方法 ——MathPrompter，就是试图将这种思维过程的一部分转移到大型语言模型答案生成过程中。图 1 概述了 MathPrompter 解决一个数学推理问题所遵循的步骤。

推荐：让大模型像学生一样解数学题，正确率提升 14%，微软的 MathPrompter 了解一下。

ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天、梅洪源发起的ArXiv Weekly Radiostation，在 7 Papers 的基础上，精选本周更多重要论文，包括NLP、CV、ML领域各10篇精选,并提供音频形式的论文摘要简介，详情如下：

本周 10 篇 NLP 精选论文是：

1. MEGClass: Text Classification with Extremely Weak Supervision via Mutually-Enhancing Text Granularities. (from Jiawei Han)

2. On the Pareto Front of Multilingual Neural Machine Translation. (from Liang Chen)

3. oBERTa: Improving Sparse Transfer Learning via improved initialization, distillation, and pruning regimes. (from ChengXiang Zhai)

4. To Asymmetry and Beyond: Structured Pruning of Sequence to Sequence Models for Improved Inference Efficiency. (from ChengXiang Zhai)

5. REFINER: Reasoning Feedback on Intermediate Representations. (from Boi Faltings)

6. Self-Refine: Iterative Refinement with Self-Feedback. (from Yiming Yang)

7. Lego-Features: Exporting modular encoder features for streaming and deliberation ASR. (from Tara N. Sainath)

8. Practical Conformer: Optimizing size, speed and flops of Conformer for on-Device and cloud ASR. (from Tara N. Sainath)

9. Instruction Tuning with GPT-4. (from Jianfeng Gao)

10. Evaluating GPT-4 and ChatGPT on Japanese Medical Licensing Examinations. (from Dragomir Radev)

本周 10 篇 CV 精选论文是：

1. Vision-Language Modelling For Radiological Imaging and Reports In The Low Data Regime. (from Andrew Zisserman)

2. Where are we in the search for an Artificial Visual Cortex for Embodied Intelligence?. (from Pieter Abbeel, Jitendra Malik)

3. Bridging the Gap between Model Explanations in Partially Annotated Multi-label Classification. (from Cordelia Schmid)

4. Segment Anything. (from Alexander C. Berg, Piotr Dollár, Ross Girshick)

5. HaLP: Hallucinating Latent Positives for Skeleton-based Self-Supervised Learning of Actions. (from Rama Chellappa)

6. JacobiNeRF: NeRF Shaping with Mutual Information Gradients. (from Leonidas Guibas)

7. GINA-3D: Learning to Generate Implicit Neural Assets in the Wild. (from Leonidas Guibas, Dragomir Anguelov)

8. VDN-NeRF: Resolving Shape-Radiance Ambiguity via View-Dependence Normalization. (from Leonidas Guibas)

9. Diffusion Action Segmentation. (from Mubarak Shah)

10. DexDeform: Dexterous Deformable Object Manipulation with Human Demonstrations and Differentiable Physics. (from Hao Su, Joshua B. Tenenbaum)

本周 10 篇 ML 精选论文是：

1. Scalable Bayesian Meta-Learning through Generalized Implicit Gradients. (from Georgios B. Giannakis)

2. GenPhys: From Physical Processes to Generative Models. (from Max Tegmark)

3. Accelerating exploration and representation learning with offline pre-training. (from Doina Precup, Rob Fergus)

4. Counterfactual Learning on Graphs: A Survey. (from Charu Aggarwal)

5. On the Effect of Initialization: The Scaling Path of 2-Layer Neural Networks. (from Michael Unser)

6. PopulAtion Parameter Averaging (PAPA). (from Yan Zhang)

7. A Survey on Vertical Federated Learning: From a Layered Perspective. (from Kai Chen)

8. Accelerating Wireless Federated Learning via Nesterov's Momentum and Distributed Principle Component Analysis. (from Victor C. M. Leung)

9. ConvBLS: An Effective and Efficient Incremental Convolutional Broad Learning System for Image Classification. (from C. L. Philip Chen, Tong Zhang)

10. E($3$) Equivariant Graph Neural Networks for Particle-Based Fluid Mechanics. (from Johannes Brandstetter)

7 Papers & Radios | Meta「分割一切」AI模型；从T5到GPT-4盘点大语言模型

ArXiv Weekly Radiostation

作者信息

文章信息

上一篇

下一篇