- 机器之心是国内领先的前沿科技媒体和产业服务平台,关注人工智能、机器人和神经认知科学,坚持为从业者提供高质量内容和多项产业服务。二维码自定义二维码网站自定义网站或网址
Nature 子刊 | 化学家和机器人都可以读懂,用于机器人合成可重复性的通用化学编程语言
本文提出了一种方法,使用通用化学编程语言(χDL)在两个实验室的四种不同硬件系统上编码和执行各种化学反应的合成程序普林斯顿博士生高天宇指令微调进展速览:数据、算法和评估
本文中,普林斯顿博士生、陈丹琦学生高天宇汇总了指令微调领域的进展,包括数据、算法和评估等。视觉Mamba模型的Swin时刻,中国科学院、华为等推出VMamba
中国科学院、华为、鹏城实验室的研究人员提出了 VMamba:一种具有全局感受野、线性复杂度的视觉 Mamba 模型。无需训练实现价值观实时动态对齐:上交开源价值观对齐方法OPO,闭源与开源大模型均适用
有鉴于此,上海交通大学生成式人工智能实验室 GAIR 迅速采取行动,推出了一种全新的价值对齐方法:OPO 。MoE与Mamba强强联合,将状态空间模型扩展到数百亿参数
性能与 Mamba 一样,但所需训练步骤数却少 2.2 倍。纪念碑谷式错觉图像都被「看穿」,港大、TikTok的Depth Anything火了
人类有两只眼睛来估计视觉环境的深度信息,但机器人和 VR 头社等设备却往往没有这样的「配置」,往往只能靠单个摄像头或单张图像来估计深度。画个框、输入文字,面包即刻出现:AI开始在3D场景「无中生有」了
现在,通过文本提示和一个 2D 边界框,我们就能在 3D 场景中生成对象。首个通用双向Adapter多模态目标追踪方法BAT,入选AAAI 2024
能够有效实现多模态交叉提示跟踪。买个机器人端茶倒水有希望了?Meta、纽约大学造了一个OK-Robot
如果有个这样的机器人,你几点回家?大模型推理速度飙升3.6倍,「美杜莎」论文来了,贾扬清:最优雅加速推理方案之一
在加速大语言模型推理层面,我们迎来了一个比推测解码更高效的解决方案 —— 普林斯顿、UIUC 等机构提出的 Medusa。全世界机器人共用一个大脑,谷歌DeepMind已经完成了第一步
具身智能,首先就是要共用 AI。「think step by step」还不够,让模型「think more steps」更有用
本文对思维链的推理步长进行了控制变量实验,发现推理步长和答案的准确性是线性相关的,这种影响机制甚至超越了问题本身所产生的差异。大模型×文本水印:清华、港中文、港科广、UIC、北邮联合发布首个大模型时代下的文本水印综述
本文介绍首个大模型时代下的文本水印综述,由清华、港中文、港科广、UIC、北邮联合发布,全面阐述了大模型时代下文本水印技术的算法类别与设计药物-靶标亲和力预测,上科大团队开发了一种Transformer编码器和指纹图谱相结合的方法
上海科技大学的研究团队提出了一种新的基于注意力的模型,称为 TEFDTA ,来预测键合和非键合药物-靶标相互作用的结合亲和力。重塑3D生成核心理论:VAST、港大、清华用「零」训练数据生成了3D模型
AI 生成 3D 模型最难的一关,终于被搞定了。Llama-2+Mistral+MPT=? 融合多个异构大模型显奇效
融合多个异构大语言模型,中山大学、腾讯 AI Lab 推出 FuseLLM何恺明谢赛宁团队步步解构扩散模型,最后竟成经典去噪自编码器
去噪扩散模型(DDM)是当前图像生成技术的一大主流方法。更适合中文LMM体质的基准CMMMU来了:超过30个细分学科,12K专家级题目
M-A-P 开源社区、港科大、滑铁卢大学、零一万物等联合推出了面向中文大规模多学科多模态理解和推理基准 CMMMU为大模型恶补数学,上交开源MathPile语料库,95亿tokens,还可商用
上海交通大学生成式人工智能实验室推出了「MathPile」。机器人领域首个开源视觉-语言操作大模型,RoboFlamingo框架激发开源VLMs更大潜能
还在苦苦寻找开源的机器人大模型?试试RoboFlamingo!