- 让创新获得认可二维码自定义二维码网站自定义网站或网址
不受窗口长度限制的长文本生成全新思路:利用模型参数储存上文信息
将上文信息储存在模型参数中,而不是KV cache中,来降低对KV states的依赖。AAAI 2024 | Adobe提出全新上下文提示学习框架CoPL,高效提升下游性能
本文介绍一篇发表在人工智能顶级会议AAAI 2024上的文章,本文提出了一种称为上下文提示学习的框架CoPLNeRF输入文本即可编辑3D场景!ETH联合谷歌提出文本驱动的生成对象框架InseRF
本文介绍一篇来自苏黎世联邦理工学院和谷歌合作完成的论文,本文提出了一种全新的三维编辑框架,称为InseRFAAAI 2024 Oral | 小红书搜索团队提出全新框架:验证负样本对大模型蒸馏的价值
论文提出并验证了负样本在大模型蒸馏过程中的价值,构建一个模型专业化框架:除了使用正样本外,还充分利用负样本来提炼 LLM 的知识。NUS尤洋团队联合MIT/上海AI Lab等提出首个无损数据集蒸馏方法DATM
作者提出了第一个可以在低压缩率保持有效的数据集蒸馏方法,并首次实现了无损数据集蒸馏。NeurIPS 2023 Spotlight | 用于真实图像去模糊的层次结合扩散模型HI-Diff
本文介绍了一种新型图像去模糊模型——分层集成扩散模型(HI-Diff)。腾讯ARC Lab联合NUS发布M2UGen:基于LLM的多模态音乐理解与生成框架
本研究成果M2UGen致力于将LLM和音乐理解与音乐生成技术相结合,构建一个统一的多模态音乐AI辅助工具,希望能为音乐创作领域带来新的启示和突破。ICLR 2024 Oral | GitHub狂揽30k星,MetaGPT:嵌入SOPs显著增强多智能体协作能力
LLM Agent领域第一高分论文,全网Star数最高的多智能体框架。AAAI 2024 | 场景图知识增强多模态结构化表示能力
本文提出了Structure-CLIP,旨在整合场景图知识来增强多模态结构化表示。大模型视觉理解能力更进一步,谷歌提出全新像素级对齐模型PixelLLM
本文的研究团队深入探索了LLM在视觉嵌入空间的运行机制,并提出了一种可以将位置信息作为输入或输出的视觉语言模型,称为PixelLLM(像素大模型)。EMNLP 2023 Oral | ToViLaG:多模态生成模型毒性分析、评价及去毒
本文深入研究了各种VLGMs毒性生成的倾向性和对毒性数据的易感性。深入探索CoT有效性和推理步长对于LLM性能的影响
我们设计了扩展和压缩 CoT 的例子中的基本原理推理步骤的实验,同时保持所有其他因素不变,然后得到了一些很有趣的结论。用魔法打败魔法!谷歌联合OpenAI提出攻击样本生成框架,提升NLP大模型鲁棒性
本文介绍一篇来自谷歌研究院和OpenAI合作完成的工作,作为具有大模型丰富开发部署经验的企业,本文的研究团队给出了一种鲁棒的攻击生成和防范框架。旋转多尺度交互网络RMSIN,只需1080ti完美解决遥感图像指向性分割
这篇论文介绍了一项新的任务——指向性遥感图像分割(RRSIS),以及一种新的方法——旋转多尺度交互网络(RMSIN)。一篇综述洞悉医学大型语言模型的原理,应用和挑战
介绍了医学大型语言模型在原理、应用和面临的挑战方面的最新进展(截止至2024年),通过深入探讨相关技术发展,提供宝贵的见解ICDE 2023 | 用于故障分析的电信领域知识预训练
KTeleBERT在根本原因分析、事件关联挖掘和故障链溯因等任务中展现了强大的性能,验证了采用电信领域语料和机器数据进行预训练的有效性。AAAI 2024 | TEx-Face,5秒内按需生成照片级3D人脸
本文的核心出发点是,探索一种只需要单次优化的多条件控制的3D人脸生成模型。AAAI 2024 | Aleth-NeRF:低光增强与曝光纠正和NeRF结合,不良光照场景下的新视角合成
本文提出了Aleth-NeRF模型来完成无监督低光照增强&过曝纠正和Novel View Synthesis。UC伯克利提出视觉场景图加持的组合思维链大模型CCoT,有效提升模型场景交互理解能力
本文针对这一问题,将场景图引入到多模态大模型领域,并且基于大模型思维链机制,提出了一种组合思维链的方法框架。首个无师自通、泛化使用各种家具家电的具身三维图文大模型系统
本文研究介绍了一个三维具身图文大模型系统,旨在解决机器人在处理家务活时面临的挑战。