将门的文章列表_AIHub

将门

让创新获得认可
二维码

自定义二维码
网站

自定义网站或网址

不受窗口长度限制的长文本生成全新思路：利用模型参数储存上文信息

将上文信息储存在模型参数中，而不是KV cache中，来降低对KV states的依赖。
- 赞同 0
- 反对 0
- 专注 0
- 评论 1
- 浏览 1801
AAAI 2024 | Adobe提出全新上下文提示学习框架CoPL，高效提升下游性能

本文介绍一篇发表在人工智能顶级会议AAAI 2024上的文章，本文提出了一种称为上下文提示学习的框架CoPL
- 赞同 0
- 反对 0
- 专注 0
- 评论 0
- 浏览 1364
NeRF输入文本即可编辑3D场景！ETH联合谷歌提出文本驱动的生成对象框架InseRF

本文介绍一篇来自苏黎世联邦理工学院和谷歌合作完成的论文，本文提出了一种全新的三维编辑框架，称为InseRF
- 赞同 0
- 反对 0
- 专注 0
- 评论 0
- 浏览 1240
AAAI 2024 Oral | 小红书搜索团队提出全新框架：验证负样本对大模型蒸馏的价值

论文提出并验证了负样本在大模型蒸馏过程中的价值，构建一个模型专业化框架：除了使用正样本外，还充分利用负样本来提炼 LLM 的知识。
- 赞同 0
- 反对 0
- 专注 0
- 评论 0
- 浏览 1504
NUS尤洋团队联合MIT/上海AI Lab等提出首个无损数据集蒸馏方法DATM

作者提出了第一个可以在低压缩率保持有效的数据集蒸馏方法，并首次实现了无损数据集蒸馏。
- 赞同 0
- 反对 0
- 专注 0
- 评论 0
- 浏览 1744
NeurIPS 2023 Spotlight | 用于真实图像去模糊的层次结合扩散模型HI-Diff

本文介绍了一种新型图像去模糊模型——分层集成扩散模型（HI-Diff）。
- 赞同 0
- 反对 0
- 专注 0
- 评论 0
- 浏览 2478
腾讯ARC Lab联合NUS发布M2UGen：基于LLM的多模态音乐理解与生成框架

本研究成果M2UGen致力于将LLM和音乐理解与音乐生成技术相结合，构建一个统一的多模态音乐AI辅助工具，希望能为音乐创作领域带来新的启示和突破。
- 赞同 0
- 反对 0
- 专注 0
- 评论 0
- 浏览 2110
ICLR 2024 Oral | GitHub狂揽30k星，MetaGPT：嵌入SOPs显著增强多智能体协作能力

LLM Agent领域第一高分论文，全网Star数最高的多智能体框架。
- 赞同 0
- 反对 0
- 专注 0
- 评论 0
- 浏览 1483
AAAI 2024 | 场景图知识增强多模态结构化表示能力

本文提出了Structure-CLIP，旨在整合场景图知识来增强多模态结构化表示。
- 赞同 0
- 反对 0
- 专注 1
- 评论 0
- 浏览 1858
大模型视觉理解能力更进一步，谷歌提出全新像素级对齐模型PixelLLM

本文的研究团队深入探索了LLM在视觉嵌入空间的运行机制，并提出了一种可以将位置信息作为输入或输出的视觉语言模型，称为PixelLLM（像素大模型）。
- 赞同 0
- 反对 0
- 专注 0
- 评论 0
- 浏览 1252
EMNLP 2023 Oral | ToViLaG：多模态生成模型毒性分析、评价及去毒

本文深入研究了各种VLGMs毒性生成的倾向性和对毒性数据的易感性。
- 赞同 0
- 反对 0
- 专注 0
- 评论 0
- 浏览 2128
深入探索CoT有效性和推理步长对于LLM性能的影响

我们设计了扩展和压缩 CoT 的例子中的基本原理推理步骤的实验，同时保持所有其他因素不变，然后得到了一些很有趣的结论。
- 赞同 0
- 反对 0
- 专注 0
- 评论 1
- 浏览 1439
用魔法打败魔法！谷歌联合OpenAI提出攻击样本生成框架，提升NLP大模型鲁棒性

本文介绍一篇来自谷歌研究院和OpenAI合作完成的工作，作为具有大模型丰富开发部署经验的企业，本文的研究团队给出了一种鲁棒的攻击生成和防范框架。
- 赞同 0
- 反对 0
- 专注 0
- 评论 0
- 浏览 626
旋转多尺度交互网络RMSIN，只需1080ti完美解决遥感图像指向性分割

这篇论文介绍了一项新的任务——指向性遥感图像分割（RRSIS），以及一种新的方法——旋转多尺度交互网络（RMSIN）。
- 赞同 0
- 反对 0
- 专注 0
- 评论 0
- 浏览 783
一篇综述洞悉医学大型语言模型的原理，应用和挑战

介绍了医学大型语言模型在原理、应用和面临的挑战方面的最新进展（截止至2024年），通过深入探讨相关技术发展，提供宝贵的见解
- 赞同 0
- 反对 0
- 专注 0
- 评论 0
- 浏览 1726
ICDE 2023 | 用于故障分析的电信领域知识预训练

KTeleBERT在根本原因分析、事件关联挖掘和故障链溯因等任务中展现了强大的性能，验证了采用电信领域语料和机器数据进行预训练的有效性。
- 赞同 0
- 反对 0
- 专注 0
- 评论 0
- 浏览 750
AAAI 2024 | TEx-Face，5秒内按需生成照片级3D人脸

本文的核心出发点是，探索一种只需要单次优化的多条件控制的3D人脸生成模型。
- 赞同 0
- 反对 0
- 专注 0
- 评论 0
- 浏览 1023
AAAI 2024 | Aleth-NeRF：低光增强与曝光纠正和NeRF结合，不良光照场景下的新视角合成

本文提出了Aleth-NeRF模型来完成无监督低光照增强&过曝纠正和Novel View Synthesis。
- 赞同 0
- 反对 0
- 专注 0
- 评论 0
- 浏览 899
UC伯克利提出视觉场景图加持的组合思维链大模型CCoT，有效提升模型场景交互理解能力

本文针对这一问题，将场景图引入到多模态大模型领域，并且基于大模型思维链机制，提出了一种组合思维链的方法框架。
- 赞同 0
- 反对 0
- 专注 0
- 评论 0
- 浏览 1058
首个无师自通、泛化使用各种家具家电的具身三维图文大模型系统

本文研究介绍了一个三维具身图文大模型系统，旨在解决机器人在处理家务活时面临的挑战。
- 赞同 0
- 反对 0
- 专注 0
- 评论 0
- 浏览 543

反馈