Beta
首页
社区
技术
Open AI
搜索
登录 / 注册
编辑
RLHF
(这个标签还没有简介,来参与编辑吧)
文章数
15
帖子数
0
最新创建
中文官网
功能差体验差
声音模型
1122
模型调优
重复次数
TempLora
动态提示
上下文提示学习
CoPL
三维编辑
InseRF
动态自洽性
负向校准增强
负向协助训练
负样本
大模型蒸馏
DATM
无损数据集蒸馏
HIDiff
分层集成扩散模型
音乐生成
多模态音乐理解
M2UGen
SOPs
MetaGPT
多智能体协作
多模态结构化表示
场景图知识
数字生命
相关文章
深挖RLHF潜力,复旦语言和视觉团队创新奖励模型优化,让大模型更对齐
机器学习算法与自然语言处理
· 赞同
0
一些RLHF的平替汇总
机器学习算法与自然语言处理
· 赞同
0
RLHF模型普遍存在「阿谀奉承」,从Claude到GPT-4无一幸免
机器之心
· 赞同
0
RLHF与AlphaGo核心技术强强联合,UW/Meta让文本生成能力再上新台阶
机器之心
· 赞同
0
LLM成功不可或缺的基石:RLHF及其替代技术
机器学习算法与自然语言处理
· 赞同
0
大语言模型(LLM)预训练数据集调研分析
机器学习算法与自然语言处理
· 赞同
0
大模型RLHF算法更新换代,DeepMind提出自训练离线强化学习框架ReST
将门
· 赞同
0
RLHF vs RL「AI」F,谷歌实证:大模型训练中人类反馈可被AI替代
机器之心
· 赞同
0
北大硕士RLHF实践,基于DeepSpeed-Chat成功训练上自己的模型
新智元
· 赞同
0
DeepMind新研究:ReST让大模型与人类偏好对齐,比在线RLHF更有效
机器之心
· 赞同
0
相关帖子
还没有相关数据
反馈
反馈列表
快速反馈
添加中文文档