rlhf标签_AIHub

编辑

RLHF

（这个标签还没有简介，来参与编辑吧）

文章数

15

帖子数

0
最新创建

相关文章

深挖RLHF潜力，复旦语言和视觉团队创新奖励模型优化，让大模型更对齐

机器学习算法与自然语言处理 · 赞同 0
一些RLHF的平替汇总

机器学习算法与自然语言处理 · 赞同 0
RLHF模型普遍存在「阿谀奉承」，从Claude到GPT-4无一幸免

机器之心 · 赞同 0
RLHF与AlphaGo核心技术强强联合，UW/Meta让文本生成能力再上新台阶

机器之心 · 赞同 0
LLM成功不可或缺的基石：RLHF及其替代技术

机器学习算法与自然语言处理 · 赞同 0
大语言模型（LLM）预训练数据集调研分析

机器学习算法与自然语言处理 · 赞同 0
大模型RLHF算法更新换代，DeepMind提出自训练离线强化学习框架ReST

将门 · 赞同 0
RLHF vs RL「AI」F，谷歌实证：大模型训练中人类反馈可被AI替代

机器之心 · 赞同 0
北大硕士RLHF实践，基于DeepSpeed-Chat成功训练上自己的模型

新智元 · 赞同 0
DeepMind新研究：ReST让大模型与人类偏好对齐，比在线RLHF更有效

机器之心 · 赞同 0

相关帖子

还没有相关数据

反馈