没有RLHF,一样媲美GPT-4、Bard,Meta公布650亿参数言语模子LIMA
机器之心报道
机器之心编纂部
不必要 RLHF,LIMA 就能和 GPT-4、Bard、DaVinci003 相媲美,乃至更好。
作为如今 AI 范畴的顶流,ChatGPT、GPT-4 等大模子在文本了解、天生、推理等方面展现出强壮的才能,这离不开其眼前的天生范畴练习新范式 ——RLHF (Reinforcement Learning from Human Feedback) ,即以强化学习的办法依据人类反应优化言语模子。
使用 RLHF 办法,大型言语模子可与人类偏好坚持对齐,依照人类意图,最小化不益、失真或偏见的输入。但 RLHF 办法依托于多量的人工标注和评价,因此本钱十分热血。
迩来,来自 Meta AI 等机构的研讨者在一项研讨中指出:在对齐方面,少便是多。
论文地点:
https://arxiv.org/abs/2305.11206
该研讨使用了一个 65B 参数的 LLaMa 模子(该模子称为 LIMA)在 1000 个精选样本上举行有监督学习,在完全没使用 RLHF 办法的情况下,LIMA 体现出十分强壮的功能,并且可以很好地泛化到练习数据以外的职责上。在人类评价后果中,LIMA 乃至可与 GPT-4、Bard、DaVinci003 相媲美。图灵奖得主 Yann LeCun 也转推歌颂这项研讨。
接下去,让我们看一下研讨细节。
研讨概述
起首,我们晓得练习大型言语模子必要两个步调:
在原始内容中举行无监督预练习,以学习通用表征;
大范围指令微和谐强化学习,以更好地对齐终极职责和用户偏好。
该研讨练习了一个 65B 参数的 LLaMa 言语模子「LIMA」,以权衡这两个步调的紧张水平。LIMA 仅在 1000 个精选 prompt 和回复(response)上使用标准监督丧失举行微调,不触及任何强化学习或人类偏好建模。
LIMA 可以从练习数据的少数样本中学习依照特定的回复格式,包含从方案旅游行程到推测备用汗青的繁复查询。并且,该模子可以很好地泛化到练习数据以外的新职责上。在一项人体比力实验中,LIMA 在 43% 的病例中疗效都与 GPT-4 媲美乃至更好;比拟于 Bard,占比可以到达 58%;更别说与使用人类反应练习的 DaVinci003 比力了,这个数字高达 65%。
该研讨依据比力后果总结道:大型言语模子中几乎一切的知识都是在预练习时期学习的,并且想让模子产生高质量的输入只必要局部必要的指令调优数据。这一点与 RLHF 办法不同,将有助于大型言语模子(LLM)低落练习本钱。
数据对齐
研讨者提出了外表对齐假定:模子的知识和才能几乎完善是在预练习时期学习的,而对齐则是教会它与用户交互时怎样选择子分布。假如假定准确,对齐主要有关于学习办法,那么该假定的一个推论是,人们可以用相当少的样本富裕调停预练习的言语模子。
为此,研讨者搜集了 1000 个 prompt 和回复的数据集,此中输入 (回复) 在作风上一律,但输入 (prompt) 是不同的。他们想找出一种有协助的、AI 助手作风的输入。精选样本的泉源主要包含社区问答和手动撰写两局部。除此之外,团队还搜集了一个包含 300 个 prompt 的测试集以及一个包含 50 个 prompt 的开发集。表 1 展现了不同数据源的概览,并提供了一些统计数据。
社区问答
研讨者从三个社区问答网站搜集数据,分散是 Stack Exchange、wikiHow 和 Pushshift Reddit 数据集。来自 Stack Exchange 和 wikiHow 的答案与 AI 智能体的举动很一律,因此可以深度发掘,而 Reddit 的高赞答案屡屡是幽默的或带有恶意,必要一种人工的办法来办理回复,依照得当的作风。
人工撰写的样本
为进一步丰厚数据,研讨团队还本人制造 prompt,指定两组作者 (分散为 A 组和 B 组),由他们本人或伙伴的兴致各自创建 250 个 prompt。从 A 组中选择 200 个 prompt 举行练习,并将 50 个 prompt 作为保存的开发集。过滤局部有成绩的 prompt 后,将 B 组中剩余的 230 个 prompt 用于测试。
练习 LIMA
该研讨以 LLaMa 65B [Touvron et al., 2023] 作为基本模子,使用包含 1000 个样本的对齐练习集举行了微调。为了区分每个语言者(用户和助手),该研讨在每段话语完毕时引入一个特别的回合完毕 token(EOT),该 token 与中止天生的 EOS 起着相反的作用,但制止了与预练习模子已注入的 EOS token 产生殽杂。
该研讨依照标准的微调超参数,包含:使用 AdamW [Loshchilov 和 Hutter,2017] 微调 15 个 epoch,此中 β_1=0.9,β_2=0.95,权重衰减(weight decay)为 0.1。在没有预热(warmup)步调的情况下,该研讨将初始学习率(learning rate)设置为,并在练习完毕时衰减到。批轻重设置为 32 个样本(关于较小的模子设置为 64 个),凌驾 2048 个 token 的文本将被修剪。值得注意的是,这种办法与 norm 不同的是使用了残差 dropout。该研讨依照 Ouyang et al. [2022] 的办法,并在残差毗连(residual connection)上使用 dropout,底层 p_d=0.0,线性增长至最初一层 p_d=0.3(关于较小的模子 p_d=0.2)。该研讨发觉发觉怀疑度与天生质量不关,因此使用留出(held-out)50 样本开发集手动选择了第 5 个和第 10 个 epoch 之间的反省点。
人类评价
该研讨将 LIMA 与 SOTA 言语模子举行了比力评价,后果标明 LIMA 优于 OpenAI 基于 RLHF 的 DaVinci003 和在 52000 个样本上练习的 Alpaca 65B 参数复现版本,并且可以天生比 GPT-4 更好或与之媲美的回复。我们来看一下具体的实行后果。
后果
下图 1 体现了人类偏好评价后果,图 2 体现了 GPT-4 偏好评价后果。该研讨第一个察看后果是,只管使用 52 倍的数据举行练习,Alpaca 65B 输入的后果屡屡不如 LIMA,而使用高等对齐办法 RLHF 练习的 DaVinci003 也是云云。
谷歌的 Bard 模子则体现出与 DaVinci003 相反的趋向,在 42% 的时间内产生比 LIMA 更好的回复;而 58% 的情况 LIMA 的回复与 Bard 相当大概更好。
最初,固然 Claude 和 GPT-4 通常比 LIMA 体现更好,但在很多情况下 LIMA 的确产生了更好的回复。值得注意的是,即使是 GPT-4 也有 19% 的情况更喜好 LIMA 的输入。
分析
固然研讨者主要是针对 SOTA 模子来评价 LIMA,但值得注意的是,此中一些基线实践上是高度调谐的产物,在练习历程中约莫以前交往了数百万的真实用户 prompt,因此创造了一个十分高的标准。因此,研讨者经过手动分析 50 个随机样原本提供一个相对评价(absolute assessment)。
他们将每个样本标志为三个种别中的一个:
失败,回复不切合 prompt 的要求;
经过,回复切合 prompt 的要求;
精良,模子对 prompt 提供了一个极好的回复。
后果如图 3 所示,50% 的 LIMA 答案被以为是精良的,并且它可以依照 50 个分析的 prompt 中除 6 个以外的一切 prompt,研讨者没有察看到失败案例中的任何分明的趋向。
在 50 个分析样本中,有 43 个具有标准格式要求(比如问答、书信)。该研讨分析了 13 个分外的分布外样本(统共 20 个),后果发觉 20% 回复失败,35% 经过,45% 十分好。固然样本数目十分小,但 LIMA 以前在其练习分布之外完成了相似的功能后果,这标明 LIMA 可以很好地泛化。
最初,该研讨分析了练习会合少数与宁静干系的样本(仅有 13 个),并使用来自测试集的 30 个潜伏敏感 prompt,发觉 LIMA 宁静地回复了此中的 80%(包含 10 个带有恶意 prompt 中的 6 个)。在某些情况下,LIMA 完全回绝实行职责,但当恶意意图比力含糊时,LIMA 更有约莫提供不宁静的回复。
为什么「Less More」?对数据多样性、质量和数目标消减
接下去,研讨者经过溶解实行探究了练习数据的多样性、质量和数目标影响。他们察看到,关于对齐的目标,扩展输入多样性和输入质量有可权衡的积极影响,仅仅扩展数目则约莫不会有。
多样性。为了测试 prompt 多样性的后果,同时控制质量和数目,研讨者比力了颠末质量过滤的 Stack Exchange 数据和 wikiHow 数据的练习后果,前者有异质的 prompt 和极好的回复,后者则有同质的 prompt 和极好的回复。固然在此将二者作为多样性的代表举行比力,但研讨者也表现,在从两个不同泉源的数据中采样时,约莫会有其他殽杂要素。他们从每个泉源中抽出 2000 个练习样本,如图 5 体现,更多样化的 Stack Exchange 数据产生了分明更好的功能。
质量。为了测试回复质量的影响,研讨者从 Stack Exchange 中抽取了 2000 个样本,没有颠末任何质量或作风的过滤,并将在这个数据集上练习的模子与在过滤过的数据集上练习的模子举行比力。如图 5 所示,在颠末过滤和未颠末过滤的数据源上练习的模子之间有 0.5 分的明显差别。
数目。增长实例的数目是在很多机器学习情况中提高功能的一个出名战略。为了测试它对该设置的影响,研讨者从 Stack Exchange 中抽取了指数级增长的练习集。如图 6 所示,练习集范围的翻倍并没有改良回复质量。这个后果标明,对齐不一定只受制于练习样本的数目,还与 prompt 多样性函数有关。
多轮对话
一个仅在 1000 次单回合互动中举行微调的模子可否到场多回合对话?研讨者还在 10 个现场对话中测试了 LIMA,将每个回复标志为失败、经过或精良。
关于一个零样本谈天机器人来说,LIMA 的回复展现出了惊人的一律性,它可以参考对话中从前的步调信息。但很分明的是,该模子的利用超出了分布范围;在 10 个对话中的 6 个,LIMA 在 3 次互动中未能依照 prompt。
为了提高它的对话才能,研讨者搜集了 30 个多轮对话链。在这些对话中,有 10 个对话是由作者创作的,而剩下的 20 个对话是基于 Stack Exchange 的批评链,研讨者对其举行了编纂以顺应助手的作风。使用兼并后的 1030 个样本,他们从预练习的 LLaMa 模子中微调了一个新版本的 LIMA,并依据用于零样本模子的相反 prompt 举行了 10 次现场对话。
图 7 体现了回复质量的分布。增长对话后,大大改良了天生质量,将精良回复的比例从 45.2% 提高到 76.1%。别的,失败率从每 42 个回合有 15 次失败(零样本)下降到每 46 次有 1 次失败(微调)。
研讨者进一步比力了整个对话的质量,发觉微调模子在 10 个对话中的 7 个体现分明更好,在 3 个对话中与零样本模子打成平手。从仅仅 30 个样本中取得的这种才能的奔腾,以及零样本模子可以举行对话的内幕,加强了如此的假定:这种才能是在预练习中学习的,并且可以经过仅限的监督来调用。
综上所述,在 1000 个经心操持的例子上对一个强壮的预练习言语模子举行微调,可以在广泛的 prompt 中产生明显的、有竞争力的后果。但是,这种办法也有范围性:起首,构建如此的样本所奉献的脑力劳作是宏大的,并且很难扩展范围。其次,LIMA 并不像产物级模子那样鲁棒,固然 LIMA 通常会产生精良的反响,但在解码历程中一个不侥幸的样本或一个仇视的 prompt 屡屡会招致一个弱的反响。只管云云,这项事情中提出的证据标明,用简便的办法来处理繁复的对齐成绩是有潜力的。