WebGPT: 借助浏览器进行问题回答并获得人类反馈
本文探讨利用人类书写的样例以几乎无监督的方式创作自由文本解释的任务,发现高质量的提示有助于提高语言模型的生成效果,同时人类研究表明 GPT-3 生成的解释在某些情况下能够胜过人工生成的解释;作者还结合 GPT-3 与学习自评价的筛选器对生成的解释进行过滤,结果表明这一方法能够实现较高水平的解释过滤。
Dec, 2021
本篇论文提出通过人类反馈进行微调以增进语言模型与用户意图更好地对齐的方法,并展示了基于该方法得到的 InstructGPT 模型在排名、输出质量、真实性等方面皆优于规模更大的 GPT-3 模型,并最终得出该方法为改进语言模型对齐的一个有前途的方向。
Mar, 2022
在该研究中,我们使用 OpenAI 的 text-davinci-003 模型,即 GPT3.5,重复了 Many Labs 2 重复项目中的 14 项研究,其中我们的 GPT 样本在八项研究中复制了 37.5%的原始结果和 Many Labs 2 结果的 37.5%。然而,我们发现 GPT 模型在回答六个研究问卷中的问题时出现了极端的 “正确答案” 效应,这引发了对未来 AI 领域可能存在思想多样性降低的担忧。
Feb, 2023
在本文中,我们通过提交 60 个提问并基于三项机器翻译评分标准(BLEU,METEOR 和 ROUGE)对 ChatGPT 的回答进行了分析,结果显示出与人类典型反应相比,ChatGPT 在回复和翻译方面的能力虽然显著,但仍有所欠缺。
Feb, 2023
本研究通过在科学教育中使用示例评估任务,突显了精调 ChatGPT(GPT-3.5)自动评分学生书面构建性答案的潜力。与经过领域特定训练数据细调的 Google 生成语言模型 BERT 相比,GPT-3.5 在自动评分准确性上表现出显著提高,并发布了细调模型以供公众使用和社区参与。
Oct, 2023
该研究针对 GPT-3 模型训练数据不足的问题,通过自动生成的样本增强小型训练集,在数据科学相关问题分类任务中比较了两种分类器的效果,证明了给予大型机器学习模型如 GPT-3 自己提出附加训练示例可以提高分类性能的结论。
May, 2022
本实验研究使用 OpenAI 的 GPT-3.5 模型在一个自动化的评估平台上生成学生编程作业的个性化提示,实验小组依赖平台反馈较少但在启用 GPT 提示时表现得更好。
Jun, 2023
在常识问题回答的情境下,我们使用更小的语言模型通过更新 elaboration generator 和 answer predictor 两种语言模型来相互影响,最终取得了比同样规模的其他模型更好的性能,且在四个常识问题回答基准测试中,差距越变越小。
Sep, 2022
本研究借鉴自然语言处理和大型语言模型相结合的方法,采用自然文本提示来制作课程内容,有效提高了儿童好奇心问题的生成能力,同时发现开放式训练内容更适合培养好奇心问题发现的技能。
Nov, 2022
通过强化学习从人类偏好中得出支持性证据,训练生成回答并支持其声称的 “开放式书目” QA 模型。该模型能够从搜索引擎中找到的多个文档或单个用户提供的文档中提取支持证据。通过在 NaturalQuestions 和 ELI5 数据集的子集中进行的人类评估,该模型的响应在这两个子集中 80%和 67%的时间内达到高质量水平,但并非所有声称都被支持的证据是正确的。
Mar, 2022