WebGPT: 借助浏览器进行问题回答并获得人类反馈
本文探讨利用人类书写的样例以几乎无监督的方式创作自由文本解释的任务,发现高质量的提示有助于提高语言模型的生成效果,同时人类研究表明 GPT-3 生成的解释在某些情况下能够胜过人工生成的解释;作者还结合 GPT-3 与学习自评价的筛选器对生成的解释进行过滤,结果表明这一方法能够实现较高水平的解释过滤。
Dec, 2021
本篇论文提出通过人类反馈进行微调以增进语言模型与用户意图更好地对齐的方法,并展示了基于该方法得到的 InstructGPT 模型在排名、输出质量、真实性等方面皆优于规模更大的 GPT-3 模型,并最终得出该方法为改进语言模型对齐的一个有前途的方向。
Mar, 2022
新型多面手大语言模型可通过分析大量数据加快科学评审,使用更无偏的定量度量指标,促进跨学科的联系,确定新兴趋势和研究领域,并通过评估大量数据来识别的方法,但目前它们缺乏对复杂方法的深入理解,评估创新性的主张存在困难,并且无法评估伦理问题和利益冲突。
Dec, 2023
在该研究中,我们使用 OpenAI 的 text-davinci-003 模型,即 GPT3.5,重复了 Many Labs 2 重复项目中的 14 项研究,其中我们的 GPT 样本在八项研究中复制了 37.5%的原始结果和 Many Labs 2 结果的 37.5%。然而,我们发现 GPT 模型在回答六个研究问卷中的问题时出现了极端的 “正确答案” 效应,这引发了对未来 AI 领域可能存在思想多样性降低的担忧。
Feb, 2023
ChatGPT 作为一个问答系统,通过对其在提供的段落中提取回答的能力进行评估,发现它在生成模型方面表现出了实力,但在问题回答方面相对于特定任务模型表现较差,而提供上下文可以提高其性能,提问方式对其准确性有所影响,并且在提供的上下文中提供了无法从中获取答案的问题的回答,还存在答案幻觉的现象。
Dec, 2023
在本文中,我们通过提交 60 个提问并基于三项机器翻译评分标准(BLEU,METEOR 和 ROUGE)对 ChatGPT 的回答进行了分析,结果显示出与人类典型反应相比,ChatGPT 在回复和翻译方面的能力虽然显著,但仍有所欠缺。
Feb, 2023
本研究通过在科学教育中使用示例评估任务,突显了精调 ChatGPT(GPT-3.5)自动评分学生书面构建性答案的潜力。与经过领域特定训练数据细调的 Google 生成语言模型 BERT 相比,GPT-3.5 在自动评分准确性上表现出显著提高,并发布了细调模型以供公众使用和社区参与。
Oct, 2023
该研究针对 GPT-3 模型训练数据不足的问题,通过自动生成的样本增强小型训练集,在数据科学相关问题分类任务中比较了两种分类器的效果,证明了给予大型机器学习模型如 GPT-3 自己提出附加训练示例可以提高分类性能的结论。
May, 2022
本实验研究使用 OpenAI 的 GPT-3.5 模型在一个自动化的评估平台上生成学生编程作业的个性化提示,实验小组依赖平台反馈较少但在启用 GPT 提示时表现得更好。
Jun, 2023
在常识问题回答的情境下,我们使用更小的语言模型通过更新 elaboration generator 和 answer predictor 两种语言模型来相互影响,最终取得了比同样规模的其他模型更好的性能,且在四个常识问题回答基准测试中,差距越变越小。
Sep, 2022