WebGPT: 借助浏览器进行问题回答并获得人类反馈

Dec, 2021

WebGPT: 借助浏览器进行问题回答并获得人类反馈

WebGPT: Browser-assisted question-answering with human feedback

Reiichiro Nakano, Jacob Hilton, Suchir Balaji, Jeff Wu, Long Ouyang...

TL;DR在文本浏览环境中使用 GPT-3 进行长篇问题回答的模型训练，通过模仿学习和人类反馈优化答案质量，并使用 ELI5 数据集对模型进行评估和训练，最佳模型通过行为克隆和逆向采样获得，最终得到的答案比 Reddit 上评分最高答案及人类演示者的答案更受人类用户喜欢。

Abstract

We fine-tune gpt-3 to answer long-form questions using a text-based web-browsing environment, which allows the model to search and navigate the web. By setting up the task so that it can be performed by humans, we are able to train models on the task using →

gpt-3 imitation learning eli5 behavior cloning reward model

发现论文，激发创造

人工智能协作生成自由文本解释的重新构架

本文探讨利用人类书写的样例以几乎无监督的方式创作自由文本解释的任务，发现高质量的提示有助于提高语言模型的生成效果，同时人类研究表明 GPT-3 生成的解释在某些情况下能够胜过人工生成的解释；作者还结合 GPT-3 与学习自评价的筛选器对生成的解释进行过滤，结果表明这一方法能够实现较高水平的解释过滤。

Dec, 2021

使用人类反馈训练语言模型遵循指令

本篇论文提出通过人类反馈进行微调以增进语言模型与用户意图更好地对齐的方法，并展示了基于该方法得到的 InstructGPT 模型在排名、输出质量、真实性等方面皆优于规模更大的 GPT-3 模型，并最终得出该方法为改进语言模型对齐的一个有前途的方向。

Mar, 2022

GPT 与人类在科学评论中的对比：ChatGPT 在科学领域的应用的双重来源评论

新型多面手大语言模型可通过分析大量数据加快科学评审，使用更无偏的定量度量指标，促进跨学科的联系，确定新兴趋势和研究领域，并通过评估大量数据来识别的方法，但目前它们缺乏对复杂方法的深入理解，评估创新性的主张存在困难，并且无法评估伦理问题和利益冲突。

Dec, 2023

人工智能心理学的 “正确答案

在该研究中，我们使用 OpenAI 的 text-davinci-003 模型，即 GPT3.5，重复了 Many Labs 2 重复项目中的 14 项研究，其中我们的 GPT 样本在八项研究中复制了 37.5％的原始结果和 Many Labs 2 结果的 37.5％。然而，我们发现 GPT 模型在回答六个研究问卷中的问题时出现了极端的 “正确答案” 效应，这引发了对未来 AI 领域可能存在思想多样性降低的担忧。

Feb, 2023

评估 ChatGPT 作为一个问答系统：全面分析与现有模型的比较

ChatGPT 作为一个问答系统，通过对其在提供的段落中提取回答的能力进行评估，发现它在生成模型方面表现出了实力，但在问题回答方面相对于特定任务模型表现较差，而提供上下文可以提高其性能，提问方式对其准确性有所影响，并且在提供的上下文中提供了无法从中获取答案的问题的回答，还存在答案幻觉的现象。

Dec, 2023

聊天机器人对话回应的评分

在本文中，我们通过提交 60 个提问并基于三项机器翻译评分标准（BLEU，METEOR 和 ROUGE）对 ChatGPT 的回答进行了分析，结果显示出与人类典型反应相比，ChatGPT 在回复和翻译方面的能力虽然显著，但仍有所欠缺。

Feb, 2023

ChatGPT 自动评分的微调

本研究通过在科学教育中使用示例评估任务，突显了精调 ChatGPT（GPT-3.5）自动评分学生书面构建性答案的潜力。与经过领域特定训练数据细调的 Google 生成语言模型 BERT 相比，GPT-3.5 在自动评分准确性上表现出显著提高，并发布了细调模型以供公众使用和社区参与。

Oct, 2023

利用 GPT-3 扩充数据，提高短文本分类的性能

该研究针对 GPT-3 模型训练数据不足的问题，通过自动生成的样本增强小型训练集，在数据科学相关问题分类任务中比较了两种分类器的效果，证明了给予大型机器学习模型如 GPT-3 自己提出附加训练示例可以提高分类性能的结论。

May, 2022

用大型语言模型（GPT）自动化编程作业反馈

本实验研究使用 OpenAI 的 GPT-3.5 模型在一个自动化的评估平台上生成学生编程作业的个性化提示，实验小组依赖平台反馈较少但在启用 GPT 提示时表现得更好。

Jun, 2023

大规模生成常识问题解答阐释模型

在常识问题回答的情境下，我们使用更小的语言模型通过更新 elaboration generator 和 answer predictor 两种语言模型来相互影响，最终取得了比同样规模的其他模型更好的性能，且在四个常识问题回答基准测试中，差距越变越小。

Sep, 2022