WebGPT: 借助浏览器进行问题回答并获得人类反馈
通过社交媒体反馈数据构建训练集,在133M个人类反馈数据上训练了基于GPT-2的DialogRPT模型,结合评分模型排名机器生成的对话回复,并通过人类评估证明其效果优于基线模型。
Sep, 2020
本文通过收集并比对来自不同领域的问题,得出了Human ChatGPT Comparison Corpus (HC3)数据集,并评估了与人类专家相比ChatGPT的回答特点和差异,还提出了未来LLMs的研究方向,最终建立了三个不同的检测系统以检测ChatGPT的生成文本。
Jan, 2023
本文提供实验证据表明,人类回答时过多信息的选择是由于考虑到与问答者目标的相关性,并根据问题使用的功能上下文灵活调整。本文进一步探究了最先进的神经语言模型的问答表现,并发现大多数模型无法像人类一样调整回答行为,倾向于包含无关信息。我们发现GPT-3对提示形式非常敏感,并且只有在有例子和认知动机的解释指导下才能实现类似于人类的回答模式。
May, 2023
本文研究了通过人类用户反馈不断改进提取问题回答(QA)系统的方法,并设计和部署了一个迭代方法,在多种设置下进行实验以扩大对随时间反馈学习的理解。我们的实验显示,从不同数据环境下的用户反馈中能够有效提高提取QA模型,包括适应领域的潜力。
May, 2023
本文探讨使用 ChatGPT 模型进行学生答案自动评分和理由生成的方法,并通过引入批评模块,过滤 ChatGPT 的不正确输出并细调较小的语言模型,在学生答案评分和理由生成方面实现了更好的性能,并且能够提供更详细和易理解的评估结果,从而提供了一个可行的解决方案,实现了可解释的自动评估教育。
May, 2023
WebGLM是一种基于General Language Model的网络增强问答系统,结合了网页搜索和检索功能,经过多维度的人类评估和量化削减研究表明,在准确性、效率和成本效益方面优于现有系统。
Jun, 2023
通过使用一种简单且经济高效的方法来合成数据以训练问答系统,本文提供了一种在资源丰富的英语等语言中常用的微调GPT模型的培训方法,并提出了一种零样本或少样本情况下使用指导调优模型生成QA对的方法,并通过实验比较了从指导调优模型获得QA对的各种策略,结果表明,使用我们提出的合成数据训练的模型能够达到与手动策划数据集训练的模型相当的性能,而无需付出人力成本。
Oct, 2023
本研究通过在科学教育中使用示例评估任务,突显了精调 ChatGPT(GPT-3.5)自动评分学生书面构建性答案的潜力。与经过领域特定训练数据细调的 Google 生成语言模型 BERT 相比,GPT-3.5 在自动评分准确性上表现出显著提高,并发布了细调模型以供公众使用和社区参与。
Oct, 2023
ChatGPT作为一个问答系统,通过对其在提供的段落中提取回答的能力进行评估,发现它在生成模型方面表现出了实力,但在问题回答方面相对于特定任务模型表现较差,而提供上下文可以提高其性能,提问方式对其准确性有所影响,并且在提供的上下文中提供了无法从中获取答案的问题的回答,还存在答案幻觉的现象。
Dec, 2023
本研究通过采用人类反馈驱动的强化学习与来自Stack Overflow的得分,加强了GPT Neo 125M在编程社区问答(CQA)中的性能,在使用近端策略优化(PPO)的fine-tuning过程中使用了两种不同的奖励模型训练策略,并通过引入辅助评分机制,揭示了在编程领域中常规语言度量在评估回答时的局限性,强调了领域特定评估方法的重要性,通过准确的分析,本文探讨了将人类反馈驱动的强化学习应用于编程CQA以及环境感知评估的复杂性,在优化大型语言模型方面对持续努力做出了贡献。
Jan, 2024