MARG: 科学论文的多智能体评论生成
使用 GPT-4 模型创建了一个自动化平台,通过对科学论文的全文进行评论以评估 GPT-4 生成的反馈质量。 在两项大规模研究中,我们将 GPT-4 生成的反馈与人工同行评审的反馈进行了定量比较,并通过 308 名研究人员的用户研究了解了他们对 GPT-4 生成的反馈的感知。 总体而言,超过半数的用户(57.4%)认为 GPT-4 生成的反馈有所帮助,82.4% 的用户认为它比至少一些人工审稿人的反馈更有益。
Oct, 2023
利用大型语言模型,本研究引入了两种机制,即生成式同伴预测机制(GPPM)和生成式简介同伴预测机制(GSPPM),以扩大同伴预测机制的应用范围至基于文本的报告,并理论上证明当语言模型预测足够准确时,该机制能够激励高质量的反馈。在实证研究中使用了 Yelp 评论数据集和 ICLR OpenReview 数据集,结果表明在 ICLR 数据集上,该机制能够根据期望得分区分人工编写的评论、GPT-4 生成的评论和 GPT-3.5 生成的评论,并且 GSPPM 比 GPPM 更有效地惩罚产生自语言模型的评论。
May, 2024
我们提出了一种方法,用于估计大语言模型(LLM)在大型语料库中可能被大量修改或生成的文本比例。通过利用专家编写和 AI 生成的参考文本,我们的最大似然模型能够准确而高效地检查语料库级别上真实世界中 LLM 的使用。我们将这种方法应用于 ChatGPT: ICLR 2024、NeurIPS 2023、CoRL 2023 和 EMNLP 2023 发布之后 AI 会议中的科学同行评议案例研究。我们的研究结果表明,在提交给这些会议的同行评议文本中,有 6.5%到 16.9%的文本可能是由 LLMs 进行了大幅修改,即超出了拼写检查或轻微修改的范围。生成文本出现的情况可以揭示用户行为:在对作者回复不太可能做出回应的评审人员提交的、截止日期接近的评审中,LLM 生成的文本比例更高。我们还观察到生成文本的语料库级别趋势,这些趋势可能在个体级别上难以察觉,并讨论了这些趋势对同行评议的影响。我们呼吁未来的跨学科工作来研究 LLM 的使用如何改变我们的信息和知识实践。
Mar, 2024
本研究提出了一种基于强化学习算法的语言模型微调方法,通过与动态黑盒引导语言模型(GPT-3)相互作用,比传统监督学习和 PPO 策略优化算法表现更好,尤其在语义和词汇多样性等方面的指标上有改善。
Jun, 2023
基于大语言模型的自动生成反馈在智能辅导系统和在线学习平台中具有潜力来提高许多学生的学习效果,本文针对自动生成和评估反馈的问题,提出了数学反馈评估标准和反馈生成框架,通过强化学习优化反馈的正确性和一致性,并通过案例研究定性分析了生成和评估系统。
Mar, 2024
大型语言模型(LLM)是否能根据直接查询和间接查询在文档或报告中生成参考文献是智能分析、网络安全、新闻机构和教育人员至关重要的问题。本研究通过调查大型语言模型在生成参考文献任务中的表现,引入名为 REASONS 的大型数据集,以科学研究领域的 12 个最热门领域的摘要为基础,得出相关结论,并提供有关自动引文生成任务可靠性的有价值的见解。
May, 2024
为了解决大型语言模型在引文、正确性和流畅度方面存在的问题,本研究通过构建数据集、引入自动化反馈机制和反馈学习循环,成功提高了 ChatGPT 的引文和流畅度指标,并保持高水平的正确性。
Sep, 2023
本文探讨了生成模型在零样本情况下从图数据生成描述性文本的能力,并与微调后的语言模型进行了比较,在两个图到文本数据集上评估了 GPT-3 和 ChatGPT 的性能。结果表明生成模型能够生成流畅和连贯的文本,AGENDA 和 WebNLG 数据集的 BLEU 分别达到 10.57 和 11.08。然而,我们的错误分析发现生成模型仍然难以理解实体之间的语义关系,并且倾向于生成存在幻觉或无关信息的文本。作为错误分析的一部分,我们使用 BERT 检测机器生成的文本,并实现了较高的宏 F1 得分。我们已公开提供生成模型生成的文本。
Jul, 2023