真实还是机械?评估大型语言模型在对话中是否准确模拟人类响应的特质
本文研究大型语言模型在处理自然语言推理任务上的表现,并通过 Monte Carlo Reconstruction 和 Log Probability Reconstruction 两种方法评估其与人类理解的一致性,结果表明大型语言模型在 NLI 任务和人的理解差异分布方面表现不佳。
May, 2023
本文提出了DialogBench,这是一个用于评估LLMs作为类似人类对话系统的能力的对话评估基准,包含12个对话任务。通过对28个LLMs进行广泛的测试,结果表明虽然细化调整能改善LLMs的人类对话系统相似度,但对于大多数LLMs仍有提升空间。
Nov, 2023
通过构建一个综合的人工评估框架,我们提出了一个评估大规模语言模型在不同实际任务中遵循指令的能力的方法,同时设计了详细的评估标准和过程,释放了一个包含不同难度水平和知识领域的测试集,并分析了自动化评估的可行性。我们的研究为评估英语和中文大规模语言模型的人类对齐性提供了一个标准化的方法,旨在促进安全和人类对齐性大规模语言模型发展进步的基准化。
Nov, 2023
本研究探讨了大型语言模型(LLMs)在生成人工数据中的不断扩大的作用。尽管人工数据能够与人类性能相匹配,但本文揭示了显著的潜在差异,尤其是在复杂任务中,LLMs常常错过对内在人类生成内容的微妙理解。该研究批判性地考察了多样化的LLM生成数据,并强调了在数据创建和使用LLMs时遵循道德实践的必要性。它凸显了解决LLM生成内容中产生的偏差和人为因素对于未来研究和开发的重要性。所有数据和代码都可在我们的项目页面上获得。
Jan, 2024
研究探讨人类和LLM生成的对话之间的语言差异,并使用ChatGPT-3.5生成的19.5K对话作为EmpathicDialogues数据集的补充。研究使用了语言查询和词频统计(LIWC)分析,在118个语言类别上比较ChatGPT生成的对话和人类对话。结果显示人类对话在可变性和真实性方面更出色,但ChatGPT在社交过程、分析风格、认知、注意力焦点和积极情绪方面表现优异,加强了LLM“更接近人类”的最新发现。然而,在正面或负面情感方面,ChatGPT和人类对话之间没有显著差异。对话嵌入的分类器分析表明,尽管对话中未明确提及情感,但存在着情感价值的隐式编码。该研究还提供了一个新颖的ChatGPT生成的对话数据集,其中包含两个独立的聊天机器人之间的对话,这些对话旨在复制一个开放可访问的人类对话语料库,广泛应用于语言建模的AI研究。我们的研究结果增加了对ChatGPT的语言能力的理解,并为区分人类和LLM生成的文本的持续努力提供了信息,这对于检测由AI生成的虚假信息、错误信息和误导信息至关重要。
Jan, 2024
研究了大型语言模型(LLMs)在人机对话中的回应生成任务中的限制及不同对话类型下的LLM适应技术的评估方法,发现没有普遍适用的最佳适应技术,包括人工评估以避免自动测量引起的不准确预期和结果。
Jun, 2024
本文提出了LLM-Roleplay:一种面向目标的、基于人物角色的自动生成多样化多轮对话的方法,通过大型语言模型扮演描述人物的角色,从而模拟人与聊天机器人的互动对话。通过收集不同社会人口群体的自然人-聊天机器人对话数据,并进行人类评估,发现我们的方法能够以高可分辨率模拟人-聊天机器人对话。
Jul, 2024
本研究解决了大型语言模型(LLMs)在对话模拟中是否真实反映人类互动的缺口。通过生成10万个LLM-LLM和人类-LLM对话的数据集,研究发现模拟对话与人类对话在文本风格和内容上存在显著差异,表明LLMs的表现受限于与人类写作风格的相似性。这一发现对未来对话系统的设计和评估具有重要意义。
Sep, 2024