真实还是机械？评估大型语言模型在对话中是否准确模拟人类响应的特质

Sep, 2024

真实还是机械？评估大型语言模型在对话中是否准确模拟人类响应的特质

Real or Robotic? Assessing Whether LLMs Accurately Simulate Qualities of Human Responses in Dialogue

Jonathan Ivey, Shivani Kumar, Jiayu Liu, Hua Shen, Sushrita Rakshit...

TL;DR本研究解决了大型语言模型（LLMs）在模拟人类对话时的准确性问题。我们提出了一种方法，通过生成和分析10万个LLM与人类的对话对，发现LLM模拟与人类对话之间存在显著差异，尤其在文本风格和内容上。这项工作强调了LLMs的局限性，并指出人类在更接近LLM风格的写作时，模型的表现有所改善。

Abstract

Studying and building datasets for dialogue tasks is both expensive and time-consuming due to the need to recruit, train, and collect data from study participants. In response, much recent work has sought to use Large Language Models (LLMs) to simulate both human-human and human-LLM in

发现论文，激发创造

大型语言模型是否能像人类一样推断和产生分歧？

本文研究大型语言模型在处理自然语言推理任务上的表现，并通过 Monte Carlo Reconstruction 和 Log Probability Reconstruction 两种方法评估其与人类理解的一致性，结果表明大型语言模型在 NLI 任务和人的理解差异分布方面表现不佳。

May, 2023

BotChat: 评估LLMs在进行多轮对话方面的能力

利用 GPT-4 对人类风格的多轮对话进行评估，发现大语言模型在生成多轮对话方面具有出色的质量，明显优于其他模型。

Oct, 2023

对话评估工作台: 将LLMs作为类人对话系统进行评估

本文提出了DialogBench，这是一个用于评估LLMs作为类似人类对话系统的能力的对话评估基准，包含12个对话任务。通过对28个LLMs进行广泛的测试，结果表明虽然细化调整能改善LLMs的人类对话系统相似度，但对于大多数LLMs仍有提升空间。

Nov, 2023

腾讯LLMEval：人类对齐的LLMs的实际能力的层次评估

通过构建一个综合的人工评估框架，我们提出了一个评估大规模语言模型在不同实际任务中遵循指令的能力的方法，同时设计了详细的评估标准和过程，释放了一个包含不同难度水平和知识领域的测试集，并分析了自动化评估的可行性。我们的研究为评估英语和中文大规模语言模型的人类对齐性提供了一个标准化的方法，旨在促进安全和人类对齐性大规模语言模型发展进步的基准化。

Nov, 2023

大型语言模型作为自动对话评估器的有效性综合分析

自动对话评估的研究中，大型语言模型、神经度量指标以及元评估数据集的应用，以及模型层次和维度层次的集成对评估性能的影响进行了全面的研究。

Dec, 2023

揭示LLM生成数据的本质

本研究探讨了大型语言模型（LLMs）在生成人工数据中的不断扩大的作用。尽管人工数据能够与人类性能相匹配，但本文揭示了显著的潜在差异，尤其是在复杂任务中，LLMs常常错过对内在人类生成内容的微妙理解。该研究批判性地考察了多样化的LLM生成数据，并强调了在数据创建和使用LLMs时遵循道德实践的必要性。它凸显了解决LLM生成内容中产生的偏差和人为因素对于未来研究和开发的重要性。所有数据和代码都可在我们的项目页面上获得。

Jan, 2024

人类与ChatGPT生成的对话的语言比较

研究探讨人类和LLM生成的对话之间的语言差异，并使用ChatGPT-3.5生成的19.5K对话作为EmpathicDialogues数据集的补充。研究使用了语言查询和词频统计（LIWC）分析，在118个语言类别上比较ChatGPT生成的对话和人类对话。结果显示人类对话在可变性和真实性方面更出色，但ChatGPT在社交过程、分析风格、认知、注意力焦点和积极情绪方面表现优异，加强了LLM“更接近人类”的最新发现。然而，在正面或负面情感方面，ChatGPT和人类对话之间没有显著差异。对话嵌入的分类器分析表明，尽管对话中未明确提及情感，但存在着情感价值的隐式编码。该研究还提供了一个新颖的ChatGPT生成的对话数据集，其中包含两个独立的聊天机器人之间的对话，这些对话旨在复制一个开放可访问的人类对话语料库，广泛应用于语言建模的AI研究。我们的研究结果增加了对ChatGPT的语言能力的理解，并为区分人类和LLM生成的文本的持续努力提供了信息，这对于检测由AI生成的虚假信息、错误信息和误导信息至关重要。

Jan, 2024

适用于对话的不同技术方法评估：微调还是RAG？

研究了大型语言模型（LLMs）在人机对话中的回应生成任务中的限制及不同对话类型下的LLM适应技术的评估方法，发现没有普遍适用的最佳适应技术，包括人工评估以避免自动测量引起的不准确预期和结果。

Jun, 2024

LLM角色扮演：模拟人机交互

本文提出了LLM-Roleplay：一种面向目标的、基于人物角色的自动生成多样化多轮对话的方法，通过大型语言模型扮演描述人物的角色，从而模拟人与聊天机器人的互动对话。通过收集不同社会人口群体的自然人-聊天机器人对话数据，并进行人类评估，发现我们的方法能够以高可分辨率模拟人-聊天机器人对话。

Jul, 2024

真实还是机器人？评估大型语言模型是否准确模拟人类对话的特质

本研究解决了大型语言模型（LLMs）在对话模拟中是否真实反映人类互动的缺口。通过生成10万个LLM-LLM和人类-LLM对话的数据集，研究发现模拟对话与人类对话在文本风格和内容上存在显著差异，表明LLMs的表现受限于与人类写作风格的相似性。这一发现对未来对话系统的设计和评估具有重要意义。

Sep, 2024