利用语言模型模拟听众来改善人际交流
介绍了一种新的测试方法——图灵实验(TE),用于评估语言模型(如GPT-3)模拟人类行为的能力,设计实现了多项经济学、语言学和社会心理学实验的TE,比较了不同语言模型再现经典实验的表现,揭示了一些语言模型的“超级精度扭曲”问题。
Aug, 2022
研究人员使用一系列新颖的提示来测试 ChatGPT 中是否显示出启发式方法、偏见和其他决策效应等现象,并发现 ChatGPT 在这些效应中表现出与人类相似的行为。
May, 2023
通过从真实人机对话中提取的人类问题作为学习目标,我们训练出了用户模拟器UserGPT,产生了高质量的以人为中心的合成对话数据集RealChat。实验结果表明,我们的模型在Vicuna-Bench和MT-Bench中优于基线模型,手动评估也表明我们的模型具有极高的竞争力。通过与最新LLaMA 2模型进行微调,ReaLM在MT-Bench中获得了6.33的领先分数,超过了其他同等规模的模型,包括LLaMA-2-7B-chat模型。我们的方法还展示了可扩展性和可迁移性,并对训练集数据质量与模型性能之间的相互作用进行了初步探索,为未来的研究奠定了坚实的基础。
Aug, 2023
为了推动自动化任务导向对话系统的评估,本研究提出了一种基于预训练语言模型的新型用户模拟器,并通过上下文学习来生成具有鲁棒性和语言多样性的输出,以模拟人类对话行为。通过与现有对话系统交互,并收集人机交互数据集,验证了该用户模拟器在单一意图对话目标方面的表现与人类相似。
Sep, 2023
大型语言模型在培养有同理心的对话、构建和谐社会关系以及发展有帮助的人工智能方面具有至关重要的作用。本研究通过实证调查了大型语言模型在生成有同理心的回应方面的性能,并提出了三种改进方法:语义上下文学习、两阶段交互生成和与知识库的结合。广泛的实验证明,我们的方法能够显著改善大型语言模型的性能,在自动评估和人工评估方面达到最先进的水平。此外,我们还探索了 GPT-4 模型模拟人工评估者的可能性。
Oct, 2023
通过设计和添加内心独白,通过提示工程和上下文学习的方式,使大型语言模型(LLMs)更具人类形象和积极主动的对话能力,并构建评估模型对话生成能力的综合性基准CSkills,并实验证明了所提出的CSIM策略在自动评估和人工评估上优于基准模型。
Nov, 2023
使用语言模型模拟定制沟通训练并提供实时反馈,以支持人际有效性技能的实践和学习,通过与GPT-4相比生成更接近专家反馈的反馈,以及通过随机试验的结果,发现IMBUE显著提高了参与者的自我效能,并减少了负面情绪,在技能掌握方面有17%的改善,在自我效能和情绪减少方面表现出更大的提升。
Feb, 2024
我们研究了大型语言模型(LLMs)产生有说服力的文本的能力,通过构建一个新的数据集Persuasive-Pairs,用于训练回归模型来预测文本对之间的说服力得分,并讨论了系统提示中不同'personas'对文本的影响。
Jun, 2024
本研究针对大型语言模型(LLM)在多文化环境中的适应问题,提出了一种通过模拟不同国籍的用户角色进行评估的新方法。研究发现,明确指定用户的居住国可以提升模型的文化适应性,而使用母语提示则可能降低模拟准确性,特别是在某些语言中。这表明,国籍信息对模型的适应性具有正面影响,但母语提示却没有提供可靠的提升,甚至可能造成负面效果。
Aug, 2024
本研究探讨如何利用大型语言模型(LLMs)模拟实地实验,填补了现有研究的空白。通过提出观察者模式和参与者模式两种新颖提示策略,研究评估了LLMs在预测结果和复制参与者反应方面的能力。研究发现,在某些情况下,模拟结果与实际实验结果具有良好的对齐,呈现出LLMs在实地实验中的潜在应用价值及其局限性。
Aug, 2024