面向社交感知的辅助大型语言模型代理的谈判对话
通过观察人类与大型语言模型(LLMs)的对话,本研究基于数据驱动的方法,对 LLMs 的治理和调节进行了归纳性分析,并探讨了非合作性、竞争性情境下的人机交互对人类可能构成的严重威胁以及利用 LLMs 的推理能力存在的不足和可操纵性。此外,研究还揭示了人类在与 LLMs 进行价格谈判时所达成的价格涵盖了广泛范围,指出了人类在有效与 LLMs 互动方面存在的文盲问题。
Nov, 2023
社交机器人研究者对于多方训练的对话代理越来越感兴趣。本研究在爱丁堡节的一个月长的现场表演中使用大型语言模型(LLMs),调查了在职业剧院环境中,人类演员如何与对话代理合作创作。我们探索了即兴多方对话的技术能力和限制,并从观众和表演者的经验中提供了全面的见解。我们的 “人在环环” 的方法强调了这些 LLMs 在生成与上下文相关的回复方面的挑战,并强调了用户界面的关键作用。观众的反馈表明了对 AI 驱动的现场娱乐、人机直接互动以及对 AI 在创造力支持工具方面多样化的期望。人类演员表达了巨大的热情和不同程度的满意度,而不断演变的公众舆论则凸显了人们对于 AI 在艺术中的角色的复杂情感。
May, 2024
评估大语言模型在教育中的功效,特别是在口语学习领域,引入新的多选题数据集评估模型在理解和应用口语知识方面的表现,研究不同提示技术对模型性能的影响,发现模型在音韵学、语音学和第二语言习得方面具有良好的概念理解,但在解决现实世界问题的推理方面存在限制,并初步探讨了对话交流的发现。
Aug, 2023
本文研究了大型语言模型之间在协商游戏中通过玩耍、反思和批判是否能自主地相互提高。我们使用不同的 LLMs (GPT 和 Claude) 来不同的角色,使用交易价格作为评估指标,让两个代理商进行多轮游戏,使用先前的谈判历史和 AI 反馈作为上下文演示,迭代地改进模型的谈判策略。我们希望我们的工作为语言模型间自主改进提供了初步的探索。
May, 2023
该论文探讨了使用大型语言模型(LLMs)进行自动对话质量评估的方法,并在公共和专有数据集上尝试了各种配置。结果表明,更大的模型产生了更准确的对话标签;算法选择背景上下文示例优于随机选择;在输出最终标签之前,使用 “思维链”(CoT)推理和标签提取过程进行合理化,可以提高性能;精细调整的 LLMs 优于开箱即用的模型。研究结果表明,合适地调整和具有足够推理能力的 LLMs 可以用于自动对话评估。
Jun, 2024