通过提示逼近人类对社交聊天机器人的评估
研究通过结合当前评估模型的优势与新建立的提示性大语言模型的范式,提出了一种新颖的框架,以实现对对话的鲁棒性和多语言性评估能力,并在多个基准测试中取得了最先进的成果,并在 DSTC11 轨道 4 “开放领域对话系统的自动评估指标” 中分别在鲁棒性和多语言任务中名列前茅,证明了提示性大语言模型的评估能力。
Aug, 2023
本研究旨在探讨如何设计自然语言提示以使聊天机器人能够自然地进行对话,从而可靠地收集用户自报数据。通过在线研究(N = 48),我们通过不同的自然语言提示设计和对话主题对聊天机器人进行了评估,并发现提示设计和主题显着影响了对话流程和数据收集表现。
Jan, 2023
本文提出了 DialogBench,这是一个用于评估 LLMs 作为类似人类对话系统的能力的对话评估基准,包含 12 个对话任务。通过对 28 个 LLMs 进行广泛的测试,结果表明虽然细化调整能改善 LLMs 的人类对话系统相似度,但对于大多数 LLMs 仍有提升空间。
Nov, 2023
使用专家编写的少量对话作为上下文示例,通过提示生成社交对话数据集,可在多方交流任务中创建更多的合成数据。与人类收集的对话相比,合成的多方交流在所有度量维度上都获得了更多的好评。
Feb, 2023
借助五感、属性、情感状态、与交互者的关系和记忆,我们提出了一种新的方法来从大型语言模型中生成更加真实、一致的回答,旨在增强大型语言模型在会话交流中生成自然、真实反应的能力。通过我们的研究,我们希望为模仿小说人物的大型语言模型的改进能力做出贡献。我们在我们的 GitHub 上发布了一个新的基准数据集以及所有的代码、提示和样例结果。
Dec, 2023
本文介绍了新的提示方法(Error Analysis Prompting), 结合 Chain-of-Thoughts 和 Error Analysis, 用于提高 ChatGPT 在机器翻译质量评估方面的性能,并发现了一些其作为 MT 评估器的局限性,结果表明,使用 Error Analysis Prompting,ChatGPT 可以在系统和段落级别上生成类似人类的 MT 评估。
Mar, 2023
本文介绍了利用大型语言模型进行对话推荐的研究,并提出了一种基于 LLM 的用户模拟器的交互式评估方法 iEvaLM,从而改善了现有的评估协议。在两个公共数据集上的实验表明,ChatGPT 展现出较大的优势,并强调解释性的评估。此研究有助于更深入地理解 LLMs 在 CRSs 中的潜力,并为未来的研究提供一个更灵活、易于使用的评估框架。
May, 2023
该研究探讨了如何使用人类反馈来有效地开发高度吸引力的社交聊天机器人,通过伪标签和奖励模型提高了聊天机器人的用户积极性和留存率,从而达到使用者参与度优先的目的。研究结果表明,这种方法可以将聊天长度增加高达 70%,使 GPT-J 6B 模型的用户留存率增加超过 30%。未来的工作将使用奖励模型实现数据飞轮,以轮换地微调语言模型和奖励模型。
Mar, 2023