通过提示逼近人类对社交聊天机器人的评估

Apr, 2023

通过提示逼近人类对社交聊天机器人的评估

Approximating Human Evaluation of Social Chatbots with Prompting

Ekaterina Svikhnushina, Pearl Pu

TL;DR提出了一种利用 GPT 模型进行对话系统评估的新框架，通过对模型进行特定条件训练来生成评估指标，采用少量的演示和指导进行提示，可以在自动化评估过程中取得与人类评价高度相关的结果。

Abstract

Once powerful conversational models have become available for a wide audience, users started actively engaging in social interactions with this technology. Such unprecedented interaction experiences may pose considerable social and psychological risks to the users unless the technology is properly controlled. This creates an urgent need for scalable and robu

conversational chatbots evaluation metrics large language models prompting approaches dialog corpora

发现论文，激发创造

简单的 LLM 提示是稳健多语言对话评估的尖端技术

研究通过结合当前评估模型的优势与新建立的提示性大语言模型的范式，提出了一种新颖的框架，以实现对对话的鲁棒性和多语言性评估能力，并在多个基准测试中取得了最先进的成果，并在 DSTC11 轨道 4 “开放领域对话系统的自动评估指标” 中分别在鲁棒性和多语言任务中名列前茅，证明了提示性大语言模型的评估能力。

Aug, 2023

运用大型语言模型强化聊天机器人以搜集用户自报数据

本研究旨在探讨如何设计自然语言提示以使聊天机器人能够自然地进行对话，从而可靠地收集用户自报数据。通过在线研究（N = 48），我们通过不同的自然语言提示设计和对话主题对聊天机器人进行了评估，并发现提示设计和主题显着影响了对话流程和数据收集表现。

Jan, 2023

对话评估工作台：将 LLMs 作为类人对话系统进行评估

本文提出了 DialogBench，这是一个用于评估 LLMs 作为类似人类对话系统的能力的对话评估基准，包含 12 个对话任务。通过对 28 个 LLMs 进行广泛的测试，结果表明虽然细化调整能改善 LLMs 的人类对话系统相似度，但对于大多数 LLMs 仍有提升空间。

Nov, 2023

PLACES：用于社交对话综合的激励语言模型

使用专家编写的少量对话作为上下文示例，通过提示生成社交对话数据集，可在多方交流任务中创建更多的合成数据。与人类收集的对话相比，合成的多方交流在所有度量维度上都获得了更多的好评。

Feb, 2023

自我确信的激励机制：反复审视下的少样本问答

利用大规模预训练语言模型，通过迭代增强和定制提示来提升其在复杂任务中的性能。

Oct, 2023

聊天机器人不是您所需的全部：信息丰富的提示以获得更真实的回应

借助五感、属性、情感状态、与交互者的关系和记忆，我们提出了一种新的方法来从大型语言模型中生成更加真实、一致的回答，旨在增强大型语言模型在会话交流中生成自然、真实反应的能力。通过我们的研究，我们希望为模仿小说人物的大型语言模型的改进能力做出贡献。我们在我们的 GitHub 上发布了一个新的基准数据集以及所有的代码、提示和样例结果。

Dec, 2023

误差分析提示使得大型语言模型的翻译评估类似于人类：以 ChatGPT 为例的案例研究

本文介绍了新的提示方法（Error Analysis Prompting）, 结合 Chain-of-Thoughts 和 Error Analysis, 用于提高 ChatGPT 在机器翻译质量评估方面的性能，并发现了一些其作为 MT 评估器的局限性，结果表明，使用 Error Analysis Prompting，ChatGPT 可以在系统和段落级别上生成类似人类的 MT 评估。

Mar, 2023

在大语言模型时代重新思考对话式推荐系统的评估

本文介绍了利用大型语言模型进行对话推荐的研究，并提出了一种基于 LLM 的用户模拟器的交互式评估方法 iEvaLM，从而改善了现有的评估协议。在两个公共数据集上的实验表明，ChatGPT 展现出较大的优势，并强调解释性的评估。此研究有助于更深入地理解 LLMs 在 CRSs 中的潜力，并为未来的研究提供一个更灵活、易于使用的评估框架。

May, 2023

角色扮演的模版框架：生成与评估

使用大型语言模型（LLM）构建角色扮演对话数据集并评估性能的框架，并使用召回导向的 Rouge-L 指标支持 LLM 评估器的结果。

Jun, 2024

奖励数百万用户与聊天机器人的现实世界互动

该研究探讨了如何使用人类反馈来有效地开发高度吸引力的社交聊天机器人，通过伪标签和奖励模型提高了聊天机器人的用户积极性和留存率，从而达到使用者参与度优先的目的。研究结果表明，这种方法可以将聊天长度增加高达 70％，使 GPT-J 6B 模型的用户留存率增加超过 30％。未来的工作将使用奖励模型实现数据飞轮，以轮换地微调语言模型和奖励模型。

Mar, 2023