角色扮演的模版框架：生成与评估

Jun, 2024

角色扮演的模版框架：生成与评估

Prompt Framework for Role-playing: Generation and Evaluation

Xun Liu, Zhengwei Ni

TL;DR使用大型语言模型（LLM）构建角色扮演对话数据集并评估性能的框架，并使用召回导向的 Rouge-L 指标支持 LLM 评估器的结果。

Abstract

large language models (LLM) have demonstrated remarkable abilities in generating natural language, understanding user instruction, and mimicking human language use. These capabilities have garnered considerable interest in applications such as →

large language models role-playing prompts dialogue datasets rouge-l metric

发现论文，激发创造

RoleLLM：大型语言模型角色扮演能力的基准、激发和增强

RoleLLM 是一种框架，用于在大规模语言模型中评估和增强角色扮演能力。通过 Context-Instruct 和 RoleGPT，我们创建了 RoleBench，这是角色扮演的第一个系统性和细致的基于角色的基准数据集，该数据集包含 168,093 个样本。此外，通过 RoleBench 上的 RoCIT，我们获得了 RoleLLaMA（英文）和 RoleGLM（中文），显著增强了角色扮演的能力，甚至与使用 GPT-4 的 RoleGPT 的结果相当。

Oct, 2023

简单的 LLM 提示是稳健多语言对话评估的尖端技术

研究通过结合当前评估模型的优势与新建立的提示性大语言模型的范式，提出了一种新颖的框架，以实现对对话的鲁棒性和多语言性评估能力，并在多个基准测试中取得了最先进的成果，并在 DSTC11 轨道 4 “开放领域对话系统的自动评估指标” 中分别在鲁棒性和多语言任务中名列前茅，证明了提示性大语言模型的评估能力。

Aug, 2023

基于大型语言模型的零射击提示在开放域人机对话中的角色扮演

采用角色扮演零样本提示作为一种高效且经济有效的方法，本研究使用能遵守指令的多语言 LLM（Beeching 等，2023 年）进行开放领域对话，并设计了一个提示系统，与 Vicuna（Chiang 等，2023 年）模型相结合，产生与精调模型在两个不同任务的人类评估中相匹配甚至超越的对话代理。

Jun, 2024

EvalLM: 大型语言模型提示的交互式评估及用户定义准则

通过评估多个用户定义的标准，使用自然语言描述系统的评估器提供的反馈，从而使开发人员能够通过迭代改进引导语。与手动评估相比，EvalLM 有助于参与者构建更多样化的标准，检查两倍数量的输出，并在减少 59% 的修订次数后获得令人满意的引导语。该研究可扩展到模型评估和特定应用环境中的对齐。

Sep, 2023

大型语言模型：多样的角色扮演者用于摘要评估

本文提出了一种新的评估框架，基于 LLMs，并通过比较生成文本和参考文本来提供全面的评估。该模型基于角色扮演者提示机制模拟生成文本的客观和主观维度，并引入了上下文提示机制以生成基于输入上下文的动态角色扮演者配置文件，并根据批处理提示设计了多角色扮演者提示技术，以将多个评估结果集成到评估结果中。在自动摘要任务的两个真实数据集上进行的实验结果表明，该模型非常具有竞争力，且与人类注释者具有非常高的一致性。

Mar, 2023

通过提示逼近人类对社交聊天机器人的评估

提出了一种利用 GPT 模型进行对话系统评估的新框架，通过对模型进行特定条件训练来生成评估指标，采用少量的演示和指导进行提示，可以在自动化评估过程中取得与人类评价高度相关的结果。

Apr, 2023

面向目标导向的大型语言模型提示：综述

大型语言模型在各种下游任务中表现出显著性能，而引导工程在优化大型语言模型性能中起着关键作用。本文通过回顾 35 项代表性研究，突出设计提示的局限性，同时保持一个期待大型语言模型像人类思考的人类化假设。通过引导大型语言模型按照建立的人类逻辑思维，我们展示目标导向的提示形式显著提高了大型语言模型的性能。此外，我们引入了一个新的分类法，将目标导向的提示方法分为五个相互关联的阶段，并通过总结十个可适用任务来展示我们框架的广泛适用性。我们提出了四个未来方向，希望进一步强调和推动目标导向的提示工程。

Jan, 2024

个性化文本生成的自动提示改写

通过自动修订提示符来进行个性化文本生成的研究。

Sep, 2023

大型语言模型的自动提示选择

自动选择给定输入的最佳提示，克服手动设计有效提示的挑战，通过聚类训练数据、生成候选提示、生成输入 - 提示 - 输出数据集以训练评估器，并使用评估器在测试时选择最佳提示来实现兼顾通用性和特异性的方法。在零 - shot 问答数据集上显示出竞争性性能。

Apr, 2024

运用大型语言模型强化聊天机器人以搜集用户自报数据

本研究旨在探讨如何设计自然语言提示以使聊天机器人能够自然地进行对话，从而可靠地收集用户自报数据。通过在线研究（N = 48），我们通过不同的自然语言提示设计和对话主题对聊天机器人进行了评估，并发现提示设计和主题显着影响了对话流程和数据收集表现。

Jan, 2023