角色扮演的模版框架:生成与评估
RoleLLM 是一种框架,用于在大规模语言模型中评估和增强角色扮演能力。通过 Context-Instruct 和 RoleGPT,我们创建了 RoleBench,这是角色扮演的第一个系统性和细致的基于角色的基准数据集,该数据集包含 168,093 个样本。此外,通过 RoleBench 上的 RoCIT,我们获得了 RoleLLaMA(英文)和 RoleGLM(中文),显著增强了角色扮演的能力,甚至与使用 GPT-4 的 RoleGPT 的结果相当。
Oct, 2023
研究通过结合当前评估模型的优势与新建立的提示性大语言模型的范式,提出了一种新颖的框架,以实现对对话的鲁棒性和多语言性评估能力,并在多个基准测试中取得了最先进的成果,并在 DSTC11 轨道 4 “开放领域对话系统的自动评估指标” 中分别在鲁棒性和多语言任务中名列前茅,证明了提示性大语言模型的评估能力。
Aug, 2023
采用角色扮演零样本提示作为一种高效且经济有效的方法,本研究使用能遵守指令的多语言 LLM(Beeching 等,2023 年)进行开放领域对话,并设计了一个提示系统,与 Vicuna(Chiang 等,2023 年)模型相结合,产生与精调模型在两个不同任务的人类评估中相匹配甚至超越的对话代理。
Jun, 2024
通过评估多个用户定义的标准,使用自然语言描述系统的评估器提供的反馈,从而使开发人员能够通过迭代改进引导语。与手动评估相比,EvalLM 有助于参与者构建更多样化的标准,检查两倍数量的输出,并在减少 59% 的修订次数后获得令人满意的引导语。该研究可扩展到模型评估和特定应用环境中的对齐。
Sep, 2023
本文提出了一种新的评估框架,基于 LLMs,并通过比较生成文本和参考文本来提供全面的评估。该模型基于角色扮演者提示机制模拟生成文本的客观和主观维度,并引入了上下文提示机制以生成基于输入上下文的动态角色扮演者配置文件,并根据批处理提示设计了多角色扮演者提示技术,以将多个评估结果集成到评估结果中。在自动摘要任务的两个真实数据集上进行的实验结果表明,该模型非常具有竞争力,且与人类注释者具有非常高的一致性。
Mar, 2023
提出了一种利用 GPT 模型进行对话系统评估的新框架,通过对模型进行特定条件训练来生成评估指标,采用少量的演示和指导进行提示,可以在自动化评估过程中取得与人类评价高度相关的结果。
Apr, 2023
大型语言模型在各种下游任务中表现出显著性能,而引导工程在优化大型语言模型性能中起着关键作用。本文通过回顾 35 项代表性研究,突出设计提示的局限性,同时保持一个期待大型语言模型像人类思考的人类化假设。通过引导大型语言模型按照建立的人类逻辑思维,我们展示目标导向的提示形式显著提高了大型语言模型的性能。此外,我们引入了一个新的分类法,将目标导向的提示方法分为五个相互关联的阶段,并通过总结十个可适用任务来展示我们框架的广泛适用性。我们提出了四个未来方向,希望进一步强调和推动目标导向的提示工程。
Jan, 2024
自动选择给定输入的最佳提示,克服手动设计有效提示的挑战,通过聚类训练数据、生成候选提示、生成输入 - 提示 - 输出数据集以训练评估器,并使用评估器在测试时选择最佳提示来实现兼顾通用性和特异性的方法。在零 - shot 问答数据集上显示出竞争性性能。
Apr, 2024
本研究旨在探讨如何设计自然语言提示以使聊天机器人能够自然地进行对话,从而可靠地收集用户自报数据。通过在线研究(N = 48),我们通过不同的自然语言提示设计和对话主题对聊天机器人进行了评估,并发现提示设计和主题显着影响了对话流程和数据收集表现。
Jan, 2023