针对对话推荐系统的合成数据集评估

Dec, 2022

针对对话推荐系统的合成数据集评估

Evaluation of Synthetic Datasets for Conversational Recommender Systems

Harsh Lara, Manoj Tiwari

TL;DR本研究提出对生成模型产生的数据集进行多方面评估的框架，探讨了各种评估方法的优缺点

Abstract

For researchers leveraging large-language models (LLMs) in the generation of training datasets, especially for conversational recommender systems - the absence of robust →

large-language models conversational recommender systems evaluation frameworks training data evaluation metrics

发现论文，激发创造

评估大型语言模型生成的合成数据的多方面评价框架

通过引入 SynEval 评估框架，对生成的合成表格数据进行质量、实用性和隐私保护方面的综合评估，以帮助研究人员和从业者在使用合成数据时有效地确定其适用性，并强调用户隐私的重要性。

Apr, 2024

关于基于 LLMs 驱动的合成数据生成、整理和评估的调查

这篇论文旨在通过提出一种基于合成数据生成的通用工作流程的组织方式，突出现有研究中的差距，并概述未来研究的前景，以引导学术和工业界更深入、更系统地探索基于大型语言模型驱动的合成数据生成的能力和应用。

Jun, 2024

ConSiDERS 人类评估框架：重新思考生成式大型语言模型的人类评估

通过借鉴用户体验研究和人类行为心理学等学科的见解，我们在这篇论文中讨论了生成式大型语言模型（LLMs）的人工评估应该是一项跨学科工作，以确保实验设计和结果的可靠性。我们强调了认知偏见如何混淆流畅信息和真实性，以及认知不确定性如何影响评分（如 Likert）的可靠性。此外，评估应该区分越来越强大的大型语言模型的能力和弱点，这需要有效的测试集。在生成式 NLP 时代设计一个有效的人工评估系统的可伸缩性也至关重要，因此我们提出了 ConSiDERS-The-Human 评估框架，它由一致性、评分标准、差异化、用户体验、负责任和可伸缩性这 6 个支柱组成。

May, 2024

评估大型语言模型作为生成式用户模拟器用于对话推荐

通过五项任务评估语言模型在对话推荐中模拟人类行为的效果，研究发现基准模拟器的评估可以揭示语言模型与人类行为的差异，并提供了模型选择和提示策略的见解。

Mar, 2024

利用大型语言模型进行文本分类的合成数据生成：潜力与局限性

通过研究 LLM 生成的合成数据的表现与分类的主观性之间的关系，我们发现主观性对于模型训练的合成数据的性能具有负面影响，从而限制了利用 LLM 进行合成数据生成的潜力和局限性。

Oct, 2023

超越静态数据集：一种深度交互方法用于 LLM 评估

基于深度交互的大语言模型评估框架能够评估大规模的现实世界任务中大语言模型的性能。

Sep, 2023

利用大型语言模型进行自然语言生成评估：综述

自然语言生成（NLG）评估中引入大型语言模型（LLM）为评估生成内容质量提供了新的途径，本文提供了对利用 LLM 进行 NLG 评估的全面概述，包括组织现有基于 LLM 的评估指标的一致性分类法、批判性评估不同的 LLM 方法以及比较其在评估 NLG 输出中的优势和局限性，讨论未解决的挑战，并推动更公平、更先进的 NLG 评估技术。

Jan, 2024

在大语言模型时代重新思考对话式推荐系统的评估

本文介绍了利用大型语言模型进行对话推荐的研究，并提出了一种基于 LLM 的用户模拟器的交互式评估方法 iEvaLM，从而改善了现有的评估协议。在两个公共数据集上的实验表明，ChatGPT 展现出较大的优势，并强调解释性的评估。此研究有助于更深入地理解 LLMs 在 CRSs 中的潜力，并为未来的研究提供一个更灵活、易于使用的评估框架。

May, 2023

借助大语言模型生成忠实的以人为基础的对话数据集

通过建立 Generator-Critic 架构，使用 LLM 生成会话，借助 Synthetic-Persona-Chat 评估了高质量对话数据集对 NLP 模型的影响。

Dec, 2023

检索评估的合成测试集

使用大型语言模型构建综合人工合成测试集来评估信息检索系统的可行性及存在的潜在偏见风险。

May, 2024