针对对话推荐系统的合成数据集评估
通过引入 SynEval 评估框架,对生成的合成表格数据进行质量、实用性和隐私保护方面的综合评估,以帮助研究人员和从业者在使用合成数据时有效地确定其适用性,并强调用户隐私的重要性。
Apr, 2024
这篇论文旨在通过提出一种基于合成数据生成的通用工作流程的组织方式,突出现有研究中的差距,并概述未来研究的前景,以引导学术和工业界更深入、更系统地探索基于大型语言模型驱动的合成数据生成的能力和应用。
Jun, 2024
通过借鉴用户体验研究和人类行为心理学等学科的见解,我们在这篇论文中讨论了生成式大型语言模型(LLMs)的人工评估应该是一项跨学科工作,以确保实验设计和结果的可靠性。我们强调了认知偏见如何混淆流畅信息和真实性,以及认知不确定性如何影响评分(如 Likert)的可靠性。此外,评估应该区分越来越强大的大型语言模型的能力和弱点,这需要有效的测试集。在生成式 NLP 时代设计一个有效的人工评估系统的可伸缩性也至关重要,因此我们提出了 ConSiDERS-The-Human 评估框架,它由一致性、评分标准、差异化、用户体验、负责任和可伸缩性这 6 个支柱组成。
May, 2024
通过五项任务评估语言模型在对话推荐中模拟人类行为的效果,研究发现基准模拟器的评估可以揭示语言模型与人类行为的差异,并提供了模型选择和提示策略的见解。
Mar, 2024
通过研究 LLM 生成的合成数据的表现与分类的主观性之间的关系,我们发现主观性对于模型训练的合成数据的性能具有负面影响,从而限制了利用 LLM 进行合成数据生成的潜力和局限性。
Oct, 2023
自然语言生成(NLG)评估中引入大型语言模型(LLM)为评估生成内容质量提供了新的途径,本文提供了对利用 LLM 进行 NLG 评估的全面概述,包括组织现有基于 LLM 的评估指标的一致性分类法、批判性评估不同的 LLM 方法以及比较其在评估 NLG 输出中的优势和局限性,讨论未解决的挑战,并推动更公平、更先进的 NLG 评估技术。
Jan, 2024
本文介绍了利用大型语言模型进行对话推荐的研究,并提出了一种基于 LLM 的用户模拟器的交互式评估方法 iEvaLM,从而改善了现有的评估协议。在两个公共数据集上的实验表明,ChatGPT 展现出较大的优势,并强调解释性的评估。此研究有助于更深入地理解 LLMs 在 CRSs 中的潜力,并为未来的研究提供一个更灵活、易于使用的评估框架。
May, 2023
通过建立 Generator-Critic 架构,使用 LLM 生成会话,借助 Synthetic-Persona-Chat 评估了高质量对话数据集对 NLP 模型的影响。
Dec, 2023