大语言模型是否比报道中更优秀?检测标签错误及其对模型性能的影响
通过提出新的数据集 SummEdits 来解决现有基准测试中存在的缺点,该数据集比以前的数据集更高效且高度可重复。然而,大多数 LL 模型在 SummEdits 上表现不佳,最好的 GPT-4 模型仍然比人类的表现差8%,这凸显了 LL 模型在推理和检测事实不一致方面的能力差距。
May, 2023
通过验证人类生成的标签,我们提出了一种工作流程,以有效利用LLM的注释潜力,然后使用GPT-4复制27个注释任务,发现文本注释的LLM性能很有前途,但高度依赖数据集和注释任务类型,从而强调了必须逐任务验证的必要性。我们提供易于使用的软件,用于实现我们的工作流程,以便自动化注释的LLM部署。
May, 2023
在这篇论文中,我们通过在关键词提取任务上的评估,展示了集成不一致分数作为语言模型在零样本、少样本和微调设置下人类标注的代理的良好效果。通过与真实错误进行比较,我们发现,不一致分数比使用另一个语言模型作为机器标签或银标签,更好地估计了模型的性能,其平均误差率低至0.4%,平均比使用银标签提高了13.8%。
Sep, 2023
本文提出了对大型语言模型(LLMs)的可靠、可重复和符合伦理的使用的全面标准和最佳实践,涵盖了模型选择、提示工程、结构化提示、提示稳定性分析、严格的模型验证以及伦理和法律影响等关键领域,强调了对LLMs的结构化、有导向性和格式化的使用的需求,以确保文本注释实践的完整性和鲁棒性,并倡导在社会科学研究中对LLMs进行细致而批判性的参与。
Feb, 2024
数据标注是提高机器学习模型效果的标记或标签化原始数据的过程,使用大型语言模型(LLMs)可以革新和自动化数据标注过程。本研究着重于LLM在数据标注中的特定用途,探讨了LLM基于数据标注、评估LLM生成的标注以及使用LLM生成的标注进行学习的方法。此外,还提供了LLM在数据标注中的方法学分类、包含LLM生成标注的模型的学习策略综述,并详细讨论了使用LLM进行数据标注所面临的主要挑战和限制。本文旨在为研究人员和从业者指导利用最新的LLMs进行数据标注,推动该关键领域的未来发展。
Feb, 2024
通过比较概述了12个研究探索了大型语言模型在数据标注方面的潜力,同时揭示了存在的限制,如表征性、偏见、对提示变化的敏感性和对英语的偏好。利用这些研究的见解,我们的实证分析在四个主观数据集上进一步检查了人类和生成的GPT意见分布之间的一致性,从而支持了少数研究在评估数据标注任务时考虑多元化观点的方法,并强调了在这个方向上进一步研究的必要性。
May, 2024
本研究解决了合成数据在用于训练工具使用的大型语言模型(LLMs)时缺乏系统性质量检查的问题。提出了两种评估数据可靠性的方法,并通过全面评价数据质量展示了高质量数据对模型性能的重要影响,证明了高质量数据的培训效果优于未经验证的数据。
Sep, 2024
本研究针对在大型语言模型(LLMs)外部工具使用中数据短缺问题,通过提出两种评估合成数据可靠性的方法,填补了系统性数据质量检查的空白。研究结果表明,使用高质量数据训练的模型性能显著优于使用未经验证的数据,即使数据量较少,也能取得更好的效果,这验证了确保训练数据可靠性的必要性。
Sep, 2024