大型语言模型可靠的论点质量标注员吗？

Apr, 2024

大型语言模型可靠的论点质量标注员吗？

Are Large Language Models Reliable Argument Quality Annotators?

Nailia Mirzakhmedova, Marcel Gohsen, Chia Hao Chang, Benno Stein

TL;DR使用最新的大型语言模型作为论证质量评估的代理者，研究了模型、人类专家和新手评估者之间的一致性，结果表明大型语言模型在大多数质量维度上与人类专家之间具有适度高的一致性，并且使用大型语言模型作为额外的评估者可以显著提高评估者间的一致性，因此提出大型语言模型可以作为自动化论证质量评估的有价值工具，从而加快了大规模论证数据的评估过程。

Abstract

Evaluating the quality of arguments is a crucial aspect of any system leveraging argument mining. However, it is a challenge to obtain reliable and consistent annotations regarding argument quality, as this usual

argument quality annotations large language models agreement automated assessment

发现论文，激发创造

大型语言模型中的论证质量评估

对有争议问题的论述的计算处理在自然语言处理领域进行了广泛研究，其中论证质量评估是一个关键且具有挑战性的任务。本文提出了利用大型语言模型，通过系统指导其熟悉论证理论和场景以及解决相关问题的方式，以实现更可靠的论证质量评估，同时讨论了由此而产生的现实机遇和道德问题。

Mar, 2024

LLMs 作为标注者的有效性：直接表征的比较概述和实证分析

通过比较概述了 12 个研究探索了大型语言模型在数据标注方面的潜力，同时揭示了存在的限制，如表征性、偏见、对提示变化的敏感性和对英语的偏好。利用这些研究的见解，我们的实证分析在四个主观数据集上进一步检查了人类和生成的 GPT 意见分布之间的一致性，从而支持了少数研究在评估数据标注任务时考虑多元化观点的方法，并强调了在这个方向上进一步研究的必要性。

May, 2024

语言模型能否识别有说服力的论点？

大型语言模型（LLMs）的能力不断增长，但也引发了对其潜在滥用创建个性化、令人信服的错误信息和宣传的担忧。为了了解 LLMs 的说服能力，我们在 Durmus＆Cardie（2018）的数据集上进行了研究，提出了衡量 LLMs 能力的任务，包括区分强弱论点、根据信念和人口特征预测立场、以及根据个人特征确定论点的吸引力。我们发现 LLMs 在这些任务中能与人类持平，并且合并不同 LLMs 的预测可以显著提高性能，甚至超过人类表现。本文发布的数据和代码为持续评估和监测快速发展的 LLMs 的潜在影响和能力做出了关键而持续的贡献。

Mar, 2024

用于可解释和可争议决策的论证型大型语言模型

通过引入辩证推理方法，使用大语言模型（LLMs）构建论证框架，从而使 LLMs 的决策能够被自然地解释和争辩，通过在声称验证的决策任务中的实验，我们证明了辩论性 LLMs 的有效性，结果竞争力强于同类技术。

May, 2024

大型语言模型是否可靠的评判者？一个关于 LLM 事实性评估能力的研究

本研究旨在探讨大型语言模型作为可靠的评估器，用于评估文本生成模型生成的摘要的事实一致性，并发现其在事实性评分中的局限性。

Nov, 2023

大型语言模型能否替代人类评估？

本文介绍了使用大型语言模型（LLM）代替人类评估来评估人工智能生成的文本的潜力，探索了 LLM 对两个自然语言处理任务的开放性故事生成和对抗性攻击的评估结果，并发现 LLM 评估结果与人类专家的评估结果保持一致。

May, 2023

大型语言模型作为注释器：在最小成本下增强 NLP 模型的泛化能力

研究使用大型语言模型对输入进行注释以提高自然语言处理模型的泛化性，并提出一种基于模型预测得分差异的采样策略来重新训练模型，证明在分类和排名任务中取得了显著的精度提高。

Jun, 2023

利用大型语言模型进行定性分析可能引入严重偏见

大型语言模型在社会科学研究中的应用需要谨慎，使用高质量人工注释训练的简单监督模型比使用大型语言模型进行注释具有较少的测量误差和偏差。

Sep, 2023

大型语言模型文本标注的最佳实践

本文提出了对大型语言模型（LLMs）的可靠、可重复和符合伦理的使用的全面标准和最佳实践，涵盖了模型选择、提示工程、结构化提示、提示稳定性分析、严格的模型验证以及伦理和法律影响等关键领域，强调了对 LLMs 的结构化、有导向性和格式化的使用的需求，以确保文本注释实践的完整性和鲁棒性，并倡导在社会科学研究中对 LLMs 进行细致而批判性的参与。

Feb, 2024

大型语言模型在学生论文评价中的应用

本文通过三种场景下的评估：1）不提供指导，2）使用预先规定的评分标准，3）通过论文的两两对比，与实际学生论文一起使用大语言模型（LLM）进行评估，以降低教师的工作量。定量分析结果显示，使用预先规定的评分标准对 LLM 与教师评估之间存在强相关性，尽管存在有关评估质量和稳定性的担忧。因此，对 LLM 的评估意见进行了定性分析，结果表明：1）LLM 可以达到教师的评估能力，2）LLM 评估中的差异应解释为多样性而非混乱，3）人类和 LLM 的评估可以不同且相互补充。综上所述，本文建议将 LLM 视为教师评估委员会的合作伙伴，并为进一步研究提供了方向。

May, 2024