重新思考模型评估作为缩小社会技术差距的一种方式
通过以人、过程和技术为视角,功能性和安全性为支柱,使用我们的统一评估框架,对 23 个最先进的 LLM 基准进行了研究,发现了显著的限制,并强调了在人工智能进步的背景下,标准化方法、监管确定性和伦理指南的迫切需求,以及通过协作努力发展被广泛接受的基准和增强人工智能系统融入社会的重要性。
Feb, 2024
这篇文章着重探讨了大型语言模型对人类价值、劳动力市场的影响以及需不需要对它们进行监管等问题,同时,它们也能更好地人性化技术,并且可以克服当前技术所面临的瓶颈问题。因此,我们应该更广泛地了解和推广 LLMs 以及简化 LLMs 使用的工具和方法。
May, 2023
为了解决开放式自然语言生成任务中评估标准不一致的挑战,我们提出了一种协同评估流程 CoEval,涉及特定任务标准的清单设计和文本的详细评估,其中大型语言模型生成初步的构思,而人类进行审查,结果显示,通过利用大型语言模型,CoEval 能够高效地评估长文本,节省时间并减少人类评估的异常值,人类审查仍然起着重要作用,以最终确保可靠性。
Oct, 2023
自然语言生成(NLG)评估中引入大型语言模型(LLM)为评估生成内容质量提供了新的途径,本文提供了对利用 LLM 进行 NLG 评估的全面概述,包括组织现有基于 LLM 的评估指标的一致性分类法、批判性评估不同的 LLM 方法以及比较其在评估 NLG 输出中的优势和局限性,讨论未解决的挑战,并推动更公平、更先进的 NLG 评估技术。
Jan, 2024
该研究回顾了健康医疗领域中基于大型语言模型的人工智能生成文本的人工评估方法,并使用 QUEST 框架提出了一个标准化和统一的人工评估方法,旨在提高可靠性和适用性。
May, 2024
大语言模型的评估方法学的引入和标准化是一个重要的挑战,本文追溯了 LLM 评估的历史轨迹,从 Alan Turing 提出的基础问题到现代人工智能研究的时代。我们将 LLM 的发展划分为不同的时期,每个时期都有其独特的基准和评估标准。随着 LLM 越来越像人类行为,传统的评估指标,如图灵测试,变得不太可靠了。我们强调了对统一评估体系的迫切需求,考虑到这些模型的更广泛的社会影响。通过对常见评估方法的分析,我们主张在评估方法上进行定性转变,强调标准化和客观标准的重要性。本研究呼吁人工智能社区共同解决 LLM 评估的挑战,确保其可靠性、公正性和社会利益。
Nov, 2023
通过借鉴用户体验研究和人类行为心理学等学科的见解,我们在这篇论文中讨论了生成式大型语言模型(LLMs)的人工评估应该是一项跨学科工作,以确保实验设计和结果的可靠性。我们强调了认知偏见如何混淆流畅信息和真实性,以及认知不确定性如何影响评分(如 Likert)的可靠性。此外,评估应该区分越来越强大的大型语言模型的能力和弱点,这需要有效的测试集。在生成式 NLP 时代设计一个有效的人工评估系统的可伸缩性也至关重要,因此我们提出了 ConSiDERS-The-Human 评估框架,它由一致性、评分标准、差异化、用户体验、负责任和可伸缩性这 6 个支柱组成。
May, 2024
大语言模型(LLMs)的评估方法是研究这些模型的重要组成部分,这篇综述介绍了评估 LLMs 的方法和维度,并总结了 LLMs 在不同任务中的成功案例、失败案例和未来挑战。
Jul, 2023
本文探讨了人类中心的大型语言模型评估,并提出了心理模型,用例使用价值和认知参与三个研究重点,旨在加速人类中心式大型语言模型评估的进展。
Mar, 2023
语言理解是一个多方面的认知能力,自然语言处理(NLP)领域几十年来一直致力于计算化建模。最近大型语言模型(LLMs)的出现,使得以生成模型为动力的通用性、任务无关的方法成为主流,这导致了语言任务传统上的划分不再适用,带来了对评估和分析的挑战,同时也加大了对可靠系统的需求。因此,我们主张重新思考 NLP 中任务和模型评估的涵义,并追求对语言的更全面视角,将可靠性放在核心地位。为了实现这一目标,我们回顾了现有的划分式方法,以了解模型功能能力的起源,并提出了多方面评估协议的建议。
Oct, 2023