评估大规模语言模型的词汇测试的持续有效性

Oct, 2023

评估大规模语言模型的词汇测试的持续有效性

The continued usefulness of vocabulary tests for evaluating large language models

Gonzalo Martínez, Javier Conde, Elena Merino-Gómez, Beatriz Bermúdez-Margaretto, José Alberto Hernández...

TL;DR通过对智能语言模型进行语言能力测试，我们发现 TOEFL 考试对于现代主要语言模型仍有指导意义。然而，这些模型在空白词汇项上表现较差，并且在西班牙语上泛化测试时情况更糟。尽管如此，最好的模型表现出色，并且能够指出字典中未知的词汇。

Abstract

In their seminal article on semantic vectors, Landauer and Dumain (1997) proposed testing the quality of ai language models with a challenging vo

semantic vectors ai language models vocabulary test toefl test nonwords

发现论文，激发创造

环游世界 60 词：用于在线研究的生成性词汇测试

通过 Wikipedia 生成词汇测试，评估参与者的母语能力，可以在不同语言文化背景下了解文化、认知和语言的视角，通过六项行为实验测试结果表明，这个测试可以区分母语相近的语言，测试结果与现有测试成绩和个人报告结果有很强的相关性。

Feb, 2023

两词测试：大型语言模型语义基准测试

本篇研究提出了一种新的基于双词短语的语义能力评估测试（TWT），研究评估了 GPT-4、GPT-3.5 和 Bard 等大规模语言模型的能力，显示它们在评估短语的意义和辨别无意义词组方面均表现不佳，需要继续进行测试和改进。

Jun, 2023

多语言语言模型是否在英语上思考得更好？

本研究介绍了一种名为自我翻译的新方法，通过利用多语言语言模型的少样本翻译能力，克服了使用外部翻译系统的需求，并在五项任务中的实验证明自我翻译始终优于直接推理，在非英语语言提示下，语言模型无法充分利用其多语言潜力。

Aug, 2023

测量大规模多任务语言理解

论文提出了一种新的测试方法，以测量文本模型的多任务准确性，涵盖了包括数学、历史、计算机科学、法律等 57 项任务，为了达到高准确性，模型必须具备丰富的世界知识和问题解决能力。通过综合评估模型的学术和专业理解的广度和深度，我们的测试可以用于分析许多任务中的模型并确定重要的缺陷。

Sep, 2020

有些词比其他词更有价值吗？

该研究提出了两种新的内部评估方法，旨在全面评估语言模型的性能。他们发现，传统的评价方法偏向于高频词汇，而不能全面地评价模型的性能。

Oct, 2020

印尼的大型语言模型只能通过小学考试：基于 IndoMMLU 的综合测试

通过收集印尼的基础学校到大学入学考试的一系列考题，我们评估了大型语言模型是否能够通过这些考试，结果表明 GPT-3.5 仅能通过印尼的小学水平，并且对印尼的本地语言和文化了解有限，而诸如 BLOOMZ 和 Falcon 等较小的模型则无法通过这些考试。

Oct, 2023

考试者有话说：理解人工智能在语言测试中的影响

AI 在语言测试中应用的潜在影响和测试人员的看法的第一次实证研究表明，AI 整合可能增强公平性、一致性和可用性感知，但可能引发对可靠性和互动性的不信任，从而影响测试人员的行为和福祉，为相关利益相关者提供更全面的社会影响的认识，并协助他们做出明智的 AI 应用决策。

Jul, 2023

语言模型评估：超越困惑度

我们提出了一个替代方法来量化语言模型学习自然语言的程度：我们询问它们多大程度上与自然语言的统计倾向相匹配。通过分析语言模型生成的文本是否呈现出它们所训练的人类生成文本中存在的统计倾向，提供了一个与显著性测试配对的框架来评估语言模型的拟合程度。我们发现神经语言模型似乎只学会了一部分被考虑的倾向，但与经验性趋势相比，更接近所提出的理论分布（当存在时）。此外，对不同分布的拟合程度高度依赖于模型架构和生成策略。作为具体例子，使用 Nucleus sampling 方式生成的文本比使用标准祖先抽样生成的文本更紧密地遵循自然语言的类型 - 标记关系；LSTMs 生成的文本也非常好地反映了自然语言的长度、停用词和符号分布。

May, 2021

科学文献是多语种的，我们的模型也应如此

英语一直被认为是科学研究的 $ extit {lingua franca}$，然而，该研究表明文献主要以多种语言出现，因此建议当前的模型和基准应该体现这种语言多样性，以提高在非英语文献上的表现。

Mar, 2024

所有语言的语言模型难度是否相同？

本文使用翻译文本开发了一种公平的跨语言语言模型比较方法，在 21 种语言中展示了复杂的屈折形态是导致不同语言性能差异的原因。

Jun, 2018