特定上下文语言模型的优势：以Erasmian语言模型为例

Aug, 2024

特定上下文语言模型的优势：以Erasmian语言模型为例

The advantages of context specific language models: the case of the Erasmian Language Model

João Gonçalves, Nick Jelicic, Michele Murgia, Evert Stamhuis

TL;DR本研究解决了大规模语言模型在资源和隐私方面的局限。提出的Erasmian语言模型（ELM）是一个上下文特定的900百万参数的小型模型，针对鹿特丹伊拉斯谟大学进行预训练和微调。研究显示，该模型在课堂写作中表现良好，尤其在相关主题上表现优异，表明特定上下文语言模型在资源有限且需关注隐私的应用中具有很大的潜力。

Abstract

The current trend to improve language model performance seems to be based on scaling up with the number of parameters (e.g. the state of the art GPT4 model has approximately 1.7 trillion parameters) or the amount of training data fed into the model. However this comes at significant costs in terms of computational resources and energy costs that compromise t

发现论文，激发创造

低资源语言建模中上下文的重要性

研究了低资源语言模型预训练，当可用的句子少于100,000条时。在低资源情况下，统计 n-gram 语言模型优于最先进的神经模型，主要是因为前者专注于局部上下文。因此，引入了三种方法来提高神经模型在低资源环境下的性能，发现限制模型的自我注意力是最有效的方法，在英语、印地语和土耳其语等多种语言的下游任务中，NLI 和 POS 标记的准确性提高了高达 5%。

May, 2022

大型语言模型调查

本文介绍了最近关于预训练语言模型（PLMs）的新进展，重点讨论了大型语言模型的预训练、适应和调整、利用和容量评估四个方面，并讨论了未来研究的问题和方向。

Mar, 2023

INSTRUCTEVAL：面向指导调整的大语言模型的全面评估

INSTRUCTEVAL是一个全面的评估套件，旨在评估大型语言模型在指令调整下的表现，其结果表明，指令数据的质量是影响模型性能的最重要因素，并且从问题解决能力和与人类价值观的一致性方面，这些模型还有很大的提升空间。

Jun, 2023

大型语言模型在语言教学和评估技术中的应用

本文研究了大型语言模型在以AI为驱动的语言教学和评估系统中的潜在应用，探讨了几个研究领域，并讨论了与语言学习者相关的基于生成式AI的风险和伦理考虑。

Jul, 2023

评估即所需：使用开放模型在社会科学的注释任务中引导生成式大型语言模型的纲要

本研究探讨了在社会科学中使用开放生成的大型语言模型（LLMs）进行注释任务的用途。研究强调了专有模型所面临的限制再现性和隐私问题，并主张采用可在独立设备上运行的开放（源）模型。提供了推文情感分析和童年志向性散文中休闲活动的识别两个注释任务的示例。研究评估了不同的提示策略和模型（neural-chat-7b-v3-2，Starling-LM-7B-alpha，openchat_3.5，zephyr-7b-alpha和zephyr-7b-beta）的性能。结果表明需要仔细验证和定制提示工程。研究强调了开放模型在数据隐私和再现性方面的优势。

Dec, 2023

从字节到俄罗斯优势: 优化吉玛和米斯特拉用于乌克兰语表示

利用乌克兰数据集对开源Gemme和Mistral语言模型进行微调，以提高其语言能力，并与其他处理乌克兰语的模型进行基准比较。该研究旨在减少技术中的语言偏见，促进数字领域的包容性。通过透明且可复现的方法鼓励进一步的NLP研究与发展，同时提出乌克兰知识与指令数据集（UKID）以支持未来的语言模型微调工作。本研究推动了自然语言处理领域的发展，并凸显了AI中语言多样性的重要性，对文化保护、教育和全球AI的扩展至关重要。最终，我们呼吁实现一种包容性的技术未来，使AI能够在所有语言，特别是目前少数代表的语言中有效地进行交流。

Apr, 2024

探索大型语言模型的领域、技术与挑战

对于大型语言模型（LLMs）的研究，包括基本原理、应用领域以及训练过程，本综述论文对于上下文学习、多种微调方法以及参数使用效率优化等机制进行探讨，同时深入研究了如何通过创新的强化学习框架和融入人类反馈的新方法来更好地与人类偏好相统一的问题。还研究了将外部知识融入LLMs的新兴技术——检索增强生成。对于LLMs的伦理问题，论文讨论了需谨慎且负责任的应用需求。最后，论文展望了未来的研究方向，提供了关于当今及未来LLMs领域中不断发展的全面且简明的概述，为人工智能领域的研究人员和实践者提供了有益的指南。

Apr, 2024

现实环境中的语言与计算机环境中的语言：尽管模型规模更大但仍无法像人类一样理解语言

通过对三种不同模型的测试（Bard、ChatGPT-3.5和ChatGPT-4）以及与人类结果的比较，研究了模型大小对于语言模型性能的影响，发现模型大小的增加可以提高性能，但语言模型仍不如人类敏感。

Apr, 2024

什么是最好的模型？用于大型语言模型的应用驱动评估

通过构建一个应用驱动的评估基准，我们提供了一种选择最佳模型的方法，并推动其应用和发展。

Jun, 2024

E-Bench: 大型语言模型易用性评估

通过系统分析大型语言模型（LLMs）抵抗提示扰动的稳定性，本研究构建 E-Bench 模拟真实人类使用情况，并讨论了同义扰动和排版扰动的组合以及性能下降的主要原因，实验证明即便随着模型规模的增加，易用性显著提升，但仍需努力建立足够用户友好的模型。

Jun, 2024