特定上下文语言模型的优势:以Erasmian语言模型为例
研究了低资源语言模型预训练,当可用的句子少于100,000条时。在低资源情况下,统计 n-gram 语言模型优于最先进的神经模型,主要是因为前者专注于局部上下文。因此,引入了三种方法来提高神经模型在低资源环境下的性能,发现限制模型的自我注意力是最有效的方法,在英语、印地语和土耳其语等多种语言的下游任务中,NLI 和 POS 标记的准确性提高了高达 5%。
May, 2022
INSTRUCTEVAL是一个全面的评估套件,旨在评估大型语言模型在指令调整下的表现,其结果表明,指令数据的质量是影响模型性能的最重要因素,并且从问题解决能力和与人类价值观的一致性方面,这些模型还有很大的提升空间。
Jun, 2023
本文研究了大型语言模型在以AI为驱动的语言教学和评估系统中的潜在应用,探讨了几个研究领域,并讨论了与语言学习者相关的基于生成式AI的风险和伦理考虑。
Jul, 2023
本研究探讨了在社会科学中使用开放生成的大型语言模型(LLMs)进行注释任务的用途。研究强调了专有模型所面临的限制再现性和隐私问题,并主张采用可在独立设备上运行的开放(源)模型。提供了推文情感分析和童年志向性散文中休闲活动的识别两个注释任务的示例。研究评估了不同的提示策略和模型(neural-chat-7b-v3-2,Starling-LM-7B-alpha,openchat_3.5,zephyr-7b-alpha和zephyr-7b-beta)的性能。结果表明需要仔细验证和定制提示工程。研究强调了开放模型在数据隐私和再现性方面的优势。
Dec, 2023
利用乌克兰数据集对开源Gemme和Mistral语言模型进行微调,以提高其语言能力,并与其他处理乌克兰语的模型进行基准比较。该研究旨在减少技术中的语言偏见,促进数字领域的包容性。通过透明且可复现的方法鼓励进一步的NLP研究与发展,同时提出乌克兰知识与指令数据集(UKID)以支持未来的语言模型微调工作。本研究推动了自然语言处理领域的发展,并凸显了AI中语言多样性的重要性,对文化保护、教育和全球AI的扩展至关重要。最终,我们呼吁实现一种包容性的技术未来,使AI能够在所有语言,特别是目前少数代表的语言中有效地进行交流。
Apr, 2024
对于大型语言模型(LLMs)的研究,包括基本原理、应用领域以及训练过程,本综述论文对于上下文学习、多种微调方法以及参数使用效率优化等机制进行探讨,同时深入研究了如何通过创新的强化学习框架和融入人类反馈的新方法来更好地与人类偏好相统一的问题。还研究了将外部知识融入LLMs的新兴技术——检索增强生成。对于LLMs的伦理问题,论文讨论了需谨慎且负责任的应用需求。最后,论文展望了未来的研究方向,提供了关于当今及未来LLMs领域中不断发展的全面且简明的概述,为人工智能领域的研究人员和实践者提供了有益的指南。
Apr, 2024
通过对三种不同模型的测试(Bard、ChatGPT-3.5和ChatGPT-4)以及与人类结果的比较,研究了模型大小对于语言模型性能的影响,发现模型大小的增加可以提高性能,但语言模型仍不如人类敏感。
Apr, 2024
通过系统分析大型语言模型(LLMs)抵抗提示扰动的稳定性,本研究构建 E-Bench 模拟真实人类使用情况,并讨论了同义扰动和排版扰动的组合以及性能下降的主要原因,实验证明即便随着模型规模的增加,易用性显著提升,但仍需努力建立足够用户友好的模型。
Jun, 2024