评估语言模型中的语言推广能力:面向巴西葡萄牙语的数据集
本研究探讨了Bert和RoBERTa等单语和多语版本的句法泛化能力,使用SyntaxGym测试套件和其在西班牙语中的替代品SyntaxGymES对英语和西班牙语进行了测试。
May, 2021
通过 Blackbird's language matrices(BLMs)的语言数据集测试近期模型的语言掌握和普遍化的能力。我们展示了数据集的逻辑和自动构建数据的方法,以及学习它们的架构。通过变形的数据集和误差分析,我们证明了该任务以及数据集是理解普遍化和抽象化的新的挑战性测试平台。
May, 2022
本文提供了一份全面的研究报告,比较了用于西班牙语的语言模型,报告显示:先前被忽略的大型跨语言模型比单语模型表现更好,单语模型的结果并不是确定性的,需要进一步研究语料库大小、质量和预训练技术等因素。
Dec, 2022
在这篇论文中,我们证明了在目标语言上进行单语言预训练可以显著提高已经广泛训练于多个语料库的模型,并在14个葡萄牙语数据集上表现优于基于英语和多语言模型的模型。我们的结果表明,从单语预训练获得的大多数收益来自于领域特定知识。
Apr, 2023
Transformer-based large language models perform well in generalizing word distributions in related contexts seen during pre-training, but fail in generalizations between unobserved contexts by relying on linear order instead of more abstract structural generalizations.
Nov, 2023
提出了一种基于LLaMA 2的经过精调的模型,用于处理葡萄牙语提示,并通过零样本方法在分类任务中进行性能评估,为葡萄牙语提供了令人满意的结果,并且具有研究或商业用途的自由模型。
Jan, 2024
该研究论文对大型语言模型数据集进行了综述和分类,包括预训练语料库、微调数据集、偏好数据集、评估数据集和传统自然语言处理数据集等五个方面;此外还提供了现有数据集资源的综合评估,涵盖8个语言类别和32个领域,包括来自444个数据集的统计信息,共计超过774.5 TB的预训练语料库数据和7亿个实例的其他数据集数据;旨在为研究人员提供整个LLM文本数据集的全貌,并为未来的研究做出贡献。
Feb, 2024
本研究旨在分析和讨论ChatGPT和Gemini等模型中的语言歧义,关注巴西葡萄牙语中的语义、句法和词汇歧义。通过创建一个包含120个歧义和非歧义句子的语料库,进行分类、解释和消除歧义。结果经过定性分析和基于回答准确性的定量评估,证明了即使是像ChatGPT和Gemini这样先进的模型在回答中也存在错误和不足,解释通常是不一致的。此外,准确性达到了49.58%的峰值,表明有必要进行有监督学习的描述性研究。
Apr, 2024
本研究解决了多语言大型语言模型在非英语输出中自然性不足的问题。通过引入新颖的自动语料库水平评估指标,评估了当前先进模型的词汇和句法自然性,并提出了一种有效的方法来提高目标语言的自然性。结果表明,模型在多语言环境中自然性的提升具有显著影响。
Oct, 2024
本研究针对当前多语言大型语言模型(LLMs)在非英语语言中自然性不足的问题,提出了新颖的自动语料库级别评估指标,用以考量多语言LLM输出的词汇和句法自然性。研究发现,大型语言模型在法语和中文中普遍表现出英语影响的模式,并提出了一种简便有效的对齐方法,以提高其在目标语言和领域的自然性,且不影响其在通用基准测试中的表现。
Oct, 2024