- CaLMQA: 跨 23 种语言探索跨文化特定长篇问答
通过介绍 CaLMQA,一个涵盖 23 种语言的 2.6K 多样化问题集,我们发现大型语言模型在生成复杂问题的长篇答案时在某些低资源语言方面的质量明显下降,这突显了 LLM 多语言能力和非英语长篇问题回答评估中进一步研究的需求。
- 数据污染能够跨越语言障碍
开发大型语言模型的不透明性引起了关于潜在的训练数据污染的担忧。我们提出了一种基于跨语言的深层污染形式,可以欺骗传统的检测方法。我们还探讨了跨语言污染在解释语言模型的工作机制和提升多语言能力方面的潜在用途。
- CORU: 全面的后光学字符识别解析与收据理解数据集
这篇论文介绍了一种新颖的数据集 CORU,旨在增强 OCR 和信息提取技术在多语言环境中处理阿拉伯语和英语收据的能力,并评估传统方法和基于神经网络的方法在 CORU 上的性能。
- ACL超越英语的 LLMs:通过跨语言反馈扩展 LLMs 的多语言能力
通过构建两个数据集,将 LLaMA 和 BLOOM 的多语言能力扩展到 100 种语言,并使用 DPO 算法对 LLMs 进行与人类反馈的对齐,实现了对 100 种语言的支持,从而定义了最新的、支持 100 种语言的多语言 LLMs 的最新 - 大型语言模型的国际化综述:最新进展和新的研究方向
对大型语言模型(LLMs)在多语种环境中的应用进行了综述,包括训练和推理方法、模型安全性、多领域与语言文化、数据集使用,同时讨论了相关方面的主要挑战和潜在解决方案,并提出了进一步增强语言模型的未来研究方向。
- 三明治攻击:针对 LLMs 的多语言混合自适应攻击
本文介绍了一种新的黑盒攻击向量 —— 三明治攻击,通过操纵最先进的大型语言模型(LLMs)生成有害和不一致的回答,旨在引导未来的研究和发展,使 LLMs 更加安全可靠,确保它们为公共利益服务并最大程度地减少滥用的潜力。
- ACL在多语言概念上进行文本到图像模型公平评估的翻译错误和挑战
基于图像的多语言(T2I)模型能力的基准测试比较生成的图像与期望图像分布的语言特定概念集合,其中一个名为 CoCo-CroLa 的基准测试通过将概念列表翻译成七种语言并比较输出图像群体来评估 T2I 模型的有形名词库存。不幸的是,我们发现该 - 从一到多:扩大语言模型中毒素缓解的范围
多语言毒性缓解中的复杂性研究及其对未来研究的重要影响
- 使用 MultiQ 评估大型语言模型的基础多语言能力
研究表明,尽管当前大部分开放式语言模型主要面向英语或少数几种高资源语言,人们却在多种语言中使用这些模型。本文通过引入 MultiQ 标准测试并评估 27.4k 个不同语言的基本开放式问答问题,探讨了现有开放式语言模型在超越其预定用途方面的多 - ICML大型语言模型在组合性关系推理中的限制探索
通过包含 1,500 个测试案例的评估,我们在英语中全面评估了大型语言模型(LLMs)在推理组合关系方面的能力,旨在了解 LLMs 处理不同语言环境下的组合关系推理的鲁棒性和适应性。
- 语言特定神经元:大型语言模型多语能力的关键
通过新的检测方法 - 语言激活概率熵(LAPE),我们研究了大型语言模型中的 Transformer 架构,以确定语言特定的区域,并显示了激活或关闭特定语言神经元对大型语言模型输出语言的可控性。
- Nemotron-4 15B 技术报告
Nemotron-4 15B 是一种 150 亿参数的大型多语言语言模型,在英语、多语言和编码任务中表现出强大的性能,甚至超过四倍大且专门用于多语言任务的其他模型。
- 通过从资源丰富的语言进行自我蒸馏以增强大型语言模型的多语种能力
基于自丰富资源语言的自蒸馏方法 (SDRRL) 能有效提升多语言性能,同时最小化对资源丰富语言原始性能的影响。
- 跨语言词汇适应的实证研究:高效生成式 LLM 推理
对五种生成式大型语言模型进行了实证研究,探讨了跨语言词汇适应方法对提高模型推理效率的有效性,发现跨语言词汇适应可大幅提升模型推理速度高达 271.5%,同时适应更平衡的多语种数据可以使下游性能接近原始模型。
- 多语种是多语种 LLM
通过对 101 种语言进行全面分析,评估了大型语言模型(LLMs)的多语言能力,并将具有相似特征的语言分类为四个不同的象限,为调整这些语言提供可操作的指导。通过深入研究每个象限,阐明了其分类背后的理由,并提出了改进 LLMs 的多语言性能的 - 评估涉及英语和印度语的大型语言模型的翻译能力
通过使用机器翻译作为涉及英语和 22 种印度语言的任务,我们探索了大型语言模型的多语言能力,研究了原始模型的翻译能力和上下文学习能力,通过参数高效的微调方法和完全微调,我们确定了最佳性能的大型语言模型。结果表明,大型语言模型在包括目前在 L - 关于编程语言模型训练和评估的语言选择影响
在这项研究中,我们通过使用基于 CodeBERT 的模型分析编程语言的表示来评估编程语言的相似性,发现 C++、Python 和 Java 等语言的标记表示彼此接近,而 Mathematica 和 R 等语言的标记表示存在明显的差异。我们的 - 各种语言的成本是否相同?商业语言模型时代的 tokenization
这项研究分析了语言模型 API 在 22 种语言中的价格策略的公平性,发现一些支持的语言的使用者在使用中被过度收费且结果更差,试图增加对语言模型 API 价格政策的透明度并鼓励供应商使其更加公平。