母语设计偏见：研究英语作为母语对语言模型性能的影响

Jun, 2024

母语设计偏见：研究英语作为母语对语言模型性能的影响

Native Design Bias: Studying the Impact of English Nativeness on Language Model Performance

Manon Reusens, Philipp Borchert, Jochen De Weerdt, Bart Baesens

TL;DR该研究通过分析数据集，探讨了大型语言模型在回答非英语母语使用者的问题时是否会产生性能偏差，结果发现与母语使用者相比，非英语母语使用者在与语言模型的互动中会获得更低质量甚至事实错误的回答。

Abstract

large language models (LLMs) excel at providing information acquired during pretraining on large-scale corpora and following instructions through user prompts. This study investigates whether the quality of LLM responses varies depending on the →

large language models demographic profile non-native english speakers performance discrepancies response quality

发现论文，激发创造

LLM 有针对性的低效率问题主要影响弱势用户

通过对三种领先的大型语言模型 (LLM) 和两个不同的针对真实性和事实性的数据集进行深入实验，我们研究了 LLM 响应质量在信息准确性、真实性和拒绝方面如何随用户的英语水平、教育水平和国籍的不同而变化。我们的研究结果表明，领先的 LLM 模型在不可取的行为方面存在不均衡，对英语水平较低、教育水平较低和来自美国以外的用户具有更多的不可取行为，从而使这些模型对于最弱势的用户成为不可靠的信息来源。

Jun, 2024

翻译是唯一需要吗？关于使用大型语言模型解决多语言任务的研究

我们提倡更多的努力来开发强大的多语种语言模型，而不仅仅是以英语为中心的语言模型。

Mar, 2024

非英语问题下不要信任 GPT

本文提供了一种系统方法来衡量 LLMs 在多语言环境下的表现差异，探讨了 LLMs 的跨语言概括现象，结果表明 GPT 在多语言环境下表现出高度翻译一致的行为。

May, 2023

大型语言模型中的性别偏见

我们研究了不同语言中大型语言模型生成的输出中的性别偏见，通过三项测量方法评估性别相关背景下选择描述性词语的性别偏见、选择性别相关代词（她 / 他）的性别偏见以及生成对话的主题的性别偏见。我们的研究表明，在我们调查的所有语言中都存在显著的性别偏见。

Mar, 2024

无法访问的神经语言模型可能会再次激活语言天赋主义

该研究论文阐述了当前的大语言模型非常强大，但其不易获得可能导致研究者新的语言计算方法的偏见和对原生主义的重视，并主张研究者们应该尽可能开源其大型语言模型的代码，以便让经验主义和混合方法保持可获得性。

Jan, 2023

量化方言差异及其与语言之间的关联

本文通过全面评估最有影响力的最新大型语言模型（LLMs）在机器翻译和自动语音识别两个高使用频率应用领域上的功能，对多个高和低资源语言的地区方言进行了功能评估，并分析了地方方言差距与经济、社会和语言因素的相关性，从而为方言 NLP 领域的发展奠定基础，并通过有意识的数据收集，揭示明显的差异并寻找可能的解决途径。

Oct, 2023

所有语言的语言模型难度是否相同？

本文使用翻译文本开发了一种公平的跨语言语言模型比较方法，在 21 种语言中展示了复杂的屈折形态是导致不同语言性能差异的原因。

Jun, 2018

大型语言模型评估：STEM 教育与性别刻板印象

通过开放式、用户真实案例实验设计和定量分析，本文调查了 LLMs 中的性别偏见与教育选择之间的关系，在四种不同的文化、语言和教育系统（英语 / 美国 / 英国，丹麦 / 丹麦，加泰罗尼亚 / 西班牙，印地语 / 印度）的背景下调查了性别偏见，研究发现在使用典型的男孩名字和女孩名字提示建议职业时，chatGPT 提供的建议教育路径中的 STEM 和非 STEM 的比例存在显著而大的差异，丹麦、西班牙和印度背景下的 STEM 建议较少，同时发现职业建议中的细微差异。

Jun, 2024

大规模语言模型的多语言文档问答评估方法

通过使用大型语言模型，本文研究了这些模型的多语言能力。初步结果表明，将原始语言环境、问题和答案翻译成高资源语言会产生最佳结果。

Feb, 2024

多语种是多语种 LLM

通过对 101 种语言进行全面分析，评估了大型语言模型（LLMs）的多语言能力，并将具有相似特征的语言分类为四个不同的象限，为调整这些语言提供可操作的指导。通过深入研究每个象限，阐明了其分类背后的理由，并提出了改进 LLMs 的多语言性能的具体属性。实验结果表明，现有的 LLMs 具有超出预期的多语言能力，并且通过关注每个象限中存在的不同属性，我们可以显著提高 LLMs 的多语言表现。

Nov, 2023