母语设计偏见:研究英语作为母语对语言模型性能的影响
通过对三种领先的大型语言模型 (LLM) 和两个不同的针对真实性和事实性的数据集进行深入实验,我们研究了 LLM 响应质量在信息准确性、真实性和拒绝方面如何随用户的英语水平、教育水平和国籍的不同而变化。我们的研究结果表明,领先的 LLM 模型在不可取的行为方面存在不均衡,对英语水平较低、教育水平较低和来自美国以外的用户具有更多的不可取行为,从而使这些模型对于最弱势的用户成为不可靠的信息来源。
Jun, 2024
本文提供了一种系统方法来衡量 LLMs 在多语言环境下的表现差异,探讨了 LLMs 的跨语言概括现象,结果表明 GPT 在多语言环境下表现出高度翻译一致的行为。
May, 2023
我们研究了不同语言中大型语言模型生成的输出中的性别偏见,通过三项测量方法评估性别相关背景下选择描述性词语的性别偏见、选择性别相关代词(她 / 他)的性别偏见以及生成对话的主题的性别偏见。我们的研究表明,在我们调查的所有语言中都存在显著的性别偏见。
Mar, 2024
该研究论文阐述了当前的大语言模型非常强大,但其不易获得可能导致研究者新的语言计算方法的偏见和对原生主义的重视,并主张研究者们应该尽可能开源其大型语言模型的代码,以便让经验主义和混合方法保持可获得性。
Jan, 2023
本文通过全面评估最有影响力的最新大型语言模型(LLMs)在机器翻译和自动语音识别两个高使用频率应用领域上的功能,对多个高和低资源语言的地区方言进行了功能评估,并分析了地方方言差距与经济、社会和语言因素的相关性,从而为方言 NLP 领域的发展奠定基础,并通过有意识的数据收集,揭示明显的差异并寻找可能的解决途径。
Oct, 2023
通过开放式、用户真实案例实验设计和定量分析,本文调查了 LLMs 中的性别偏见与教育选择之间的关系,在四种不同的文化、语言和教育系统(英语 / 美国 / 英国,丹麦 / 丹麦,加泰罗尼亚 / 西班牙,印地语 / 印度)的背景下调查了性别偏见,研究发现在使用典型的男孩名字和女孩名字提示建议职业时,chatGPT 提供的建议教育路径中的 STEM 和非 STEM 的比例存在显著而大的差异,丹麦、西班牙和印度背景下的 STEM 建议较少,同时发现职业建议中的细微差异。
Jun, 2024
通过对 101 种语言进行全面分析,评估了大型语言模型(LLMs)的多语言能力,并将具有相似特征的语言分类为四个不同的象限,为调整这些语言提供可操作的指导。通过深入研究每个象限,阐明了其分类背后的理由,并提出了改进 LLMs 的多语言性能的具体属性。实验结果表明,现有的 LLMs 具有超出预期的多语言能力,并且通过关注每个象限中存在的不同属性,我们可以显著提高 LLMs 的多语言表现。
Nov, 2023