方言？我几乎不了解她：风格控制与刻板印象的挑战

Jun, 2024

方言？我几乎不了解她：风格控制与刻板印象的挑战

Vernacular? I Barely Know Her: Challenges with Style Control and Stereotyping

Ankit Aich, Tingting Liu, Salvatore Giorgi, Kelsey Isman, Lyle Ungar...

TL;DR大型语言模型（LLMs）在教育和学习应用中的使用不断增加。研究表明，在控制风格以适应学习者需求的情况下，能够增加理解力，促进包容性，并有助于知识蒸馏。为了了解当代 LLMs 在风格控制方面的能力和局限性，我们评估了五个最先进的模型：GPT-3.5，GPT-4，GPT-4o，Llama-3 和 Mistral-instruct-7B。我们观察到第一个任务存在显著的不一致性，模型的性能在适用于一年级学生的任务中平均介于五年级和八年级阅读水平之间，标准偏差高达 27.6。对于我们的第二个任务，我们观察到性能有了显著的提高，从 0.02 到 0.26。然而，我们发现即使在参考文本中没有刻板印象的情况下，LLMs 在任务中经常生成文化上不敏感的内容。我们提供了详细的结果分析和讨论。

Abstract

large language models (LLMs) are increasingly being used in educational and learning applications. Research has demonstrated that controlling for style, to fit the needs of the learner, fosters increased understanding, promotes inclusion, and helps with knowledge distillation. To under

large language models style control llm capabilities task performance culturally insensitive content

发现论文，激发创造

从 Tarzan 到 Tolkien：控制 LLMs 的语言熟练程度用于内容生成

探讨利用大型语言模型（LLMs）控制文本难度的问题，在不完全精通的终端用户环境中（如语言学习者），通过使用新颖框架评估了几种关键方法的效果，包括少样本提示、监督微调和强化学习（RL），使用 GPT-4 和 LLama2-7B、Mistral-7B 等开源替代品。我们的发现揭示了在使用基于提示的策略时，GPT-4 和开源模型之间存在很大的性能差距。然而，我们展示了如何通过精调和 RL 对齐的谨慎组合来弥合这一差距。我们最佳的模型，CALM（CEFR 对齐语言模型），在仅成本的一小部分下超越了 GPT-4 和其他策略的性能。我们通过小规模的人工研究进一步验证了我们结果的质量。

Jun, 2024

超越指标：评估 LLM 在文化细微、资源贫乏的真实场景中的有效性

评估了在多语言和代码混合通信环境中使用的七个领先大型语言模型（LLMs）的情感分析性能，发现 GPT-4 和 GPT-4-Turbo 在理解语言输入和处理上下文信息方面表现出色，与人的一致性高且决策过程透明，但在非英语环境中的文化细微差别方面存在不稳定性，结果强调了 LLMs 不断改进以有效应对文化差异、资源有限的真实世界环境的必要性。

Jun, 2024

基于维基百科风格的调查问卷生成的大型语言模型：在 NLP 概念上的评估

通过对计算机科学 - NLP 领域的 20 个选定主题进行研究和评估，本文证明了 GPT-4 相对于 GPT-3.5 在产生简明调查文章方面的成功，并揭示了 LLM 在特定领域应用中存在的问题和短板。

Aug, 2023

大型语言模型（LLM）的利用中的挑战和影响因素

当面临领域特定问题时，大语言模型（LLMs）可能会遇到问题，如知识遗忘、知识重复、知识幻觉以及知识毒性，这些问题突显了 LLMs 的训练数据和算法设计的困扰。为了解决这些问题，建议对训练数据进行多样化，微调模型，提高透明度和可解释性，并引入伦理和公平性培训。未来的技术趋势可能会倾向于迭代方法学、多模态学习、模型个性化定制以及实时学习和反馈机制。最重要的是，未来的 LLMs 应确保在为人类服务时优先考虑公平、透明和伦理，确保它们持有高的道义和道德标准。

Oct, 2023

大型语言模型的多目标语言控制

通过细调用于现有数据的多控制调优方法，本文提出一种能够精确控制大语言模型输出的多个语言复杂性的方法。实验证明该方法不仅显著改善了大语言模型的多复杂性可控性，还保持甚至提升了响应质量。

Jun, 2024

非英语问题下不要信任 GPT

本文提供了一种系统方法来衡量 LLMs 在多语言环境下的表现差异，探讨了 LLMs 的跨语言概括现象，结果表明 GPT 在多语言环境下表现出高度翻译一致的行为。

May, 2023

大型语言模型中的包容性：科学摘要中的个性特征和性别偏见

评估三种主要的大型语言模型（Claude 3 Opus、Mistral AI Large 和 Gemini 1.5 Flash）在科学摘要文本生成任务中的表现，发现尽管这些模型的生成文本通常与人类创作的内容非常相似，但在风格上存在显著的性别偏见，这研究强调了开发能够维持多样写作风格以促进学术交流包容性的重要性。

Jun, 2024

大型语言模型作为数据预处理器

此研究拓展了大型语言模型（LLMs）的应用，探索了它们在数据预处理中的潜力，包括错误检测、数据插补、模式匹配和实体匹配任务。我们提出了一个基于 LLMs 的框架，用于改进模型的性能和效率。实验结果表明 LLMs 在数据预处理中具有巨大潜力。

Aug, 2023

大型语言模型评估：STEM 教育与性别刻板印象

通过开放式、用户真实案例实验设计和定量分析，本文调查了 LLMs 中的性别偏见与教育选择之间的关系，在四种不同的文化、语言和教育系统（英语 / 美国 / 英国，丹麦 / 丹麦，加泰罗尼亚 / 西班牙，印地语 / 印度）的背景下调查了性别偏见，研究发现在使用典型的男孩名字和女孩名字提示建议职业时，chatGPT 提供的建议教育路径中的 STEM 和非 STEM 的比例存在显著而大的差异，丹麦、西班牙和印度背景下的 STEM 建议较少，同时发现职业建议中的细微差异。

Jun, 2024

大型语言模型在非洲语言上的表现如何？

近期，在自然语言处理方面的最新进展中，大型语言模型（LLM）得到了广泛应用，它们在上下文学习下表现出良好性能，甚至适用于未知的任务和语言。然而，它们在非洲语言上的性能尚不清楚。我们研究了三种广泛使用的大型语言模型（mT0，LLaMa 2 和 GPT-4）在 30 种非洲语言上的五个任务（新闻主题分类，情感分类，机器翻译，问答和命名实体识别）的表现。结果显示，所有的大型语言模型在非洲语言上的表现都低于水平，与英语等高资源语言相比，性能差距较大。我们发现，GPT-4 在分类任务上表现平均或令人印象深刻，但在机器翻译等生成任务上表现非常糟糕。令人惊讶的是，我们发现 mT0 在非洲语言上的跨语言问答表现最佳，超过了最先进的有监督模型（即，微调的 mT5）和 GPT-4 的表现。总体而言，由于 LLaMa 2 具有有限的多语言能力和以英语为中心的预训练语料库，因此其表现最差。总的来说，我们的研究结果呼吁确保非洲语言在大型语言模型中得到很好的代表，因为这些模型越来越受欢迎。

Nov, 2023