无法说不行？大型语言模型中暗黑行话的测量与推理

Apr, 2024

无法说不行？大型语言模型中暗黑行话的测量与推理

Can't say cant? Measuring and Reasoning of Dark Jargons in Large Language Models

Xu Ji, Jianyi Zhang, Ziyin Zhou, Zhangchi Zhao, Qianqian Qiao...

TL;DR大型语言模型对黑暗术语和领域特定语言的理解以及其对灵敏话题的处理方法的影响进行了研究，并发现模型存在对过滤器的绕过问题和对话题的不同反应。

Abstract

Ensuring the resilience of large language models (LLMs) against malicious exploitation is paramount, with recent focus on mitigating offensive responses. Yet, the understanding of cant or dark jargon remains unexplored. This paper introduces a domain-specific Cant dataset and CantCount

large language models cant bypassing domain specificity recognition accuracy vendor approaches

发现论文，激发创造

避談：使語言模型在對話中保持主題一致

使用 CantTalkAboutThis 数据集对语言模型进行 fine-tuning，可以在任务导向的交互中帮助模型保持主题相关性，提高其维持话题连贯性的能力，并加强对精细化指令的追踪任务的表现。

Apr, 2024

这不是一个数据集：一个用于挑战大规模语言模型的大规模否定评估基准

大型语言模型在理解否定时表现亚优，本研究通过引入一个大规模自动生成的常识知识数据集，涉及到约 40 万个描述性句子，其中大约 2/3 的句子包含否定形式，使用零样本学习方法对现有开源语言模型进行测试，结果表明尽管模型对于肯定的句子有较高准确性，但在否定句子方面存在困难，缺乏深入理解否定的能力。尽管在否定句子上对模型进行微调可以提高其性能，但在处理否定方面仍然存在泛化能力不足的问题，突显出大型语言模型在否定理解和泛化方面仍面临挑战。

Oct, 2023

Dial-insight：用高质量领域专用数据进行精细调整，防止能力崩溃的大型语言模型

我们提出了一个双阶段方法来构建高质量数据的生产提示，通过该方法可以增强一般大型语言模型的特定领域能力，而不损害其总体泛化能力。

Mar, 2024

评估和缓解大型语言模型中的语言歧视

通过使用多种语言进行训练，大型语言模型（LLMs）通常具有多语言支持，并展示出在不同语言描述的任务中解决问题的显著能力。然而，由于在不同语言之间训练数据的不均衡分布，LLMs 可能表现出语言歧视，即面对相同任务但在不同语言中描述时，难以保持一致的响应。在本研究中，我们首先从安全性和质量两个方面探讨 LLMs 在对各种语言的查询产生的输出的一致性。我们使用两个数据集（AdvBench 和 NQ）对四个 LLMs（Llama2-13b、Gemma-7b、GPT-3.5-turbo 和 Gemini-pro）进行分析。结果显示，与孟加拉语、格鲁吉亚语、尼泊尔语和迈蒂利语的查询相比，LLMs 对英语、法语、俄语和西班牙语的查询表现出更强的人类对齐能力（平均有 1.04％的有害查询成功越狱）。此外，对于英语、丹麦语、捷克语和斯洛文尼亚语的查询，LLMs 倾向于产生具有更高质量的响应（平均 F1 得分为 0.1494），与其他语言相比。基于这些发现，我们提出了一种基于相似度的投票机制 LDFighter 来减轻 LLMs 中的语言歧视。LDFighter 确保为不同语言使用者提供一致的服务。我们使用良性查询和有害查询来评估 LDFighter。结果显示，LDFighter 不仅显著降低了成功越狱的概率，还平均改善了响应质量，证明了其有效性。

Apr, 2024

大型语言模型中的偏见和公平性研究综述

大型语言模型中的社会偏见评估和缓解技术的综述，介绍了社会偏见与公平的概念、评估指标和数据集，以及介绍了干预方法的分类和研究趋势，帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。

Sep, 2023

陷入数理泥潭，远离 AGI 峰会：通过本体引导的扰动评估 LLM 的数学能力

该研究通过扰动问题和生成数据集，评估大型语言模型在数学推理任务中的能力，结果表明现有模型在扰动问题上性能显著下降，缺乏深度推理能力。

Jan, 2024

应对仇恨言论的受约束大型语言模型

利用大型语言模型生成有限制条件的反抗言论，并研究其对在线环境的影响和生成方法的语言特征。

Mar, 2024

大型语言模型的基准数据污染：调查

大型语言模型如 GPT-4、Claude-3 和 Gemini 的快速发展已经改变了自然语言处理领域，但也引发了一个重大问题，即基准数据污染（BDC）。本文回顾了 LLM 评估中复杂的 BDC 挑战，并探讨了缓解传统基准风险的替代评估方法。本文还分析了缓解 BDC 风险的挑战和未来发展方向，突出了这一问题的复杂性和确保 LLM 评估在实际应用中可靠性的创新解决方案的需求。

Jun, 2024

使用大型语言模型的否定互补常识

本文研究了 GPT-3 等较大型语言模型在否定对比问题上的表现。我们提出了一种方法来改善模型在否定对比场景下的表现，该方法胜过了来自 GPT-3 的少样本生成，突出了研究大型语言模型在否定对比问题中响应的重要性。

Jul, 2023

数据污染能够跨越语言障碍

开发大型语言模型的不透明性引起了关于潜在的训练数据污染的担忧。我们提出了一种基于跨语言的深层污染形式，可以欺骗传统的检测方法。我们还探讨了跨语言污染在解释语言模型的工作机制和提升多语言能力方面的潜在用途。

Jun, 2024