针对大型多模型中的语音特定风险进行探究：一种分类、基准和洞见

Jun, 2024

针对大型多模型中的语音特定风险进行探究：一种分类、基准和洞见

Towards Probing Speech-Specific Risks in Large Multimodal Models: A Taxonomy, Benchmark, and Insights

Hao Yang, Lizhen Qu, Ehsan Shareghi, Gholamreza Haffari

TL;DR在多模态设置中，特别是在语音模态中，检测高风险互动的挑战仍然未被广泛探索，本文提出了一个语音特定的风险分类方法，并创建了一个小规模数据集来评估当前大型多模态模型在检测这些风险类别方面的能力。

Abstract

large multimodal models (LMMs) have achieved great success recently, demonstrating a strong capability to understand multimodal information and to interact with human users. Despite the progress made, the challenge of detecting →

large multimodal models high-risk interactions speech modality paralinguistic cues risk taxonomy

发现论文，激发创造

大型语言模型的安全风险分类

通过针对大型语言模型（LLM）存在的安全风险进行评估，本研究填补了当前研究的空白，并提出了一种基于提示的攻击风险分类方法，以强调 LLM 在用户 - 模型通信路径上的安全风险。该分类方法通过具体的攻击示例加以支持，并旨在为安全性强、值得信赖的 LLM 应用程序的开发提供指导。

Nov, 2023

大型语言模型中的风险与应对：评估关键威胁类别

本文对大型语言模型（LLMs）中的风险评估问题进行了探讨，并重点研究了奖励模型在感知和分类不同类型风险时面临的挑战，通过使用 Anthropic Red 团队的数据集，对信息风险、恶意用途和歧视 / 仇恨内容等主要风险类别进行了分析，研究结果表明 LLMs 倾向于认为信息风险较少有害，并通过特殊开发的回归模型对此进行了确认，此外，研究还揭示了 LLMs 在信息风险场景中对风险反应较不严格，强调了 LLM 风险评估中的关键安全问题以及对改进人工智能安全措施的需求。

Mar, 2024

大型语言模型系统的风险分类、缓解和评估基准

通过探索大型语言模型系统的四个关键模块，即接收提示的输入模块，基于丰富语料库的语言模型，用于开发和部署的工具链模块以及生成语言模型内容的输出模块，本文提出了一种综合分类方法，系统分析了每个模块可能涉及的潜在风险，并讨论了相应的缓解策略。此外，我们还回顾了流行基准以促进大型语言模型系统的风险评估。希望本文能帮助大型语言模型参与者从系统角度构建负责任的系统。

Jan, 2024

语言模型的伦理和社会风险

本文旨在帮助构建与大规模语言模型相关的风险场景。我们总结了 LMs 可能面临的各种风险，如歧视、错误信息、自动化等，并提出了应对方法和未来研究方向。

Dec, 2021

仇恨言论管控的最新进展：多模态和大模型的作用

在在线交流的不断演变中，如何进行仇恨言论的管理成为一个复杂的挑战，而数字内容的多模态性质进一步加大了这一挑战。本综述全面调查了仇恨言论管理的最新进展，着重介绍了大型语言模型（LLMs）和大型多模态模型（LMMs）在其中的重要作用。通过对当前文献的深入分析，我们揭示了文本、视觉和听觉元素在传播仇恨言论中的微妙相互影响。我们发现了一种明显趋势，即主要通过整合这些模态来处理复杂性和微妙性问题。我们重点关注了 LLMs 和 LMMs 所带来的进展，这些进展已经开始重新定义检测和管理能力的边界。我们在研究中鉴定了现有的空白领域，特别是在涉及少数语言和文化的情况下，并强调了处理低资源环境的解决方案的需求。综述以展望未来的角度结束，概述了未来研究的潜在方向，包括探索新的人工智能方法论、在管理中的伦理治理以及开发更加细致入微、具有上下文意识的系统。这个全面概述的目标是促进进一步的研究，并推动协作努力，朝着更加复杂、负责任和以人为中心的数字时代仇恨言论管理方法的发展。

Jan, 2024

多模态方法在大型语言模型中的设备导向语音检测

虚拟助手的交互通常以预定义的触发短语作为开端，我们探索是否可以放弃用户必须以触发短语开始每个指令的要求。通过三种方式进行实验：首先，只使用从音频波形中获得的声学信息来训练分类器；其次，将自动语音识别（ASR）系统的解码器输出，如 1 最佳假设，作为大型语言模型（LLM）的输入特征；最后，探索结合声学和词汇特征以及 ASR 解码器信号的多模态系统。使用多模态信息相对于仅文本和仅音频的模型，在等误差率上可以获得高达 39% 和 61% 的改进。增加 LLM 的规模，并使用低秩适应来进行训练，在我们的数据集上进一步降低了相对误差率高达 18%。

Mar, 2024

基于多模式大型语言模型的交通安全关键事件自动检测

利用多模态大语言模型对自动驾驶视频进行自动分析，以提高安全性和可靠性，确保准确、可靠和可操作的危险检测，并改善安全事件检测和复杂环境交互的理解。

Jun, 2024

SpeechGuard: 多模态大型语言模型的对抗鲁棒性探索

通过设计算法进行白盒和黑盒攻击以实现越狱，提出了对抗越狱攻击的对策，并展示了该对策显著降低攻击成功率。

May, 2024

推动大型语言模型在口语对话中捕捉多样的言谈风格并作出恰当回应

在口语对话中，即使两个当前对话相同，它们的回应在不同的语言风格中可能仍然不同。这篇论文提出了一种 Spoken-LLM 框架，旨在教导 LLMs 理解和适当回应不同的语言风格，并使用 StyleTalk 数据集进行训练，通过两个阶段的训练使 Spoken-LLM 更好地学习语言风格，实验证明 Spoken-LLM 表现优于纯文本基准和先前的语音 LLMs 方法。

Feb, 2024

语言模型中的隐私风险识别与缓解：调查

通过对大规模语言模型的调查，本研究首次提供了关于语言模型隐私的技术综述，包括攻击与缓解策略的分类、现有攻击的趋势、现有缓解策略的强项与局限性，找出关键缺口并提出解决问题的方法与关切领域。

Sep, 2023