针对大型多模型中的语音特定风险进行探究:一种分类、基准和洞见
通过针对大型语言模型(LLM)存在的安全风险进行评估,本研究填补了当前研究的空白,并提出了一种基于提示的攻击风险分类方法,以强调 LLM 在用户 - 模型通信路径上的安全风险。该分类方法通过具体的攻击示例加以支持,并旨在为安全性强、值得信赖的 LLM 应用程序的开发提供指导。
Nov, 2023
本文对大型语言模型(LLMs)中的风险评估问题进行了探讨,并重点研究了奖励模型在感知和分类不同类型风险时面临的挑战,通过使用 Anthropic Red 团队的数据集,对信息风险、恶意用途和歧视 / 仇恨内容等主要风险类别进行了分析,研究结果表明 LLMs 倾向于认为信息风险较少有害,并通过特殊开发的回归模型对此进行了确认,此外,研究还揭示了 LLMs 在信息风险场景中对风险反应较不严格,强调了 LLM 风险评估中的关键安全问题以及对改进人工智能安全措施的需求。
Mar, 2024
通过探索大型语言模型系统的四个关键模块,即接收提示的输入模块,基于丰富语料库的语言模型,用于开发和部署的工具链模块以及生成语言模型内容的输出模块,本文提出了一种综合分类方法,系统分析了每个模块可能涉及的潜在风险,并讨论了相应的缓解策略。此外,我们还回顾了流行基准以促进大型语言模型系统的风险评估。希望本文能帮助大型语言模型参与者从系统角度构建负责任的系统。
Jan, 2024
在在线交流的不断演变中,如何进行仇恨言论的管理成为一个复杂的挑战,而数字内容的多模态性质进一步加大了这一挑战。本综述全面调查了仇恨言论管理的最新进展,着重介绍了大型语言模型(LLMs)和大型多模态模型(LMMs)在其中的重要作用。通过对当前文献的深入分析,我们揭示了文本、视觉和听觉元素在传播仇恨言论中的微妙相互影响。我们发现了一种明显趋势,即主要通过整合这些模态来处理复杂性和微妙性问题。我们重点关注了 LLMs 和 LMMs 所带来的进展,这些进展已经开始重新定义检测和管理能力的边界。我们在研究中鉴定了现有的空白领域,特别是在涉及少数语言和文化的情况下,并强调了处理低资源环境的解决方案的需求。综述以展望未来的角度结束,概述了未来研究的潜在方向,包括探索新的人工智能方法论、在管理中的伦理治理以及开发更加细致入微、具有上下文意识的系统。这个全面概述的目标是促进进一步的研究,并推动协作努力,朝着更加复杂、负责任和以人为中心的数字时代仇恨言论管理方法的发展。
Jan, 2024
虚拟助手的交互通常以预定义的触发短语作为开端,我们探索是否可以放弃用户必须以触发短语开始每个指令的要求。通过三种方式进行实验:首先,只使用从音频波形中获得的声学信息来训练分类器;其次,将自动语音识别(ASR)系统的解码器输出,如 1 最佳假设,作为大型语言模型(LLM)的输入特征;最后,探索结合声学和词汇特征以及 ASR 解码器信号的多模态系统。使用多模态信息相对于仅文本和仅音频的模型,在等误差率上可以获得高达 39% 和 61% 的改进。增加 LLM 的规模,并使用低秩适应来进行训练,在我们的数据集上进一步降低了相对误差率高达 18%。
Mar, 2024
利用多模态大语言模型对自动驾驶视频进行自动分析,以提高安全性和可靠性,确保准确、可靠和可操作的危险检测,并改善安全事件检测和复杂环境交互的理解。
Jun, 2024
在口语对话中,即使两个当前对话相同,它们的回应在不同的语言风格中可能仍然不同。这篇论文提出了一种 Spoken-LLM 框架,旨在教导 LLMs 理解和适当回应不同的语言风格,并使用 StyleTalk 数据集进行训练,通过两个阶段的训练使 Spoken-LLM 更好地学习语言风格,实验证明 Spoken-LLM 表现优于纯文本基准和先前的语音 LLMs 方法。
Feb, 2024
通过对大规模语言模型的调查,本研究首次提供了关于语言模型隐私的技术综述,包括攻击与缓解策略的分类、现有攻击的趋势、现有缓解策略的强项与局限性,找出关键缺口并提出解决问题的方法与关切领域。
Sep, 2023