多语种音频中的滥用检测（ADIMA）

Feb, 2022

多语种音频中的滥用检测（ADIMA）

ADIMA: Abuse Detection In Multilingual Audio

Vikram Gupta, Rini Sharon, Ramit Sawhney, Debdoot Mukherjee

TL;DR使用自动语音识别和自然语言处理方法进行指辞文本检测，提出了一种说明性多语种骂人检测音频数据集（ADIMA），该数据集取样 10 个印度语言，包含 11,775 个音频样本，旨在实现 Indic 语言中音频内容审核的民主化。

Abstract

abusive content detection in spoken text can be addressed by performing automatic speech recognition (ASR) and leveraging advancements in natural language processing. However, ASR models introduce latency and oft

abusive content detection automatic speech recognition natural language processing adima profanity detection

发现论文，激发创造

多语种和多模态滥用检测

本文提出了一种多模态方法（MADA），以从社交媒体上的多语言对话音频中检测滥用内容为目标，并证明利用其他模态的判别信息对音频建模可以极大地提高性能。实验证明，MADA 可以在 ADIMA 数据集上取得比仅使用音频的方法更好的表现，并且在测试了 10 种不同语言后，在多模态结合的情况下可以获得 0.6％-5.2％的一致增益。此外，我们还做了实验证明了潜在情绪和虐待行为之间存在强烈的相关性。

Apr, 2022

改进基于数据引导的印度语恶意语言检测方法，提高低资源环境下的检测效果

本篇论文探讨针对印度尼西亚语多语种辱骂性言论的大规模分析，研究不同的语言转移机制及该领域的多语种模型的表现，同时探究此类模型对抗性攻击的能力，并进行了误判分析。

Apr, 2022

跨领域音频深度伪造检测：数据集与分析

通过使用五种先进的零样本文本转语音模型生成超过 300 小时的语音数据，构建了一个新的跨领域的 ADD 数据集。通过新颖的攻击增强训练方法，Wav2Vec2-large 模型和 Whisper-medium 模型分别获得了 4.1％和 6.5％的等误差率，展示了出色的少样本 ADD 能力。然而，神经编解码器压缩技术对检测准确性产生重大影响，需要进一步研究。

Apr, 2024

自动化语音工具，帮助社区处理受限语料库以推进语言复兴

该研究提出了一种隐私保护的工作流程，通过集成语音活动检测（VAD）、自动语音识别（ASR）等技术，提高对受保护语言音频数据的注释效率。该流程旨在为那些使用英语等共同语言进行元语言评论和提问的语音录音解决元语言转录上的问题。研究结果表明匹配得当的这种方法可以在保持数据私密原则的前提下加速记录的元语言转录，并有效减少了数据浏览和筛选的时间。

Apr, 2022

LAHM：用于多领域和多语言仇恨言论识别的大型注释数据集

本文介绍一种新的多语言仇恨言论分析数据集，涵盖了英语、印地语、阿拉伯语、法语、德语和西班牙语等六种语言，针对辱骂、种族主义、性别歧视、宗教仇视和极端主义等五大领域进行多角度分类，采用多任务学习方法对数据进行测试，以期提高仇恨言论检测和分类的准确性。

Apr, 2023

基于语用学和预训练特征的跨语言阿尔茨海默氏病检测

该研究利用 openSmile 工具包和 XLSR-53 提取声学特征，将语音转录成文本后提取语言特征进行 AD 患者检测，结果显示该方法能够通过自发性说话实现自动多语言阿尔茨海默病检测，分类准确率为 69.6%，均方根误差为 4.788。

Mar, 2023

NPTEL MOOC 数千个视频间的单词错误率差异的深入研究

本研究描述了一个庞大的语音数据集的构建过程，并利用该数据集评估了印度不同演讲者的性别、籍贯、年龄和语速对 YouTube 自动字幕和 OpenAI Whisper 模型性能的影响。结果表明需要更具包容性和鲁棒性的 ASR 系统以及更具代表性的数据集进行差异性评估。

Jul, 2023

使用自动语音识别的零样本跨语言失语症检测

通过使用语言无关的语言特征，我们尝试利用英语中可用的数据，并在希腊语和法语等低资源语言中实现零样例失语症检测。我们提出了一种端到端流水线，使用预训练的自动语音识别（ASR）模型，共享跨语言语音表示，并进行微调，以实现我们所需的低资源语言。为了进一步提高我们的 ASR 模型的性能，我们还将其与语言模型结合在一起。我们证明，我们基于 ASR 的端到端流水线提供了与使用人工注释转录的先前设置相当的结果。

Apr, 2022

全面检测滥用内容！走向普适的滥用语言检测模型

本文中我们介绍了一个名为 MACAS 的新型通用虐待性语言检测框架，该框架能够解决跨不同领域的多种虐待性语言任务，其中使用了多角度虐待性语言嵌入和文本图嵌入分析用户的语言行为，并使用了交叉注意力门机制来有效处理多方面的虐待语言，并在 7 个 ALD 数据集上进行了评估，结果表明我们的 ALD 算法在多个领域的虐待性语言问题上表现优异，可以与当前六种最先进的 ALD 算法相媲美甚至超越。

Oct, 2020

ADAGIO：音频对抗攻击和防御的交互式实验

本文介绍了 ADAGIO，这是第一个能够在实时中以视觉和听觉的形式让研究人员和从业人员进行对抗攻击和防御交互实验的工具，ADAGIO 利用基于心理声学原理的 AMR 和 MP3 音频压缩技术实现防御，从而将目标攻击的成功率从 92.5%，降低到 0%。

May, 2018