利用基于音频 - 文本变换的智能鉴别方法进行恭维检测的论文

Jun, 2024

利用基于音频 - 文本变换的智能鉴别方法进行恭维检测的论文

This Paper Had the Smartest Reviewers -- Flattery Detection Utilising an Audio-Textual Transformer-Based Approach

Lukas Christ, Shahin Amiriparian, Friederike Hawighorst, Ann-Kathrin Schill, Angelo Boutalikakis...

TL;DR通过一个包含 20 小时语音的新型音频文本数据集，我们采用预训练的 AST、Wav2Vec2 和 Whisper 模型以及 Whisper TTS 模型结合 RoBERTa 文本分类器，建立一个多模态分类器，实现对赞美的自动检测，从而增强人工智能与人类之间的自然交流。在未见过的测试数据上进行评估，取得了令人满意的结果，仅使用音频的实验中，不加权平均召回率达到 82.46%，仅使用文本的实验中达到 85.97%，多模态方法达到 87.16%。

Abstract

Flattery is an important aspect of human communication that facilitates social bonding, shapes perceptions, and influences behavior through strategic compliments and praise, leveraging the power of speech to build rapport effectively. Its automatic detection can thus enhance the naturalness of →

flattery detection audio textual dataset machine learning models multimodal classifier human-ai interactions

发现论文，激发创造

关注融合：一种基于 Transformer 的多模态仇恨言论检测方法

通过结合音频和文本表征，利用 Transformer 方法和自主开发的 “Attentive Fusion” 层，本研究提出了一种识别言论是否宣扬仇恨的方法，取得了 0.927 的宏 F1 得分，超过了此前最先进的技术。

Jan, 2024

WhisBERT: 亿字规模的多模式文本音频语言建模

多模态训练对语言模型的质量和效率有所改善，但在复杂目标优化和超越纯文本基线方面仍存在挑战。

Dec, 2023

从视觉和声音模态获取无文本情感的可扩展多模态情感分类

本文介绍了一种多模态融合模型，该模型专门使用高级视频和音频特征来分析口语句子的情感。该模型在 CMUMOSEI 数据集上进行了训练和测试，并获得了验证集上的 F1 得分 0.8049 和挑战测试集上的 F1 得分 0.6325。

Jul, 2018

使用 WavText5K 和 CLAP 训练进行音频检索

本文提出了一个新的 Web 音频文本检索框架，使用文本编码器、两个音频编码器和对比学习目标来实现语言和音频内容间的连接，包括多个数据集的使用，取得了相对于 AudioCaps 和 Clotho 在文本 - 音频检索上 2％和 16％的提高，对于音频 - 文本检索上的 6％和 23％的提高。

Sep, 2022

融合音频、文本和视觉特征进行新闻视频情感分析

该论文提出了一种新颖的方法来执行新闻视频的情感分析，基于从内容中提取的音频、文字和视觉线索的融合。该方法旨在为构建媒体宇宙的 ethos（身份）的 semiodiscoursive 研究做出贡献，我们计算了从面部表情中识别出的视觉强度、参与者的声音调制、文本语音和情感得分（极性）。实验结果显示，该方法在情感分类任务中达到了高达 84％的准确度，因此在新闻界中具有极高的应用潜力。

Apr, 2016

利用语音和文本的多模态语音情感识别

本文提出了一种深度双重循环编码器模型，利用语音和文本数据进行机器情感识别，该模型表现更优，实验结果显示，当将该模型应用于 IEMOCAP 数据集时，在将数据分配到四个情感类别（愤怒，高兴，悲伤和中性）方面，准确率在 68.8％至 71.8％之间。

Oct, 2018

情感社交人形智能系统

本文提出了一种智能虚拟助手，可通过情感语义解释人类语音情感，并且通过声音风格转移和人工生成方法生成特定情感的声波，使得与之互动的人有更好的体验。

Apr, 2023

使用高级音频和文本特征的多模态情感识别

本篇研究提出一个基于深度学习和跨媒介表征学习的情感识别方法，该方法融合了文字和语音特征，并通过评估发现其在 IEMOCAP 数据集上表现优于其它方法。

Sep, 2021

基于语音的多模态情感识别中的学习对齐

本文提出使用注意力机制学习语音帧和文本单词之间的对齐方法，以提高音频 - 文本多模态情感识别的准确性，并在 IEMOCAP 数据集上取得了最先进的性能。

Sep, 2019

情感分析中的多特征和多模态补充融合

该论文提出了一种基于音频和文本的多模态情感分析方法，使用多特征融合和多模态融合策略进行深层特征融合，通过实验证明了该方法在多个情感分析数据集上的有效性和优越性。

Apr, 2019