利用深层次声学表征从感知和原始语音中学习基于语境的语言

AAAIDec, 2021

利用深层次声学表征从感知和原始语音中学习基于语境的语言

Bridging the Gap: Using Deep Acoustic Representations to Learn Grounded Language from Percepts and Raw Speech

Gaoussou Youssouf Kebe, Luke E. Richards, Edward Raff, Francis Ferraro, Cynthia Matuszek

TL;DR本文研究基于视觉感知和语音输入的接地语言习得。作者利用最新的自监督语音表征模型进行了实验，并认为其可以使语言接地系统更具包容性，并减少依赖文本输入的影响。

Abstract

Learning to understand grounded language, which connects natural language to percepts, is a critical research area. Prior work in grounded language acquisition has focused primarily on textual inputs. In this wor

grounded language visual percepts speech input self-supervised speech representation demographic bias

发现论文，激发创造

自监督嵌入用于检测抑郁症个体症状

利用自监督学习（SSL）基于语音模型识别和预测抑郁症症状和严重程度，比传统语音特征具有显著性能改进，并探究不同类型的 SSL 预训练模型在识别不同症状时所贡献的语音信息，以及多个 SSL 嵌入的组合和多任务学习在有效识别抑郁症症状中的重要性。

Jun, 2024

离散 SLU：自我監督的离散语音单元用于口语理解的大型语言模型

通过将预训练的基于文本的大型语言模型（LLM）与语音输入集成，我们提出使用离散语音单元（DSU）代替连续值语音编码器输出，通过语音适配器将其转换为 LLM 的标记嵌入空间。我们使用自监督语音编码器后跟 k-means 聚类生成 DSU。所提出的模型在来自可见 / 不可见领域的语音输入上表现出强大的性能，并具有口语问答指令遵循能力。我们还探索了来自自监督语音编码器的不同层以及 Mel 频率倒谱系数（MFCC）提取的各种类型的 DSU。我们的发现表明，在口语问答任务的指令调优中，ASR 任务和数据集并不关键。

Jun, 2024

组误差和的总和：生物特征验证中偏差评估的关键检查和双度量度

生物特征验证（BV）系统往往在不同的人群中显示准确性差异，引发应用中的偏见。评估和量化这些偏见对确保 BV 系统的公正性至关重要。然而，现有的 BV 偏见评估指标存在一些限制，如仅关注匹配或非匹配错误率、忽视性能介于最好和最差性能水平之间人群的偏见以及忽视偏见的强度。本文对 BV 中现有偏见评估指标的限制进行了深入分析，并通过实验分析展示了它们的背景适应性、优点和限制。此外，还引入了一种新颖的通用偏见评估度量指标，即 “组错误差之和（SEDG）”。我们在控制的合成数据集上的实验结果表明，当使用现有指标和我们自己提出的度量时，能够有效量化人口统计偏见。我们讨论了偏见评估指标在一组模拟人口统计偏见场景中的适用性，并提供了基于场景的指标建议。我们的代码在 https://github.com/alaaobeid/SEDG 上公开共享。

Apr, 2024

多线性专家混合模型：通过分解实现可扩展的专家专业化

通过使用 Multilinear Mixutre of Experts (MMoE) 层来缩放专家的数量，从而实现图像模型的细粒度特化，并通过定性和定量的证据证明了其与线性层具有相当的性能，同时进一步协助修正 CelebA 属性分类中的人口统计偏差。

Feb, 2024

DSAP：通过数据集的人口统计比较分析偏见

提出了 DSAP（Demographic Similarity from Auxiliary Profiles）方法，用于比较和量化数据集中的人口构成，可应用于检测和表征数据集中的人口盲点和偏见问题、测量单个数据集中的人口偏见以及测量部署场景中的数据集人口变化。

Dec, 2023

多语言欧洲议会数据集用于信息检索偏倚分析

Multi-EuP 是一个多语言基准数据集，由来自欧洲议会的 22K 多语言文档组成，涵盖 24 种语言。该数据集旨在研究多语言信息检索 (IR) 语境中的公平性，分析排名语境中的语言和人口统计偏差。它拥有一个真实的多语言语料库，涵盖了 24 种语言的主题翻译，以及跨语言的相关性判断。此外，它还提供与文档相关的丰富人口统计信息，方便研究人口统计偏差。我们报告了 Multi-EuP 在单语和多语信息检索基准测试方面的有效性。我们还对由分词策略选择引起的语言偏差进行了初步实验。

Nov, 2023

FairTune: 优化参数高效微调用于医疗图像分析中的公平性

在医学诊断等伦理敏感应用领域，以鲁棒的群体公平性训练模型至关重要。尽管有越来越多的研究旨在减少人工智能中的人口偏差，但这个问题仍然具有挑战性。公平性的泛化差距是这个挑战的原因之一：高容量的深度学习模型几乎可以完美地拟合所有训练数据，从而在训练过程中也表现出完美的公平性。在这种情况下，偏差仅在测试时出现，因为泛化表现在不同的子群体之间有差异。这激发了我们从双层优化的角度来看待公平学习：根据验证公平性来优化学习策略。具体而言，我们考虑采用适应预训练模型到下游医学图像任务的参数高效微调（PEFT）技术的高效工作流。在更新更多参数以更好地适应感兴趣的任务与更新更少参数以减少泛化差距之间存在权衡。为了处理这个权衡，我们提出了一个框架 FairTune，以优化与公平性相关的 PEFT 参数的选择。我们经验证明，FairTune 在一系列医学图像数据集上能够提高公平性。

Oct, 2023

大型语言模型的机会不平等：透过职位推荐揭示人口偏见

通过分析工作推荐，揭示大型语言模型中的人口统计偏见。研究发现 LLMs 存在与不同人口统计身份相关的偏见，如 Mexican workers 普遍倾向于低薪工作，女性倾向于秘书角色。这突出了在后续应用中量化 LLMs 偏见的重要性，以了解可能造成的伤害和不公平结果。

Aug, 2023

因果探索的几何概念

大语言模型基于文本的实值表示进行预测，包括从训练数据中学到的语言特性和偏见（如性别）。本研究通过将表示空间的子空间进行正交投影进行了对这些概念的信息分析，并提出了概念受控生成的方法。实证结果表明，在至少一个模型中，R-LACE 返回了包含约一半总概念信息的一维子空间，该子空间可用于精确操纵生成词的概念值。

Jul, 2023

一种全面的多尺度方法用于说话者外貌生成中的语音和动态同步

利用深度生成模型和语音输入信号来为静止的面部图像添加动画是当前的研究热点，本文提出了一种多尺度音频视觉同步损失和多尺度自回归生成对抗网络来更好地处理语音和头部以及嘴唇之间的短期和长期关联，通过在面部关键点域中训练多模态输入金字塔上的同步模型堆栈，再结合多尺度生成网络以在不同时间尺度上生成音频对齐的动画，实验结果表明在头部动作质量和多尺度音频视觉同步方面相较于最新技术有显著提高。

Jul, 2023