关键词feature-wise linear modulation
搜索结果 - 7
- 利用说话者信息个性化关键词检测
通过整合说话者信息到关键词检测系统,使用 Feature-wise Linear Modulation(FiLM)方法从多个信息源进行学习,我们在多样化数据集上实验并取得了显著提高的关键词检测准确性,特别是在不平衡说话者群体中,还能在参数数 - 可扩展多语言关键词检测模型的本地编码
该研究提出了一种多语言关键词检测系统,该系统可在多个场所检测口语关键词。通过使用基于区域条件的通用模型,该系统能够有效地克服传统单语言关键词检测方法在多语言场景下的开发 / 维护成本高和资源缺乏等问题,并在不同噪声条件下的所有区域显着提高了 - 随机网络蒸馏的抗探索
本文研究了随机网络提炼 (RND) 在离线强化学习中作为不确定性评估器的应用,发现通过特定的调整可以达到有效优化的目的,并提出了一种基于 FiLM 的简单高效算法,其在 D4RL 基准测试中表现良好。
- 定位该声音事件,而非其他:以类别为条件的声事件方向估计
本文提出了一种新的基于类别条件的声音事件定位和检测 (SELD) 模型,通过特征调制等方式,可以准确定位需要关注的类别,相较于现有模型,该模型在多种评价指标上的表现更为优异,尤其在干扰场景下的测试表现更好,可应用于实际场景中。
- 用于多对多音色转换的调制变分自编码器
本文介绍了使用 Modulated Variational auto-Encoders (MoVE) 在音乐中实现 timbre transfer 的方法,通过使用 Feature-wise Linear Modulation (FiLM) - EMNLP级联互相调制的视觉推理
CMM 是一种端到端的视觉推理模型,通过特征逐步的线性调制 (FiLM) 技术实现了问答过程中的文本 / 视觉互动,实验结果表明 CMM 在视觉推理问题上达到了最新的最优性能。
- ECCV基于语言引导的时尚图像编辑与特征变换
本文提出了一种名为 FiLMedGAN 的基于自然语言表示的特征线性调制的方法,能够在仅使用少量空间信息的情况下对服装图像进行编辑和生成,相比于现有的基线工作,结合 skip connection 和 total variation reg