- InstantStyle-Plus: 文本到图像生成中保留内容的风格转换
通过将风格转移任务分解为风格、空间结构和语义内容三个核心元素,本研究提出了 InstantStyle-Plus,一种注重原始内容完整性同时无缝整合目标风格的方法。通过有效的、轻量级的风格注入过程,并利用先进的 InstantStyle 框架 - 通过语音文本对齐提升多语言语音有害性检测
利用跨模态学习将文本的语义嵌入集成到多标签语音毒性分类器中,该分类器仅在训练期间需要文本信息,推理时仅需要音频信息,并通过大规模数据集在真实环境下验证了此框架的有效性,同时通过消融研究证明了通用语义文本嵌入对于毒性分类目的的丰富性和与语音的 - Llama-VITS: 基于语义意识的 TTS 合成增强
最近的自然语言处理(NLP)的进展中,大型语言模型(LLMs)在多个应用方面展现出了出色的高质量文本生成能力。本研究引入了一种创新的方法 Llama-VITS,在文本的语义内容方面通过 LLM 来增强 TTS 综合效果。借助 Llama2 - 对抗净化的鲁棒扩散模型
我们提出了一种具有逆向过程的鲁棒性指导方法,该方法独立于预训练的扩散模型,在不重新训练或微调扩散模型的情况下实现了对抗训练策略,保留了更多的语义内容,并减轻了扩散模型的准确性和鲁棒性之间的权衡,从而为基于扩散模型的对抗净化方法提供了对新攻击 - 利用大型语言模型嵌入追溯思想的谱系
通过使用大规模语料库中语言模型的独特优势来检测知识影响,本文提出了一种新方法,并应用组合方法来实现不同阈值下的引用、改写或相似性,通过使用这种方法在 19 世纪的大规模学术著作中检测达尔文的观点,证明了该方法的可行性和广泛适用性。
- AAAIMimic:语音驱动三维面部动画的说话风格解耦
通过创新的说话风格解缠方法,我们提出了一种名为躺椅的新框架,用于学习面部运动的解缠表示,并通过建立风格和内容的二个潜在空间来实现任意主题说话风格的编码,从而实现更真实的语音驱动面部动画的合成。
- 神经网络中的元(脱离上下文)学习
通过合成实验,我们发现了被称为 meta-OCL 的现象,该现象使 LLMs 更容易 “内部化” 广泛有用的文本的语义内容,并在适当的情况下使用它。我们在合成计算机视觉环境中进一步证明了 meta-OCL,并提出了两个假设:一个依赖模型在其 - SimVLG: 简单高效的视觉语言生成模型预训练
本文提出了 “SimVLG”—— 一种用于预训练计算密集型视觉语言生成模型的简化框架,利用冻结的预训练大型语言模型 (LLMs)。我们的单阶段单损失框架通过在训练过程中逐渐合并相似的视觉标记来绕过计算密集型的初始训练阶段,从而实现了快速收敛 - ICCV环境偏向特征排名用于新颖性检测的鲁棒性
我们提出了一种方法,利用预训练的嵌入和多环境设置,基于环境焦点对特征进行排名,以便在语义内容方面检测新奇性,并对无关因素变化进行不变性处理。通过计算特征在不同环境之间的分布方差,我们确定每个特征的得分,并通过丢弃得分高的特征来消除虚假相关性 - DreamSim:使用合成数据学习人类视觉相似性的新维度
本文提出了一个全新的知觉度量标准 DreamSim,通过人类相似度判断数据集的研究得出,该标准可以全面评估图片的相似性,更关注于前景物体和语义内容及对颜色和布局敏感,并且具有很好的一般性能。
- ACL探索口语理解中有关说话人信息以改进说话人分离
本文介绍了一种从多方会议的语义内容中提取与讲话者相关信息进而改进说话人分离方法的方法,提出了两个子任务(对话检测和发言者切换检测)来有效地从对话语义中提取讲话者信息,并提出了一种简单而有效的算法来联合建模声学和语义信息并获得标识讲话者的文本 - 梦境比你想象中更 “预测
本篇论文利用大型语言模型研究了梦境描述和其他人类生成文本的相似度,发现总体而言梦境描述并未与维基百科等非梦境语料有明显差异,且单个梦境描述比维基百科文章更易预测。同时,文章还发现词数、性别和视力障碍等因素可能会对梦境描述的可预测性产生显著影 - STA: 自控文本增强提高文本分类
介绍了一种自我控制的文本增强方法(Self-Controlled Text Augmentation - STA),该方法可以控制样本的语义内容,对比现有技术在多个数据集上实验表明 STA 的性能显著优于现有技术,并且生成的样本词汇多样性高 - DocSegTr: 一个基于实例级端到端的文档图像分割 Transformer
该研究提出了一个基于 Transformer 的模型 ——DocSegTr,用于端到端处理具有复杂排版的文档图像的实例级分割。实验结果表明,该模型对于文档分割表现优于现有的最先进方法,可作为文档图像实例级识别任务的有前途的基准。
- 多尺度注意力学习视觉地点识别语义
本研究旨在通过多尺度注意力模块,实现从视觉和语义内容中学习鲁棒全局嵌入以及动态引导的分割过程,以提高视觉地点识别的准确性,同时提出第一个适用于地点识别和分割任务的合成世界数据集,实验证明方法在不同情景下具有良好性能。
- 对抗样本是制造强毒药的因素
本文研究对数据进行污染的方法,发现对预先训练的模型攻击的对抗性示例比传统攻击方法更有效。在分配正确标签时,对抗性示例包含有用的语义信息,可以用于训练;否则,不能用于训练。该方法与现有方法相比显著提高了安全数据发布的效果,我们发布了毒化版本的 - 跨语言 AMR 解析的强基线
该研究旨在通过跨语言的 AMR 解析,使用单个模型来捕捉各种语言中句子的核心语义内容,发现用翻译加解析(T+P)的简单方法在几种语言上的表现比最新的全球最佳系统表现更好。
- ACL使用结构化张量积表示丰富 Transformer 来进行抽象概括
本文介绍了一种在输入文档中识别关键信息并把它们组织成简短摘要的方法:使用增强型 Transformer 架构 TP-TRANSFORMER(Schlag et al.,2019),该架构通过引入 Tensor Product Represe - 看能增强听:使用图像恢复丢失的语音
本研究探讨了利用图像确立语音识别模型中文字的语义含义,以减少噪音干扰并提高模型鲁棒性的方法。实验结果表明整合视觉信息可以显著提高模型性能,增强语音信号对语音识别的帮助
- EMNLPIMaT: 迭代匹配与翻译实现无监督文本属性转移
本论文主要介绍了一种称为 Iterative Matching and Translation (IMaT) 的方法,用于在保留语义内容的同时,自动重写句子以具备某些语言属性。该方法通过构建伪并行语料库来对齐语义相似的原始和目标语料库中的子