- AAAI一种基于向量量化的方法用于实际自然语言转音频合成
使用真实世界的语音数据训练了一个新的 MQTTS 系统,其利用了多个代码组内的学习离散代码解决了 mel-spectrogram 基础的 autoregressive 模型中的训练和推理之间的不匹配,提高了语音合成的质量,并在客观和主观指标 - 远期温度缩放
本文提出了一种新的温度缩放采样方法 Long Horizon Temperature Scaling (LHTS),其优化样本的长线时间似然度,将该方法应用于图像扩散模型和字符 / 语言自回归模型,并证明在可能性和样本质量方面相对于目光短浅 - AAAI潜在自回归源分离
本论文介绍了一种名为 LASS 的矢量量化潜在自回归源分离方法,通过贝叶斯公式和构建离散概率密度函数来实现无需额外微调和修改现有模型即可将输入信号分离成其成分源,该方法在图像和音频分离方面表现出具有竞争力的结果。
- Diff-Glat: 并行序列到序列学习的扩散环视变换器
Diff-Glat 是一种采用模态扩散过程和残差凝视训练的非自回归模型,旨在解决多模态数据建模困难问题,相较于自回归变换器,Diff-Glat 在解码效率和准确性方面均表现出卓越的性能。
- 通过推测解码从 Transformer 中实现快速推断
本文提出了一种名为 “speculative decoding” 的算法,通过逐步并行地计算,采样自动回归模型可更快,同时采用了采样方法和一些新的技术,使得不改变分布的情况下,从大模型中精确解码变得更快,从而实现了不需要重新训练或架构更改即 - 替换文本语言模型以进行风格转换
介绍了一种用于文本风格转换的序列到序列语言建模框架。该方法通过非自回归蒙版语言模型生成目标风格的新跨度,同时保持了自回归模型的灵活性和非自回归模型的准确性,以弥合句子级和单词级风格转换方法之间的差距。通过 RLM 的隐层表示进行风格 - 内 - 草稿与修订:基于上下文 RQ-Transformer 的有效图像生成
该研究提出了一种有效的基于文本上下文和全局语境的图像生成框架,名为 Draft-and-Revise with Contextual RQ-transformer,通过 Contextual RQ-transformer 考虑图像全局上下文 - CVPR未来的 Transformer 用于长期行动预测
提出了一种全新的基于注意力机制的动作预测模型,称为 Future Transformer (FUTR),它能够学习全局的视频动作信息,以预测长达数分钟的未来动作序列,和传统的自回归模型相比,FUTR 可以更准确、更快速地进行长期预测。在两个 - ACL非自回归机器翻译:速度不像看起来那么快
本研究对非自回归模型及自回归模型在机器翻译中的效率进行了探究,并提出了对非自回归模型的进一步实验和评测。
- ACL使用预训练语言模型生成反对仇恨言论的对比研究
本研究旨在使用预训练的语言模型对抗英语在线仇恨言论,我们发现自回归模型与随机解码结合是最有前途的;同时研究发现成功的反目标试验关键不在于整体相似性,而是训练数据中的特定子集与测试目标的共性。最后,我们提出了一种管道技术,将自动生成的反叙事加 - 使用自适应树搜索实现任意翻译目标
介绍了一种自适应树搜索算法,用于在翻译模型中寻找高分输出。该算法是一种确定性的 Monte Carlo 树搜索的变体,可以探索不受常规假设约束的新型模型。通过实证研究,该方法在自回归模型中找到的输出与 beam 搜索相比具有更好的模型得分, - ICMLPerceiver AR 实现的通用、长上下文自回归建模
使用跨注意力机制构建了 Perceiver AR 机器学习模型,可自动学习高维的图像和音乐数据中的长期依赖关系,并在图像和书籍的测试中取得最优的结果,而无需人为设计稀疏模式或记忆机制。
- COLING从沙子中筛选更多的金子:利用有噪声的自我检索生成优化开放域对话训练
通过引入 BERTScore 提高证据质量,构建 retrieval-generation 训练框架,利用信息丰富但杂乱无章的对话数据,能使模型生成更好的响应,甚至比扩大培训集带来更好的性能提升。
- EMNLP基于专家混合的高效大规模语言建模
本文研究了自回归 MoE 语言模型在各种设置下与密集模型的规模比较,并发现除了 fine-tuning 以外,在相同预算下 MoE 模型比密集模型更加高效。该研究表明 MoE 和密集模型在任务和领域上的推广效果不同,值得进一步研究。
- ICCVPixelPyramids: 从无损图像金字塔中精确推理的模型
本文介绍了一种新型的图像密度估计方法 Pixel-Pyramids,通过使用无损金字塔分解和具有尺度特定表示的块自回归方法编码图像像素的联合分布,得到了各种图像数据集的最先进的密度估计结果,特别是对于高分辨率的数据。
- EMNLPfairseq S^2: 一种可扩展且可集成的语音合成工具包
本文介绍了 fairseq S^2,它是为语音合成设计的 fairseq 扩展,具备多种自回归和非自回归文本到语音模型及其多说话人变体。此外,还构建了多种预处理工具,以便使训练语音合成模型所需的数据更易获取。这篇论文还展示了一套自动度量标准 - EMNLP利用弹性权重整合改进计划采样用于神经机器翻译
通过系统实验,本文发现 MaxML 存在的曝光偏差问题是 “抽样计划” 的缺点,该计划加剧了当推理时间的前缀是正确的时的性能下降,即灾难性忘记。因此,提出使用 “弹性权重合并” 方法来更好地平衡减轻曝光偏差与保持性能。在四个翻译数据集上的实 - ImageBART: 双向上下文与多项式扩散的自回归图像合成
本文研究了基于自回归模型与多项式扩散过程结合的粗粒度到细粒度的图像语境建模方法,该方法应用于图像修改技术,较单一自回归模型在高保真度生成和图像修改能力方面有着显著提高。同时,该模型可以在压缩的潜在空间下进行高效训练,能够对于无限制的用户提供 - 图像局部自回归变压器
通过 Local Autoregressive Transformer 模型生成可控制的局部图像区域,具有优异的效果。
- ACLNAST: 无自回归生成器,带有词语对齐功能,用于无监督文本风格转移
本文提出了一种基于非自回归生成器(NAST)的无监督文本风格转换方法,通过显式建模单词对齐关系和对源语句的部分内容进行保护来减轻内容保留问题并精细控制单词级别的风格转换。实验表明,NAST 可以显著提高性能并提供可解释的单词对齐效果。