多方法自训练：通过文本和代码相互改进代码生成

Jul, 2023

多方法自训练：通过文本和代码相互改进代码生成

Multi-Method Self-Training: Improving Code Generation With Text, And Vice Versa

Shriyash K. Upadhyay, Etan J. Ginsberg

TL;DR大型语言模型通过多种方法解决问题，在这篇论文中，我们介绍了多方法自训练（MMST），其中一种方法是在另一种方法的过滤输出上训练，从而增强每种方法的优势并改善它们的缺点。通过对同时训练了语言和代码的含有 176B 参数的模型，我们展示了 MMST 可以提升性能较差的方法（最高可达 30%），使模型更易于使用，改善性能较好的方法（最高可达 32.2%），使模型表现更好，并通过提高模型生成原理的能力，改善相关但不同的任务的性能（最高可达 10.3%）。然后，我们进行了消融分析来探索 MMST 的工作原理，发现 MMST 产生的数据比传统的自训练更多，但性能的提升是由多种方法的使用驱动的。我们还分析了提示工程和方法之间的反相关性能，以提高 MMST 的有效性。我们希望我们论文中的证据能够激励机器学习研究人员探索语言模型进步带来的新型训练方法。

Abstract

large language models have many methods for solving the same problem. This introduces novel strengths (different methods may work well for different problems) and →

large language models multi-method self-training strengths weaknesses performance

发现论文，激发创造

具备语言意识的自监督学习多语言机器翻译

本文探讨了如何利用自监督学习的方法，在多语言机器翻译任务中实现参数的有利学习，其中采用了基于噪声消除的简单自监督任务，并将其与原有任务同时进行。通过这两种方法的结合，在 8 种和 15 种语言基准测试中分别比 MASS 等三种最先进的自监督学习方法提高了 11.3％和 3.7％的性能。

Feb, 2023

基于形式不可知元学习的数据高效直接语音翻译

本文提出了一种基于元学习算法采用模态不可知的多任务模型，将源任务 ASR + MT 的知识转移到目标任务 ST 中，以应对 ST 任务短缺数据的问题，该方法在英德和英法语音翻译任务中取得了最新的最佳性能结果。

Nov, 2019

M3ST: 三级混合语音翻译

本文提出了一种基于数据扩充的语音翻译方法 M^3ST，通过在词级、句子级和帧级混合训练数据和使用外部机器翻译数据进行模型预训练和微调，再通过并行输入原始语音序列和原始文本序列进行模型微调，使用 Jensen-Shannon 散度对输出进行正则化，成功在 MuST-C 语音翻译基准上取得了优异的表现，平均 BLEU 得分达到 29.9，超越了当前强基线和取得了最新的最好成果。

Dec, 2022

重思和改进端到端语音翻译的多任务学习

通过应用多任务学习，已经在端到端语音翻译中取得了显著的改进。本文研究了不同任务之间的一致性，并提出了一种改进的多任务学习方法，通过缓解长度和表征的差异来弥合模态间的差距。实验证明我们的方法达到了最先进的结果。此外，当使用额外的数据时，我们在 MuST-C 英语到西班牙语任务上以当前最先进方法所需的 20.8% 的训练时间取得了新的最先进结果。

Nov, 2023

跨越人类数据：以语言模型扩展自我训练的问题解决能力

本论文探讨了基于期望最大化的简单自我训练方法 ReST$^{EM}$，在数学问题和编码基准测试中使用 PaLM-2 模型，细调模型，获得了在模型尺寸上的有利规模效应，并且明显超过仅使用人工数据的细调方法，总体而言，研究结果表明利用反馈进行自我训练可以大大减少对人工生成数据的依赖。

Dec, 2023

KDE 自训练：基于核距离的控制型文本生成的有效方法

本文提出了一种名为 KEST 的自训练框架，利用基于核的损失函数代替标准交叉熵来处理生成模型中的模式崩溃和多样性缺失等问题，进而提高半监督可控语言生成任务的表现。

Jun, 2023

数据到文本生成中的自我记忆自我训练

利用自身记忆的自我训练模型在数据到文本生成中引入了一种新颖的训练模型 (STSM)，使模型能够在子集上进行自我训练，其中包括直接从训练模型和 / 或新数据推断出的自身记忆作为输出。该模型的自身记忆质量经由数据到文本 (D2T) 模型和文本到数据 (T2D) 模型进行验证，满足两个预定义条件：(1) D2T 模型输出中包含所有源值，以及 (2) T2D 模型输出中可以将文本转换回源数据。我们使用贪婪算法生成较短的 D2T 输出，以确保其包含所有源值。然后，我们使用 T2D 模型确认这些输出能够捕捉输入关系，即通过将文本转换回数据来展示其能力。使用数据集的 30%，我们可以训练 D2T 模型，在相同的设置下与完全训练相比，获得具有竞争力的性能。我们在两个数据集 E2E NLG 和 DART 上进行了实验。STSM 在减少训练数据量的同时，为 D2T 模型提供了来自子集记忆的泛化能力。最终，我们希望这篇论文能为连续学习解决方案做出贡献，该解决方案能够适应新的训练数据，并将其作为 DTG 任务中的一种自身记忆形式。精选数据集可在此链接获取：https:// 这个 URL

Jan, 2024

训练专家语言模型带来的益处：比指令调整更胜一筹

本文研究发现，相对于使用多个任务的 multitask-prompted fine-tuning 方法进行指导调整的语言模型，仅针对单个任务进行专家模型的 fine-tuning 能够使模型在 11 个不同的未知数据集上以及 13 个 BIG-bench 基准测试数据集上平均准确率分别提高 3.20% 和 1.29%。此外，分别训练每个专家模型而不是单个 MT LM 进行 zero-shot 推断具有许多好处，包括避免负面任务转移，能够持续学习新任务而无需重新训练以避免灾难性遗忘以及显示在合并单个专家时具有组合能力。

Feb, 2023

STEMM：基于语音文本流形混合的自学习语音翻译

本研究提出了一种名为 STEMM 的方法来解决语音 - 文本翻译时，因跨模态表示不匹配导致数据标注不足的问题。该方法通过混合不同模态的表示序列，利用自学习框架来规范预测输出，能够有效地减轻跨模态表示不匹配并在 8 个翻译方向上达到了显著提高。

Mar, 2022

通过自我改进获得更好的代码语言模型

该研究提出了一个简单的数据增强框架，利用预训练和微调阶段获得的知识来生成伪数据，以进一步提高 PLMC 的性能，在 CodeXGLUE 基准测试中的代码摘要和代码生成等方面取得了显著的改进。

Apr, 2023