用 LLMs 进行的自述文本风格转换提炼
本文提出了一种新的文本样式转换模型,名为 Style MLM,它使用原型编辑方法来构建一种样式屏蔽语言模型任务,通过使用 “可解释的注意力” 来解决样式屏蔽步骤中的位置问题。我们的模型通过与强大的 TST 基线和先进的 TST 模型竞争,展示了其在内容保留环节效果的卓越性。
Oct, 2022
我们研究了结合注意力屏蔽方法和大型语言模型的无监督文本风格转换任务,提出了四种交互方式,包括调整顺序的管线框架、从语言模型到注意力屏蔽模型的知识蒸馏,以及构建并行例子的上下文学习。实验证明这些多向交互能够在风格强度、内容保留和文本流畅度等方面改善基线结果,提高超过其他系统,包括有监督文本风格转换系统的性能。在 Yelp-clean 和 Amazon-clean 数据集上,相对之前最佳度量结果,它们分别提高了 0.5 和 3.0 个绝对百分点,并获得了新的技术水平。
Feb, 2024
我们分析了大型语言模型(LLMs)在文本样式转换(TST)上的性能,特别关注情感转移和文本解毒,在英语、印地语和孟加拉语三种语言中进行。我们使用零样本和少样本提示以及参数高效微调,评估了预训练 LLMs 的能力,使用自动度量、GPT-4 和人工评估。我们的评估结果显示,虽然一些受提醒的 LLMs 在英语上表现良好,但它们在其他语言(印地语、孟加拉语)上的表现平均。然而,微调与零样本和少样本提示相比显著改善了结果,使它们与之前的最先进水平相媲美。这突显出有效的 TST 需要专门的数据集和专用模型的必要性。
Jun, 2024
提出了一种知识蒸馏方法以学习从比自身大几个数量级的大型语言模型中生成一致合理的解释的小型自洽 Chain-of-Thought(CoT)模型,它使用教师模型生成的合理解释来学习学生模型,并使用对抗性约束来保证学生模型保持一致性和反事实推理,实验结果表明,这种方法可以更好地生成有利于提高性能的 CoT 解释。
May, 2023
本文综合评述了最近文本风格迁移的研究进展,提出了一种按类别组织 TST 模型的分类法,并提供了一份最新技术的综合摘要。我们还检验了 19 种最先进的 TST 算法并提供当前趋势的新视角。
Oct, 2020
提出了一种基于上下文文本风格转换的新任务和模型,旨在实现高质量的自然上下文保留的风格转换,并通过引入半监督学习等机制,提出了一种用于训练稳健模型的方法,同时介绍了两个新的基准数据,实验结果表明,该模型在准确性、内容保全和上下文一致性等指标上显著优于其他方法。
Apr, 2020
本文旨在通过保留核心内容的同时改变文本的语言风格,重点研究了情感转换这一重要的文本风格转换子任务,涵盖印度语言的广泛范围,包括印地语、马加伊语、马拉雅拉姆语、马拉地语、旁遮普语、奥迪亚语、泰卢固语和乌尔都语;本文介绍了每种语言的正负样式平行句的专门数据集,评估并比较了各种基准模型在平行数据、非平行数据、跨语言学习和共享学习方法中的性能,其中包括 Llama2 和 GPT-3.5 成语语言模型(LLMs);我们的实验突出了平行数据在文本风格转换中的重要性,并展示了掩码风格填充(MSF)方法在非平行技术中的有效性;此外,跨语言和联合多语种学习方法表现出了潜力,为选择适合特定语言和任务要求的最优模型提供了见解;据我们所知,这项工作是首次全面探索以情感转换为代表的文本风格转换任务涉及到多种语言的研究。
May, 2024
本文提出一种使用无监督机器翻译方法来实现自动语言风格转换的方法,利用样式偏好信息和单词嵌入相似性来生成伪平行数据,并采用迭代回译方法来联合训练两个神经机器翻译(NMT)系统,其中引入样式分类器来控制噪声。实验表明,该方法在语言风格转换的精确度和输入输出对应质量方面优于以前的现有模型。
Aug, 2018
CoTexT 是一种预先训练的基于 Transformer 的编码器 - 解码器模型,用于学习自然语言与编程语言之间的代表性上下文,支持下游自然语言 - 编程语言任务,如代码概述 / 文档化,代码生成,缺陷检测和代码调试,并在 CodeXGlue 数据集中取得 SOTA 结果。
May, 2021