无监督神经文本简化

ACLOct, 2018

Unsupervised Neural Text Simplification

Sai Surya, Abhijit Mishra, Anirban Laha, Parag Jain, Karthik Sankaranarayanan

TL;DR本文提出了第一次尝试仅依赖于未标记文本语料库进行无监督神经文本简化的核心框架，由共享编码器和一对注意解码器组成，并通过基于鉴别和去噪的损失进行简化知识的获取，并使用从 en-Wikipedia 转储的未标记文本进行训练。我们在公共测试数据上进行的分析（包括定量和定性的人类评估）表明，所提出的模型可以在词汇和句法两个级别上进行文本简化，竞争现有的监督方法。此外，增加几个标记的对也进一步提高了性能。

Abstract

The paper presents a first attempt towards unsupervised neural text simplification that relies only on unlabeled text corpora. The core framework is composed of a shared encoder and a pair of attentional-decoders

unsupervised neural text simplification shared encoder attentional-decoders discrimination based-losses denoising

发现论文，激发创造

无监督可控文本形式化

本文提出了一种新颖的可控自然语言转换框架，通过深度神经编码 - 解码器和辅助模块的加强以及基于自然语言处理工具的评分器来实现无监督训练，将其应用于正式化文本的任务中，实验表明该模型在转换文本并引入适当的正式设定方面表现良好，代码和数据集已供学术使用。

Sep, 2018

基于深度语义学习的非监督句子简化

本研究提出了一种新颖的句子简化方法，使用基于语义的方法进行句子拆分，不需要手动编写规则或训练语料库，研究表明这个无监督框架与四个最先进的监督系统竞争力相当，并且我们提出的基于语义的方法能够有效地处理句子拆分。

Jul, 2015

迭代编辑型无监督句子简化

我们提出了一种新的迭代式基于编辑的无监督句子简化方法，其模型通过包括流畅性、简洁性和意义保持在内的评分函数进行指导，并在复杂句子上迭代执行单词和短语级别的编辑。与之前的方法相比，我们的模型不需要并行的训练集，但更可控和可解释。对 Newsela 和 WikiLarge 数据集的实验表明，我们的方法几乎与最先进的监督方法一样有效。

Jun, 2020

基于语义相关性的神经网络文本摘要与简化

本文介绍了一种基于语义相关性的神经模型，用于促进文本摘要和语言简化的源文本和简化文本之间高度的语义相似性。

Oct, 2017

利用反向翻译和非对称去噪自编码器的半监督文本简化

本文提出了一种基于无监督机器翻译的文本简化方法，使用 back-translation 架构和噪声自编码器生成平行语料，引入不同类型的噪声进行训练的不对称去噪方法可以显著提高简化性能。模型在无监督和半监督学习中均具备较好性能，能够与当前多种最先进的简化系统竞争。

Apr, 2020

利用去噪自编码器进行无监督的句子压缩

本研究通过加入噪声的方式进行了一个摘要任务来训练去噪自编码器从而实现了在不需要配对的语料库的情况下进行句子压缩。使用标准文本摘要数据集的人类评估表明，我们的模型与基于监督学习的语法正确性和意义保留基准相当，不需要目标数据，我们的无监督模型已经学会生成不完美但合理可读的句子摘要。

Sep, 2018

基于依赖解析的无监督句子简化

该论文介绍了一种基于自然语言解析结构和句子嵌入的简化系统，其能进行高效修改以简化句子，同时维持原始句子的语义和流畅度，达到了相当不错的简化效果，并证明其在多语言领域也具备扩展性。

Jun, 2022

MANTIS 参加 TSAR-2022 共享任务：基于预训练编码器的无监督词汇简化改进

该研究是关于 TSAR-2022 共享任务中字词简化的贡献，采用 RoBERTa 转换器语言模型扩展了无监督识别的词汇简化系统，通过采取一系列特征加权方案和基于文本蕴含的简化筛选方法，提高了系统的性能表现达 5.9％的精度，排名第二。

Dec, 2022

医疗文本的段落级简化

本研究探讨了如何应用语言模型来改进医学文本的简化，提出了一种基于似然分数的新度量标准，并对编码器解码器模型的新方法进行了评估，同时建立了一些语料库。

Apr, 2021

简单有效的无监督语音合成

利用未标记语音音频、未标记文本和词典，我们引入了第一个基于简单而有效的配方的无监督语音合成系统。实验结果表明，该无监督系统在自然度和可理解度方面与监督训练的同类系统基本相同。

Apr, 2022