- 论文标题:论从复杂句子到关联命题的言语感知文本简化
在语义上意识到文本中的句子结构和上下文联系,通过将复杂句子进行拆分和重新表述,生成有语义层次的简化句子,以提高自然语言处理应用的预测质量。
- 基于度量的上下文学习:一个文本简化案例研究
基于测量的上下文学习(MBL)方法利用通常用于文本简化的度量标准,通过在各种大小的 GPT 模型上进行大量实验,并且以标准的 TS 基准来展示在大型模型上选择的示例通过最高的 SARI 分数表现最佳,而较小的模型通常通过压缩比表现更好,此外 - 科学文本简化用于非专业读者
科学摘要简化是为非专家出版物提供核心信息的重要任务,包括使用简化模型和聊天 GPT 进行摘要。
- MCTS:一份多参考的中文文本简化数据集
该论文介绍了一种多参考中文文本简化数据集 (MCTS),并对一些无监督方法和先进的大型语言模型的性能进行了评估,以期通过基础工作建立对中文文本简化的基本理解,并为未来的研究提供参考。
- ACLSWiPE:维基百科页面文档级简化数据集
引入 SWiPE 数据集,通过整个修订历史,重构从英语维基百科文章到 Simple 维基百科文章的文档级简化过程,并分类模型产生的编辑,发现 SWiPE 训练的模型生成更复杂的编辑,同时减少不需要的编辑。
- ACLDEPLAIN: 一个德语平行语料库,具有针对句子和文档简化的纯语言内译
本文介绍了 DEplain,它是一种新的德语数据集,用于在新闻和网络领域中对句子和文档进行平行语言的写作,我们使用该数据集进行训练,使用 transformer-based 的 seq2seq 模型实现文本简化,并通过 web 收集器扩大其 - 如何控制文本简化? 对含义保持控制性简化的控制标记的实证研究
本研究通过实证研究不同的控制机制对模型简化输出的适当性和简单性影响的方式,提出了一种简单的方法来预测控制令牌,以提高简化文本的质量。
- 成功与失败之间的舞蹈:使用 SALSA 进行编辑层次简化评估
研究了基于大型语言模型的文本简化方法,提出了一种人工评估框架 SALSA,并使用该框架进行了细致的简化质量评估,发现 GPT-3.5 可以比人类更优秀的进行简化但仍存在错误;同时,提出了一种基于编辑注释的自动评估方法 LENS-SALSA, - ACL面向德语文本简化的语言模型:通过风格特定的预训练克服平行数据稀缺问题
本文提出了一种通过在德国简单语言语料库上微调语言模型并将其作为序列到序列简化任务的解码器来克服数据稀缺性问题的两步方法,结果表明,在不同于英语的语言上进行无对齐预训练可以降低所需的平行数据量,同时提高下游任务的性能。
- ACL教授预训练模型生成简单文本以进行文本简化
本文探讨了一种新的持续性的预训练策略,通过把 BART 模型继续预训练来生成简单的文本,从而提高简化任务的表现,同时与其他大型语言模型进行了比较。
- 词汇简化的深度学习方法:综述
本文针对近几年来人工智能 / 自然语言处理 community 中深度学习的进步,特别是大型语言模型和 prompt 学习的引入,在词汇简化领域(Lexical Simplification,LS)进行了全面的研究和调查,特别关注深度学习, - ACL上下文感知文档简化
本文研究探索了利用文档上下文进行文本简化的各种系统,并取得了最先进的性能,甚至不依赖于计划引导。
- WSDM通过受控语法简化识别、测量和降低句法复杂性
本研究提出了一种基于事实信息的控制简化方法,使用句法依赖分析将复合和复杂句子拆分为简化句子的集合,并用统计方法度量了句子的句法复杂度,通过本方法,可在不失信息的情况下简化语言,用于知识图谱中三元组的提取与构建。
- SimpLex: 一个词汇文本简化架构
SimpLex 是用于将英文文本简化的新型架构,可以使用词嵌入和困惑度或句子变换器和余弦相似性来生成简化的英文句子。使用 SARI 和困惑度减少两个指标评估了该系统,实验表明,变压器模型在 SARI 得分方面优于其他模型,然而,基于词嵌入的 - 词汇复杂度预测:概述
本文主要介绍了如何利用计算模型思想来预测英文文本的词汇复杂度,并详细论述了基于传统机器学习分类器和深度神经网络的不同方法,以及相关实验和应用领域如文本简化。
- ACL利用摘要数据帮助文本简化
本文针对文本简化数据的缺乏问题,提出了使用文本摘要中的数据辅助文本简化的方法(Sum4Simp),并通过实验证明 Sum4Simp 可在低资源场景下提高几种主流简化模型的性能。
- 多层次模块化方法的词汇简化
本文介绍了我们队伍 “teamPN” 为英语子任务所做的工作,我们创建了一个模块化的流水线,将现代转换器模型与传统的 NLP 方法相结合,创建了一个多级和模块化的系统,用于根据词性标注处理目标文本,以实现文本简化的目标。
- 划分越少越好:解构句子划分中的可读性
这篇论文主要研究句子拆分在文本简化中的应用,通过引入贝叶斯模型框架和 Amazon Mechanical Turk 的实验数据得出,将一句复杂的长句拆成两句可以更好地提高阅读可读性。
- EMNLP(心理 -) 语言学特征与 Transformer 模型相遇:改进可解释和可控的文本简化
本研究旨在通过建立使用预训练语言模型的(心理)语言学特征的透明度较高的文本简化系统来提高可解释性和可控性,并利用提前设定的十种属性,拓展一种 Seq2Seq TS 模型,使其能够明确控制多个属性。实验证明我们的方法在解释复杂度预测方面表现优 - LENS: 可学习的文本简化评估度量
该论文介绍了使用 SIMPEVAL 语料库来训练可学习度量,并基于此提出了针对文本简化的可学习评估度量 LENS,结果显示与现有度量相比 LENS 更符合人类评价标准,同时提供了人类评估框架及评估工具包。