本教程关注于文本生成,这是一类自然语言生成任务,它以一段文本作为输入,然后生成一篇按照某些特定标准(如可读性或语言风格)改进的修订版本,同时保留原版文本的大部分含义和长度。
Oct, 2023
应用基于转换器的自然语言生成技术来进行文本简化研究,发现现有的德语方法无法很好地解决该问题,并提出了一些未来研究的方向。
Dec, 2023
本研究探讨并验证了通过文本简化改善阅读理解相关任务的可行性,创建了被简化过的 SQuAD 数据集 (Simple-SQuAD),并实验表明文本简化对于基于 SQuAD 的问答任务,确实可以提高 2.04% 的精确匹配率和 1.74% 的 F1 值。
Sep, 2021
这篇论文介绍了使用文本简化技术和神经机器翻译模型来提高深度学习翻译模型的学习能力,并通过实验验证了这种方法的有效性。
Dec, 2016
本文提出了一种基于任务依赖的透明的文本简化流水线,第一步和第二步分别是文本是否需要简化的预测和复杂部分的识别,这两个任务可以通过词汇或深度学习方法分别解决,同时解决会提高最先进黑箱简化模型的外样本文本简化表现。
Jul, 2020
本研究首次使用合成数据来训练德语文档级文本简化的生成模型,通过真实世界在线文本论证了我们方法的有效性。解决语言简化中数据稀缺的挑战,我们爬取了经过专业简化的德语文本并使用 GPT-4 合成了一个语料库。我们在这些数据上微调了多达 130 亿参数的大型语言模型,并使用多种方法对其性能进行评估。该论文运用了各种评估方法,并展示了当前使用的基于规则的度量指标的局限性。自动和手动评估均表明,我们的模型可以显著简化真实世界的在线文本,显示了合成数据在改进文本简化方面的潜力。
Feb, 2024
使用离散参数机制在序列到序列模型中为用户提供明确控制简化系统的方法,进而在简化基准测试中实现比标准模型更好的结果,并建立了 ACCESS 模型作为人群中心的句子简化的技术水平。
Oct, 2019
本研究介绍了 MultiCochrane 数据集,并评估了跨多语言的医学简化文本模型,尽管该模型能够生成可行的简化文本,但我们也发现了仍未解决的挑战。
May, 2023
本研究提出了一种基于事实信息的控制简化方法,使用句法依赖分析将复合和复杂句子拆分为简化句子的集合,并用统计方法度量了句子的句法复杂度,通过本方法,可在不失信息的情况下简化语言,用于知识图谱中三元组的提取与构建。
Apr, 2023
科学摘要简化是为非专家出版物提供核心信息的重要任务,包括使用简化模型和聊天 GPT 进行摘要。
Jul, 2023