上下文感知文档简化
本文提出了一种通过解决模型架构、训练数据和评估指标三个问题开展文本背景机器翻译的方案,并在 DE$ ightarrow$EN,EN$ ightarrow$DE,EN$ ightarrow$FR 和 EN$ ightarrow$RU 等语种的大数据实验中表明这三项改进措施能够显著提高文本背景翻译的性能。
Apr, 2023
使用离散参数机制在序列到序列模型中为用户提供明确控制简化系统的方法,进而在简化基准测试中实现比标准模型更好的结果,并建立了 ACCESS 模型作为人群中心的句子简化的技术水平。
Oct, 2019
本文提出并研究了一个新的文档级简化任务,旨在简化由多个句子组成的文档。作者构建了一个大规模的数据集 D-Wikipedia,并对其进行分析和人类评估,提出了一个新的自动评估指标 D-SARI 以更好的适应文档级简化任务,并选择了几个代表基准模型进行自动和人类评估并分析了结果,指出了基准模型的缺点。
Oct, 2021
在语义上意识到文本中的句子结构和上下文联系,通过将复杂句子进行拆分和重新表述,生成有语义层次的简化句子,以提高自然语言处理应用的预测质量。
Aug, 2023
本研究探讨并验证了通过文本简化改善阅读理解相关任务的可行性,创建了被简化过的 SQuAD 数据集 (Simple-SQuAD),并实验表明文本简化对于基于 SQuAD 的问答任务,确实可以提高 2.04% 的精确匹配率和 1.74% 的 F1 值。
Sep, 2021
通过引入全局上下文,我们提出了一种新的文档级 NMT 框架,用于处理包含任意数量句子的文档,并且可以在标准数据集上优雅地训练,结果表明我们的模型优于 Transformer 基线和之前的文档级 NMT 模型。
Feb, 2020
文档级上下文对神经机器翻译至关重要,然而仅仅增加本地上下文的大小并不能捕捉到整个上下文信息,而这些挑战可以通过引入受限的注意力机制来解决,并在低资源情况下实现良好的折衷方案。
Jun, 2023
本研究提出了一种基于事实信息的控制简化方法,使用句法依赖分析将复合和复杂句子拆分为简化句子的集合,并用统计方法度量了句子的句法复杂度,通过本方法,可在不失信息的情况下简化语言,用于知识图谱中三元组的提取与构建。
Apr, 2023
通过结合单词级和句子级的简化方法,本研究提出了一个两步简化框架,并利用约束神经生成模型的方法对简化后的单词进行句子简化,取得了比各种基线模型更好的性能表现。
Apr, 2017
我们对德语、法语、西班牙语、意大利语、波兰语和葡萄牙语的三个大规模数据集(ParaCrawl、新闻评论和 Europarl)进行了文档级信息的重建,并引入了文档级过滤技术作为传统双语过滤的替代方法。我们通过分析表明,该方法偏好于与上下文一致的翻译,而不是可能是句级机器翻译的翻译。最后,我们在这些更长的上下文上训练模型,并证明了文档级翻译的改进而不降低句级翻译。我们将我们的数据集 ParaDocs 和生成的模型作为资源发布给社区。
Jun, 2024