重新审视非英语文本简化:一个统一的多语言基准
我们提出了 BLESS,它是关于最新一代语言模型在文本简化任务上的全面性能基准。我们评估了 44 个模型在三个不同领域(维基百科、新闻、医学)的少样本测试集上的表现,并考察了这些模型的尺寸、架构、预训练方法和可访问性。我们采用一系列自动指标和大规模定量研究,揭示了这些模型执行的常见编辑操作类型。此外,我们对一部分模型输出进行了手动定性分析,以更好地评估生成的简化的质量。评估结果显示,最佳的语言模型,尽管没有在文本简化上进行过训练,与最新的文本简化基准相当。此外,我们发现某些语言模型展示了更大范围和多样性的编辑操作。我们的性能基准将作为未来文本简化方法和评估指标的资源。
Oct, 2023
我们引入了一个新的基准数据集 MULTITuDE,用于多语言机器生成文本检测,包括 11 种语言(ar,ca,cs,de,en,es,nl,pt,ru,uk 和 zh)的 74,081 个真实和机器生成的文本,由 8 个多语言 LLM 生成。利用这个基准,我们比较了零样本(统计和黑盒)和微调检测器的性能,并考虑多语言性,评估了这些检测器在未见过的语言(语言相似和不相似)和未见过的 LLMs 上的泛化性和这些检测器在培训多种语言时是否提高了性能。
Oct, 2023
本文探讨了针对在无参考文本的情况下,对简化文本进行质量估计的多种方法,并基于 QATS 2016 的数据集对多个方法进行了比较,最终发现基于 n-gram 的机器翻译度量(如 BLEU 和 METEOR)最能与语法正确性和意义保留的人工评估相匹配,而基于长度的度量方法则最适合衡量简明易懂程度。
Jan, 2019
报告了 TSAR-2022 共享任务中多语言词汇简化的发现,该任务在 EMNLP 2022 举行,涉及英语,葡萄牙语和西班牙语的多语言词汇简化。共有 14 个团队提交了他们的词汇简化系统的结果,并且结果表明英语的简化效果比西班牙语和葡萄牙语更好,建立了新的基准结果。
Feb, 2023
我们通过两个以复杂句和复杂词为重点的语料库,对西班牙语文本简化(TS)在生产系统中进行评估。我们将最流行的西班牙语特定可读性评分与神经网络进行比较,并表明后者在预测用户对 TS 的偏好方面始终更好。作为分析的一部分,我们发现多语言模型在相同任务上表现不及相应的仅限西班牙语模型,然而所有模型都过于频繁地关注无关的统计特征,如句子长度。我们通过在评估中发布我们的语料库,希望推动西班牙语自然语言处理的最新技术发展。
Aug, 2023
研究了最近神经机器翻译 (NMT) 在英语和五种非洲低资源语言 (LRL) 对之间的效果,并表明多语言模型 (multilingual approach) 在某些翻译方向上有 +5 分数的提升。同时,提供标准的实验数据和测试集以供未来的研究使用。
Mar, 2020
该研究引入了一个基于瑞士法律系统的多维 NLP 基准测试,包括长文本处理、领域特定知识拥有、多语言理解、多任务等挑战,该基准测试可以用于测试和推广最先进的 LLMs 模型。
Jun, 2023
提出了一种基于 Transformer 的多语言可控词汇简化系统,使用语言特定的前缀、控制标记和候选词从预训练的掩蔽语言模型中提取较简单的替代词,该系统在三个公开的词汇简化数据集上优于之前的最先进模型,表现良好。针对最近的 TSAR-2022 多语言 LS 共享任务数据集也展现出很强的性能,且在西班牙语和葡萄牙语中获得性能提升。
Jul, 2023
该研究提出并探索了使用单语数据来提高同时机器翻译的质量,并提出了新的单语抽样策略,以避免 SiMT 中的幻觉问题,实验表明新策略可以显著提高翻译质量。
Dec, 2022