引入修辞平行性检测：一项包含数据集、评估指标和基准的新任务

Nov, 2023

引入修辞平行性检测：一项包含数据集、评估指标和基准的新任务

Introducing Rhetorical Parallelism Detection: A New Task with Datasets, Metrics, and Baselines

Stephen Bothwell, Justin DeBenedetto, Theresa Crnkovich, Hildegund Müller, David Chiang

TL;DR自然语言处理中缺乏对并列结构进行研究，本文引入了修辞并列检测的任务，并提供了相关数据集、评估指标、基线系统和序列标注方案。在最严格的评估指标下，我们在拉丁文和中文数据集上取得了0.40和0.43的F1得分。

Abstract

rhetoric, both spoken and written, involves not only content but also style. One common stylistic tool is $\textit{parallelism}$: the juxtaposition of phrases which have the same sequence of linguistic ($\textit{

发现论文，激发创造

WikiMatrix: 从维基百科挖掘出 1620 种语言对中的 1.35 亿个平行句子

使用多语句子嵌入的方法自动从85种语言的维基百科文章中提取平行句子，共提取了1.35亿个平行句子，并且在1886种语言对上训练神经机器翻译基线系统，取得了较高的BLEU分数。WikiMatrix bitexts可以对离散的语言进行机器翻译训练，而不需要通过英语来进行桥接。

Jul, 2019

CCMatrix: 在 WEB 上挖掘数十亿高质量平行句子

通过使用边际化双语挖掘技术在多语言句子空间内，我们能够针对百亿级别的单语语料库，挖掘出 45 亿双语句子。使用这些挖掘的数据，我们在TED、WMT和WAT的测试集上，超越了WMT'19的最佳结果，并且对于远程语言对（如俄语/日语），我们的表现非常出色。

Nov, 2019

Samanantar: 11种印度语言最大的公开并行语料库收集

介绍了Samanantar，这是最大的公共平行语料库集合，包括英语和11种印度语言之间的 49.7 百万句子对，同时提取自公共平行语料库和网络，并在Samanantar上训练多语种 NMT 模型，从而在公开可用的基准测试上优于现有模型和基准线，希望能够推进印度语言的NMT和多语种NLP研究。

Apr, 2021

GCDT：一个适用于多类型和多语种篇章分析的汉语RST树库

本文提出了GCDT，这是目前最大的汉语层次化语篇树库，基于修辞结构理论，覆盖五种文本类型，使用与当代英语RST树库相同的关系清单。通过使用中英文多语言嵌入来训练语言关系，本文还介绍了这个数据集的分析实验，包括中英文RST解析和在英语GUM数据集上的RST解析，其中包括最先进（SOTA）的中文RST解析分数。

Oct, 2022

具有篇章标注的双语平行语料库

这篇论文描述了BWB这个由专家将汉语小说翻译成英文的大型平行语料库，以及一个用于探究机器翻译系统建模各种语篇现象的标注测试集，希望这个资源能够为更多的文档级机器翻译工作提供指导和灵感。

Oct, 2022

Disco-Bench: 一种考虑语篇的语言模型评估基准

该论文提出了一个可以评估处理自然语言时的句子内语篇特征的精细化预训练模型，该模型包含9个文献领域的测试集，涵盖了许多超出了跨句子属性的问题。

Jul, 2023

微妙之线：通过篇章模式检测机器生成的文本

利用层次化的分析树和递归超图揭示了大语言模型和人类所生成的不同文本的独特语篇模式，并发现了人类写作在不同领域中的结构多样性，强调了在文本分析中加入层次化的语篇特征的重要性。

Feb, 2024

检测较少知名修辞手法的计算方法：系统综述与研究挑战

对于计算机来识别修辞手法是非常重要的，本论文提供了对于较少人知悉的修辞手法的计算方法的全面概述，突出了从语言和计算的角度看待修辞手法的重要性，详细介绍了不同的修辞手法，包括数据集、定义、修辞功能和检测方法，同时也指出了数据集稀缺、语言限制和基于规则方法的依赖等挑战。

Jun, 2024

双语语篇结构解析与大规模平行注释

本研究针对跨语言语篇解析中的数据不足和修辞结构理论应用不一致的问题，提出了一种针对英语GUM RST语料库的平行俄语注释。通过创新的端到端RST解析器，我们在英语和俄语语料库上实现了先进的效果，展示了在单语和双语环境中的有效性，具有重要的跨语言解析潜力。

Sep, 2024

CERD：一个用于论文修辞理解与生成的综合中文修辞数据集

本研究解决了现有修辞理解和生成数据集中对不同修辞设备之间相互关系的忽视，提出了包含4个常用粗粒度类别和23个细粒度类别的中文作文修辞数据集（CERD）。实验结果表明，使用大语言模型联合微调多个任务可以显著提高修辞生成和理解的效果，从而提升写作能力和语言应用技能。

Sep, 2024