EMNLPOct, 2023

DALE:用于低资源法律自然语言处理的生成式数据增强

TL;DRDALE 是一个新颖有效的低资源法律 NLP 数据增强框架,通过使用编码 - 解码语言模型,预训练选择性屏蔽的无监督文本去噪目标,结合特定领域语言特性对模板化法律文件进行遮盖,从而生成连贯多样的合成增强,用于低资源法律 NLP 任务。DALE 在 13 个数据集上展示了其优越性能,在质量和数量上都优于 LLMs 等其他基线方法,改进幅度在 1%-50% 之间。