针对法律和生物医学文本的编码器 - 解码器多标签分类方法探究
在这项工作中,我们使用两个公共法律数据集 POSTURE50K 和 EURLEX57K,通过改变训练数据量和标签数量,评估了不同的多标签分类方法,结果显示 DistilRoBERTa 和 LegalBERT 在法律多标签分类中表现良好,而 T5 在生成模型中表现相当,并且 CrossEncoder 在提高宏 F1 分数方面具有潜力,尽管计算成本增加。
Jan, 2024
本研究提出了 CaseEncoder,一种利用法律领域细粒度知识进行预训练的法律文件编码器,它通过优化训练数据质量和设计法律特定的预训练任务,在零样例的情况下显著优于现有的通用预训练模型和法律专用的预训练模型。
May, 2023
提出使用预训练的 encoder-decoder 模型,通过 document to query generation 来进行重新排名,同时在推理时,将其分解为仅有 decoder 的语言模型以提高推理速度,实验结果表明该方法可以比传统的交叉注意模型快 6.8 倍,并且能取得相当的效果。
Apr, 2022
本文提出了一种简单而有效的方法来解决多标签分类问题,该方法利用 Transformer 解码器查询类标签的存在,并使用视觉骨干计算的特征图来进行后续的二进制分类,相比于以前的工作,该方法更为简单有效,对于五个多标签分类数据集,包括 MS-COCO,PASCAL VOC,NUS-WIDE 和 Visual Genome,始终优于以前的所有工作,我们在 MS-COCO 上建立了 91.3%的 mAP。
Jul, 2021
本文提出了一种针对多语言机器翻译的替代方法,该方法基于特定于语言的编码器 - 解码器,可以更轻松地通过学习相应的模块来扩展到新语言。同时训练初始语言以促进通用 interlingua 表示,实验表明该方法平均优于通用编码器 - 解码器 3.28 BLEU 点,当添加新语言时,无需重新训练其余模块,因此推进了可灵活扩展的模块化多语机器翻译系统的发展。
Apr, 2020
基于大型编码器和解码器语言模型的自动评估方法在文本生成任务中表现比调整后的编码器模型差,研究还发现解码器模型关注于表面字词序列而忽略了意义,同时发现调整后的解码器模型难以识别细粒度语义差异。
Oct, 2023
提出一种跨语言编码器 - 解码器模型,用于在资源匮乏的目标语言中同时翻译和生成带有语义角色标注的句子。该方法可用于单语、多语言和跨语言环境,并能生成基于依存和跨度的 SRL 注释,通过使用生成的数据进行增量训练可提高资源匮乏语言的标注性能。
Aug, 2019
本研究探讨了编码器和解码器语言模型在多语言自然语言理解任务中的性能,重点关注日耳曼语系。通过扩展 ScandEval 基准评估框架来包括解码器模型,我们介绍了一种评估解码器模型在自然语言理解任务上的方法,并对丹麦语、瑞典语、挪威语、冰岛语、法罗语、德语、荷兰语和英语进行了应用。通过一系列实验和分析,我们回答了关于编码器和解码器模型的性能比较、NLU 任务类型的影响以及语言资源的变化等关键研究问题。研究发现,解码器模型在不同任务和语言上可以实现较好的 NLU 性能,并揭示了解码器和编码器模型的独特能力。本研究对于理解 NLU 任务中的语言模型范式,并为多语言环境中的模型选择和评估提供了宝贵的见解。
Jun, 2024
使用领域特定的预训练 BERT 模型提取长文档的句子嵌入,并通过 Transformer 编码层进行进一步处理,并利用无监督聚类从这些嵌入中提取隐藏标签,以更好地预测法律案例的判断结果。在 ILDC 数据集上的多次实验表明,该机制的性能提高超过先前提出的方法。实验结果也显示了法律信息处理中领域特定预训练 Transformer 编码器的重要性。
Nov, 2023
通过研究表明,经过正确训练的标准双编码器模型在极限多标签分类问题中可以匹配或超越状态 - of-the-art 极限分类方法在 Precision@1 方面的性能,并且在可训练参数的数量上小 20 倍。
Oct, 2023