重新审视泄漏对依存句法分析的影响

ACLMar, 2022

重新审视泄漏对依存句法分析的影响

Revisiting the Effects of Leakage on Dependency Parsing

Nathaniel Krasner, Miriam Wanner, Antonios Anastasopoulos

TL;DR该研究通过测试更多的模型和语言，发现‘leakage’仅适用于零 - shot 跨语言设置，在效果差异方面直接解释，并提出了更细致的度量方式来解释和相关观察到的性能差异。

Abstract

Recent work by Søgaard (2020) showed that, treebank size aside, overlap between training and test graphs (termed leakage) explains more of

leakage dependency parsing zero-shot cross-lingual settings training test graphs

发现论文，激发创造

最劣情况感知自动课程学习下的零样本依存句法分析

本研究采用来自多任务学习的自动课程学习方法，旨在动态优化对于语法分析模型下游任务的性能，从而实现在低资源语言中的零样本情况下的跨语言迁移，表明这种方法比均匀和大小成比例采样更好。

Mar, 2022

关于句法差异与零 - shot 表现之间的关系

本文研究在翻译过程中保留句法关系的程度与零样本情况下正确构造解析树的难度之间的联系，通过将 Universal Dependencies 从英语传输到不同的语言进行测试，结果表明跨语稳定性与零样本解析性能之间存在强烈的关联。

Oct, 2021

一点点泄漏将毁掉一艘巨舰：从头到尾的大语言模型透明度调查

大型语言模型存在泄漏风险，可能泄漏个人信息、侵犯版权以及评估数据集，本文通过实验调查泄漏数据比例与输出速率、检测性能之间的关系，并提出了一种自检测方法，结果显示即使训练数据中含有少量泄漏数据，大型语言模型仍能产生大量的泄漏信息，而我们的自检测方法表现优于现有的方法。

Mar, 2024

LyS_ACoruña 在 SemEval-2022 任务 10 中：将现成工具用于情感分析和语义依存分析

本文使用双仿射语义依赖分析器、大型预训练语言模型和公开可用的翻译模型解决了结构化情感分析的问题。对于单语言环境，作者考虑了在单个语料库上训练和跨语言模型上下文下训练。对于零样本场景，作者通过单词级别的翻译和合并训练数据来处理目标语料库。在后期评估阶段，作者还训练了交叉语言模型，而不是使用单词级别的翻译，并获得了更好的结果。

Apr, 2022

使用后期解码技术实现跨语言依存解析在真正低资源语言中的应用

本研究提出了一种基于图形的端到端神经网络依赖解析器，这种解析器可以训练为复制边缘得分矩阵，从而可以直接在单词对齐上进行投影，并取得了相较于之前的最新技术，在 10 种语言上的 2.25% 的绝对改善。

Jan, 2017

针对跨语言依存句法分析的目标语言感知受约束推断

本研究探讨了在跨语言依存分析中，语言的语言属性如何进行有效应用，通过使用语义知识等多种语言语料库统计数据对推理过程进行指导，使用拉格朗日松弛和后验正则化等技术来进行推理，实验表明拉格朗日松弛和后验正则化的推理显着提高了 19 个目标语言中的 15 个和 17 个的性能表现，尤其是对于源语言不同的目标语言。

Sep, 2019

基于预训练多语言句子表示的零样本依存句法分析

本篇论文研究了是否可以利用大规模多语言语料库（multilingual BERT）上预训练的现成双向深度句子表征，开发出一种无监督的通用句法分析器，以支持低资源语言的处理。实验结果表明，我们的方法在六种真正的低资源语言中均优于 CoNLL 2018 语言特定系统，但仍存在一些限制，如句法分析精度仍然随训练语言的变化而变化，并且在某些目标语言中，零 - shot 转移在所有测试条件下都无法成功，这引发了人们对整个方法的普适性问题的担忧。

Oct, 2019

PECO: 通过聚类离群值的渐进式评估来检查自然语言推理数据集中的单句标签泄漏

本文介绍了一种基于模型的技术 PECO，用于识别自然语言推理数据集中单句标签泄漏问题和子群体。通过分析现有数据集，表明单句标签泄漏问题仍然普遍存在于当今自然语言推理评估任务中。

Dec, 2021

半监督方法解析自然语言句子

本文介绍了在半监督下对自然语言句子进行解析的工作，重点是去除词汇的依赖关系解析器的多源跨语言转移。首先，评估了树库注释风格对解析性能的影响，重点是介词附着风格。然后，我们提出了 KLcpos3，一种经验性的语言相似度测量方法，专门用于多源去词汇解析器转移中源解析器加权。最后，基于训练解析器模型的插值，引入了一种新的资源组合方法。

Jun, 2015

自然语言模型更新的信息泄漏分析

本文提出了新的度量标准 ——“差分得分” 和 “差分排名”，并使用这些度量标准对使用不同数据集和配置的模型的泄漏进行了分析，发现了语言模型在更新时的隐私泄漏问题，提出了缓解策略，并对其效果进行评估。

Dec, 2019