多树库句法分析评估的脆弱性

COLINGSep, 2022

The Fragility of Multi-Treebank Parsing Evaluation

Iago Alonso-Alonso, David Vilares, Carlos Gómez-Rodríguez

TL;DR研究了树库选择对解析评估的影响，发现使用单个树库子集进行评估可能会导致不准确的结论。实验发现，树库选择具有很大的变异性，虽然确定良好的树库选择指南很困难，但可以检测出潜在的有害策略。

Abstract

treebank selection for parsing evaluation and the spurious effects that might arise from a biased choice have not been explored in detail.

treebank selection parsing evaluation biased choice subsets of treebanks parser scores

发现论文，激发创造

使用异构树库进行的解析器训练

本文提出了一种基于树库嵌入的新方法，以改进现有多种树库的依存关系分析器，实验证明这种方法相比于现有的许多策略要好，可以大大提高自然语言处理中的性能

May, 2018

利用多类型树库进行深度多任务学习的解析

本文提出了一种基于多任务学习的通用框架，将多类型树库结合起来，通过多级参数共享提高依存解析模型的性能，实验表明该方法可以有效地利用任意源树库来提高目标解析模型的性能。

Jun, 2016

非监督句法分析中偏倚解析器的关键分析

本文使用 Shen 等人 (2018) 的句法分析算法来恢复基于 “句法深度” 代理的短语结构树，并使用常规 LSTM 语言模型提供的代理进行比较，发现偏向于右分支结构的解析算法可以夸大语言模型的表现能力。

Sep, 2019

在真正的低资源语言上，对于低资源依赖分析的方法进行系统比较

本文研究在少量训练数据的情况下，如何通过数据增强、跨语言训练和转写等策略提高处理低资源语言的分析器性能。在三种语言的实验中，发现数据增强和跨语言训练都能提高性能，而将高资源语料库中的字母转写成共享的拼写规则也很有帮助。

Sep, 2019

基于预训练语言模型的句法分支偏差探究

该研究提出了一种通过比较语言和反向语言的性能差距来量化分支偏差的方法，并分析了分析算法、特征定义和语言模型对分支偏差的影响。实验结果表明，存在一些现有作品存在分支偏差，并且这三个因素的一些实现可能会引入分支偏差。

Oct, 2020

用于解析的统计决策树模型

基于决策树学习技术的统计分析器 SPATTER，相比语法分析器，在分析较短或较长的句子时表现良好，准确率可达 91%，主要依赖于词汇和语境信息。

Apr, 1995

为什么话语分析无法概括？关于数据多样性影响的彻底调查

在研究中，我们证明了高资源语言（如英语）在 RST 解析方面的性能并没有变得可靠，而我们使用两个最大的英语 RST 语料库在新闻领域中研究了数据多样性对解析稳定性的影响，结果表明异构训练是获得稳定且可推广模型的关键。同时，我们还提供了模型输出的误差分析和跨领域性能的研究。

Feb, 2023

利用多语言 BERT、小语料库和小树库进行分析

本文提出在多语种低资源场景下采用语言特定的预训练和词汇扩充以适应多语种模型并使用所提出方法对四种语言进行案例研究，结果显示这些方法可以显著提高性能，特别是在最低资源的情况下，并证明了模型的预训练数据与目标语言变体之间的关系的重要性。

Sep, 2020

可扩展远程监督的大型话语树库

本研究提出了一种使用情感分析辅助任务的 “银标准” 话语树框架，从而允许更大、更多样化和独立于领域的数据集训练话语解析器，以实现自然语言处理的上游任务，并在许多实际应用中具有强大的影响力。

Oct, 2022

LyS_ACoruña 在 SemEval-2022 任务 10 中：将现成工具用于情感分析和语义依存分析

本文使用双仿射语义依赖分析器、大型预训练语言模型和公开可用的翻译模型解决了结构化情感分析的问题。对于单语言环境，作者考虑了在单个语料库上训练和跨语言模型上下文下训练。对于零样本场景，作者通过单词级别的翻译和合并训练数据来处理目标语料库。在后期评估阶段，作者还训练了交叉语言模型，而不是使用单词级别的翻译，并获得了更好的结果。

Apr, 2022