多语言非重复依赖树库:理解 LLMs 如何表示和处理句法结构
研究深度神经语言模型的可解释性,通过在多种语言模型中应用基于深度句法和表层句法的分析方法,考察其对语法结构的捕获程度以及不同语言间的一致性关系,并发现该语言模型普遍倾向 “Universal Dependencies” 语法形式,并且这种倾向的强度与树形状的差异有关。
Apr, 2020
本文介绍了用 Universal Dependencies 分析 Tweets 的问题,提出了扩展 UD 指南来覆盖 Tweets 中的特殊结构以及使用新的 Tweet Treebank v2 来解决标注中的歧义,并构建了一个可以将原始 Tweets 解析为 UD 的流水线系统。此外,作者还提出了一种新的方法来精简基于转换的解析器的集合,并在真实情况下验证了该方法的有效性。
Apr, 2018
通过依存句法树到常量句法树的转换,使用递归神经网络语法模型(RNNGs)进行训练,并在多语言环境下进行了实证评估,来探讨在学习模型时哪种树形式最佳,对哪些语言最适用,并通过七种类型的句法测试比较了 9 种转换方法和 5 种语言的语言模型表现,研究结果显示,最佳模型相对于最差模型在所有语言中的精确度提高了 19%,也证明了在多语言环境中注入语法的积极作用。
Apr, 2022
研究发现,多语言自然语言问答技术仍存在困难,我们提出了一种利用 DUDES 和 MCMC 方法建立模型的 QALD 管道,成功将自然语言问题转换为可执行的 SPARQL 查询,并且在英语、德语和西班牙语环境下进行了测试。
Feb, 2018
本研究提出了一种名为 SCUD 的新的语言依存注释标准,并提供了 ConvBank 数据集,以用于在人机对话方面训练依存句法分析模型。实验表明,将模型预训练于公共数据集并在 ConvBank 数据上进行微调可以取得最好的结果,达到了 85.05%的未标注和 77.82%的标注连接准确率。
Sep, 2019
我们提出了一种评估多语言大型语言模型在多形式语法结构方面学习句法的方法,将分析转化为序列标记,通过选择几个语言模型并在 13 个多样化的依赖解析树库和 10 个成分解析树库上研究它们,结果表明:(i)该框架在多种编码上一致,(ii)预先训练的词向量不偏好成分句法表示,而是倾向于依赖表示,(iii)子词标记化需要用于表示语法,与基于字符的模型不同,(iv)从词向量中恢复语法时,语言在预训练数据中的出现比任务数据的数量更重要。
Sep, 2023
本文介绍了一种新的方法 SSUD,通过利用语法关系的一个属性 —— 语法替换性,不需要监督下拉金标准解析,就能诱导出语法结构,从而帮助理解大型预训练语言模型(LLMs)的句法能力,提高依赖分析任务的定量和定性效果。
Nov, 2022