芬兰语依存句法分析的跨领域评估
本文提出了一种基于自动编码器和生成对抗网络生成伪 OOD 样本来提高 NLU 中 OOD 检测性能的新模型,同时也演示了未标注数据可以进一步提高这些伪 OOD 数据的有效性。
Sep, 2019
本研究旨在解决无法获取 in-domain 数据标签的情况下,从语言模型和表示学习的角度,通过无监督的聚类和对比学习的结合,对 OOD 检测进行更好的数据表示学习,实验证明该方法的性能显著优于基于概率的方法,并且可以与基于标签信息的监督方法竞争。
Mar, 2022
本研究介绍了一种稳健的语义框架解析系统,使用循环神经网络来解析口语理解情景下的复杂长文本,此系统可处理分布外模式和分布外词汇,并显示比当前最先进的基准 SLU 模型更好的结果。
Dec, 2022
本综述论文比较了对神经自然语言处理模型的三种研究途径:对抗鲁棒性、领域泛化和数据集偏差,并总结了每条研究路径的数据生成过程和评估协议,并强调未来工作的挑战和机遇。
Jun, 2023
本研究通过引入泰语通用依存树库(TUD)解决了自动依存解析泰语句子的问题,并通过将预训练的 transformer 作为编码器来训练泰语依存解析模型,在评估结果中表明大多数模型能够胜过前期研究中的其他模型,为泰语依存解析器的最佳组件选择提供了见解,并将实验中的新树库和每个模型的完整预测结果在 GitHub 上进行了共享。
May, 2024
本文提供第一个公开的 Odia 语言树库,并使用机器学习技术对其进行了形态分析。该树库将丰富 Odia 语言资源,有助于建立跨语言学习和分类研究的语言技术工具。本文还构建了一个初步的 Odia 语言分析器,并对 Odia 的 UD 树库进行了简要的语言分析。
May, 2022
本文重新审视了自然语言处理领域中关于评估 out-of-distribution 鲁棒性的相关研究,并提出了一个基准套件(BOSS),通过其中包含的 5 项任务和 20 个数据集来评估 pre-trained large language models 和 5 种经典方法在分布转移时的性能,结果发现在 ID 示例中,微调特定领域模型的性能明显优于 LLMs,在 OOD 示例中,优先考虑具有上下文学习的 LLMs 结果更好,但大规模的微调和大型 LLMs 都面临着有效解决下游任务的挑战。
Jun, 2023
本文介绍了用 Universal Dependencies 分析 Tweets 的问题,提出了扩展 UD 指南来覆盖 Tweets 中的特殊结构以及使用新的 Tweet Treebank v2 来解决标注中的歧义,并构建了一个可以将原始 Tweets 解析为 UD 的流水线系统。此外,作者还提出了一种新的方法来精简基于转换的解析器的集合,并在真实情况下验证了该方法的有效性。
Apr, 2018