利用背景信息进行句子级词素切割
本文提出了一个基于层级注意力双向 LSTM 网络的主题分割器,通过添加相干性相关的辅助任务和受限制自注意力来更好地建模上下文,从而超过了 SOTA 方法,并在领域转移设置中证明了其鲁棒性和在多语言场景中的有效性。
Oct, 2020
本文通过实证研究,考察了在六种不同的语言上,使用不同的形态学特征开发上下文词形还原器对下游表现的影响,并发现:(i)为词形还原器提供细粒度的形态学特征在训练时并不那么有益,即使对于词汇连接语言;(ii)实际上,现代上下文词表示似乎隐式地编码了足够的形态信息,以获得无需查看任何明确形态信号的良好上下文词形还原器;(iii)最佳的领域外词形还原器是使用简单的 UPOS 标签或者没有训练形态学的模型;(iv)目前的词形还原评估实践并不足以清晰地区分模型之间的差异。
Feb, 2023
本研究提出了一种基于无监督学习的方法来对齐上下文和下一句子,它可以自动识别短语并生成词组内嵌入,实现了对语言模型进行了有效优化,模型在 Wiketext-103 数据集上达到 17.4 的最佳性能表现。
Jun, 2019
利用多段模型进行上下文翻译,在不需要额外的语言特定调整和特定任务结构的情况下,通过增加模型容量并使用知识蒸馏技术,取得了可比较的性能,更适合捕获上下文依赖关系。
Oct, 2022
本文介绍一种基于上下文敏感的无监督词分割模型,使用双向神经语言模型和两种解码算法来增强长期和短期的相关性,该模型在不同的数据集上实现了最新技术水平的中文和泰文词分割结果。
Mar, 2021
本文提出了多语言语言模型与深度语义对准(MLMA),用于产生跨语言标注的语言无关表示,方法不需要平行数据或一个词一个词匹配,只需要单语语料库,并利用深度上下文表示。实验结果表明,本方法在欧洲语言以及英语和汉语等远距离语言对上实现了新的最新 NER 和 POS 性能。
Oct, 2019
该研究介绍了 SIGMORPHON 2022 共享任务关于形态素分割,试图将单词分解为一系列形态素,并覆盖了大部分类型的形态学。结果表明,该任务的提交结果对于单词级别和句子级别的形态素分割与现有的 3 种子单词分割方法相比有显著提高,为错误分析和未来的研究提供了有用的数据。
Jun, 2022
提出了采用孪生句子嵌入层的主题分割方法,结合同一主题预测、主题分类和下一句预测等多任务学习技术,实现对 WikiSection 数据集中文档的最新分割结果。
Jan, 2023