通过利用子词增强嵌入式框架,本文介绍了一种学习和合成计算产生的子词级别表示的新方法,经过在英文和汉语测试基准上的各种文本理解任务中的实验测试,发现子词增强嵌入式显着改善了我们在各种文本理解任务上的基线。
Nov, 2018
本文提出了一种字符增强的阅读器,结合字和字符嵌入的不同集成策略,用一份短列表来增强字嵌入,从而改善字的表示,特别是罕见的字。实验结果表明,这种方法显著优于各种公共基准测试中的当前最先进方法。
Aug, 2018
本研究通过对五种语言的三个任务进行大量实验研究,发现在利用子词级别信息进行词表示学习时,不同语言和任务下,分词和组成函数等关键组件的最优配置各异。同时,我们还发现,一些无监督分词方法,如 BPE 和 Morfessor 等,有时能够和甚至超过一些基于监督分词方法的配置。
Apr, 2019
该研究研究了如何使用基于子词级别表示的模型进行句子对建模,结果表明在对语义和字符串相似性要求较高的语境下,不需要预先训练的单词嵌入也可以实现最先进的结果。该方法在社交媒体数据集上实现了最新成果,在新闻数据集上也取得了有竞争力的结果。
May, 2018
本研究针对阅读理解任务过往的机器学习研究,发现所使用的预训练词向量和测试时的未登录词处理方法等看似微小的选择,比起架构选择对最终性能的影响更大。我们对这些选择进行系统探讨,为从事该领域研究的学者提供建议。
Mar, 2017
该论文提出了一种新的方法 Byte2Word,通过引入交叉注意力网络建立单词级别的表示,并基于单词级别的隐藏状态进行子词级别的预测,从而实现了更精简的输入嵌入方式,同时在语言模型和文本分类上表现出与强大的基准模型 BERT 相当的性能。
Nov, 2022
通过引入一种新的信息量更大的降采样方法,将字符水平的机器学习模型在机器翻译领域中的表现提高到与子词水平的模型接近。
Dec, 2022
本文提出了一种基于子词级别的词向量生成模型来解决传统词向量模型无法应对未登录词、破音字等问题,并在英文词汇相似性任务和 23 种语言的词性标注和变形属性的联合预测任务中实现了最优表现。
Sep, 2018
该论文研究了序列标注结构中使用单词嵌入进行相似性捕获时处理以前未见过或罕见单词时的问题,并提出了一种新颖的架构来组合替代单词表示。通过使用注意力机制,模型能够动态决定从单词或字符级组件中使用多少信息。我们在一系列序列标注数据集上评估了不同的架构,并发现字符级扩展在每个基准测试中都提高了性能。此外,即使使用较少的可训练参数,提出的基于注意力的架构也能够提供最佳结果。
Nov, 2016
该研究提出通过训练简单的循环神经网络从原文本字符序列中直接学习文本表示,并将这些文本嵌入用作监督字符级别文本分段和标记任务的特征,以实现比表面字符 n-gram 更好的结果。
Sep, 2013