基于字符级文本嵌入的文本分割
本研究探讨了在文本分割算法中应用语义单词嵌入的方法,包括C99分割算法和灵感来自分布式单词向量表示的新算法,并通过开发一个用于讨论一类分割目标的通用框架,研究了贪婪与精确优化方法的有效性,建议了一种新的迭代改进技术来提高贪婪策略的性能,将结果与已知基准进行比较并演示了我们的内容向量分割(CVS)在Choi测试集上的未经训练方法的最先进性能。最后,我们将分割过程应用于从arXiv.org 数据库中提取的学术文献的野外数据集。
Mar, 2015
我们提出了一种基于标准神经网络架构的简单,高效的令牌嵌入模型,并通过大量未注释的文本学习了令牌嵌入,评估它们作为基于少量注释的数据训练的词性标注器和依存分析器的特征,发现词嵌入在各种上下文窗口和训练集大小下都能一致优于基准预测模型。
Jun, 2017
本文研究字符级别模式识别神经网络所学习的规律以及相对于手动标注的词语分割的重叠性,并使用卷积神经网络和双向长短期记忆网络对三种不同的语言进行形态标记任务的评估和比较,证明这些模型可以隐式地发现可理解的语言规则。
Aug, 2018
使用字符级别的注意力和事先训练好的子/词级别的嵌入向神经网络提供更多语言学信息,而不需要大量的平行语料库,从而帮助神经网络在标准阿拉伯语语言纠错共享任务数据集上实现最先进的F1分数。
Sep, 2018
通过利用子词增强嵌入式框架,本文介绍了一种学习和合成计算产生的子词级别表示的新方法,经过在英文和汉语测试基准上的各种文本理解任务中的实验测试,发现子词增强嵌入式显着改善了我们在各种文本理解任务上的基线。
Nov, 2018
提出了一种分段神经语言模型,它将神经网络的概括能力与发现在未分段的字符序列中存在的类似单词的单元的能力相结合。在视觉上下文的作用下,此模型不仅可以发现单词的含义,还可以学习单词如何组成句子,并提高其预测准确性。
Nov, 2018
本研究通过对五种语言的三个任务进行大量实验研究,发现在利用子词级别信息进行词表示学习时,不同语言和任务下,分词和组成函数等关键组件的最优配置各异。同时,我们还发现,一些无监督分词方法,如BPE和Morfessor等,有时能够和甚至超过一些基于监督分词方法的配置。
Apr, 2019
提出了一种结合了上下文化词元表示和字符级解码的神经分割模型,对于具有高令牌内部复杂性和极度形态歧义的希伯来语和阿拉伯语等语言,其分割准确性得到了显着提高,并对下游NLP任务的表现进行优化。
Mar, 2022
该研究引入了一种新颖的开放词汇语言模型,包含两个层次:词级和序列级,并通过对字符的表示以及全局的序列级别上下文调整,使模型直接处理字符序列,而不是子词或词级别的词汇表,取得了比强基准表现更好的效果,并且具有文本破坏和域移位的鲁棒性。
May, 2023