信息抽取研究:注意分词!
这篇论文通过学习词边界将字节 / 字符聚合成词表示,并在主要语言模型中解码个别字符 / 字节,结果表明这种分词方式在代表下一个词的预测模型测试中表现得比子词和字节 / 字符模型更好,特别是在稀有词方面达到了 30 倍的效果提升。
Oct, 2023
本文提出了一种基于指针网络的端到端模型,可以在不需要 token 级标签的情况下直接从原始文本和输出文本对中训练模型,该模型在 ATIS 数据集、MIT 餐厅语料库和 MIT 电影语料库上进行了评估,并与使用 token 级标签的神经基线进行了比较,取得了与基线几乎相同的竞争结果,证明了在不需要 token 级标签的情况下实现端到端信息提取的可行性。
Jul, 2017
本文通过调研 pre-neural 和 neural era 中的多种技术,探讨自然语言处理中的 “微观结构”(从字节到词组)建模方式是否应采用字符级或字节级处理,或采取分词处理的基于子字的方法,得出结论:没有一种万能的处理方式适用于所有情况,仍需要认真考虑分词对于不同应用场景的重要性。
Dec, 2021
大型语言模型存在分词问题,导致对错别字、长度差异和标记内部结构的忽视。本研究通过探究复杂问题解决、标记结构探测和对错别字的抵抗力来系统地调查这些挑战及其对大型语言模型的影响,并展示模型参数缩放与子词规范化对解决这些问题的作用。
Jun, 2024
选择一个合适的分词方案通常是低资源跨语言转移的瓶颈。为了理解文本表示选择的后续影响,我们对具有不同文本表示模式的语言模型进行了比较分析,包括 2 个基于分词的模型(BERT,mBERT)、一个基于图像的模型(PIXEL)和一个基于字符级别的模型(CANINE)。通过提出的评分语言系数(LQ),我们在 19 种源语言和 133 种目标语言上执行了涵盖 POS 标记、依赖解析和 NER 的实验证明了基于图像的模型在语言密切相关且具有相似视觉脚本的情况下,在跨语言转移中表现出色。然而,在偏向于词义(POS,NER)的任务中,基于分词的模型表现优越。此外,在强依赖于词汇关系的依赖解析任务中,具有字符级别关注的模型胜过其他模型。最后,根据我们的发现,我们提出了一个基于我们的研究成果的建议方案,以指导根据任务和语言要求进行模型选择。
Oct, 2023
综合比较多语言预训练模型的效率时,在考虑内存使用、推理速度和数据健壮性等方面,基于子词的模型仍然是许多场景下更可靠的选择,此为当前研究结果,建议未来的 tokenizer-free 方法在设计和评估模型时也要考虑这些因素。
Oct, 2022
深入探讨法语生物医学领域中子词标记化的复杂性,并确定可以进行进一步改进的领域,同时分析了包括 BPE 和 SentencePiece 在内的经典标记化算法,并引入了一种将富含形态素的词分割与现有标记化方法整合的原始标记化策略。
Feb, 2024
通过与传统标记分类方法的比较,我们发现当处理较短、干净的实体时,最好使用基于标记分类的方法,而 QA 方法可以成为嘈杂环境或长实体用例的良好替代方案。
Apr, 2023
比较基于单词和字符的序列到序列模型在数据到文本自然语言生成方面的表现,进一步分析了两者输入表示之间的差异和生成文本的差异性,并通过对模板产生的合成训练数据的控制性实验展示神经模型学习新组合模板的能力。
Oct, 2018
通过研究变压器在简单数据生成过程上的行为,我们探讨了词汇标记的理论视角,发现词汇标记对于变压器模型的训练是必要的,并验证了合适的词汇标记可以使变压器模型在学习 k 阶马尔可夫源的概率时达到近乎最优的结果。
Apr, 2024