- ACL基于字节的神经机器翻译中整合多尺度上下文信息
在神经机器翻译(NMT)模型中,子词标记化是一种常见的词汇构建方法,但是越来越复杂的任务使其劣势显现。我们提出了多尺度上下文化(MSC)方法,它通过学习不同隐藏状态维度上的不同尺度的上下文化信息,并利用注意力模块动态地集成多尺度的上下文化信 - 评估次词标记化:外语次词组合与 OOV 泛化挑战
我们提出了一种联合内在 - 外在评估框架用于子词切分,通过 UniMorph Labeller 工具对子词切分进行内在评估,将其分类为形态还是外语;然后通过 Out-of-Vocabulary Generalization Challeng - COLING法语医学口罩语言模型中的 tokenization 有多重要?
深入探讨法语生物医学领域中子词标记化的复杂性,并确定可以进行进一步改进的领域,同时分析了包括 BPE 和 SentencePiece 在内的经典标记化算法,并引入了一种将富含形态素的词分割与现有标记化方法整合的原始标记化策略。
- MambaByte: 无需令牌的选择性状态空间模型
基于字节的 MambaByte 模型是一种无需标记的语言模型,它在计算效率方面表现出色,优于其他基于字节的模型,并且可以超过现有的基于子词的模型,因此可用于无需标记的语言建模。
- 您是在与 ['xem'] 或者 ['x', 'em'] 交谈吗?关于标记化和处理 LLM 中的性别错误的研究
通过研究语料数据稀缺对子词分词及大型语言模型中单词表示的影响,以及 Byte-Pair Encoding (BPE) 分词器在缺少特定词汇时与新代词性别错误相关性,提出了保持词语功能结构的新方法 PTP 来改善大型语言模型中的新代词一致性, - 学习字符和子词的相互信息表示
该研究使用预训练语言模型和交织模型,在处理不同粒度的文本时,提高了模型的泛化能力并在多个 NLP 任务中取得了优秀的性能。
- EMNLP词汇、次词及形态素:令人惊讶度与阅读时间之间真正的关系是什么?
基于 LLMs 的预测基于子词标记而不是词素分解,我们通过比较使用拼写、词素和 BPE 标记的惊异估计与阅读时间数据来仔细测试这一重要假设,我们的结果重现了以前的研究发现并提供了证据,表明使用 BPE 标记的预测相对于词法和拼写分割并没有出 - EMNLP分析子词切分的认知可信度
对比了三种分词算法在多种语言和词汇量上,发现 UnigramLM 算法在分词行为上的认知合理性较低,且派生形态的覆盖率较低。
- ACL分词和无噪声信道
本文研究了子词分割在自然语言处理中的应用,发现利用 Rényi 熵而非 Shannon 熵可以提高机器翻译的效果。
- ACL因式化子词编码的分词
本文提出一种新的标记方法,使用 VQ-VAE 模型将子词分解为离散三元组,结果表明所提出的 Factorizer 标记方法在语言建模和形态句法任务方面比常用的字节对编码(BPE)标记算法更为适合和稳健。
- 评估 NMT 中基于子词的标记化的频率与组合重要性
该研究探讨了子词分词在神经语言模型和机器翻译系统中的应用,并提出了一种基于 Huffman 编码的分词方法,表明非常高频的单词分别出现,是达到比贪心算法高的分数的一个相对较重要的因素。
- CompoundPiece:评估并提高语言模型的分解复合能力
本文旨在通过构建一个数据集研究跨语言中的复合词问题,发现基于大型语言模型的分解表现不佳,并提出了一种分解训练方法 —— 完全自我监督的训练方法,成功地构建了一种更好的分解模型,同时使用 CompundPiece 对复合词进行分词更佳。
- 从单词到音乐:符号音乐生成中子词分词技术的研究
本文研究了在符号音乐生成中,应用子词分词技术(如 Byte-pair Encoding)对生成歌曲结构和长度的影响,以及与音乐生成质量指标(如结构指标,Pitch Class Entropy 等)之间的关系。结果表明子词分词技术有望改善符号 - 领域内翻译最佳微调的词汇和 BPE 设置的系统分析 —— 以 NMT 为例
本文对不同的子词分词策略、词汇生成方法及 Fine-tuning 进行了系统的实证研究,旨在找到一种最佳的 Fine-tuning 领域特定模型的设置,实验结果表明最好的模型达到了比基线模型 6 个 BLEU 分数的提升效果。
- 使用 Subword TF-IDF 进行多语言搜索
采用子词标记化方法可以实现多语言检索,采用 STF-IDF 方法可以在不依赖启发式预处理的情况下提高信息检索精度,Text2Text 软件开源,可用于多种语言的信息检索。
- 令牌知道它们的字符以及如何知道它们?
该研究探讨了在使用基于子词分割的预训练语言模型(PLMs)中,字符级信息被编码的机制以及这些模型如何获得英语语言字符信息,结论表明这些模型可以很好地编码字符级信息并通过一系列实验证明这些结果是普遍适用的,并归纳了多种现象对于知识获取的作用, - 神经机器翻译的本地字节融合
本研究提出了一种基于字节的机器翻译方法 (Local Byte Fusion, LOBEF),它利用基于 byte-ngram 和单词边界的方法来聚合局部语义信息,经过对多语种翻译、零 - shot 跨语言转移和域自适应的大量实验证明,在多 - 一种无需词汇表的多语言神经标记器,用于端到端任务学习
本文提出了一种无需词汇表的神经分词器,通过处理多语言语料库中的独特单词来预训练基于字符的分词器,从而广泛增加语言间的单词多样性,进而克服了子词分词存在的一些问题,如无法进行端到端任务学习,适应性不足,以及在低资源语言中表现欠佳等,实验证明该 - Breaking Character: MRLs 是否真的只需要使用子词?
对于语言中包含丰富词形的复杂语言,使用预训练字符序列的 BERT-style 掩码语言模型进行训练和推理而不是基于子单元的方式可能会得到更好的表现。但是,对于语义任务,基于子单元的 PLM 表现更好,这证实了基于子单元的分词作为许多语言的合 - ICLRCharformer: 基于梯度的子词分词加速字符变换器
该研究提出了使用渐变学习的子单词标记模块(GBST)作为深度 Transformer 模型 Charformer 的一部分来进行端到端学习,以在自然语言处理中改进字节级模型的性能。在英语 GLUE、多语言和噪声文本数据集上的结果表明,Cha