- 优于空格:无自定义分词器语言的信息检索
本研究提出对于不同语言的信息检索及词法匹配的算法 (BM25 等) 使用 WordPiece 分词器的方法,通过对来自不同语言的数据进行实验,证明该方法能够在多数情况下优于白空格分词器,并能更进一步提高自定义分词器的效果。
- Phenaki: 从开放领域文本描述生成可变长度的视频
该研究提出了一种名为 Phenaki 的模型,它可以根据一系列的文本提示生成逼真的视频。
- MonoByte:单语字节级语言模型池
本研究发布了 10 个在相同配置下严格预训练的单语模型,它们是基于字节的,不需要分词,可以消除未见标记嵌入的问题,并且可以在不同文字脚本的语言中尝试更广泛的跨语言实验,通过 QA 和 NLI 任务的实验证明,这些单语模型的性能与多语言模型相 - COLINGMaxMatch-Dropout: WordPiece 的子词规范化
本文提出了一种用于 WordPiece 的子词规则化方法,使用最大匹配算法进行分词,并通过 MaxMatch-Dropout 方法实现对 BERT-base 等预训练语言模型的微调,实验证明该方法在文本分类和机器翻译任务以及其他子词规则化方 - AudioLM:一种语言建模方法用于音频生成
AudioLM 是一个高质量的音频生成框架,它通过将输入音频映射为离散令牌序列,并在该表示空间中将音频生成视为一种语言建模任务。我们提出了一种混合标记方案,以实现重建质量和长期结构两个目标,并通过大量的音频波形语料库进行了训练,使其可以生成 - ACL富裕国家与更丰富的图像表现
本文研究了一些国家在嵌入空间中的代表性是否比其他国家更高,发现在训练语料库中出现频率较低的国家更可能被标记为子词,嵌入空间中的语义差异较小,且更难以正确预测,而这些问题与这些国家的频率有关,而频率与国家的 GDP 高度相关,加剧了历史上的权 - 令牌化对语言模型的影响:针对土耳其语的分析
本文研究了在土耳其语 (OSCAR corpus) 的分裂数据上,比较了不同粒度级别的分词器的性能和预训练语言模型的效果,并发现单独定制的分子级别分词器具有挑战性的表现,同时也发现增加词汇量可以提高单独定制的分子级别分词器以及使用 RoBE - ECCVmc-BEiT:针对图像 BERT 预训练的多选项离散化
本文提出了一种改进的 BERT-style 图像预训练方法,即 mc-BEiT,通过以多项选择形式指导被屏蔽的图像贴片生成监督信息,以及提高感知水平,以获取更好的视觉词汇标记。实验结果显示,相较于其他方法,预训练的 mc-BEiT 在图像分 - 高字内复杂度的神经词元分割
提出了一种结合了上下文化词元表示和字符级解码的神经分割模型,对于具有高令牌内部复杂性和极度形态歧义的希伯来语和阿拉伯语等语言,其分割准确性得到了显着提高,并对下游 NLP 任务的表现进行优化。
- 评估波斯语分词器
此研究比较了波斯语最广泛使用的标记工具的性能,并使用预先标记的波斯语依赖数据集进行了评估,得出结论表明修复构词的 Farsi Verb 和 Hazm 混合版本的表现最佳,达到 98.97% 的 F1 得分。
- 从词到字:自然语言处理中开放词汇建模和分词的简史
本文通过调研 pre-neural 和 neural era 中的多种技术,探讨自然语言处理中的 “微观结构”(从字节到词组)建模方式是否应采用字符级或字节级处理,或采取分词处理的基于子字的方法,得出结论:没有一种万能的处理方式适用于所有情 - ACL中文预训练语言模型的子字分词
为了利用中文语言系统中存在的字符下的语言信息,我们提出了一种基于 SubChar (即 SubCharacter) 的分词方法,该方法通过将每个汉字转换为一个基于其字形或发音的短序列,再基于编码后的文本进行子词分割来构建词汇表,实验结果表明 - ACL联合优化标记化和下游模型
本文提出了一种优化分词器和模型以找到适当分词的新方法,该方法可用于各种 NLP 任务,包括后处理和多种语言翻译。实验结果表明,该方法通过确定适当的分词方法可以提高性能。
- Fon 语的低资源神经机器翻译基于众包的基于短语的分词
本研究主要针对非洲土著语言的神经机器翻译问题,提出基于 Word-Expressions-Based 的超词标记策略,相较于其他标记方法可以更好地应对具有语法、韵律、声调特征的非洲语言翻译训练的困难性。实验结果表明,在 Fon - 法语和法 - ACLCANINE:一种高效的预训练无分词编码器语言表示模型
CANINE 是一个神经编码器,直接操作字符序列,无需显式分词或词汇表,并通过预训练策略结合下采样和深度转换器堆栈有效编码输入,并在 TyDi QA 等挑战性多语言基准测试中比 mBERT 模型表现更优。
- EMNLP快速 WordPiece 分词
本文提出 WordPiece 的高效算法以及针对单词和一般文本的标记化方法,包括将预标记文本和线性时间算法相结合,此方法相对于现有方法可提高 8.2 倍到 5.1 倍的效率。
- EMNLPPython 中的日语词汇剖析工具 fugashi
本文介绍了 fugashi,这是一个用于 Python 的 MeCab 包装器,以及介绍了如何对日本语进行分词。
- ACL韩语自然语言处理各任务的分词策略实证研究
测试出,对于韩国自然语言处理任务,采用基于词形的分词再使用 BPE 的混合方法效果最佳。
- ACLAMBERT: 一个带有多粒度分词的预训练语言模型
本文提出一种新的预训练语言模型 AMBERT,结合了精细的细粒度和粗粒度的分词方法,取得了比 BERT 更好的性能,特别是在汉语中表现更显著。此外,我们还开发了一种方法,用于提高 AMBERT 推理的效率,其仍然比 BERT 在同样计算成本 - KR-BERT:小规模韩语特定语言模型
本论文旨在训练适用于韩语的小型语言模型 KR-BERT,通过采用较小的词汇表和数据集、优化令牌化方法,提高了韩语语言现象的捕捉效率,实现了与大型语言模型相媲美甚至更优的性能。