- 构建 BPE 分词 DFA
给出并分析了一种用于有效构建确定性有限自动机的算法,该算法旨在直接处理由流行的字节对编码技术生成的标记化文本,从而可以将许多现有的技术和算法应用于标记化案例,例如模式匹配、标记化词典的等价检查和以各种方式组合标记化语言。
- Scaffold-BPE:用简单而有效的支架符号去除增强字节对编码
Scaffold-BPE 是对原始的 Byte Pair Encoding(BPE)算法的改进,解决了频率不平衡的问题,通过排除低频 Scaffold Tokens 提高了模型训练的效果。
- 重新思考分词:为大型语言模型打造更好的分词器
通过追踪分词器从词级到子词级的演变,本研究分析了分词器如何在增强模型适应性的同时控制复杂度方面平衡标记和类型。根据认知科学中的 “最省力原则”,本文提出了一种新的 LLN 分词器 LiB 模型,它可以自主学习由子词、词和多词表达式组成的综合 - 字节对编码是自动孟加拉语语音识别所需的全部
通过实验证明,对于孟加拉语,Byte pair encoding (BPE) 是一种在自动语音识别(ASR)中改善识别性能的有效分词方法,较佳的 BPE token 数量为大约 500-1000 个。
- 通过语言学信息的次词单位分词和次字符分解来提升韩文 NLP 任务
我们介绍了一种考虑词素的子词切分方法,利用字符的分解方法来解决字节对编码(BPE)在韩语中应用所面临的挑战,韩语的特点是丰富的语态和独特的书写系统。我们的方法在预训练语言模型(PLMs)中平衡了语言准确性和计算效率。我们的评估结果显示,该技 - DNABERT-2:多物种基因组高效基础模型和基准
此研究提出用基于统计方法的 BPE 算法替换 k-mer 作为基因组语言的标记,并基于此引入了一种高效的基因组基础模型 DNABERT-2 和包含 28 个数据集和 7 项任务的全面的多物种基因组分类数据集 GUE,该模型具有可比较的性能, - ACL随机选择 BPE 合并操作时有哪些变化?不多
通过引入三种简单的随机字节对编码变体并探索选择合并操作的随机化是否显著影响下游机器翻译任务,我们的研究旨在翻译形态丰富的语言,使用贝叶斯线性模型分析表明,两种变体与标准 BPE 几乎没有区别,而另一种变体的性能降低小于预期。我们得出结论,虽 - 序列到序列模型下的后门学习
本文针对输出空间无限离散的 seq2seq 模型做了后门攻击的研究,发现只需注入 0.2% 的样本,即可成功使模型生成指定关键词和完整句子,使用 Byte Pair 编码技术可以创建多个新的后门,通过机器翻译和文本摘要的实验验证了该方法攻击 - 符号音乐的字节对编码
本文研究在深度学习任务中,如何使用符号音乐模态并采用 Byte Pair Encoding (BPE) 对音乐数据进行字符编码,以提高音乐生成和作曲家分类模型的性能和均匀度。
- Byte Pair 编码在神经机器翻译中的未登录词效果如何?
本文针对 NMT 中 OOV 问题进行研究,发现尽管 BPE 可在一定程度上处理 OOV,但仍有相当一部分单词翻译错误,特别是涉及语言间距离较远的情况。
- 数字替换密码分割
本文提出了一种使用字节对编码 (BPE) 和单元语言模型来自动分段非分段 (无空格) 密码的方法,对 100 个随机生成的单字母替代密码平均分段错误率为 2%,对 3 个现实中的同音替代密码平均分段错误率为 27%,并提出了一种通过创建一个 - ACL利用基于 BERT 的可交换重述增强智能语音助手自然语言理解
本文介绍一种基于字节对编码和类 BERT 自注意力模型的数据增强技术,用于增强口语理解任务的性能,该方法通过领域分类和意图分类任务以及用户研究表现出了较强的性能。
- 使用神经注意力和字节对编码完成代码
本文旨在利用实现自 Li 等人的神经网络进行代码自动补全,我们将该神经网络应用了介于字符和单词编码之间的字节对编码(BPE)对源代码文件进行处理,而无需先转换为抽象语法树(AST)。我们实现了两个模型:一个注意力增强的 LSTM 模型和一个 - ACLBPE-Dropout: 简单而有效的子词规范化
本研究提出了一种名为 BPE-dropout 的简单有效的子词规则化方法,通过随机扰动 BPE 的分词过程,在相同的 BPE 框架下生成多个分词方法,使用 BPE-dropout 能够显著提高机器翻译质量,比使用 BPE 和其他子词规则化方 - 神经机器翻译中更好的子词划分
本文提出将字节对编码(Byte Pair Encoding)引入到通用无监督框架中以解决翻译任务中由于罕见或未知单词对翻译效果的限制,经实验验证在德英和中英翻译任务中,使用 accessor variety 和 description le - CTC 声学模型的子词和交叉词单元
本文提出了一种新方法来为 CTC 基于语音识别系统创建单元集。该方法使用 Byte Pair Encoding 在给定的训练文本上学习任意大小的单元集,通过使用子词和多词跨度单元,与使用字符或单词作为单位相比,可以在单位集大小和可用训练数据 - 神经机器翻译跨低资源、相关语言的迁移学习
基于 Byte Pair Encoding 的转移学习方法对低资源语言进行神经翻译的改进,提高了翻译的质量。
- EMNLP通过字节对编码学习相关语言之间的可变长度单位
本文研究了使用字节对编码(称为 BPE units)以及拼音音节作为翻译任务基本单元的效果, 结果表明,BPE units 作为翻译单元略优于拼音音节单元, 并且更适用于非元音书写系统的语言。