- 一种在端到端 ASR 系统中修复分词器词汇大小的成本最小化方法
通过在 LibriSpeech 100 小时数据集上的实验证明,当仔细选择标记数量时,端到端 ASR 系统的性能会有所提升。
- PETA: 基于亚词分词的蛋白质迁移学习对下游应用的影响评估
基于 14 种不同词汇大小的 PETA 训练语言模型在 33 个多样的下游数据集上进行了数千次测试,研究表明词汇大小在 50 到 200 之间对于模型的优化最佳,而超过 800 的大小则对模型的表征性能产生不利影响。
- LLM 培训的标记器选择:微不足道还是至关重要?
在大规模预训练语言模型(LLMs)中,我们进行了一项全面研究,探究了分词器选择对下游性能、训练数据集和词汇量的影响。研究发现,分词器的选择可以显著影响模型的下游性能、训练和推理成本,并指出常用的分词器评估指标并不能准确预测模型性能,特别是多 - Radio2Text: 使用 mmWave 无线电信号的流式语音识别
本文提出了 Radio2Text,这是第一个基于毫米波的流式自动语音识别系统,具有超过 13,000 个词汇大小的识别能力。Radio2Text 基于定制的流式 Transformer,有效地学习了与语音相关的特征表示,为具有大词汇量的流式 - 环境限制下的情境依赖性沟通
本文通过基于经典的 Lewis(1969)信号模型的变体,探讨了环境条件、认知能力等因素在情境中促进了上下文相关通讯的出现,表明减小词汇规模是实现此目标的条件,由此产生的信号可以无需接收方的消除歧义能力而不产生问题。
- COLING神经机器翻译中大动作空间的强化学习
通过减少词汇量和有效减少行动空间,以提高强化学习在神经机器翻译中的表现,取得了显著的 BLEU 分数改善,即平均 1.5 分。
- ACL文本分类中算法性能、词汇量和运行时间之间的关系探究
我们提供了一项综合研究,研究了 10 种预处理技术如何影响词汇量大小、模型性能和模型运行时间等因素,发现一些组合技术可以在不降低正确率的情况下缩短运行时间,并且还有一些组合方法可以缩短运行时间同时提高模型准确性。
- EMNLP新生语言的语法
本文使用无监督语法归纳技术分析参考游戏中出现的语言的句法属性,证明了这些技术适用于分析新兴语言,并研究了语言的出现是否具有句法结构,及其程度依赖于消息的最大长度和代理可以使用的符号数量。实验表明,需要一定的消息长度和词汇量,才能形成结构,但 - 使用注意力机制的紧凑型图像标注模型
本文提出了一种名为 COMIC 的紧凑型图像字幕生成模型,其嵌入词汇表长度比现有方法小 39-99 倍,但在五个常见的评估指标上在 MS-COCO 和 InstaPIC-1.1M 数据集上达到了与最先进方法相当的结果。
- ICLR连续输出序列到序列模型的 von Mises-Fisher 损失训练
本研究提出了一种用连续嵌入层替代 Softmax 层的技术,使得生成的语言模型具有较大的词汇表并且具有比传统模型更高效的训练速度,在神经机器翻译任务上的表现也保持在业界领先水平。
- ACL神经机器翻译中的日语谓词变化
本研究提出了一种基于谓词词形变化的日本语 - 英语神经机器翻译方法,将词汇表中各种动词形式压缩为更少的单词,并通过属性词汇信息生成低频词汇和处理未知词汇,有效地压缩词汇表的大小,并在翻译中提高了 BLEU 分数。
- 通过生成多个语言因素的神经机器翻译
论文提出基于神经网络模型输出端单词的形态和语法分解(因子)的分步神经机器翻译(FNMT),解决了机器翻译中目标语言词汇量和未知词汇数产生的问题。在 IWSLT'15 英法任务中,FNMT 模型表现优异,达到了与基于单词和基于 BPE 的神经 - ICMLGPU 上高效的 softmax 近似算法
文章提出了一种名为自适应 softmax 的算法,采用字词聚类的方法来降低神经网络语言模型训练中的计算复杂度,并结合现代计算机体系结构和矩阵向量运算技术进一步提高了训练效率。实验结果表明该方法的效果稳定,能够在保证高精度的同时显著提高计算速 - 使用双向 LSTM 进行词义消歧
本文提出了一个使用双向长期短期记忆网络的干净而有效的词义消歧模型,该模型能够共享统计强度并且随着词汇量的增长实现很好的可扩展性。我们对其进行了两个标准数据集的评估,并取得了与最佳现有系统相同的效果,同时没有使用任何外部资源或手工编写规则。
- 神经机器翻译的词汇操作
本文提出了一种句子级或批量级词汇表来缓解神经机器翻译模型中需使用大词汇表的问题。此方法根据源句子中每个单词或短语的翻译选项,选择非常小的目标词汇表,并基于单词翻译模型或双语短语库来实现。实验结果表明,该方法在英法翻译任务中的 BLEU 分数