使用 Gumbel Softmax 层的梯度上升法可将可视化神经元的技术扩展到 NLP 任务中,产生优于传统语料搜索的 n-gram 表示。该表示突出了 Imaginet 架构的语言和视觉模型之间的句法意识差异。
Sep, 2018
研究 transformers 中的注意机制对视觉和语言任务的扩展,并发展适应性方法来提高模型的可解释性和计算效率。具体地,研究注意范围、稀疏和结构化 dropout 等方法,以帮助了解模型对输入序列的复杂性感知和对不同模态的稀疏性偏好。
May, 2020
该论文研究了序列标注结构中使用单词嵌入进行相似性捕获时处理以前未见过或罕见单词时的问题,并提出了一种新颖的架构来组合替代单词表示。通过使用注意力机制,模型能够动态决定从单词或字符级组件中使用多少信息。我们在一系列序列标注数据集上评估了不同的架构,并发现字符级扩展在每个基准测试中都提高了性能。此外,即使使用较少的可训练参数,提出的基于注意力的架构也能够提供最佳结果。
Nov, 2016
本文提出使用稀疏单词表示来压缩神经语言模型的参数量,以减少计算资源需求并提高性能表现。
Oct, 2016
本文提出了一种轻量级的卷积神经网络结构,可用于创建句子的定长向量嵌入表示,可应用于构建自然语言处理系统,包括对话代理,经过优化的卷积神经网络架构可显著缩短学习时间,减少参数数量,提高自编码准确率,并通过 SentEval 基准套件评估所建模型所创建的表示,并表明这可以作为流行的词袋表示形式的更好的但资源要求较低的选择。
Aug, 2018
本研究提出了基于结构化词典的完全组成的输出嵌入层,用于改善语言模型在新域和任务中的适应能力问题,为我们所知,这是第一个单词级别的语言模型,其大小不取决于训练词汇表,并通过低频词的样本效率来提高精度。
Sep, 2020
研究使用 KgV 提出了一种结合了 sigmoid 门控机制和 softmax 注意力机制的模型框架,同时采用张量链来减少嵌入层的超参数,并引入了 H-SoftPOS 当作嵌入层,相较于现有技术在性能和内存成本方面都有显著提高,并命名该体系结构为 Anthe。
May, 2023
本文研究了多尺度变压器语言模型,提出了三种不同的架构,并实验性地证明了多尺度表示在内存效率,计算时间和困惑度方面的优势,具有特殊的吸引力。
该研究提出了一种结合大型参数神经网络和非参数周期性记忆组件的语言模型,通过缓存本地隐藏状态和检索一组最近的邻居标记来使用扩展的短期上下文和全局长期记忆,并设计门控函数来自适应地组合多个信息源来做出预测。
Feb, 2021
该论文提出了一种新的方法 Byte2Word,通过引入交叉注意力网络建立单词级别的表示,并基于单词级别的隐藏状态进行子词级别的预测,从而实现了更精简的输入嵌入方式,同时在语言模型和文本分类上表现出与强大的基准模型 BERT 相当的性能。
Nov, 2022