BriefGPT.xyz
Ask
alpha
关键词
contextualized information
搜索结果 - 3
面具更多,面具更晚:通过分解 [MASK] 令牌实现有效的遮蔽语言模型预训练
在预训练过程中追加 [MASK] 可以降低较早层的序列长度,从而在减少计算预算的前提下,提高 RoBERTa 模型的预训练效率,同时在 GLUE 基准测试中表现更好。
PDF
2 years ago
引用变压器:一种多任务视觉基础的一步方法
本次研究提出了一个基于 transformer 架构的单阶段多任务模型,通过融合视觉和语言输入,实现了高度语义转换的视觉语言解析,通过上下文信息和多任务学习,该模型在包括命名实体识别等任务上,取得了比现有方法更加突出的性能优势。
PDF
3 years ago
AAAI
一种用于多位置句子表示的语义匹配深层架构
本文介绍了一种双向长短时记忆网络(Bi-LSTM)生成的多重位置句子表示来匹配两个句子的新型深度体系结构。 实验证明,该模型具有丰富的整个句子上下文信息和灵活性,可以捕捉句子中不同的重要局部信息来支持匹配。
PDF
9 years ago
Prev
Next