- ACL语言模型的嵌入重用
介绍了一种称为 embedding recycling 的方法,通过对预训练模型中间层的激活缓存,以及学习后续层的任务适配器,可实现在训练和推断时节省大量时间和计算成本的效果,通过在 17 到 900 million 参数的 8 个不同模型 - 使用语言模型解决定量推理问题
Minerva 是一个预训练于自然语言数据并进一步训练于技术内容的大型语言模型,通过在技术基准测试中达到最先进的性能,帮助解决了需要量化推理的数学、科学和工程问题的任务,同时在 200 多个需要量化推理的本科水平的物理学、生物学、化学、经济 - 零样本语音调制用于去噪扩散 TTS 模型
本文提出了一种新的方法,通过采样识别新目标的自然语音数据,并在推理期间利用加噪扩散语音模型生成具有目标讲话者相似声音的音频,而不需要进行任何训练步骤。
- 单个预训练模型生成多样性彩票模型提升集成
本文提出了 Multi-Ticket Ensemble 方法,该方法通过针对单个预训练模型的不同子网络进行微调并将它们集成,以增加预测结果的多样性,并在一些任务上取得了优于标准集成的效果。
- 为检测词语插入和删除错误预训练中文 BERT 模型
本研究通过引入特殊的 [null] token 建立了一个简单而有效的预训练模型来解决中文 BERT 模型在词插入和删除方面的表现缺陷。通过设计预测任务,模型能够联合给定上下文同时预测非存在词和实际词汇,并进一步创造了一个评估数据集以促进词 - 芯片布局的灵活多目标强化学习
本文提出一种灵活的多目标强化学习方法 (MORL),使用单个预先训练的模型来支持具有推理时间变量权重的目标函数,并成功地将其应用于芯片布局中,有效地生成多个目标的 Pareto 前沿。
- ICLRFine-Tuning 可以扭曲预训练特征且在超出分布时表现不佳
本文研究预训练模型在下游任务中的迁移方法,发现在预训练特征优秀且分布偏移较大的情况下,与全微调相比,线性探针能够获得更好的模型鲁棒性,同时,我们证明以固定或随机线性层初始化的全微调方法会导致模型在分布偏移下的错误率明显上升,而线性探针再进行 - 无监督微调
本文研究了无监督微调的问题,提出了两种简单有效的策略来将源数据和目标数据进行组合以实现更好的传递性能。通过在多个不同的目标数据集上进行广泛的实验,表明了所提出的 “无监督微调” 策略比朴素策略具有更好的传递性能。
- EMNLPIndoBERTweet:印度尼西亚推特预训练语言模型,具有效领域特定词汇初始化
本研究介绍了 IndoBERTweet,这是第一个大规模预训练的印度尼西亚语 Twitter 模型,它通过扩展单语训练的印度尼西亚 BERT 模型来训练,并使用了特定领域的词汇表。我们特别关注词汇不匹配下的有效模型适应性,并基准测试了不同的 - GODIVA:从自然语言描述中生成开放域视频
本研究提出使用三維稀疏注意力機制的開放領域文本到視頻預訓練模型 GODIVA,可通過自回歸方法生成視頻。該模型在 Howto100M 上進行預訓練,可用於視頻生成任務的調整,並具有良好的零 - shot 能力。為了自動評估視頻生成質量,還提 - EMNLP准确的任务形式化对于 Winograd 模式评估至关重要
通过分析 Winograd Schema 挑战数据集的输入规范、损失函数、以及预训练模型参数的复用情况,本研究发现这些规范的改变是近期模型在该项挑战中精度飞跃的主要原因,而非模型推理能力的提升。此外,本研究还提出了多项技巧以缓解模型超参数的 - 对话回复生成的多参考训练
该研究工作研究了如何构造多参考训练数据和使用具有表达性先验的 LGM 模型来提高对话模型的生成多对多关系的能力。
- ACL使用预训练的编码器 - 解码器模型加强语法错误修正的基线
本研究探索了使用双向和自回归转换器 (BART) 作为通用预训练编码器 - 解码器模型的实用性,以解决语法错误纠正问题中需要长时间预训练的问题,并发现单语和多语言 BART 模型在语法错误纠正方面取得了很高的表现。
- COVID-Twitter-BERT:一个用于分析 Twitter 上 COVID-19 内容的自然语言处理模型
该论文介绍了基于 transformer 的 COVID-Twitter-BERT 模型,通过对大量 Twitter 上有关 COVID-19 的消息进行预训练,该模型在五个不同的分类数据集上相较于 BERT-Large 基础模型提高了 1 - EMNLP命名实体识别的严格研究:微调预训练模型可否引领应用?
本文研究在 fine-tuning 预训练模型的情况下,在命名实体识别任务中如何面对开放环境中可能面临的挑战,作者进行了随机测试和实证实验,结果表明,命名规则对于模型推广到未见过的提及至关重要,高覆盖率可能削弱模型的推广能力,而上下文模式则 - 使用预训练的序列到序列模型进行文档排名
通过对预训练序列到序列模型进行新的调整,使其能够用于文档排名任务,相比较于 BERT 等仅采用编码器预训练变压器架构的基于分类的排名方法,我们的方法在实验中展现出了更好的性能,并发现我们的方法在数据较少的情况下更能胜任。
- 基于可转移模型嵌入的黑盒对抗攻击
本文提出了一种新的黑盒对抗攻击方法,通过使用预训练模型学习低维嵌入,然后在此嵌入空间内进行高效搜索,从而攻击未知目标网络。该方法能够生成具有高级语义模式的对抗性扰动,易于迁移,可大大提高黑盒对抗攻击的查询效率。作者在 MNIST、Image - 可视化和测量 BERT 的几何形状
本文描述了一种特别有效的模型 BERT,它能够通过从语义和句法子空间中提取一般有用的语言特征来代表语言信息,同时还探讨了注意力矩阵和单词嵌入中的句法表示,并提出了一种数学证明来解释这些表示的几何形态。
- ICLR通过解释进行视觉说明:提高深度神经网络视觉反馈能力
本文提出了一种基于内部特征及可视化的方法,能够自动识别预先训练模型中与给定类相关的特征,以进行深度模型的解释和阐释,并且提出了一种针对 deconvNet 可视化操作引入的伪像问题的方法,同时还提出了一个专门用于视觉解释方法客观定量评估的数 - 机器阅读理解中的迁移学习的两阶段综合网络
使用 SynNet 技术构建的预训练模型进行跨领域机器阅读理解,将 F1 值提高至 44.3%,并使用多个模型预测融合,达到 46.6% 的 F1 值,在无提供的标注数据情况下,优于基线模型的 7.6%。