BERTese: 学习向 BERT 交流
本文提出了 bert2BERT,通过参数初始化有效地将现有较小的预训练模型(如 BRET_BASE)的知识转移到大型模型(如 BERT_LARGE),并通过提出高级知识进一步改进大型模型的初始化以及两阶段预训练方法,以此显着提高大型模型的预训练效率,这个方法被证明要比从头开始训练,StackBERT 和 MSLT 并使用不同类型的预训练模型的基线方法显着节省训练成本,特别是 bert2BERT 通过重复使用几乎是其一半大小的模型,将 BERT_BASE 和 GPT_BASE 的预训练计算成本节省约 45% 和 47%。
Oct, 2021
本文提出了一种对 BERT 进行微调的方法(Phrase-BERT),使其能够生成更强大的短语嵌入,Phrase-BERT 利用一个由短语描述形式多样的同义词集以及从 Books3 语料库中挖掘的大规模情境短语数据集生成模型,并在各种短语级相似性任务中优于基线。 此外,该文还将 Phrase-BERT 嵌入式与简单的自编码器相结合,构建了一种利用向量空间中最近邻搜索将主题解释为词和短语混合的短语主题模型。 众包评估表明,该短语主题模型比基线的单词和短语级主题模型产生更一致和有意义的主题,进一步验证了 Phrase-BERT 的效用。
Sep, 2021
本文利用 BERT 模型重新排序自动语音识别中的 N 个最优假设,同时融合了任务特定的全局主题信息。实验表明,相较于循环神经网络和利用 BERT 计算伪对数似然分数的方法,本方法在 AMI 基准语料库上的有效性和可行性得到了证实。
Apr, 2021
本篇文章研究使用知识图谱中的实体信息是否有助于基于 BERT 的实体检索模型,结果表明使用实体信息的 BERT 模型在复杂自然语言查询和属性筛选等实体相关查询任务中相比传统 BERT 模型具有更好的推荐效果,并且使用该模型可以在数据不足的情况下进行微调以实现对实体搜索的数据有效训练。
May, 2022
本文主要研究神经网络中的自然语言处理,通过将 BERT 知识蒸馏成单层 BiLSTM 及其同侧对应的句对任务,证明了浅层神经网络仍然可以在不使用架构变化、外部训练数据或其他输入特征的情况下,与 ELMo 相比获得可媲美的结果。
Mar, 2019
通过将短语复述关系注入 BERT,可以在不增加模型大小的情况下获得适当的表示,即可提高语义等价性评估。通过标准自然语言理解任务的实验,证明这种方法在保持模型大小的同时,有效地改进了一个较小的 BERT 模型。生成的模型在语义等价性评估任务上表现优异,并在训练数据集有限的任务上实现了更大的性能提升,这是一种有利于迁移学习的属性。
Sep, 2019
提出了一种改进的语言表示模型 Semantics-aware BERT,通过集成来自预训练语义角色标注的显式上下文语义,从而在十项阅读理解和语言推理任务中获得了新的最先进或实质性改进的结果,以促进自然语言理解。
Sep, 2019
该研究探讨了自然语言处理中模型提取的问题,结果表明,在具有查询访问权限的情况下,攻击者可以使用任意的打乱语序的字串以及特定启发式方法从模型中提取出相应模型的本地副本,通过使用预先训练好的 NLP 模型,使用转移学习的方法,他们在各种类型的 NLP 任务上展现出了攻击的有效性。而防范措施则徒劳无功。
Oct, 2019
介绍了一种新的语言表示模型 BERT,可以通过预训练深度双向表示生成模型从未标记的文本中学习,通过微调可用于广泛的任务,包括自然语言处理。
Oct, 2018
提出了一个名为 E-BERT 的统一的预训练框架,旨在解决 BERT 在 E-commerce 相关任务中无法很好支持两种级别的领域知识的问题,该框架通过自适应混合掩蔽实现了短语级别知识的保留以及通过邻居产品重构实现了利用产品级别知识,研究表明 E-BERT 在评论问答、方面提取、方面情感分类和产品分类等四个下游任务中有着良好的表现。
Sep, 2020