本文介绍了如何将自然语言处理 (NLP) 中最新的预训练语言模型 BERT 应用于生物医学文献的文本挖掘,并提出了一种自然语言处理 (BioBERT) 模型用于生物医学文本挖掘,该模型在以前的生物医学文本挖掘任务中表现得比 BERT 好并且公开了该模型的预训练权重以及源代码。
Jan, 2019
介绍了一种新的语言表示模型 BERT,可以通过预训练深度双向表示生成模型从未标记的文本中学习,通过微调可用于广泛的任务,包括自然语言处理。
Oct, 2018
本研究使用 RobBERT 作为荷兰语预训练模型,对各种任务的执行效果进行了测量,包括用于微调的数据集规模的重要性以及模型的公平性。研究发现,RobBERT 在各种任务上都可以提供良好的性能,并且在处理较小的数据集时明显优于其他模型,这表明它是适用于多种荷兰语任务的功能强大的预训练模型。
Jan, 2020
本文提出了一种用于波斯语的单语 BERT 模型(ParsBERT),并采用庞大的数据集进行预训练和各种自然语言处理任务,证明该模型相对于其他结构和多语言模型具有更好的性能。
May, 2020
本研究通过利用网络爬虫数据构建法语单语语料库,研究了训练法语单语 Transformer-based 语言模型的可行性,并在词性标注、句法分析、命名实体识别和自然语言推理等任务上取得了准确的结果。
Nov, 2019
本研究展示了 BERT 如何在文本摘要中有用地应用,并提出了一种通用的框架,包括抽取式模型和生成式模型。在此框架下,我们引入了一种新的基于 BERT 的文档级编码器,该编码器能够表达文档的语义并获取其句子的表示,通过堆叠多个 Transformer 层来构建我们的抽取式模型,对于生成式摘要,我们提出一种新的微调策略,以解决编码器和解码器之间的不匹配问题,并演示了两阶段微调方法可以进一步提高生成摘要的质量。在三个数据集上的实验表明,我们的模型不仅在抽取式设置下,在生成式设置下也达到了最先进的水平。
Aug, 2019
研究 BERT 语言模型在文本分类任务上的微调方法,提供一般的解决方案,并在 8 个广泛研究的文本分类数据集上取得了最新的最好结果。
May, 2019
本研究通过将定制和合适的双语预训练语言模型(称为 BiBERT)的输出(上下文嵌入)作为神经机器翻译编码器的输入,展示了实现最先进的翻译性能的方法,并提出了一种随机层选择方法和双向翻译模型的概念,以确保充分利用上下文嵌入。
Sep, 2021
本文利用 BERT 模型重新排序自动语音识别中的 N 个最优假设,同时融合了任务特定的全局主题信息。实验表明,相较于循环神经网络和利用 BERT 计算伪对数似然分数的方法,本方法在 AMI 基准语料库上的有效性和可行性得到了证实。
Apr, 2021
BERTweet 是第一个用于英语推文的公共大规模预训练语言模型,通过 RoBERTa 预训练程序进行训练并表现优于之前的最先进模型,可用于推文文本的各种任务。