为新十年打下基础:使用BERT进行序列标注、句法和语义分析
本文对多语种命名实体识别和词性标注任务中预训练的 BERT、BPEmb 和 FastText 非上下文子词嵌入进行系统性评估,发现对于跨语言和任务而言,BERT、BPEmb 和字符表示的组合效果最佳,但在资源匮乏的情况下,非上下文子词嵌入的表现更加优秀。
Jun, 2019
本文介绍了Sentence-BERT (SBERT),它是预训练BERT网络的修改版,利用孪生和三元组网络结构来推导语义上有意义的句子嵌入,可以使用余弦相似性进行比较,将BERT / RoBERTa的寻找最相似组合的时间从65小时降至大约5秒钟,并保持来自BERT的精度。在共同的STS任务和转移学习任务中,我们评价SBERT和SRoBERTa,该方法优于其他最先进的句子嵌入方法。
Aug, 2019
我们提出了一种实用的方案来训练一个单一的多语言序列标注模型,这个模型在单个CPU上运行,能够给出最先进的结果,足够小和快速。从一个公共的多语言BERT检查点开始,我们的最终模型比最先进的多语言基线模型更加准确,并且速度更快,6倍更小。我们证明了我们的模型特别是在低资源语言上表现出色,并且可以在混合输入文本上工作,而不需要对混合示例进行明确的训练。我们通过70棵树库和48种语言的词汇标注和形态预测来展示我们方法的有效性。
Aug, 2019
该论文系统地研究了面向通用文本表示的分层BERT激活,以了解其捕获的语言信息以及它们在不同任务之间的可转移性。在下游和探测任务中,句子级别的嵌入与两个最先进的模型进行了比较,而段落级别的嵌入则在四个问答(QA)数据集上进行了学习排名问题设置的评估。结果表明,将预训练的BERT模型微调于自然语言推断数据上可以显著提高嵌入的质量。
Oct, 2019
本文主要介绍了采用预训练的深度学习语言模型用于自然语言处理的相关研究,特别是新型的transformer-based BERT模型。与其他大多采用英语等高资源语言的研究不同,本文侧重于针对冷门语言芬兰语的研究,探索基于多语言模型Fine-tune和基于芬兰语数据单独训练的模型的性能比较,实验结果表明后者的表现较好,成为当前芬兰语POS标注、NER和依存分析任务的先进模型。
Dec, 2019
我们介绍了 Latin BERT,它是一种针对拉丁语言的上下文语言模型。在多个案例研究中,我们展示了该模型在自然语言处理和传统学术研究中的多种应用,比如在所有三个拉丁语通用语义数据集上都取得了最新的最佳词性标注成果,并通过查询上下文最近邻实现了语义上信息化的搜索。
Sep, 2020
本文探讨了如何有效地利用未标记数据——通过探索任务特定的半监督方法Cross-View Training (CVT),并将其与任务不可知的BERT在包括领域和任务相关的英语数据的多个设置中进行比较。CVT使用较轻的模型结构,并表明它在一组序列标记任务上实现了与BERT相似的性能,具有更小的经济和环境影响。
Oct, 2020
探讨了使用BERT和ALBERT进行Sentence Embedding的方式,并通过实验发现,对于STS和NLI数据集的任务,ALBERT表现明显优于BERT。
Jan, 2021
本文通过引入公理化数据集分析技术,研究了BERT模型在信息检索中的应用,并发现BERT模型在大规模语料库中并不遵循给定的检索启发式规则,但在性能上仍然优于传统的查询似然检索模型。
Jan, 2022
近年来,深度学习在解决各种自然语言处理问题上得到了大量应用。本文回顾了以BERT为代表的预训练模型在信息检索领域的方法,涵盖了长文档处理、语义信息整合、平衡效果与效率、术语权重预测、查询扩展和文档扩展等六个高级类别,并与基于解码器的生成式大型语言模型进行了比较,结果表明在特定任务上,经过调优的BERT编码器仍然具有更好的性能和更低的部署成本。最后,总结了调查的全面结果,并提出了未来研究的方向。
Feb, 2024