Mar, 2024

揭示 2022 年 ACL 和 EMNLP 会议数据集的趋势

TL;DR自从采用 Transformer 架构以来,自然语言处理(NLP)已经显著发展。Transformers 催生了预训练大型语言模型(PLMs)。在多个任务中,NLP 系统的性能有了巨大提升,有些情况下甚至超过了人类。然而,事实仍然是,在预训练时,更好质量的数据集能够让 PLMs 在各个任务中取得更好的性能。为了满足特定需求,NLP 研究者继续创建新的数据集,而本研究旨在揭示这些数据集中所挖掘的趋势和见解,并向未来有意策划数据集的研究者提供有价值的建议。