Jul, 2024

CheckThat! 2024中的Nullpointer:从多语种文本序列中识别主观性

TL;DR本研究对二分类任务进行了探讨,以确定一个文本序列(句子或段落)是否主观或客观。研究涵盖了五种语言:阿拉伯语、保加利亚语、英语、德语和意大利语,以及跨语言类别。我们的方法包括了几个关键技术:通过词性标注对数据进行预处理、识别问号和应用注意力掩码。我们在我们的数据集上对情感基础的Transformer模型'MarieAngeA13/Sentiment-Analysis-BERT'进行了微调。鉴于客观数据较多的不平衡情况,我们实现了一种自定义分类器,给予客观数据更大的权重。此外,我们将非英语数据翻译成英语,以保持数据集的一致性。我们的模型取得了显著的结果,在跨语言数据集(Macro F1=0.7121)和德语(Macro F1=0.7908)方面获得了最高分。在阿拉伯语(Macro F1=0.4908)和保加利亚语(Macro F1=0.7169)方面排名第二,意大利语(Macro F1=0.7430)排名第三,在英语(Macro F1=0.6893)方面排名第九。