KUCST 参加 CheckThat 2023: 使用通用模型的高水平表现

Jun, 2023

KUCST 参加 CheckThat 2023: 使用通用模型的高水平表现

KUCST at CheckThat 2023: How good can we be with a generic model?

Manex Agirrezabal

TL;DR本文介绍了我们在 CheckThat2023 共享任务的任务 2 和任务 3A 中的方法。我们利用了一种通用方法，训练了许多机器学习模型，结果表明 Gradient Boosting 在两个任务中表现最佳，但整体表现与其他团队相当。

Abstract

In this paper we present our method for tasks 2 and 3A at the checkthat2023 shared task. We make use of a generic approach that has been used to tackle a diverse set of tasks, inspired by authorship attribution a

checkthat2023 machine learning models gradient boosting authorship attribution task performance

发现论文，激发创造

Gpachov 在 CheckThat！2023 中的新闻文章主观性检测的多元多途径集成

社交网络的广泛使用导致互联网上存在主观、误导甚至虚假信息。因此，主观性检测可以在确保信息的客观性和质量方面发挥重要作用。本文介绍了 Gpachov 团队在 CLEF-2023 CheckThat！实验室任务 2 中构建的解决方案，该解决方案涉及三个不同的研究方向，采用了微调句子嵌入编码器模型和降维、样本高效少样本学习模型以及多语言数据集上微调多语言转换器等方法，并通过简单多数投票集成的方式融合三种方法，在测试集上达到 0.77 的宏 F1，并在英语子任务上获得第二名。

Sep, 2023

CLEF-2019 CheckThat!：声明自动识别和验证概述

该论文总结了 CheckThat! Lab 在 CLEF 2019 中的活动，包含两种语言的两个任务，分别是对政治辩论或演讲中的声明进行事实核查的优先级预测 (Task 1) 和针对指定声明的事实核查，包括网页排名、分类、摘录及事实确定 (Task 2)，并通过学习排序技术、分类器等方式，展示了这些任务中最具效果的方法。同时，将所有实验数据集和评估脚本公开发布给研究社区，以便在事实核查和声明验证方面再开展进一步的研究。

Sep, 2021

PHUDGE: Phi-3 作为可扩展的评判者

通过使用 PHUDGE 调优的 Phi3 模型，在反馈测试、反馈 OOD、MT Human 和 Preference Test 等四项任务中取得了最先进的结果，大大超越了现有模型在延迟和吞吐量方面。研究还表明，与 GPT4 和人类注释者相比，这个模型在未见过的数据和绝对相对定级任务中都表现出非常强的相关性。

May, 2024

CheckThat! 2020 年：社交媒体声明的自动识别与验证概述

本研究介绍了第三届 CheckThat! Lab 的概述，该实验室包括五个任务，分别在英语和阿拉伯语中完成。实验室提供的数据集和评估脚本使得进一步的研究变得更加容易，而大部分团队使用基于 BERT、LSTMs 或 CNNs 的深度神经网络，在所有任务上都实现了相当大的提高。

Jul, 2020

BUT-FIT 参加 SemEval-2020 任务 4：多语言常识

本文描述了 BUT-FIT 团队在 SemEval 2020 任务 4（常识验证和解释）中的工作，涉及三个子任务：A、B、C。其中，在子任务 A 和 B 中，我们的提交基于预训练语言表示模型和数据增强。我们尝试了使用多语言模型和机器翻译数据集或翻译模型输入来解决另一种语言（捷克语）的任务。在子任务 C 中，我们的提交基于预训练序列到序列模型，排名第一。我们还对所有子任务进行了误差和数据集分析，并提出了我们的发现。

Aug, 2020

DWReCO 在 CheckThat! 2023 中通过基于样式的数据采样增强主观性检测

我们使用 GPT-3 模型和基于新闻透视的主观性检查表的不同样式提示生成额外的训练材料，通过 fine-tune 语言特定的 Transformer 模型来解决任务中的类别不平衡问题，并证明不同主观风格在英语、德语和土耳其语的实验中都有效。此外，我们观察到在土耳其语和英语中，基于样式的过采样比释义更好。最后，当在非英语语言中生成基于样式的文本时，GPT-3 模型有时会产生平庸的结果。

Jul, 2023

Fraunhofer SIT 参加 CheckThat! 2023: 在检测值得性分类的例子中，使用模型放大来解决分类不确定性问题

该论文描述了 Fraunhofer SIT 团队在 CLEF-2023 CheckThat！英语实验室任务 1B 中开发的第二名方法。他们通过利用集成分类方案来确定一个来自政治辩论的文本片段是否值得评估。在英语数据集上，他们的提交模型取得了 0.878 的整体 F1 分数，并在竞赛中排名第二。

Jul, 2023

用梯度提升决策树方法预测阅读期间注视数据在 CMCL 2021 共享任务中的表现

通过加入目标词汇的词汇特征以及来自单词频率列表、心理测量数据和双字母联想措施的特性，优化了 LightGBM 模型，使其在 2021 年 CMCL 共享任务眼动追踪数据预测比赛中取得了最佳表现，并在两项五项眼动追踪指标中排名第一，超过了所有参加比赛的深度学习系统。

Apr, 2021

CrossCodeBench: 源代码模型的跨任务泛化基准测试

本文提出了一个包括 216 个现有的与编程有关的任务，并以任务描述和指南等元信息进行注释的大规模基准，以评估模型的不同任务之间的泛化能力，展示出从任务指南进行的少量样本学习和学习方式带来的显著提升。

Feb, 2023

面向口语对话的任务导向对话建模的通用模型

本文介绍了我们在 DSTC-10 上构建对话模型的方法。为缩小口头和书面数据之间的差距，我们采用了大量数据扩增策略，包括人工误差注入和文本转语音转换。我们改良了预训练语言模型，并对每个子任务应用了集成算法，以训练稳健的口头对话模型。我们的方法在官方评估中排名第三，在最终的正式人类评估中排名第二。

Mar, 2022