ÚFAL 在 MultiLexNorm 2021 中：通过对 ByT5 进行微调来提高多语种词汇规范化

Oct, 2021

ÚFAL 在 MultiLexNorm 2021 中：通过对 ByT5 进行微调来提高多语种词汇规范化

ÚFAL at MultiLexNorm 2021: Improving Multilingual Lexical Normalization by Fine-tuning ByT5

David Samuel, Milan Straka

TL;DR使用基于 ByT5 的预训练语言模型，并在合成数据上进行进一步的预训练，然后在正式标准化数据上进行微调，可以实现在 MultiLexNorm 竞赛中最佳性能表现的多语言词汇规范化系统。在本文中，我们介绍了该系统的细节和表现结果。

Abstract

We present the winning entry to the multilingual lexical normalization (MultiLexNorm) shared task at W-NUT 2021 (van der Goot et al., 2021a), which evaluates lexical-normalization systems on 12 social media datasets in 11 languages. We base our solution on a pre-trained byte-level

multilingual lexical normalization language model pre-training fine-tuning performance evaluation

发现论文，激发创造

基于多语言 Transformer 的序列 - 序列词汇规范化

本论文通过使用基于 mBART 的句子级序列到序列模型，将自然语言处理中的标准化问题归结为机器翻译问题，利用多语言预训练技术进行 fine-tuned，优于操作原始社交媒体文本的模型，在下游任务中实现性能提升。

Oct, 2021

UltraLink：一种开源的知识增强的多语言监督微调数据集

本研究构建了一个开源的多语言监督微调数据集，通过引入基于知识的数据增强方法提高了大语言模型从不同国家的用户中获取文化特定知识的能力，并通过实验发现现代大语言模型表现出强大的跨语言转移能力，从而有效地减少了语言无关的微调数据，使得微调过程更加高效。基于构建的 UltraLink 数据集进行训练的 UltraLink-LM 在多个任务上优于其他代表性基线模型。

Feb, 2024

ViLexNorm：越南社交媒体文本的词汇规范化语料库

首次引入越南词汇规范化任务的越南词汇规范化 (ViLexNorm) 语料库包括超过 10,000 对句子，经过人工注释，来自越南最流行社交媒体平台的公开评论，并验证了其在 NLP 任务中的积极影响。

Jan, 2024

通用语言模型微调用于文本分类

本文提出了通用语言模型微调（ULMFiT）方法，通过预训练模型来减小 NLP 中针对特定任务和重新训练的限制，可应用于 NLP 中的任何任务，结果显示该方法在 6 个文本分类任务中的表现显著优于现有技术，且只需 100 个标记实例即可达到基于 100 倍数据重新训练的性能，同时本文公开了预训练模型和代码。

Jan, 2018

参数高效的鲁棒性全语种持续学习微调

研究 Continual Multilingual Learning 的问题，提出使用 parameter-efficient finetuning 更新 multilingual model 来减少语言特异性的遗忘，同时提高跨语言转移能力，通过 LAFT-URIEL pipeline 来改善支持语言的性能

Sep, 2022

KInIT 参加 SemEval-2024 任务 8：用于多语言机器生成文本检测的细调 LLMs

SemEval-2024 任务 8 专注于多产生器、多领域和多语言黑盒机器生成文本检测，并应用语言识别和参数高效微调小型 LLM 进行文本分类，通过每种语言分类阈值校准将微调模型预测与统计检测指标相结合，提高系统检测性能的泛化能力，我们的方案取得了竞争力的结果，在第四名，仅比冠军低 1 个百分点。

Feb, 2024

UPB 在 SemEval-2020 任务 6 中：预训练语言模型用于定义提取

本研究使用多个预训练语言模型，包括 BERT、XLNet、RoBERTa、SciBERT 和 ALBERT，通过冻结和微调它们的权重，并探索多任务架构，以解决 SemEval-2020 中的三个 DeftEval 子任务，最终取得 32 和 37 名的成绩。

Sep, 2020

ÚFAL CorPipe 在 CRAC 2022 的多语言模型对指代消解的效用

我们使用联合微调的方法，结合先进的预训练模型，成功地解决了 CRAC 2022 共享任务中的多语言指代消解问题，找到了一种足够大的编码器，提高了各数据集的表现，并提供了源代码。

Sep, 2022

KInITVeraAI 在 SemEval-2023 任务 3 中的表现：简单而强大的多语言微调用于说服技巧检测

本文提出了在 SemEval 2023 任务 3 的子任务 3 中检测说服技巧的最佳解决方案，主要是通过细调预训练的基于 Transformer 的语言模型来处理多语言输入数据和多个预测标签，该方案使用大型的跨语言模型（XLM-RoBERTa 大型模型）在所有输入数据上联合训练，而且针对已知语言和未知语言分别设置合理的置信度阈值，最终在 9 种语言中的 6 种语言上（包括两个未知语言）表现最优秀并取得了高度竞争的结果。

Apr, 2023

UPB 在 IberLEF-2023 AuTexTification 中的使用：使用 Transformer 集成检测机器生成的文本

该研究论文描述了 UPB 团队在 IberLEF-2023 的 AuTexTification 共享任务中提交的解决方案，主要使用基于 Transformer 的深度学习模型以及多任务学习等训练技术，最佳模型在英语和西班牙语数据集上分别达到了 66.63% 和 67.10% 的宏 F1 分数。

Aug, 2023