ÚFAL 在 MultiLexNorm 2021 中:通过对 ByT5 进行微调来提高多语种词汇规范化
本论文通过使用基于 mBART 的句子级序列到序列模型,将自然语言处理中的标准化问题归结为机器翻译问题,利用多语言预训练技术进行 fine-tuned,优于操作原始社交媒体文本的模型,在下游任务中实现性能提升。
Oct, 2021
本研究构建了一个开源的多语言监督微调数据集,通过引入基于知识的数据增强方法提高了大语言模型从不同国家的用户中获取文化特定知识的能力,并通过实验发现现代大语言模型表现出强大的跨语言转移能力,从而有效地减少了语言无关的微调数据,使得微调过程更加高效。基于构建的 UltraLink 数据集进行训练的 UltraLink-LM 在多个任务上优于其他代表性基线模型。
Feb, 2024
首次引入越南词汇规范化任务的越南词汇规范化 (ViLexNorm) 语料库包括超过 10,000 对句子,经过人工注释,来自越南最流行社交媒体平台的公开评论,并验证了其在 NLP 任务中的积极影响。
Jan, 2024
本文提出了通用语言模型微调(ULMFiT)方法,通过预训练模型来减小 NLP 中针对特定任务和重新训练的限制,可应用于 NLP 中的任何任务,结果显示该方法在 6 个文本分类任务中的表现显著优于现有技术,且只需 100 个标记实例即可达到基于 100 倍数据重新训练的性能,同时本文公开了预训练模型和代码。
Jan, 2018
研究 Continual Multilingual Learning 的问题,提出使用 parameter-efficient finetuning 更新 multilingual model 来减少语言特异性的遗忘,同时提高跨语言转移能力,通过 LAFT-URIEL pipeline 来改善支持语言的性能
Sep, 2022
SemEval-2024 任务 8 专注于多产生器、多领域和多语言黑盒机器生成文本检测,并应用语言识别和参数高效微调小型 LLM 进行文本分类,通过每种语言分类阈值校准将微调模型预测与统计检测指标相结合,提高系统检测性能的泛化能力,我们的方案取得了竞争力的结果,在第四名,仅比冠军低 1 个百分点。
Feb, 2024
本研究使用多个预训练语言模型,包括 BERT、XLNet、RoBERTa、SciBERT 和 ALBERT,通过冻结和微调它们的权重,并探索多任务架构,以解决 SemEval-2020 中的三个 DeftEval 子任务,最终取得 32 和 37 名的成绩。
Sep, 2020
我们使用联合微调的方法,结合先进的预训练模型,成功地解决了 CRAC 2022 共享任务中的多语言指代消解问题,找到了一种足够大的编码器,提高了各数据集的表现,并提供了源代码。
Sep, 2022
本文提出了在 SemEval 2023 任务 3 的子任务 3 中检测说服技巧的最佳解决方案,主要是通过细调预训练的基于 Transformer 的语言模型来处理多语言输入数据和多个预测标签,该方案使用大型的跨语言模型(XLM-RoBERTa 大型模型)在所有输入数据上联合训练,而且针对已知语言和未知语言分别设置合理的置信度阈值,最终在 9 种语言中的 6 种语言上(包括两个未知语言)表现最优秀并取得了高度竞争的结果。
Apr, 2023
该研究论文描述了 UPB 团队在 IberLEF-2023 的 AuTexTification 共享任务中提交的解决方案,主要使用基于 Transformer 的深度学习模型以及多任务学习等训练技术,最佳模型在英语和西班牙语数据集上分别达到了 66.63% 和 67.10% 的宏 F1 分数。
Aug, 2023