通过问答实现低资源印度尼西亚语标题党取消
利用自注意力变换器模型(mBERT, mT5)以及构建新的基准数据集(76.5k 的文章摘要对),在资源有限的语言乌尔都语中,提出了一个自适应低资源摘要方法,能够有效地捕捉低资源语言的上下文信息并取得与英文高资源语言中最先进模型相媲美的评估结果。
Oct, 2023
该研究以 BanglaBert 为基础,利用多种策略进行情感分析,并建立了一个包含三种最佳 BanglaBert 变体的集成模型,在 BLP-2023 中的排名为第三。
Nov, 2023
本研究通过 33,605 条孟加拉文新闻推文和 Facebook 评论创建了一个庞大的手动注释数据集,并对 Flan-T5、GPT-4 和 Bloomz 等多种语言模型进行了零指导和少量指导的上下文学习,与精细调优模型进行了比较分析。研究结果表明,在零指导和少量指导的场景下,单语言变换器模型始终优于其他模型。为了促进进一步的研究探索,我们打算向更广泛的研究社区公开提供这个数据集和我们的研究工具。
Aug, 2023
使用双向 LSTM 网络与相似度度量的对比损失函数,通过在共同空间中学习资源贫乏和资源丰富句子的表示方法,实现了情感分析和表情符预测等文本分类任务中对资源贫乏语言(如印地语和泰卢固语)和资源丰富语言(如英语和西班牙语)进行有效分类的目标。
Jun, 2018
我们介绍了一个新的 Filipino 语言建模数据集,并展示了在低资源环境下,采用 BERT 和 ULMFiT 等语言模型微调技术,能够稳定地训练出健壮的分类器。
Jun, 2019
研究提出了一个不依赖于特定领域的问答模型,并探讨了大型预训练语言模型、各种数据采样策略以及通过背景翻译生成的查询和上下文释义的相对优点。我们发现简单的负采样技术特别有效,即使它通常用于包括无法回答的问题(如 SQuAD 2.0)的数据集。当与域内采样结合应用时,基于 XLNet(Yang 等人,2019)的提交在 MRQA 领袖板竞赛中取得了第二名的准确匹配和 F1 得分。
Dec, 2019
本研究针对缺乏百科全书文本贡献者的问题,提出了一种基于多语言参考文章的跨语言多文档摘要生成任务,同时建立了一个基准数据集,并提出了一种基于神经网络的有监督和无监督摘要生成系统,实验表明多领域的训练要优于多语言的设置。
Mar, 2023
本文旨在解决低资源语言菲律宾文的文本分类问题,并提供了两个以往未发布的数据集作为基准,使用预训练的 BERT 和 DistilBERT 模型并引入一个简单的性能衰减测试,以评估模型在不同训练集数量下的表现降低速度,并释放所有模型和数据集供研究社区使用。
May, 2020
本文描述了我们为 SemEval-2023 任务 12 而设计的系统:对非洲语言进行情感分析。为了缓解低资源环境下标记数据和语言资源的短缺问题,我们提出了一个通用的多语言系统 SACL-XLMR,用于对低资源语言进行情感分析。我们的系统在多语言和零样本情感分类子任务中表现出色,并在零样本分类子任务中获得了官方排名的第一名。
Jun, 2023
该论文提出了一种用于 COQA 多语言问题解答的系统,该系统使用多种模型变体在数据增强、语段检索和答案生成三个主要组件上进行了研究,并结合语言模型预训练和数据增强等方法有效提高了针对低资源语言的表现。
May, 2022