在印地语和泰米尔语中针对问题的抽取式问答
本文旨在研究和比较不同的预训练语言模型在回答问题的能力上的表现,通过使用 Bert-BiLSTM 结构模型的效果来检验双向流的加入是否能够提高模型性能,并发现 RoBERTa 和 BART 表现最佳。
Oct, 2021
使用不同的 Transformer 模型,我们创建了一个基于阅读理解的马拉提语问答系统,并在马拉提语阅读理解数据集上通过对 MuRIL 多语言模型进行微调,获得了最佳准确性,EM 得分为 0.64,F1 得分为 0.74。
Sep, 2023
该研究通过对 Hindi、Bengali 和 Telugu 语言进行广泛实验,评估了基于 Transformer 架构的语言模型在印度语言上的性能,发现 Fine-tuning 预训练模型参数比从头训练语言模型更有效,而数据集大小与模型性能之间的严格依赖关系需要被探讨。最终,在文本分类任务中实现了 Hindi 和 Bengali 语言的最新技术水平,并提出了处理印度语言建模问题的有效策略。
Nov, 2020
使用提取式 QA 模型进行特征提取的方法可改善德语商业文档的信息提取,并通过微调现有德语 QA 模型提高性能,同时还讨论了评估信息提取任务的相关度得分指标。
Sep, 2023
为了在印度语中评估问答(QA)的当前评估基准,常常依赖于现有英语数据集的机器翻译。这种方法存在机器翻译中固有的偏见和不准确性,导致可能不能反映印度语 EQA 模型真实能力的数据集。本文提出了一个专门设计用于评估印度语 EQA 模型的新基准,并讨论了同样用于任何任务的方法。该方法利用大型语言模型(LLMs)在提取的环境中生成高质量的数据集,确保其对目标语言的相关性。我们相信这个新资源将通过提供更准确可靠的评估工具来促进印度语 NLP 研究的进展。
Apr, 2024
本文介绍了 IndicXNLI,一个 NLI 数据集,用于 11 种印度语言的跨语言转移技术的分析,研究了不同的预训练模型、语言、多语言和混合语言输入等因素对预训练模型的行为的影响。
Apr, 2022
通过引入针对 Indic LLMs 开发的广泛资源套件,包括 22 种语言,总共有 251 亿词汇和 7480 万指令 - 响应对,我们的工作旨在弥合其他语言的类似模型建设进展受限于资源稀缺的差距。我们的方法结合了高度策划的手动验证数据、有价值但未验证的数据和合成数据,建立了一个干净的开源流水线,用于从各种来源收集预训练数据,并采用最佳实践进行爬取、清理、标记和去重。我们还通过生成多种情景的有毒提示来解决毒性对齐问题,并通过将这些有毒提示输入到经过校对的 LLaMa2 模型中生成非有毒响应。我们希望本工作释放的数据、工具和资源不仅能推动 Indic LLMs 的研究和开发,还能为将这种努力扩展到其他语言建立一个开源蓝图。作为本工作的一部分,创建的数据和其他文物都以宽松的许可证发布。
Mar, 2024
本研究旨在调查各种深度学习架构在印地语文本分类任务中的应用。本文使用了卷积神经网络(CNN)、长短时记忆网络(LSTM)、注意力机制等模型,比较了多语言预训练句子嵌入(BERT 和 LASER)和传统翻译方法的优劣,也为流行的文本分类技术提供了教程。
Jan, 2020
本文介绍了 MIA 2022 workshop 关于跨语言信息检索中的开放式提取问题回答(QA)系统评估的结果,并评估了 16 种语言中的系统性能表现。通过对 14 种语言的大规模跨语言开放式提取 QA 数据集进行改编以及对 Tagalog 和 Tamil 两种语言进行新的标记,共有 4 支队伍提交了他们的系统,最佳系统借助多样化的负样本和更大的预训练模型实现了 32.2 的 F1 值,而第二名则在 Tamil 语言的检索中取得了显著的进展。
Jul, 2022
通过综合评估,本研究在低资源语言(如孟加拉语)的自然语言推理任务中评估了知名大型语言模型和最先进模型的性能,发现虽然大型语言模型在少样本情况下可以达到与微调后最先进模型相媲美或优越的性能,但需要进一步研究来提高我们对大型语言模型在类似孟加拉语等资源有限的语言中的理解。该研究强调了在不同语言环境中探索大型语言模型能力的持续努力的重要性。
May, 2024