基于 Transformer 的模型在法语口语理解任务上的基准测试
研究通过对 Transformer-based architectures 的改进和优化,尤其是在数据增强、超参数优化和跨语言转移方面,提高了法语低资源情况下的问答表现,并引入了一种紧凑的法语 FrALBERT 模型。
Jul, 2022
该研究比较了几种学习策略以减少使用自监督模型进行训练的计算时间和能源消耗成本,同时在 FSC 和 MEDIA 语料库上的实验表明,该方法可以在保持最先进性能的同时降低学习成本。
Jul, 2022
本研究通过利用网络爬虫数据构建法语单语语料库,研究了训练法语单语 Transformer-based 语言模型的可行性,并在词性标注、句法分析、命名实体识别和自然语言推理等任务上取得了准确的结果。
Nov, 2019
首次公开提供的法语生物医学语言理解基准 DrBenchmark,评估 8 种最新的预训练掩码语言模型 (MLMs) 的通用和生物医学特定数据上的性能,以及英语特定的 MLMs 来评估它们的跨语言能力。
Feb, 2024
这篇论文是关于对医学法语遮蔽语言模型在临床命名实体识别任务上的评估研究,发现 CamemBERT-bio 在性能上表现优于 DrBERT,而 FlauBERT 则具有竞争力,FrALBERT 的碳排放量最低。这是首个基准评估了法语医学遮蔽语言模型在临床实体识别方面的性能,并比较了其在嵌套实体识别上的性能和环境影响。
Mar, 2024
我们扩展了大规模文本嵌入基准(MTEB)以针对法语提出首个句子嵌入大规模基准,通过与 46 个嵌入模型的大规模比较和全面的统计测试,我们发现大型多语言模型在句子相似度上进行预训练的效果尤为出色。
May, 2024
使用自动转录的大规模语音来改进口语语言建模,利用法国国家音频视觉学院收集的文本数据应用 ASR,并在现有模型(FlauBERT)微调或从头开始训练口语语言模型,生成新模型(FlauBERT-Oral),并在口语理解、电视节目分类和语音句法分析 3 个下游任务中评估其性能,结果表明,与初始化 FlauBERT 版本相比,FlauBERT-Oral 有望带来好处,表明尽管 ASR 生成的文本存在噪音,但仍可以用于构建口语语言模型。
Jul, 2022
本文研究了使用多种预训练模型对法语口语对话进行自动摘要,并发现在 DECODA(呼叫中心)对话语料库上,BARThez 模型的性能显著优于先前的最先进水平,同时也讨论了这种预训练模型的局限性和需要解决的挑战。
Jul, 2022
该研究通过对 Hindi、Bengali 和 Telugu 语言进行广泛实验,评估了基于 Transformer 架构的语言模型在印度语言上的性能,发现 Fine-tuning 预训练模型参数比从头训练语言模型更有效,而数据集大小与模型性能之间的严格依赖关系需要被探讨。最终,在文本分类任务中实现了 Hindi 和 Bengali 语言的最新技术水平,并提出了处理印度语言建模问题的有效策略。
Nov, 2020