- 历史问题中大型语言模型(LLM)的响应能力评估
通过对十个选择的大型语言模型在法语历史事实方面的回应进行评估,我们发现大型语言模型在内容和形式方面存在许多不足之处,包括整体准确率不够高、对法语的处理不均衡以及回应中的冗长和不一致性问题。
- WebCrow 法语填字游戏求解器
本研究通过扩展自动填字游戏求解器 WebCrow 2.0 到法语,采用多个模块从异构资源中检索候选答案,以应对缺乏大规模线索 - 答案数据的问题,并在两个挑战中将法国 WebCrow 的性能与人类进行了比较,结果证明其在速度和准确性方面超越 - FRACAS: 一份用于新闻中归属关系的法语标注语料库
本文介绍了一个手动注释的法语新闻语料库,用于引述提取和来源归属。语料库详细描述了数据选择和注释指南,统计了引述类型的平衡情况,并展示了参与手动标注的 8 名注释员之间的高的注释者一致性。
- FrenchMedMCQA:一份针对医学领域的法语多项选择题答题数据集
该论文介绍了 FrenchMedMCQA,即用于医学领域的多项选择问答(MCQA)的首个公开数据集,其中包含从法国药学专业毕业考试中提取的 3105 个问题,使用单选和多选题混合,提供基线模型以自动处理此 MCQA 任务。
- DrBERT:一种健壮的法语医学临床领域预训练模型
对 PLMs 在医学领域的表现进行了比较,提出了一种在法语领域预先训练 DrBERT 模型的方法,并且发布了该领域专用的 PLMs。
- 针对法语命名实体识别的对抗性适应
本文介绍了一种基于 Transformer 和对抗适应的命名实体识别方法,可以利用同一领域或混合域的无标注语料库进行大规模的特征学习和消除过拟合,以解决法语和其他资源相对有限的语言中 NER 任务的问题。实验结果表明,该方法在各种组合的 T - 对话语言的自动语音识别系统评估:语言学视角
本文以法语为案例研究,从语言学的角度探讨自动语音识别系统在复杂语境下的识别准确度,并解决了法语同音词的歧义问题,提高了法语语音转写准确度。
- 基于 Transformer 模型的法语问答任务的可用性研究
研究通过对 Transformer-based architectures 的改进和优化,尤其是在数据增强、超参数优化和跨语言转移方面,提高了法语低资源情况下的问答表现,并引入了一种紧凑的法语 FrALBERT 模型。
- Cedille:一个大型自回归的法语语言模型
本研究介绍了 Cedille 自回归语言模型,该模型是专门为法语语言训练而成的,测试结果表明 Cedille 在零样本基准测试方面优于现有法语语言模型,并在语料库过滤方面取得了改进。
- PAGnol:一种超大型的法语生成模式
我们介绍了 PAGnol,一个用于训练法语 GPT 模型的平台,该平台旨在提高法语自然语言处理方面的覆盖率。使用缩放定律,我们在与 CamemBERT 相同的计算预算下高效地训练 PAGnol-XL,这是目前为止训练的规模最大的法语 GPT - FQuAD2.0:法语问答和知道你什么也不知道
FQuAD2.0 is a new dataset that extends FQuAD with unanswerable questions, enabling the training of French Question-Answe - ACLCamemBERT: 一种美味的法语语言模型
本研究通过利用网络爬虫数据构建法语单语语料库,研究了训练法语单语 Transformer-based 语言模型的可行性,并在词性标注、句法分析、命名实体识别和自然语言推理等任务上取得了准确的结果。
- 多模机器翻译和多语言图像描述第二次共享任务的发现
该论文介绍了针对多模态机器翻译和多语言图像描述的第二个共享任务的结果。该任务涉及新的法语语言和两个新的测试集,并改变了多语言图像描述任务的测试方式,只提供图像,即图像只描述。与去年相比,多模态系统得到了改进,但纯文本系统仍然具有竞争力。
- MM极简语法处理小品词
本文提出了一种对法语无处不在的代词的处理方法,介绍了词汇条目和复杂句法现象的识别,并强调了对代词攀升和提升动词的分析。