DORE: 用于葡萄牙语定义生成的数据集

COLINGMar, 2024

DORE: 用于葡萄牙语定义生成的数据集

DORE: A Dataset For Portuguese Definition Generation

Anna Beatriz Dimas Furtado, Tharindu Ranasinghe, Frédéric Blain, Ruslan Mitkov

TL;DR通过引入包含超过 100,000 个定义的 DORE 数据集，并对其进行评估，本研究填补了葡萄牙语领域中的定义建模数据集的空白，并报道了基于深度学习的定义建模模型的结果，该数据集和本文的发现将促进对葡萄牙语的更广泛的研究和学习。

Abstract

definition modelling (DM) is the task of automatically generating a dictionary definition for a specific word. Computational systems that are capable of DM can have numerous applications benefiting a wide range of audiences. As DM is considered a supervised →

definition modelling dm dataset portuguese deep learning natural language generation

发现论文，激发创造

评估语言模型中的语言推广能力：面向巴西葡萄牙语的数据集

本研究提出了一种评估方法，针对用于巴西葡萄牙文的语言模型，通过固定的语言格式，考察语言信息的编码方式，评估不同的语言模型在处理语法结构和多词表达方面的泛化能力，解决了语言模型黑盒且缺乏可解释性的问题。

May, 2023

GlórIA - 一种面向葡萄牙语的生成式和开放性大型语言模型

通过 Gl'orIA 这一强大的欧洲葡萄牙语解码器 LLM，在多个下游任务中，Gl'orIA 在语言模型和生成有丰富知识且连贯的葡萄牙语文本方面远优于现有的 PT 解码模型。

Feb, 2024

PORTULAN ExtraGLUE 数据集和模型：启动葡萄牙语神经处理基准测试

借助对葡萄牙语神经模型的研究，我们提供了一套用于多种语言处理任务的数据集合，以及针对这些下游任务进行细调的神经语言模型集合。通过使用最先进的翻译引擎将数据集从英语机器翻译成葡萄牙语，以与文献中的主流基准相结合，启动了葡萄牙语的对应数据集。由此产生的 PORTULAN ExtraGLUE 基准是未来葡萄牙语研究的基础，可以在后续工作中进行改进。类似地，我们使用低秩适应方法开发的相应细调神经语言模型作为基准可促进葡萄牙语神经处理的未来工作。所有数据集和模型都已开发并可用于葡萄牙语的两个变体：欧洲葡萄牙语和巴西葡萄牙语。

Apr, 2024

金融服务的葡萄牙常见问题

利用数据增强技术生成合成数据以解决葡萄牙金融领域中领域特定数据稀缺的问题，并使用不同语义相似性的技术对从巴西中央银行 FAQ 获取的数据集进行增强，通过有监督和无监督任务评估增强数据对低语义相似性和高语义相似性情况的影响。此外，生成的数据集将在 Hugging Face 数据集平台上公开传播，从而提高可访问性并促进自然语言处理研究社区的更广泛参与。

Nov, 2023

Darija 开放数据集的演变：介绍第 2 版

DODa 是一个旨在增强对摩洛哥方言 Darija 的自然语言处理能力的开源项目，拥有大约 100,000 个条目，是 Darija-English 翻译领域最大的协作项目，包含语义和语法分类、拼写变化、多种时态的动词变位以及成千上万个翻译的句子。该数据集反映了语言上的变体和偏好，包括使用拉丁字母和阿拉伯字母书写的条目，对于开发准确理解和生成 Darija 的应用程序至关重要，支持摩洛哥社区的语言需求，并可能扩展到邻近地区的类似方言。本文探讨了 DODa 的战略重要性、目前的成果以及未来的增强计划，旨在促进其在全球自然语言处理领域的使用和发展。

May, 2024

介绍 Bode：用于葡萄牙语基于提示任务的精细调整大型语言模型

提出了一种基于 LLaMA 2 的经过精调的模型，用于处理葡萄牙语提示，并通过零样本方法在分类任务中进行性能评估，为葡萄牙语提供了令人满意的结果，并且具有研究或商业用途的自由模型。

Jan, 2024

定义建模：学习在自然语言中定义词嵌入

本文研究如何利用分布式表示生成单词的字典定义，介绍了几种基于 RNN 的定义模型，探讨了字母级别卷积层对词级嵌入的补充，最终通过错误分析揭示了模型的缺陷。

Dec, 2016

Dolma: 一个包含三万亿标记的开放语料库，用于语言模型预训练研究

释放 Dolma，这是一个由各种网络内容、科学论文、代码、公共领域图书、社交媒体和百科全书材料混合构建的拥有三万亿个标记的英文语料库。我们还开源了数据整理工具包，以便进一步实验和复现我们的工作。报告中描述了 Dolma 的设计原则、构建细节和内容摘要，并与在 Dolma 的中间状态上训练语言模型的分析和实验结果交叉展示，分享了我们对重要数据整理实践的了解，包括内容或质量过滤器、去重和多源混合的作用。Dolma 已被用于训练 OLMo，这是一个设计用于构建和研究语言建模科学的最先进的开放式语言模型和框架。

Jan, 2024

MOROCO：摩尔多瓦和罗马尼亚方言语料库

介绍了 MOldavian 和 ROmanian 方言语料库（MOROCO），包含来自六个主题的 33564 个文本样本和用于分类任务的标签，使用基于字符串核的浅层方法和包含 Squeeze-and-Excitation 块的字符级卷积神经网络的深层方法进行实验和研究了最具有区分性的特征。

Jan, 2019

葡萄牙自然语言处理模型训练的法律框架

通过引入大量人类语言文本数据，利用深度学习等技术发展的应用程序与人工智能之间的法律的研究与合规问题。

May, 2024