- 大规模语言模型(LLMs)中的语义歧义分析
本研究旨在分析和讨论 ChatGPT 和 Gemini 等模型中的语言歧义,关注巴西葡萄牙语中的语义、句法和词汇歧义。通过创建一个包含 120 个歧义和非歧义句子的语料库,进行分类、解释和消除歧义。结果经过定性分析和基于回答准确性的定量评估 - PeLLE: 基于开放数据的巴西葡萄牙语编码器语言模型
该论文介绍了基于 RoBERTa 架构的 PeLLE 模型系列,用于巴西葡萄牙语,使用来自 Carolina 语料库的筛选的开放数据进行训练。我们描述了模型的预训练细节,通过对比大型与精选预训练模型在多个下游任务中的性能,我们评估了 PeL - 低资源语言的音标丰富语料构建
本研究介绍了一种用于创建巴西葡萄牙语语音覆盖度广泛的语音语料库的新方法,并提出了基于声音 - 口型语音特征的新的音素分类方法,通过使用该算法,我们使得与目前可用的语音丰富语料库相比,一种样本中不同音素的百分比增加了 55.8%。
- TeenyTinyLlama: 开源的巴西葡萄牙语小型语言模型训练
为了在低资源环境下利用,开发了两种紧凑的巴西葡萄牙文本生成模型,发布在 GitHub 和 Hugging Face 上供社区使用和进一步开发。
- UstanceBR: 一个用于立场预测的多模态语言资源
介绍了巴西葡萄牙语 Twitter 领域的多模态语料库 UstanceBR,该语料库包含对所选目标主题的 86.8k 个标记立场,并提供了有关在社交媒体上发布这些立场的用户的广泛网络信息。描述了语料库的多模态数据以及基于文本和网络相关信息的 - DeBERTinha: 适应巴西葡萄牙语自然语言处理任务的多步骤方法
这篇论文介绍了一种将英语预训练的 DebertaV3 XSmall 模型适应于巴西葡萄牙语自然语言处理任务的方法。该方法的关键是多步骤训练过程,以确保模型在葡萄牙语方面得到有效调整。通过对来自 Carolina 和 BrWac 的初始数据集 - 巴西葡萄牙语假新闻检测平台 Fake News BR
在这篇论文中,我们提供了一项关于检测巴西葡萄牙语伪新闻的综合研究,专注于新闻报道类型。我们提出了一种基于机器学习的方法,利用自然语言处理技术,包括 TF-IDF 和 Word2Vec,从文本数据中提取特征。我们评估了各种分类算法(如逻辑回归 - ICML对 GPT-3.5 和 GPT-4 在巴西葡萄牙语语法纠错方面的评估
研究 GPT-3.5 和 GPT-4 等大型语言模型在巴西葡萄牙语中作为语法错误纠正工具的有效性和性能,并将其与 Microsoft Word 和 Google Docs 进行比较。
- 评估语言模型中的语言推广能力:面向巴西葡萄牙语的数据集
本研究提出了一种评估方法,针对用于巴西葡萄牙文的语言模型,通过固定的语言格式,考察语言信息的编码方式,评估不同的语言模型在处理语法结构和多词表达方面的泛化能力,解决了语言模型黑盒且缺乏可解释性的问题。
- 巴西葡萄牙语文本分类数据增强方法的性能
使用数据扩增方法来改善文本分类问题的机器学习性能,本文研究了几种数据扩增技术在巴西葡萄牙语语料库上的表现,并发现其中一些方法的表现有所改善,但也指出了语言偏见和非英语文本数据匮乏的进一步利用。
- Carolina: 一个包含来历、类型和版本信息的巴西葡萄牙语通用现代语料库
本文介绍了正在构建中的巨大的公开语料库 - Carolina Corpus,该语料库使用了 Web-as-corpus 方法学并加强了来源,类型学,版本控制和文本完整性,该语料库的目的是作为语言学研究的可靠源和计算机科学研究的重要资源,以消 - 从词袋到 transformers: 面向巴西葡萄牙语用户评论的文本分类嵌入生成
本文分享了实验的结果,探讨在自然语言处理领域中,以仿射变换为基础的学习模型(Transformer-based Language Models,简称 TLM)作为最佳模型,实现对巴西葡萄牙语用户评论的情感分析,该研究对 Bag-of-Wor - ALEXSIS-PT:葡萄牙语词汇简化的新资源
本研究介绍 ALEXSIS-PT 语料库构建的巴西葡萄牙语言词汇简化数据集,使用 mDistilBERT,mBERT,XLM-R 和 BERTimbau 四个模型进行评估,结果表明 BERTimbau 在所有评估指标上都具有最高性能。
- BERT 用于情感分析:预训练和微调的替代方案
本文进行了一项针对语言模型 BERT 的情感分析任务的实验性研究,重点分析了如何更好地处理 BERT 输出层的不同嵌入以及使用与多语言模型相比更适合巴西葡萄牙语的语言模型的聚合策略和技术,并发现 BERT 在大多数情况下与 TF-IDF 相 - NILC-Metrix:评估巴西葡萄牙语书面和口语语言的复杂度
本文介绍了 NILC-Metrix,一种由 200 个指标组成的计算系统,旨在评估巴西葡萄牙语中的文本复杂程度,并且具有描述性分析和创建计算模型的实用功能。同时,通过三种应用来说明 NILC-Metrix 的潜力。
- ACLXFORMAL: 多语种形式化风格转换基准
通过创建和发布多种形式重组非正式文本的基准测试 XFORMAL,我们迈出了通往多语言风格转移的第一步。XFORMAL 的结果表明,最先进的风格转移方法与简单的基线方法表现相当,这表明在进行多语言风格转移时更具挑战性。
- ACL巴西葡语社交媒体有害语言检测:新数据集和多语言分析
本文介绍了一种用于识别巴西葡萄牙语社交媒体上有毒言论的新的大规模数据集,使用 monolingual 的数据,BERT 模型在二元案例中可以达到 76% 的宏平均 - F1 分数,但仍需要大规模单语数据来创建更精确的模型,并强调了开发能够区 - 从巴西葡萄牙语临床笔记中预测多个 ICD-10 代码
该论文提出了使用机器学习模型对巴西葡萄牙语临床记录中的 ICD 编码进行自动化预测的方法,并采用 Logistic 回归模型、卷积神经网络、门控循环神经网络和具有 Attention 机制的 CNN 模型进行研究和优化。该论文的主要贡献是在 - 语言风格翻译的神经网络方法
本文介绍了第一个基于神经网络的机器翻译系统,用于翻译同一语言的标准国别语言种。我们以巴西 - 欧洲葡萄牙语为例,将该方法的性能与短语统计机器翻译系统进行比较。结果显示,在从欧洲葡萄牙语翻译到巴西葡萄牙语时,BLEU 分数提高了 0.9 分, - 建立巴西葡萄牙语推特情感语料库
本文介绍了 TweetSentBR,即一种人工注释的,用于情感语料库的巴西葡萄牙语语料库,用于在电视节目领域的 15.000 个句子上进行分类,通过三种机器学习方法进行了基线实验并获得了良好的分类准确度。