- 风格过时:关于 LLMs 和代码风格转移的不如意经历
代码风格转换是困难的,但是我们研究发现,尽管语言模型在文本转换方面取得了成功,它们在需要代码理解的任务上表现不佳。我们提供了大规模语料库,以帮助社区构建更好的代码模型。
- 揭示多样性:对印度 AI 研究领域的综述
该综述论文提供了印度语系大型语言模型(LLM)研究方向的全面概述,包括 LLM 的发展、现有 LLM 的微调、语料库的开发、基准测试和评估以及围绕特定技术、工具和应用的出版物。该论文指出了印度语系的挑战,如数据有限、缺乏标准化和语言复杂性, - Qabas: 一个开源的阿拉伯语词典数据库
我们介绍了 Qabas,这是一个新颖的开源阿拉伯词典,用于自然语言处理应用。Qabas 综合了 110 个词典,将词条通过链接的方式组合在一起,并且还与 12 个形态标注的语料库链接,使其成为首个与词典和语料库进行链接的阿拉伯词典。Qaba - ACL玛雅语和西班牙方言之间非正式语体机器翻译的精选数据集和神经模型
开发了 MayanV 数据集并提供了神经机器翻译模型,这些模型在许多 Mayan 语言资源上进行了训练,并且在 MayanV 数据集上进行了评估,研究发现了不同方言之间的词汇差异,并且其他资源似乎不能提高翻译性能。
- COLING使用维基百科超链接自动构建大规模地理解析语料库
通过使用维基百科文章中的超链接将多个位置表达式与坐标关联起来,我们构建了 WHLL(Wikipedia Hyperlink-based Location Linking)语料库,该语料库包含 130 万篇文章,每篇文章大约包含 7.8 个独 - 阿拉伯文字情感分析:以广泛主题分析强化人工调查
通过对已发表的 133 篇英文 ASA 论文的深入研究和 2297 篇 ASA 出版物的广泛研究,本文揭示了 ASA 的常见主题、应用领域、方法、技术和算法,并强调了 ASA 所面临的挑战和未来发展方向。
- FaBERT:波斯语博客上的 BERT 预训练
FaBERT 是一种基于波斯语的 BERT 基础模型,在 HmBlogs 语料库上进行了预训练,涵盖了波斯语的非正式和正式文本。在 12 个数据集上的综合评估中,FaBERT 在各种下游任务中持续展现出改进的性能,包括情感分析、命名实体识别 - 生成数学 AI:第一部分 --MathPile:一个十亿词级别的数学预训练语料库
该研究介绍了 MathPile,这是一个高质量、大规模的数学专注语料库,包含约 95 亿个标记。通过复杂的预处理、预筛选、语言识别、清洁、过滤和去重等一系列严谨的数据收集和处理工作,确保了语料库的高质量。此外,还对下游基准测试集进行了数据污 - 基于 Transformer 的关键词生成的跨领域鲁棒性
通过对领域之间的文本进行预训练和微调,我们探索了抽象文本摘要模型在关键词选择任务中的效果,并发现在样本数量有限的情况下,领域间的转移学习可以提高模型性能。
- 纳布拉:叙利亚阿拉伯方言及其形态学注释
该论文介绍了 Nabra,一个带有形态学注释的叙利亚阿拉伯方言语料库。叙利亚本土人收集了超过 6,000 个句子,包含大约 60,000 个单词,来自社交媒体帖子、电影和电视剧的剧本、歌曲歌词和当地谚语,用于构建 Nabra。Nabra 涵 - 对 ' 分布式 ' 自然语言处理语料库距离度量的表征
给定两个语料库,我们想要计算它们之间的单一距离度量(例如,Mauve、Frechet Inception)。我们描述了一种抽象质量,称为 ' 分布性 ',用来说明这些度量的特点。我们量化了该质量,并以平均 Hausdorff 距离和能量距离 - Larth: 埃特鲁里亚语数据集和机器翻译
提供了一个从古埃特鲁里亚语到英语的机器翻译数据集,其中包含来自现有学术资源的 2891 个翻译示例,并通过对不同机器翻译模型进行了基准测试,发现使用小型 Transformer 模型可以达到 10.1 的 BLEU 分数。发布这个数据集有助 - 长篇语音识别的更新语料库和基准
本文重新发布三个标准的 ASR 语料库,用于长篇 ASR 研究,并研究了训练与测试数据不匹配问题,通过基准测试展示了长篇训练在此领域转变下的模型鲁棒性。
- 使用图扩展语法生成语义图语料库
Lovelace 是一个用于创建语义图谱语料库的工具,它使用图扩展语法作为表示语言,允许用户创建描述具有所需属性的语料的语法。系统根据语法输入生成一组符合语法规范的输出图谱(图库),并可通过可配置参数控制生成过程。核心用例包括创建合成数据以 - 西班牙临床语言模型调查
针对临床领域的西班牙语编码器语言模型,我们调查了 17 个主要针对临床任务的语料库的贡献,并列出了最相关的西班牙语言模型和西班牙临床语言模型。我们对这些模型进行了全面比较,通过在一组精选的语料库上进行基准测试,以找到性能最佳的模型;总共针对 - 大规模评估主题模型和降维方法在二维文本空间化中的应用
基于主题模型和降维的大规模基于基准的计算方法有效地设计文本空间化,t-SNE 在降维中的适用性得到验证。
- 用平衡语料库实现低资源语言方言包容性识别的探索
研究了影响语音自动识别(ASR)系统跨音系瓶颈的爱尔兰三个主要方言的对比分析,结果显示平衡方言的语料库无法在方言之间产生相似的表现,这些结果将指导未来语料收集和系统构建策略以优化跨方言表现公正性。
- 跨文本类型论证挖掘:语言模型自动填补缺失的话语标记?
为了提高不同类型文本中的 Argument Mining 系统的鲁棒性,我们提出了自动使用连贯性标记来增加输入文本的方法,以便明确标记所有关系,并发现即使是现成的最流行的语言模型在这项任务上也会失败。
- 构图与变形:利用文本到图像模型度量图像化程度
本研究使用 DALLE mini 等文本到图像生成模型,探讨了计算方法来评估英语单词和连接文本的形象化,并发现了计算方法与人类判断单词的高度相关性以及相对基线方法对组合变化的更一致响应。
- 瑞士德语文本转语音流程 -- 一项比较
研究使用不同的 TTS 模型合成瑞士德语,发现 VITS 模型表现最佳,使用判别器对模型进行评估,在不同的瑞士德语方言中实现了以前无法达到的语音合成质量。