- 语言失衡可以促进跨语言泛化
多语种模型的研究指出,语言不平衡是跨语言泛化的一个新的驱动因素,在实验中观察到,在训练中存在一种主要语言可以提升较不频繁的语言的性能,同时加强模型在不同语言间的表示对齐,同时本研究还提出了一些训练方案来改善克隆语言的性能。
- 迷你心智:探索 Bebeshka 和 Zlata 婴儿模型
在这篇论文中,我们描述了 Lyon 2 大学参加 BabyLM 竞赛 Strict-Small 赛道的情况。我们采用架构搜索的方法,在数据集上最小化掩码语言建模损失,并引入了两种小型语言模型进行评估。尽管比基准模型规模小一半,我们的模型性能 - 对知识图谱的可解释推荐进行忠实路径语言建模
在该研究中,我们介绍了一种名为 PEARLM 的新方法,它通过语言建模来有效捕捉用户行为和产品侧知识,直接从知识图谱中的路径中学习知识图谱嵌入,并通过序列解码的约束保证路径与知识图谱的一致性。与现有技术相比,我们的方法在两个数据集上表现出了 - EMNLPSuperTweetEval:社交媒体自然语言处理研究的挑战性、统一性和异构性基准
我们引入了一个统一的社交媒体 NLP 评估基准 SuperTweetEval,其中包含了一系列异构的任务和数据集,我们对各种模型在 SuperTweetEval 上的性能进行了基准测试,结果表明尽管语言建模取得了最近的进展,社交媒体依然具有 - 博尔赫斯与人工智能
通过 Jorge Luis Borges 的想象,把对 LLMs 和 AI 的理解从科幻小说的意象中解放出来,提供了一种新的视角来阐明语言建模和人工智能之间的关系。
- Languini Kitchen:计算尺度上的语言建模研究
Languini Kitchen 为研究人员提供有限计算资源以在语言建模领域有意义贡献的研究集体和代码库,通过实验协议介绍了以加速器时间为基准进行模型比较的方法;该研究还提供了两种基线模型,GPT-2 架构的前馈模型和具有 10 倍吞吐量的 - 应用语言模型于代数拓扑学:利用 Wu 公式中的多标记生成单纯流形环
本文使用机器学习方法,通过针对 Wu 公式的单形群设定,重构产生单形环的问题,将其作为 Dyck 语言相关算法数据集交集的抽样问题,以便理解这些同伦群生成元的群论结构,并提出和评估语言建模方法,采用多标签信息输入序列与所需的群论工具与非神经 - 类别数据的连续扩散
本文介绍了 CDCD 框架,该框架是一种对分类数据进行扩散建模的方法,同时保持了连续时间和输入空间的特性,并在多个语言建模任务中证明了其有效性。
- 回归语言循环模型
使用稍微优化的递归单元、架构、目标和优化算法结合,可以在小数据集和 enwik8 动态评估上建立新的语言建模现有技术水平。
- COLING重新审视音节在语言建模中的作用及其在低资源机器翻译上的应用
本文探讨利用音节对语言建模和机器翻译的作用。通过 21 种语言的实验,我们发现音节优于字符和其他的子词。在对一个非相关和低资源语言组(西班牙语 - Shipibo-Konibo)进行翻译时,音节在成对的和多语言的系统中优于无监督的子词和进一 - 隐式模式网络
提出了一种基于神经语言模型和变分自编码器(VAE)的语义可解释的组合表示学习方法,该方法能够从文本数据集中发现符号网络(模式),并在语言建模任务上取得了最先进的结果。
- esCorpius: 一份庞大的西班牙语爬虫语料库
通过使用多达 1 PB 的 Common Crawl 数据,我们提出了 esCorpius,一个高质量的西班牙网络爬取语料库,利用了新颖的高度并行的清理管道和多种去重机制,以确保文档和段落边界的完整性,并遵守欧盟法规。
- 连接神经反应测量与语言计算模型:非全面指南
研究神经语言理解基础一直是各种科学研究项目的长期目标,最近的语言建模和神经影像技术的进展为语言的神经生物学调查和构建更好、更类人的语言模型提供了潜在的改进。本文综述了从早期研究将事件相关电位和源于简单语言模型的复杂性度量联系起来的一条线路, - ICLR在压缩权重空间中训练和生成神经网络
本文旨在探讨使用离散余弦变换对循环神经网络的权重矩阵进行编码的方法,以提高算法的可扩展性和效率,并在 enwik8 数据集上进行了实验。
- 语言模型的扩展:方法、分析与训练经验
本文通过对转换器为基础的语言模型在不同规模下的性能分析,证明规模越大,其在阅读理解、事实检查和鉴别有害语言等方面的性能提高最大,但在逻辑推理和数学推理等方面的收益较少。此外,本文还介绍了训练数据集和模型行为的综合分析,探讨了语言模型在 AI - 使用查询变化生成器评估检索流程的健壮性
本研究利用自然语言处理中的预训练模型,探究信息检索中查询变化对检索性能的影响,发现查询的变化对检索性能有很大的影响。
- AAAI通过学习排序进行语言建模
通过使用预先训练的 GPT-2、BERT 和 Born-Again 模型来生成排名来避免标注排名,建立语言建模为排序任务的方法,并使用 $n$-gram 创建非概率性教师,证实我们可以将 $LMing$ 视为排序任务而不使用预先训练的 LM - KDD利用地理定位的 Twitter 提及信息获取虚假信息洞察
本文提出了一种基于地理空间分类和基于嵌入的语言建模组合的两阶段方法,用于分析 Twitter 上与虚假信息相关的社交媒体数据,特别是针对英语、法语和西班牙语等三种欧洲语言,通过比较分析证明了分类方法的有效性,并突出了虚假信息相关媒体的地理、 - ICLR利用草图学习代码自动补全
本文介绍了一种基于 Transformer 的模型 Grammformer,用于根据编程语言语法生成具有 “空洞” 的代码完成。在 C# 和 Python 的代码完成方面通过 ROUGE 和新的度量标准 RegexAcc 的度量检验结果,结 - ACL语言模型中的连贯性是否令人惊讶?有针对性地评估连贯性预测
本文通过设计一系列测试集来评估神经语言模型是否编码了逻辑关系、内在一致性和世界知识这些与上下文有关的复杂语言结构,研究发现通过这样的测试集,可以更好的评估语言模型的质量。