- 负责任的基础模型开发备忘录:工具与资源综述
基于自然语言处理的基础模型发展,通过资源收集、数据选择、模型评估和伦理考虑等方法,帮助引导更负责任的模型开发实践。
- 资源有限公平
我们的研究引入了 “资源约束公平性” 概念,并在这个框架下量化了公平性的成本,证明了可用资源水平对该成本具有显著影响,这是以往评估中被忽视的因素。
- 预测模型重用的聚合表示度量
本文提出了一种预测性量化器,用于估计在分布变化中模型的重新训练成本。该提出的聚合表示度量(ARM)量化了模型的表示从旧数据分布到新数据分布的变化。在实际重新训练模型之前,它提供了一个简洁的资源指数 —— 时代、能量和碳排放量 —— 用于重新 - COLINGLiMe:晚期中世纪刑事句子的拉丁语语料库
该论文介绍了 LiMe 数据集,这是一个由专家进行详细注解的 325 份文档的语料库,用于掩码语言模型和监督式自然语言处理任务。
- IndicLLMSuite:针对印度语言创建预训练和微调数据集的蓝图
通过引入针对 Indic LLMs 开发的广泛资源套件,包括 22 种语言,总共有 251 亿词汇和 7480 万指令 - 响应对,我们的工作旨在弥合其他语言的类似模型建设进展受限于资源稀缺的差距。我们的方法结合了高度策划的手动验证数据、有 - COLING中央库尔德语种语言和语音技术
我们开发语言和语音技术的资源,为中央库尔德语的各种变体创建语料库,并报告了机器翻译、自动语音识别和语言识别的性能。
- 大型语言模型的数据集:综述
该研究论文对大型语言模型数据集进行了综述和分类,包括预训练语料库、微调数据集、偏好数据集、评估数据集和传统自然语言处理数据集等五个方面;此外还提供了现有数据集资源的综合评估,涵盖 8 个语言类别和 32 个领域,包括来自 444 个数据集的 - 生成人工智能对术语定义的意义
该论文研究了生成人工智能(GenAI)对术语定义的创建和使用的影响。与传统术语资源相比,像 ChatGPT 这样的 GenAI 工具带来了一系列的好处和缺点。ChatGPT 在以交互和定制化的方式提供上下文特定含义方面表现出众,但在准确性方 - 强化学习中的迁移基础:知识模式分类
当代人工智能系统的不断发展需要相应的资源、大量数据集和计算基础设施,特别是在限制环境下的基础研究和应用中,知识的表示通过各种模态呈现,包括动力学和奖励模型、价值函数、策略和原始数据。该论文系统地讨论了这些模态,并基于其固有属性和与不同目标和 - Larth: 埃特鲁里亚语数据集和机器翻译
提供了一个从古埃特鲁里亚语到英语的机器翻译数据集,其中包含来自现有学术资源的 2891 个翻译示例,并通过对不同机器翻译模型进行了基准测试,发现使用小型 Transformer 模型可以达到 10.1 的 BLEU 分数。发布这个数据集有助 - OSN-MDAD:在线社交媒体上阿拉伯多方言对话的机器翻译数据集
通过翻译英文推文到阿拉伯文的海湾、也门、伊拉克和黎凡特方言,我们构建了一个在线社交网络基础多方言阿拉伯文数据集,用以改善阿拉伯文多方言机器翻译系统的性能。
- AlbNER:一个阿尔巴尼亚语命名实体识别语料库
资源稀缺,如阿尔巴尼亚语等语言中的已注释文本语料库对计算语言学和自然语言处理研究构成严重障碍。本文介绍了 AlbNER,一个从阿尔巴尼亚维基百科文章中收集的具有标注命名实体的 900 个句子的语料库。使用 BERT 和 RoBERTa 变体 - 教育中使用 AI 的应用场景与实际案例
这篇论文介绍了一组基于现有资源的使用场景,教师可以作为灵感创作自己的场景,目的是在不同的高中水平以及不同的目标下引入人工智能教育领域(AIEd),该领域非常活跃,不断涌现新的资源和工具,本文所包括的资源已经在学生中进行了测试,并由该领域的专 - CVPR当今的连续学习算法有多高效?
本文研究了增量类学习的最新方法,并指出很多算法在计算、存储和内存方面效率极低,有些甚至比从头开始训练的方法更费时,作者认为在实际应用中,不能忽视这些算法的资源消耗,持续学习不仅仅只是为了减轻灾难性遗忘。
- 面向东南亚语言的云自动语音识别系统
介绍我们为东南亚语言开发的自动语音识别系统,以印尼语和泰语为例解释了收集语音和文本资源所需的各种策略。
- 数字医疗中的规划与调度:应答集编程
提出方案解决医疗保健中的复杂组合问题,同时提供新的可解释性方法以解释基于人工智能的求解器的解决方案。
- MM数学家的数据伦理非专业介绍
这篇文章介绍了数据伦理,主要针对数学家,但也希望对其他人有所帮助。作者并不是一个数据伦理方面的专家,文章只是一个起点。作者鼓励读者研究讨论的资源,并继续在其生活中仔细思考数据伦理和数据及其分析的社会影响。
- 使用非正式词语识别和改写系统自动编制学术写作资源及评估
通过自动化建立写作资源,改进学术写作风格,为撰写学术论文提供帮助。同时运用不同的通用方法,建立资源用于自动识别非学术用语,并在上下文中自动生成和排序。最终建立一个领域独立的写作资源方法论。
- 阿拉伯语自然语言处理概述
该研究对阿拉伯语的三个主要变体(MSA、AD 和 CA),特别是由拉丁字母和数字组成的 Arabizi 形式的文字,在阿拉伯文本处理中的挑战以及可用资源和工具方面进行了调查,并对最近研究论文进行了分类和总结。
- ACLTutorialBank:一个人工收集的语料库,用于先决条件链、调查提取和资源推荐
TutorialBank 是一个新的、公开可用的数据集,旨在促进 NLP 教育和研究。该数据集手动收集和分类了超过 6300 个 NLP 以及相关领域的资源,是目前最大的人工选取的旨在用于 NLP 教育的资源语料库之一,而且还创建了搜索引擎