- Agent-FLAN: 大型语言模型的高效代理调优数据和方法设计
通过重新设计训练语料库,Agent-FLAN 可以有效地对语言模型进行微调,从而提高代理模型在各种评估数据集上的性能,此外,Agent-FLAN 还能显著减轻幻觉问题,并在略微提高通用能力的同时,不断提高语言模型的代理能力。
- 高效扩展的 LLMs
通过比较理论和经验估计当前规模下的训练损失,我们研究了最高效的已训练 LLMs,并提出其参数数量和训练语料库规模之间的关系,结论为:(1) 要在训练语料库中表示双倍的技能,必须将语料库规模扩大大约三到五倍。(2) 对于最高效的 LLMs,参 - 江:中文开放基础语言模型
通过优化词汇设计和训练语料库,我们推出了 JIANG 模型,该模型专门为中文而设计,取得了优异的性能。
- AI 模型卸载:方法与选择
本文介绍了一种可能有效的机器学习技术 ——model disgorgement,在确保数据道德和知识产权保护的前提下,去除训练集数据的缺陷并消除对训练模型带来的不良影响。
- 使用深度学习克隆意识形态和风格
该研究使用 Bi-LSTM 模型基于特定作者的思想和风格生成主题非该作者编写的一篇文章。在训练语料库中包含特定作者的作品和现成的真实语料库以及使用预训练模型识别矛盾的语句,实现了字符级别的 perplexity 得分。
- 神经语言模型并非一出生就适合大脑数据,但训练有助于改善
本文探讨了使用神经语言模型对大脑活动进行研究的方法,主要研究了测试损失、训练语料库和模型架构对捕捉大脑活动的影响,并提出了未来研究的良好实践建议。
- 翻译模型缺乏流畅度的影响
本文描述了一种基于梯度的机器翻译模型训练方法,在去除了语言偏差和提高流畅度的基础上,使用反转和增强技术提高翻译模型的性能。
- ACL数据操作:通过学习增强和重新加权实现神经对话生成的有效实例学习
本文提出了一种数据操纵框架来通过增强和突显有效的学习样本以及同时减少无效样本的影响来主动重塑数据分布,以优化对话生成模型的训练样本。通过选择性地增加训练样本并为每个实例分配重要性权重来转换训练数据。结果表明,该框架能够改善对话生成性能,符合 - EMNLP神经语言模型中,数量不代表语法质量
本论文研究了增加神经网络大小和训练语料对于缓解基于循环神经网络的语言模型中存在的语法复杂性问题的作用。研究发现,增加网络大小和扩展语料对于缓解该问题的效果都有限,而与基于 Transformer 的模型 GPT 和 BERT 相比,LSTM - 低资源神经机器翻译的简单迁移学习
本研究提出了一种简单的迁移学习方法,通过训练 “父模型” 并在低资源语言对上进行训练,取代了原有的训练语料库,成功地提高了针对不同语言对的机器翻译性能。
- 社交媒体文本的网络欺凌自动检测
本研究旨在探讨使用线性支持向量机通过模拟欺凌者、受害者和旁观者的帖子,实现自动检测社交媒体文本中的网络欺凌,并收集并德细注释英语和荷兰语的训练语料库。我们利用丰富的特征集进行一系列二元分类实验,研究哪些信息源对于这一特定任务最有贡献,同时对 - 随机 “基于合一” 的语法估计器
本研究介绍了使用对数线性模型作为统计学习基础的 Stochastic Unification-Based Grammars,并提出了两种可计算的语法参数估计方法,应用于估计 Lexical-Functional Grammar 的随机版本。
- IJCAICRYSTAL: 诱导概念词典
本文介绍了 CRYSYAL 系统,它自动归纳了足以从训练语料库中识别出相关信息的 “概念节点定义” 字典,通过测试每个建议的定义的准确性,因此,CRYSYAL 通常比人类直觉更能够创建可靠的提取规则。