Genie: 实现基于内容匹配的数据集生成中人类水平
该研究关注文本生成的人类评估问题,通过注释设计选择和人类评估数据,提出一种自动化去除噪音注释者的机制,并基于此开发了 GENIE 系统,用于跨不同任务运行标准化的人类评估,提供总排行榜,已在四个核心文本生成任务上进行测试。
Jan, 2021
MathGenie 是一种从小规模的问题解决数据集(称为种子数据)生成多样且可靠的数学问题的新方法,通过增加种子数据的真实解决方案,并训练一个回译模型将增加的解决方案翻译回新问题,从而产生与代码集成的问题解决方案,进而提供理性基础验证策略,该方法通过对新收集的数据训练从 7B 到 70B 范围的预训练模型,形成了 MathGenieLM 系列模型,这些模型在五个代表性数学推理数据集上始终优于以前的开放源语言模型,达到了最新的性能水平,尤其是 MathGenieLM-InternLM2 在 GSM8K 上达到了 87.7%的准确率,在 MATH 上达到了 55.7%的准确率,获得了开放源语言模型的最佳综合得分。
Feb, 2024
本论文提出 CONDA 方法以生成虚拟数据,并通过将结构放在 QA 对上并使用 QA 数据集来训练上下文生成器来进一步提高生成语言模型的能力,通过将下游任务转化为相同的问答格式并调整上下文生成器适应目标任务域,使用精调的生成语言模型生成相关上下文,这些上下文作为相应任务的虚拟训练数据,在多个分类数据集上进行实验,显示出在几乎零样本和少样本设置中的性能显着改进,分析表明要求高级推理能力的 QA 数据集(例如,抽象和常识 QA 数据集)在几乎零样本和少样本设置中都能显着改进性能。
May, 2022
本文提出一种基于无监督学习的问句生成方法,使用自由可得的新闻标题数据通过句法分析、命名实体识别和语义角色标注启发式技术转换成合适的问题,然后与原始新闻文章一起训练一个端到端的神经问句生成模型;通过在多项数据集上的实验证明,该方法生成的人工智能数据集用于训练问答模型,其性能远超过基于无监督学习的问答模型的现有成果。
Sep, 2021
本研究提出了一种基于语义加强的奖励机制和基于 QA 的评估方法,用于解决问题生成中的语义漂移问题,并解决传统评价指标不足的问题,同时提出了两种合成 QA 对的方法,有效的用于半监督 QA 学习中。
Sep, 2019
该论文探讨了长篇问答任务中关于评估和数据集构建所面临的挑战,在提出新模型的同时指出该任务中 ROUGE-L 评估不具信息性,且训练集和验证集存在显著重复。给出了缓解这些问题的建议。
Mar, 2021
本文提出的 PIE-QG 方法使用开放信息提取(OpenIE)从释义段落中生成合成训练问题,并利用问题 - 答案对作为基于 BERT 的最先进 QA 系统的训练数据。在五个抽取式 QA 数据集上进行实验表明,我们的技术在没有外部参考数据源的情况下以数量级更少的文档训练,实现了与现有最先进 QA 系统相同的性能。
Jan, 2023
Question generation is a natural language generation task that can be achieved with a single Transformer-based unidirectional language model, which outperforms QG baselines and produces high-quality questions that are relevant to their context paragraph and easy to answer, utilizing transfer learning without relying on auxiliary data.
May, 2020
Genie 是第一个通过无监督方式从无标签互联网视频中训练得到的生成交互式环境,它可以根据文本、合成图像、照片甚至草图生成无限多种可控行为的虚拟世界。拥有 11B 个参数的 Genie 可以被视为基础世界模型,它由时空视频分词器、自回归动力学模型以及简单可扩展的潜在动作模型组成。尽管训练时没有使用任何真实行为标签或其他领域特定的要求,Genie 可以使用户基于逐帧操作生成的环境。此外,由此产生的学习潜在动作空间可用于训练代理机器人模仿未见过的视频行为,为未来培训通才型代理机器人打开了道路。
Feb, 2024