基于经验人工智能的排行榜生成的指令微调
该研究关注文本生成的人类评估问题,通过注释设计选择和人类评估数据,提出一种自动化去除噪音注释者的机制,并基于此开发了GENIE系统,用于跨不同任务运行标准化的人类评估,提供总排行榜,已在四个核心文本生成任务上进行测试。
Jan, 2021
提出了一种新的比较模型,即Bidimensional Leaderboards,这种模型同时跟踪语言生成模型的进展和评价指标,通过人类评价,对评价指标进行排名和选择,以模型和评价指标为竞争方,最后得出一个集成评价指标。
Dec, 2021
本文主张排行榜竞赛应该除了在给定的测试数据集上进行模型表现的评估外,也应该在实际应用场景下评估模型的表现,并提出了解决当前排行榜系统存在的问题的新模式,以期引起向更实际应用场景为中心的排行榜竞赛的范式转变。
Mar, 2023
LLMs可以通过遵循自然语言指令来完成各种任务,但是指令的质量会对LLMs的性能产生极大影响。本文提出了Auto-Instruct方法,通过生成多样化的候选指令并使用基于训练过的575个NLP任务的评分模型进行排序,自动提高LLMs的指令质量。在118个领域外任务的实验证明,Auto-Instruct超越了人工编写的指令和现有LLM生成的指令的基线。此外,我们的方法还具有显著的泛化能力,即使对于没有被纳入其训练过程的其他LLMs也同样有效。
Oct, 2023
本研究探索使用精细调整的大型语言模型(LLMs)自动化系统性文献综述(SLRs),提出了将人工智能与学术研究方法相结合的重要和创新贡献。通过采用最新的精细调整方法和开源的LLMs,我们展示了一种实用高效的自动化SLR过程的方法,包括知识综合的最终执行阶段。研究结果在LLM响应的事实准确性方面保持了很高的保真度,并通过对现有符合PRISMA的SLR的复制进行了验证。研究提出了减轻LLM虚幻感的解决方案,并提出了追踪LLM响应与信息来源的机制,从而证明了这种方法如何满足学术研究的严格需求。最终的发现证实了精细调整的LLMs在简化各种劳动密集型的文献综述过程方面的潜力。鉴于这种方法的潜力及其在所有研究领域的适用性,这项基础研究还呼吁更新PRISMA报告指南以整合AI驱动的过程,确保未来SLRs的方法透明性和可靠性。该研究拓宽了AI增强工具在各学术和研究领域的应用,为在日益增长的学术研究数量面前以更高效的方式进行全面准确的文献综述设立了新的标准。
Apr, 2024
该研究通过评估 Mistral 7B、Llama-2、GPT-4-Turbo 和 GPT-4.o 这四个 LLM 模型对实证AI研究文章中的领先者信息的提取效果,探讨了三种上下文输入类型(DocTAET、DocREC 和 DocFULL)对模型的影响,综合评估了这些模型在从研究论文中生成(任务、数据集、指标、得分)四元组方面的性能,揭示了每个模型和上下文类型的优势和局限性,为未来的AI研究自动化工作提供了有价值的指导。
Jun, 2024
研究如何从单个提示生成大型指导数据集,使用较少的人工监督,使LLMs能够撰写多样化的指令示例,从简单的完成任务到复杂的多轮对话,并在知识密集型任务和对话评估中超过了WizardLM和Ultrachat,在扩展性和可伸缩性方面超过了公共指导微调数据集。
Jun, 2024
通过选择适当的上下文,提高大规模语言模型在生成人工智能研究排行榜方面的效率,并解决了介绍的方法在适应新发展方面超过传统自然语言推理方法的问题。实验证明了有效的上下文选择在提高语言模型精确性和减少错觉方面的重要性,并为可靠高效生成人工智能排行榜提供了新途径。
Jun, 2024
本研究针对大型语言模型在特定领域内理解和提取科学知识的有效性进行了探讨,并建立了一个深度学习框架——知识人工智能。通过对预训练模型进行微调,我们显著提升了其在科学领域中的任务表现,为非专业人士提供了高效的信息查询与提取工具,展示了微调大型语言模型在科学知识发现中的潜在价值。
Aug, 2024
本研究解决了手动构建和维护科学排行榜的困难,提出了一个经过人工整理的科学排行榜数据集SciLead,以克服当前数据集的不完整性和不准确性。基于该数据集,开发了一种全面的基于大语言模型的排行榜构建框架,揭示了其在抽取结果值方面的挑战,具有重要的实际应用潜力。
Sep, 2024