揭示模型洞察力:一份用于自动生成模型卡片的数据集
本文提出了一种利用大型语言模型和提示策略自动提取文档中的关键维度,并将其用于丰富数据集描述的方法。通过此方法,可以创建机器可读的文档,改善数据集的可发现性,评估其符合当前的 AI 法规,并改善对其训练的 ML 模型的整体质量。
Apr, 2024
本文介绍了一种基于大型语言模型的上下文学习方法,通过 GPT-3.5 和为主题元数据注释设计的提示,实现了自动元数据注释,在一些类别中表现出有前景的性能。
Oct, 2023
研究表明,使用语言模型(LMs)可以处理人类编码的文本,通过与人类编码员的比较,我们发现 GPT-3 可以达到与人类编码员相当的表现水平,这为在很多领域中应用语言模型来处理文本提供了证据。
Jun, 2023
本研究通过比较一般性和专用于医学问答的精简语言模型的性能,旨在填补这方面的空白,并评估不同语言模型家族的性能,以探讨这些模型在医学问答领域的可靠性、比较性能和有效性,从而为不同语言模型在医学领域的特定应用提供有价值的见解。
Jan, 2024
本研究使用大型语言模型(LLMs)和 InstructCoder 数据集,探索用户指令下的代码编辑,涵盖评论插入、代码优化和代码重构等多个隐含任务。实验证明,在 InstructCoder 数据集上对开源 LLMs 进行精细调整,能够大多数情况下正确地编辑代码,展现了前所未有的代码编辑性能水平。
Oct, 2023
数据标注是提高机器学习模型效果的标记或标签化原始数据的过程,使用大型语言模型(LLMs)可以革新和自动化数据标注过程。本研究着重于 LLM 在数据标注中的特定用途,探讨了 LLM 基于数据标注、评估 LLM 生成的标注以及使用 LLM 生成的标注进行学习的方法。此外,还提供了 LLM 在数据标注中的方法学分类、包含 LLM 生成标注的模型的学习策略综述,并详细讨论了使用 LLM 进行数据标注所面临的主要挑战和限制。本文旨在为研究人员和从业者指导利用最新的 LLMs 进行数据标注,推动该关键领域的未来发展。
Feb, 2024
通过对计算机科学 - NLP 领域的 20 个选定主题进行研究和评估,本文证明了 GPT-4 相对于 GPT-3.5 在产生简明调查文章方面的成功,并揭示了 LLM 在特定领域应用中存在的问题和短板。
Aug, 2023
介绍了 Dr. LLaMA,这是一种通过使用大型语言模型进行生成式数据增强来改善小型语言模型的方法,主要关注医学问答任务和 PubMedQA 数据集。研究表明,LLMs 可以有效地改善和多样化问题 - 答案对,从而在微调后使得规模更小的模型获得更好的领域特定 QA 数据集性能。该研究特别强调了在领域特定的问答任务中使用 LLMS 所面临的挑战,并建议了解决这些限制的潜在研究方向,旨在创建更高效、更有能力的专门应用模型。
May, 2023
通过使用未标记的测试数据,我们展示并研究了仅凭借未标记的测试数据的自适应语言模型的能力。我们首先随机生成多个答案,然后在过滤掉低质量样本的同时将它们集成在一起,以减轻不准确标签引入的噪声。我们提出的自适应策略在基准问答数据集上表现出了显著的性能改进,对于多样的提示更具鲁棒性,使语言模型保持稳定。
Oct, 2023
本文提出了一种统一的数据创建流程,只需一个格式示例,适用于包括传统上问题较多的任务在内的广泛范围,通过实验证明使用指令跟随型大型语言模型创建的数据比使用人工标注的数据在分布外评估上表现更好(高达 17.5%),同时在分布内任务上保持可比较的性能,这些结果对于在现实世界中部署的自然语言处理系统的稳健性具有重要意义。
Oct, 2023