揭示模型洞察力：一份用于自动生成模型卡片的数据集

Sep, 2023

揭示模型洞察力：一份用于自动生成模型卡片的数据集

Unlocking Model Insights: A Dataset for Automated Model Card Generation

Shruti Singh, Hitesh Lodwal, Husain Malwat, Rakesh Thakur, Mayank Singh

TL;DR通过提供 500 个问题 - 答案配对的数据集，我们研究了语言模型生成模型卡片的能力，并发现目前 ChatGPT-3.5、LLaMa 和 Galactica 对研究论文的理解和生成准确的文本回答方面存在显著差距。我们认为这个数据集可以用来训练模型自动从论文中生成模型卡片，减少人工工作量。

Abstract

language models (LMs) are no longer restricted to ML community, and instruction-tuned LMs have led to a rise in autonomous AI agents. As the accessibility of LMs grows, it is imperative that an understanding of their capabilities, intended usage, and development cycle also improves.

language models model cards question-answer pairs ml models automated model card generation

发现论文，激发创造

使用大型语言模型丰富机器学习数据集文档

本文提出了一种利用大型语言模型和提示策略自动提取文档中的关键维度，并将其用于丰富数据集描述的方法。通过此方法，可以创建机器可读的文档，改善数据集的可发现性，评估其符合当前的 AI 法规，并改善对其训练的 ML 模型的整体质量。

Apr, 2024

利用大型语言模型为主题元数据添加注释：澳大利亚国家研究数据目录的案例研究

本文介绍了一种基于大型语言模型的上下文学习方法，通过 GPT-3.5 和为主题元数据注释设计的提示，实现了自动元数据注释，在一些类别中表现出有前景的性能。

Oct, 2023

利用语言模型对社会科学数据集进行编码

研究表明，使用语言模型（LMs）可以处理人类编码的文本，通过与人类编码员的比较，我们发现 GPT-3 可以达到与人类编码员相当的表现水平，这为在很多领域中应用语言模型来处理文本提供了证据。

Jun, 2023

MedLM：探索面向医学问答系统的语言模型

本研究通过比较一般性和专用于医学问答的精简语言模型的性能，旨在填补这方面的空白，并评估不同语言模型家族的性能，以探讨这些模型在医学问答领域的可靠性、比较性能和有效性，从而为不同语言模型在医学领域的特定应用提供有价值的见解。

Jan, 2024

InstructCoder：赋予语言模型在代码编辑中的能力

本研究使用大型语言模型（LLMs）和 InstructCoder 数据集，探索用户指令下的代码编辑，涵盖评论插入、代码优化和代码重构等多个隐含任务。实验证明，在 InstructCoder 数据集上对开源 LLMs 进行精细调整，能够大多数情况下正确地编辑代码，展现了前所未有的代码编辑性能水平。

Oct, 2023

数据标注的大型语言模型调查

数据标注是提高机器学习模型效果的标记或标签化原始数据的过程，使用大型语言模型（LLMs）可以革新和自动化数据标注过程。本研究着重于 LLM 在数据标注中的特定用途，探讨了 LLM 基于数据标注、评估 LLM 生成的标注以及使用 LLM 生成的标注进行学习的方法。此外，还提供了 LLM 在数据标注中的方法学分类、包含 LLM 生成标注的模型的学习策略综述，并详细讨论了使用 LLM 进行数据标注所面临的主要挑战和限制。本文旨在为研究人员和从业者指导利用最新的 LLMs 进行数据标注，推动该关键领域的未来发展。

Feb, 2024

基于维基百科风格的调查问卷生成的大型语言模型：在 NLP 概念上的评估

通过对计算机科学 - NLP 领域的 20 个选定主题进行研究和评估，本文证明了 GPT-4 相对于 GPT-3.5 在产生简明调查文章方面的成功，并揭示了 LLM 在特定领域应用中存在的问题和短板。

Aug, 2023

通过生成性数据增强提高特定领域问答小语言模型的效果：Dr. LLaMA

介绍了 Dr. LLaMA，这是一种通过使用大型语言模型进行生成式数据增强来改善小型语言模型的方法，主要关注医学问答任务和 PubMedQA 数据集。研究表明，LLMs 可以有效地改善和多样化问题 - 答案对，从而在微调后使得规模更小的模型获得更好的领域特定 QA 数据集性能。该研究特别强调了在领域特定的问答任务中使用 LLMS 所面临的挑战，并建议了解决这些限制的潜在研究方向，旨在创建更高效、更有能力的专门应用模型。

May, 2023

测试时间自适应的小型语言模型在问答中的应用

通过使用未标记的测试数据，我们展示并研究了仅凭借未标记的测试数据的自适应语言模型的能力。我们首先随机生成多个答案，然后在过滤掉低质量样本的同时将它们集成在一起，以减轻不准确标签引入的噪声。我们提出的自适应策略在基准问答数据集上表现出了显著的性能改进，对于多样的提示更具鲁棒性，使语言模型保持稳定。

Oct, 2023

提升大型语言模型的数据生成能力

本文提出了一种统一的数据创建流程，只需一个格式示例，适用于包括传统上问题较多的任务在内的广泛范围，通过实验证明使用指令跟随型大型语言模型创建的数据比使用人工标注的数据在分布外评估上表现更好（高达 17.5%），同时在分布内任务上保持可比较的性能，这些结果对于在现实世界中部署的自然语言处理系统的稳健性具有重要意义。

Oct, 2023