关于 GPT 模型的训练数据影响

Apr, 2024

On Training Data Influence of GPT Models

Qingyi Liu, Yekun Chai, Shuohuan Wang, Yu Sun, Keze Wang...

TL;DR研究了训练数据对 GPT 模型性能的影响，并提出了一种新颖的方法 GPTfluence，通过特征化模拟评估训练实例对 GPT 模型的影响，展示了对未见训练数据的鲁棒泛化能力。

Abstract

Amidst the rapid advancements in generative language models, the investigation of how training data shapes the performance of

generative language models gpt models training data performance training dynamics

发现论文，激发创造

少样本文本分类中引导生成式语言模型进行数据增强

本研究利用 GPT-2 生成人工数据增广样本，探究种子数据对生成样本和分类器性能的影响，结果表明在有限的标签实例下将 GPT-2 微调可以实现稳定的分类性能改进，而通过领域专家选择指导此过程可实现进一步提高的效果，这为结合生成模型和主动学习提供了有趣的研究方向。

Nov, 2021

基于 GPT 的模型遇上仿真：如何高效地运用大规模预训练语言模型于仿真任务中

本文是第一篇关于利用大规模预训练语言模型（LLMs）进行科学模拟的研究，聚焦于四个建模和模拟任务，分别评估 LLMs 的预期优势和局限性，并为模型构建者提供实用指南，包括解释概念模型结构、总结模拟输出、通过文本传达模拟可视化洞见以及解释模拟错误并提供解决方案。

Jun, 2023

评估大型语言模型在生成准确教师回应方面的有效性

通过评估多个基准生成模型在教育对话中提供信息和帮助学生的能力，本研究旨在模拟一个有知识的老师的角色，并发现 GPT-4 在教师 - 学生聊天记录子集上的优越性，测量标准是 BERTScore 和 DialogRPT，同时注意到采样、代表性和对话完整性等数据集特征对微调模型的一般化能力造成了显著挑战，最终强调了对这些生成模型进行评估的需求，其中评估标准不仅依赖于对话连贯性和匹配的语言建模分布，而且还依赖于模型展示教学技巧的能力。

Jul, 2023

探究训练数据和评估对中文指示性语言模型的影响

本研究旨在使用公开数据集结合自身汉语多轮对话中的数据进行分析，选取各种评估指标来评价各类开源聊天机器人的性能表现，并对 LLaMA 进行词汇扩展及 34 亿汉语单词的二次预训练，以期提升聊天机器人在中文领域的表现与效率，最后将模型、数据、代码进行公开发布。

Apr, 2023

关于基于训练的 ChatGPT 检测方法的泛化性

ChatGPT 是最流行的语言模型之一，在各种自然语言任务上表现出色。本研究的目的是全面调查这些方法在分布偏移下的泛化行为，包括提示、文本长度、主题和语言任务，从而为 ChatGPT 检测的未来方法或数据收集策略的开发提供指导。

Oct, 2023

GPT3Mix：利用大规模语言模型进行文本增强

本文提出一种新的数据增广技术，利用大规模的语言模型从混合的样本中生成逼真的文本样本，并利用语言模型预测的软标签，从大规模语言模型中蒸馏知识并同时创建文本扰动，我们在多元化的分类任务上进行数据增广实验，并展示了该方法远远优于现有的文本增广方法，消融研究和定性分析提供了更多的见解。

Apr, 2021

使用人类反馈训练语言模型遵循指令

本篇论文提出通过人类反馈进行微调以增进语言模型与用户意图更好地对齐的方法，并展示了基于该方法得到的 InstructGPT 模型在排名、输出质量、真实性等方面皆优于规模更大的 GPT-3 模型，并最终得出该方法为改进语言模型对齐的一个有前途的方向。

Mar, 2022

GPT 语言模型在大学教学创新中的应用

GPT (Generative Pre-trained Transformer) 是一种人工智能和自然语言处理技术，能够自动生成文本。本文主要研究了将 GPT 语言模型应用于大学教学的各个方面，包括学生和教师活动的创新、内容理解与生成、问题解决、个性化和试卷批改等。同时，作者还在软件工程等领域进行了详细实验，评估了 ChatGPT 作为助理工具在理论活动、习题和实验实践中的潜在应用价值。

Mar, 2024

AugGPT：利用 ChatGPT 进行文本数据增强

本文提出了一种基于 ChatGPT 的文本数据增强方法（AugGPT），通过将训练样本中的每个句子重新表达为多个概念上相似但语义上不同的样本，提高了数据不变性和样本大小，并在少样本学习文本分类任务上取得了优越性能。

Feb, 2023

GPT-FL: 基于生成式预训练模型的联邦学习

本文提出了一个基于生成式预训练模型辅助联邦学习框架的 GPT-FL 方法，在提高通信效率和客户抽样效率的同时，优化梯度多样性来增强模型收敛速度和提高模型测试准确性。

Jun, 2023