通过从头开始训练领域知识来匹配领域专家
本文探讨了使用神经语言模型对大脑活动进行研究的方法,主要研究了测试损失、训练语料库和模型架构对捕捉大脑活动的影响,并提出了未来研究的良好实践建议。
Jul, 2022
本文调查了大型语言模型是否通过文本预训练会赋予这些模型有助于非语言推理的归纳偏差。通过对19个多样化的非语言任务进行试验,包括量化计算、识别正则表达式和对字符串的推理,我们发现预先训练的模型明显优于可比较的非预先训练的神经模型,即使在带有更少参数的情况下进行训练以适应模型正则化效应。同时,我们进一步探讨了不同文本领域对用户体验的影响,并发现即使在预训练多语言文本或计算机代码并生成合成语言的情况下,也可以持续预训练的积极效应。这些发现暗示了预先培训与模型的归纳学习能力之间的深层联系。
Oct, 2022
本文研究使用GPT-2等较小的语言模型获取比较知识的任务,提出一种新的比较知识提取框架NeuroComparatives,并通过对所获得的8.7M个关系的人类验证,证明其优于现有资源(包括GPT-3),这一结果表明适用于较小语言模型的神经符号操作是目前主流极大规模语言模型应用范围受限的一种有效的替代方案。
May, 2023
通过自我对齐可以在专业领域中提高零样本和小样本性能,利用特定领域的无标签数据和一些标记的种子进行自我特化,有效地从预训练大型语言模型中提取出专家模型。
Sep, 2023
基于四个不同领域的实验结果,本研究发现,小模型在专家注释的情况下能够以较少标注数据的情况下胜过GPT-3.5,并且与GPT-4在性能上达到或超过其,尽管小模型的规模只有后者的百分之一。因此,我们认为在真实世界的应用中,大型语言模型的预测结果可以作为预热方法,并且通过领域专家的数据注释,实现任务的成功。
Nov, 2023
指导调优对大型语言模型(LLMs)进行调优的普遍方法,能够使其生成更接近自然语言查询的人类响应的输出,在许多情况下在各种测试中实现人类水平的性能。然而,指导调优是否真正使LLMs更加与人类处理语言的方式相似仍不清楚。我们通过两种方式研究指导调优对LLM-human相似性的影响:(1)大脑对齐,即LLM内部表示与人类语言系统的神经活动相似度,(2)行为对齐,即LLM和人类在阅读任务上的行为相似度。我们评估了25个原始版本和经过指导调优的LLMs在涉及人类阅读自然故事和句子的三个数据集上的表现。我们发现指导调优通常使大脑对齐提高了平均6%,但对行为对齐没有类似效果。为了确定影响LLM-brain对齐的因素,我们计算了LLMs的大脑对齐与各种模型特性之间的相关性,如模型大小、各种问题解决能力和需要跨各种领域的世界知识的任务的性能。值得注意的是,我们发现大脑对齐和模型大小(r = 0.95)以及需要世界知识的任务的表现(r = 0.81)之间存在强正相关。我们的结果表明,指导调优LLMs可以改善世界知识表示和大脑对齐,这表明在LLMs中编码世界知识的机制也可以改善与人类大脑的表征对齐。
Dec, 2023
本研究提出了一种方法,将大型语言模型(LLMs)的知识提炼为一个更小、更高效且准确的神经网络,以实现在资源受限设备上部署这些模型的挑战。我们的方法包括使用LLM的预测概率训练较小的学生模型,作为教师模型,通过专门设计的损失函数来学习LLM的输出概率,确保学生模型能够准确模仿教师模型的性能。通过对包括6,684个学生撰写的科学问题回答及其他数据集的测试,我们将性能与原始神经网络(NN)模型进行了比较,结果显示对于7T数据集,NN模型和提炼的学生模型的准确率与教师模型相当;然而,其他数据集显示NN模型的准确率显著较低(平均28%),然而我们的提炼模型仍然能够比NN模型获得更高12%的准确率。此外,学生模型的参数大小为0.1M至0.02M,相较于原始输出模型大小减小了100倍和10倍。该研究的重要性在于其为自动评分在典型教育环境中的运用提供了潜力。
Dec, 2023
通过现有语言模型、测试四个数据集,我们的研究表明,在生物医学NLP任务(关系提取)中,虽然一般领域的模型通常优于生物医学领域的模型,但生物医学数据集上的fine-tuning可以与一般数据集fine-tuning达到类似的效果,提示将研究重点放在大规模生物医学数据集fine-tuning上,而非构建特定领域的生物医学语言模型。
Feb, 2024
通过大规模语言模型(LLMs)来预测神经科学实验结果,发现LLMs在预测实验结果方面超过了专家,并且经过优化的神经科学文献模型BrainGPT表现更好,这预示着人类与LLMs共同合作进行科学发现的未来。
Mar, 2024