AI-Augmented 调查：运用大型语言模型对全国代表性调查的意见预测

May, 2023

AI-Augmented 调查：运用大型语言模型对全国代表性调查的意见预测

AI-Augmented Surveys: Leveraging Large Language Models for Opinion Prediction in Nationally Representative Surveys

Junsol Kim, Byungkyu Lee

TL;DR本文研究了利用大型语言模型（LLMs）来增强调查的三种不同应用程序：缺失数据插补，回溯预测和零 - shot 预测。该论文提出了一个新的方法论框架，其中包含民意调查问题，个人信念和时间背景的神经嵌入，以个性化 LLMs 的意见预测。该研究表明，LLMs 表现出较低的精度，但最佳模型的准确率在意识形态上明显更高，可以用于填补缺失的趋势并确定公众态度的变化。但是，模型在 zero-shot 预测任务中的表现有限，强调了 LLMs 的挑战。

Abstract

How can we use large language models (LLMs) to augment surveys? This paper investigates three distinct applications of LLMs fine-tuned by nationally representative surveys for opinion prediction -- →

large language models opinion prediction missing data imputation retrodiction survey questions

发现论文，激发创造

大型语言模型作为增强式民主的代理

通过利用 TensorFlow 生成模型（LLMs）预测个体偏好和整体偏好，我们对 2022 年巴西总统选举期间收集的 67 项政策提案的数据进行训练和测试，发现 LLMs 在个体层面上的预测准确率为 69% 到 76%，并对自由派和大学教育程度较高的参与者有明显的优势；在整体层面上，借助 Borda score 对偏好进行汇总，我们发现通过 LLMs 进行增强的数据能够更好地预测整个参与人群的偏好，尤其是在随机样本仅代表总人口不超过 30% 到 40% 的情况下，这些结果表明 LLMs 在增强民主系统的构建中具有潜在的用途。

May, 2024

语言模型反映了谁的观点？

通过 OpinionsQA 数据集，本研究提出了一种量化框架，调查语言模型中体现的观点与美国 60 个人口群体的观点的一致性，在包括堕胎和自动化在内的话题上，我们发现当前的语言模型与 US 人口集体观点之间存在相当大的不匹配，即使是明确定向于特定人口群体也是如此。

Mar, 2023

基于大型语言模型的教育调查反馈分析

本研究评估了大型语言模型（LLMs）GPT-4 和 GPT-3.5 在教育反馈调查中提供洞察力的潜力，并应用自然语言处理的方法，通过多标签分类、提取、主题分析和情感分析等任务来实现教育中常见的目标，从而展示了 LLMs 在洞察力提取方面的巨大潜力。

Sep, 2023

测量语言模型中客观全球观点的代表性

通过定量评估 LLMs 引导出生成反应更类似于谁的观点的框架，将全球调查问答数据集 GlobalOpinionQA 翻译到不同语言后，模型生成的响应不一定成为说这些语言的人观点最相似的。

Jun, 2023

通过检索增强的大型语言模型增强金融情感分析

在金融情感分析领域，传统的 NLP 模型受到参数大小和训练数据范围的限制，以及简洁的财经新闻文本缺乏上下文的问题，而无法很好地泛化和提高准确性。为了解决这些挑战，本研究引入了一种基于检索增强的大型语言模型（LLMs）框架，该框架包括一个指导调整的 LLMs 模块和一个从可靠外部来源检索附加上下文的模块。与传统模型和 ChatGPT、LLaMA 等 LLMs 相比，我们的方法在准确性和 F1 得分方面取得了 15％到 48％的性能提升。

Oct, 2023

个性化大型语言模型

该研究探讨了个性化调整和零 - shot 推理方法在主观任务上的应用，结果表明，与非个性化模型相比，个性化调整能够提高模型的推理能力，并在不同的大语言模型架构上实现了对情感识别和仇恨言论检测等数据集的一致性性能提升，这些发现凸显了个性化对于增强大语言模型在主观文本感知任务中的重要性。

Feb, 2024

使用公共社交媒体数据评估大型语言模型在健康相关文本分类任务中的性能

我们评估了多种模型，包括传统机器学习模型、预训练语言模型和大型语言模型，比较它们在社交媒体健康相关自然语言处理任务中的性能。实验结果表明，使用大型语言模型进行数据增强可以获得比仅使用人工标注数据训练的模型更好的结果，并且传统的有监督学习模型在零样本设置中也表现出优于大型语言模型的性能。

Mar, 2024

金融中的大型语言模型：综述

近期大规模语言模型 (LLM) 的发展在金融领域开创了人工智能应用的新可能性。本文提供了一份实用的调查报告，关注 LLM 在金融任务中的两个关键方面：现有解决方案和采用指南。首先，我们回顾了目前在金融领域中采用 LLM 的方法，包括通过零样本或少样本学习利用预训练模型，对领域特定数据进行微调，以及从头开始训练自定义 LLM。我们总结了关键模型并评估了它们在金融自然语言处理任务上的性能改进。其次，我们提出了一个决策框架，以帮助金融业专业人员根据数据、计算和性能需求选择合适的 LLM 解决方案。该框架提供了从轻量级实验到大规模投资自定义 LLM 的路径。最后，我们讨论了在金融应用中利用 LLM 所面临的限制和挑战。总的来说，该调查旨在综述最新技术并为负责任地应用 LLM 推动金融人工智能提供路线图。

Sep, 2023

通过在线文本数据利用大型语言模型预测心理健康

我们在这项工作中，首次对多种大语言模型（LLMs）进行了全面评估，包括 Alpaca、Alpaca-LoRA 和 GPT-3.5，针对在线文本数据中的各种心理健康预测任务。我们进行了广泛的实验，涵盖了零样本提示、少样本提示和指令微调。研究结果表明，对于心理健康任务，LLMs 在零样本和少样本提示设计上具有有限但有希望的性能。更重要的是，我们的实验表明，指令微调可以显著提升 LLMs 在所有任务上的表现。我们最佳微调模型 Mental-Alpaca 在平衡精度上比 GPT-3.5（规模大 25 倍）高出 16.7％，并与最先进的任务特定模型相媲美。我们总结了一系列行动指南，供未来的研究人员、工程师和实践者参考，介绍如何赋予 LLMs 更好的心理健康领域知识，并成为心理健康预测任务的专家。

Jul, 2023

将语言模型与用户意见对齐

通过挖掘公众意见调查的数据，结合用户观点、人口统计学和意识形态信息来对 LLMs 进行定位，从而实现更好地预测各种话题下的公众观点，同时发现利用个体用户的相关过往意见可以提高预测准确性。

May, 2023