大型语言模型中的子人口结构发现作为数据集分析师：以 LLM 为例

May, 2024

大型语言模型中的子人口结构发现作为数据集分析师：以 LLM 为例

LLM as Dataset Analyst: Subpopulation Structure Discovery with Large Language Model

Yulin Luo, Ruichuan An, Bocheng Zou, Yiming Tang, Jiaming Liu...

TL;DR探索数据集的子群体分布并应用于各种下游任务，介绍了子群体结构的概念及其在大型语言模型中的分析框架以及应用于数据集子群体组织、子群体迁移和切片发现等任务的完整工作流程。

Abstract

The distribution of subpopulations is an important property hidden within a dataset. Uncovering and analyzing the subpopulation distribution within datasets provides a comprehensive understanding of the

subpopulation distribution datasets subpopulation structures large language models (llms)downstream tasks

发现论文，激发创造

通过上下文学习评估子群体代表建模的泛化能力

该研究评估了基于大型语言模型（LLM）的子群代表模型（SRM）利用 2016 年和 2020 年美国全国选举研究的实证数据进行从经验数据中概括的能力，研究泛化能力在不同的响应变量和人口统计学子群之间的差异，并指出在语境学习下的表现不同对各人口统计学子群的效果也不同，有时改善了某个人口统计学子群的表现却损害了其他人口统计学子群的表现，SRM 在语境学习下的不均衡效果对于实施 SRM 的从业者以及依赖 SRM 的决策者提出了挑战，我们的研究突显了从各个不同子群中获得精细化的基准测试数据的需求，这些测试不仅要考虑保真度还要考虑泛化能力。

Feb, 2024

VLSlice: 交互式视觉与语言切片发现

这篇论文介绍了 VLSlice，一个交互式系统，使用户能够引导性地发现与一致的视觉语言行为相关的连贯表征层次的子群体，称为视觉语言切片，从无标签的图像集中。我们展示了 VLSlice 在用户研究中（n=22）能够快速生成多样高一致性的切片，并公开发布该工具。

Sep, 2023

使用 MDL 方法寻找数值目标的优秀子组列表

本文提出了一种基于 MDL 原则和子组列表的分散感知问题制定的子组集发现方法，提出了 SSD++ 启发式算法，能够返回具有强烈差异的均值和小变差的紧凑子组的非冗余集合。

Jun, 2020

跨模态去偏倚：利用语言减轻图像中的亚种群转变

本文通过利用多模态基础模型中的分布鲁棒性，通过参数微调来提高分布鲁棒性，并利用自然语言输入来消除图像特征中的偏见，从而在子群落变化下改善最坏情况性能。大量实证研究表明，通过自然语言进行去偏倚的图像表示能够显著提高性能，并降低在子群体变化下的性能不稳定性。

Feb, 2024

大型语言模型合成文本数据集的语言多样性可视化

本研究提出了一款交互式可视化工具 LinguisticLens，通过对大语言模型生成的数据集的句法多样性进行聚类，用户可以快速检查数据集的总体情况并检查单个示例。

May, 2023

SUBLLM：LLM 的一种新型高效架构及令牌序列子采样

通过提出 SUBLLM 架构，本文解决了大型语言模型中训练和推断的效率问题，通过引入子采样、上采样和旁路模块，SUBLLM 在训练和推断速度以及内存使用方面取得了显著的改进。

Jun, 2024

基序能够作为归纳偏差用于学习分子分布

通过研究亚图结构和词汇设计对分布学习的影响，揭示了 Subcover 对于提高现有方法的性能和可扩展性的潜力，从而在分子机器学习方面为化学家提供了优秀的工具。

Apr, 2023

Social-LLM: 使用语言模型和社交网络数据规模建模用户行为

社交网络数据的广泛增长为人类行为的广泛数据驱动型探索开辟了前所未有的机遇。然而，建模大规模社交网络数据面临计算挑战。为了应对这些挑战，我们提出了一种专门用于建模社交网络数据的创新方法，并结合了大型语言模型的功能。我们在七个真实世界的社交网络数据集上进行了彻底评估，并展示了其在计算社会科学研究中的适用性。

Dec, 2023

通过群体评议和自我投票改进大型语言模型中的民族代表多样性

大型生成语言模型的关键挑战是多样性，本文通过提出度量多样性的评估数据集和指标，并应用集体批判和自我投票等方法，有效提高模型对人群和文化的多样性。

Oct, 2023

随机硅采样：基于群体级人口统计信息的大型语言模型模拟人类亚种群观点

通过使用基于人口分布的人口组别信息，我们研究了语言模型在生成与人群相符合的调查回复方面的可行性，并揭示了语言模型中的社会偏见对这类模拟的影响。

Feb, 2024