设计领域特定的大型语言模型:微调在公众舆论模拟中的关键作用
通过 fine-tuning 机制,使用大型语言模型生成众人认可的共识性议论,以协调多样化的人类意见,并发现从子集中生成的共识性声明提高了个体贡献,并能够被人类用户所接受,具有较强的差异性和普适性。
Nov, 2022
介绍如何微调一种可以私下部署用于内容审核的大型语言模型,并讨论在微调过程中是否融入原因会更好,以及利用更强大的语言模型生成的原因对私下部署模型进行微调的好处和处理不正确答案时的不同处理方法。向研究人员提供有价值的经验。
Oct, 2023
大型语言模型 (LLMs) 在社会科学研究中通过模拟人类感知和行为的潜力展示了其算法忠实度的概念。本研究通过利用两项具有代表性的全国性气候变化调查评估了LLMs的算法忠实度和偏差,并发现LLMs能够有效捕捉总统投票行为,但在表示全球变暖观点时遇到挑战,尤其是在没有相关协变量的情况下。GPT-4在基于人口统计和协变量的条件下表现出更好的性能,然而,在LLMs对特定群体的观点估计中存在差异,尤其是在低估黑人对全球变暖的担忧方面。尽管强调了LLMs在社会科学研究中的潜力,但这些结果强调了在使用LLMs进行调查模拟时,进行细致的条件设置、模型选择、调查问卷格式和偏差评估的重要性。进一步研究提示工程和算法审计对于利用LLMs的潜力以及解决其固有限制至关重要。
Nov, 2023
评估和改善大型语言模型(LLMs)的公平性,通过使用不同的提示性数据集来测量社会偏见,对比模型之间的偏差和毒性度量,并研究偏差/毒性降低技术的效果。我们开源分析代码以鼓励测量未来LLMs偏见的广泛研究。
Nov, 2023
近期自然语言处理的进展,特别是大型语言模型(LLMs)的出现,为构建精确复制人类行为的计算模拟提供了令人兴奋的可能性。然而,LLMs是复杂的统计学习器,缺乏直接的演绎规则,因此容易产生意想不到的行为。本研究突出了LLMs在模拟人类互动方面的局限性,特别关注LLMs在模拟政治辩论方面的能力。我们的发现表明,尽管被指示从特定的政治角度进行辩论,LLM代理倾向于符合模型固有的社会偏见。这种倾向导致了行为模式的偏离,似乎偏离了人类之间已经确立的社会动力学规律。我们使用了一种自动自我微调方法来强化这些观察结果,该方法使我们能够操纵LLM内的偏见,并展示代理随后与改变后的偏见保持一致。这些结果强调了进一步研究的必要性,以开发帮助代理克服这些偏见的方法,是创造更现实模拟的关键一步。
Feb, 2024
该论文研究了大型语言模型对社会性偏见的影响,特别是在韩语环境中,通过平衡数据分布和应用去偏的正则化方法,减少种族、性别以及种族偏见。
Mar, 2024
对使用大型语言模型(LLM)来模拟人群的偏好进行了研究和评估,包括模拟焦点小组、虚拟调查和测试行为干预的应用,以及使用两种知名精调方法对电池电动汽车(BEVs)偏好调查的人群进行评估。同时,还提出并评估了一种新的损失项以改善对需要数字回答的问题的模型性能。
Mar, 2024
本研究探究了大型语言模型中的经济和政治偏见以及调整细节对其产生的影响,通过使用参数效率微调技术,我们介绍了一种系统的数据集选择、注释和指令调整方法,并通过定量和定性评估评估其有效性,旨在讨论AI的道德应用,强调将AI部署在符合社会价值观的方式上的重要性。
Apr, 2024
本研究解决了大语言模型(LLMs)在解读现有文献方面的有效性,特别是环境、社会和治理(ESG)因素与财务绩效之间关系的系统评价。研究发现,经过微调的GPT-4o Mini模型在准确性上平均超越基础LLMs达28.3%,显示了LLMs在帮助投资者和机构总结复杂ESG投资证据中的潜力,从而加快决策并提升市场效率。
Aug, 2024
本报告探讨了大型语言模型(LLMs)的微调,结合理论见解与实践应用,填补了传统自然语言处理(NLP)模型到AI关键角色之间的研究空白。报告引入了一个结构化的七阶段微调流程,并强调管理不平衡数据集和优化技术。显著发现是采用高效参数方法能够在计算效率和性能之间取得良好平衡,报告为研究者和从业者提供了实用的见解。
Aug, 2024