- 超越人口统计学:利用人类信念网络对饰演角色的基于 LLM 的代理进行对齐
通过整合从实证人类信念网络中提取的信息,本研究评估了如何改进基于人类行为的大型语言模型(LLM)与人类行为的一致性,结果表明在模拟和理解社会信念分布模式的工作中,将 LLM 代理与单一信念进行关联会显著提高对相关主题的一致性。
- 关于大型语言模型中多智能体系统中观点动态的原则
我们研究互动的大型语言模型(LLMs)群体内舆论的演变。我们发现这些模型的交流受到几个倾向性因素的影响,分别是追求其他模型意见的共识、在资金配置时展现谨慎和考虑伦理问题。我们还发现这些偏见受到意见改变缺乏具有说服力的理由、愿意参与讨论的程度 - 大型语言模型中评估态度、观点和价值的潜力与挑战
近年来,大型语言模型(LLMs)的最新进展引发了人们对验证和理解 LLMs 可能具有的类人认知行为特质(Attitudes,Opinions,Values)的广泛兴趣。然而,测量嵌入在 LLMs 中的 AOV 仍然模糊不清,不同的评估方法可 - 意见引导的强化学习
人类导引在强化学习中经常被用来提升学习代理的性能。然而,人类的见解通常只是意见和猜测,而不是明确的论证。尽管意见存在不确定性,但它们往往比硬证据早出现。因此,通过意见来引导强化学习代理提供了更有效的学习过程的潜力,但也面临以形式化方式建模和 - 一种用于论证挖掘的混合智能方法
提出了一种混合(人 + AI)方法 HyEnA,用于从具有倾向性的文本中提取论点,结合了自动处理速度和人类的理解和推理能力。在三个市民反馈文献中评估了 HyEnA,发现它相对于多样的观点集合,既提供了更高的覆盖率和精确度,强调了人类洞察力的 - 随机硅采样:基于群体级人口统计信息的大型语言模型模拟人类亚种群观点
通过使用基于人口分布的人口组别信息,我们研究了语言模型在生成与人群相符合的调查回复方面的可行性,并揭示了语言模型中的社会偏见对这类模拟的影响。
- 错觉对冲算法作为人类从不同意见中学习的模型
人们如何学习在缺乏直接接触事件特征和真实标签或结果的情况下,信任哪些观点,以及如何将各种信息源的一致性纳入考虑,揭示出人类学习如何衡量相互冲突信息源的准确性和一致性,进而对更好地捕捉人们如何权衡相互冲突信息源的算法的发展具有重要意义。
- 关于深度学习的现状和未来展望 -- 2023 年
该研究论文介绍了对可解释人工智能、现代自然语言处理中基准测试的价值、对深度学习理解进展的状况以及学术界未来的看法进行的访谈调查。
- 网络舆论极化的解剖传播:社交网络中超级传播者的关键角色
研究调查了 “超级传播者” 在网络中塑造观点方面的作用,区分了 A、B 和 C 三种类型。 A 型在塑造观点方面起重要作用,B 型起到了平衡 A 型的作用,C 型则像媒体一样提供客观观点并潜在地调节 A 和 B 的影响。研究使用置信系数和 - 新冠疫苗的 Twitter 情绪分析
使用自然语言处理技术,我们旨在以最高的准确率确定和分类关于 COVID-19 疫苗的观点。
- iACOS:通过信息丰富和自适应负例推进隐式情感分析
提出了一种新的方法 iACOS 进行提取具有情感的隐式方面和意见,并通过多任务学习联合训练多标签分类器和其他两个分类器。实验结果表明,iACOS 在两个公开基准数据集上根据 F1 分数显著优于其他四元提取基线。
- 多标注者数据集的损失建模
通过多任务学习和基于损失的标签修正,我们提出了一种学习多样化意见更准确表达的方法,并展示了该方法在单个或多个注释者注释情况下改善预测性能的能力,同时对主观数据应用的附加标签噪音也表现出鲁棒性。
- EMNLP从价值到观点:利用注入价值的大型语言模型预测人类行为和立场
利用价值注入的大型语言模型 (VIM) 预测意见和行为的可行性与效果进行了系列实验,结果显示使用价值注入的大型语言模型可更好地预测人们的意见和行为,而且通过注入人类核心价值的变种,其性能显著优于基准方法。
- 无论原因,对健康相关询问的 AI 事实核查与 AI 权威
我们研究了用户在评估健康相关陈述的真实性时,对人工智能建议接受行为的探索性评估。我们发现,即使仅仅是 “AI 认为该陈述为真实 / 虚假” 的反馈,也会导致超过一半的用户将其陈述真实性评估移向 AI 建议。给出不同类型的建议会影响接受率,但 - 无监督观点聚合 —— 统计角度
本论文探讨了一种统计方法,利用专家的意见而无需真实的事实来推断每位专家的能力,并利用众人之智的原理测量每位专家的能力,进而提出一种完全无监督的朴素贝叶斯分类器的技术,并证明该技术在大类问题中是渐进最优的。同时,将该方法应用于大规模意见聚合、 - OpinionConv:带有基于相信的意见的对话式产品搜索
借助产品评论作为主观意见的丰富来源,我们开发了第一个销售对话的对话 AI OpinionConv,通过多次用户研究验证了生成的意见被认为是真实的,评估者也证实了意见作为决策基础的重要性。
- 印度推特上的 Covid-19 公众情绪分析分类
本文主要关注印度 COVID-19 推文的 Twitter 数据的情感分析,展示了如何提取 Twitter 数据并对其进行情感分析查询,以便分析推文中信息的结构不统一、异质且在某些情况下为积极、消极或中性的观点。
- 逼近互相一致性的启发式算法
本文提出了一种使用高斯混合模型和启发式算法来加速计算 Mutual coherence,达到高效精准的指标估算,可以用在 Wahl-O-Mat 等系统中的新方法。
- MEMD-ABSA:一个用于基于方面的情感分析的多组件多领域数据集
提出了一个大规模的多元素多领域数据集(MEMD),覆盖了包括近 20,000 个评论句子和 30,000 个四元组在内的四个元素的五个领域,评估了开放域 ABSA 的生成和非生成基线,并发现开放域 ABSA 和挖掘隐含方面和观点仍然是需要解 - 测量语言模型中客观全球观点的代表性
通过定量评估 LLMs 引导出生成反应更类似于谁的观点的框架,将全球调查问答数据集 GlobalOpinionQA 翻译到不同语言后,模型生成的响应不一定成为说这些语言的人观点最相似的。