具有评价语言表达的三方式决策
本文探究了语言模型在解释和生成不确定表达时的行为,并发现当模型以确定性的语言输出时,模型的准确性会有所下降。这些结果突显了建立有能力解释和生成可信任的不确定表达的语言模型的挑战。
Feb, 2023
本文考察了大型语言模型对语言习得中的概率关系和上下文敏感性建模的能力,并针对基于强度先验条件的语境下的 pragmatism utterances 进行了阈值估计实验。结果表明该方法成功地推导出了一些复杂 pragmatic utterances 相关的人类类似信息分布,但对于否定的组成较为困难。
May, 2023
提出一种基于二维语言信息的动态群体决策方法,将动态交互群体决策方法与二维语言评估信息相结合。首先使用二维不确定语言广义加权聚合 (DULGWA) 运算符来聚合每个决策者的偏好信息,然后采用动态信息熵方法获得每个阶段的属性权重。最后提出群体一致性指数来量化群体交互的终止条件。通过一个示例验证了该方法的有效性。
Nov, 2023
本文指出自然语言推理领域在评估模型推理推理能力方面所使用的标准三分法存在着缺陷,尤其是与人类推理过程的案例感知能力的差异。作者还发现现有的自然语言推理标注数据集中的一种中性标签处于低效的状态,且存在解释不一致的情况,而至少一种重要的得分中性标签经常被忽略。我们比较了处理不同标注者之间的分歧的方法,并确定了最近的自然语言推理(NLI)数据集中设计了一个基于有问题的形式操作的注释者研究的缺陷。本文的发现强调了需要更加精确评估框架来评估 NLI,我们希望引发 NLP 社区的进一步讨论和行动。
Jun, 2023
通过对语言模型进行对话交互式评估,将其在常识推理中的功能边界在空间推理方面进行了定性研究,并提出了未来改进语言模型能力和系统化对话评估的建议。
Apr, 2023
我们提出了一种基于规则的、基于高概率和词典排序偏好的语义、透明决策程序的质性决策模型,该模型可以描述人们如何做出简单的决策,并使计算机程序能够做同样的事情。
Feb, 2013
研究表明,人类的行为和个性中表达对实体和概念的态度或立场是不可或缺的。本文提出了评估主题的概念,该主题通过将主题模型应用于社交媒体上的评估文本来获得。评估主题与个体文本作者联系起来,建立他们的评估资料。本文将评估配置文件应用于 Reddit 评论,并对评估主题和大五人格特质之间的关系进行了探究。最终,通过观察与先前人格心理学研究一致的相关性,验证了这种方法。
Feb, 2023
从粒计算的角度构建了一个新颖的多级连续三态决策组协作决策方法,针对复杂、不确定性的群体决策问题进行了分析和改进,提出了一种高效的信息融合方法,并定义了决策层次的信息提取 / 汇总的概念,利用邻域理论、比较关系和遗憾理论重建了条件概率和相对损失函数的计算,进一步提出了基于连续三态决策的 DHHFLTS 的粒结构以提高决策效率,并给出了 S3W-GDM 的算法,通过示例诊断和与其他方法的比较和敏感性分析来验证了所提方法的效率和合理性。
Jun, 2024
广泛应用的大型语言模型(LLM)能够生成具有说服力但不正确的结果,存在误导用户的风险。为减少过度依赖,有呼吁要求 LLM 向最终用户传达其不确定性。然而,有关用户如何感知和行动 LLM 的不确定表达的实证研究很少。通过大规模的、预先注册的人体实验(N=404),我们探索了这个问题,参与者回答医学问题,带或不带来自一个虚构的 LLM 增强搜索引擎的回复。通过行为和自我报告的测量,我们研究了不同的自然语言不确定表达方式对参与者信赖、信任和任务整体表现的影响。我们发现第一人称表达(如 “我不确定,但是...”)降低了参与者对系统的信心和同意系统答案的倾向,同时提高了参与者的准确性。初步分析表明,这种增加可以归因于对错误答案的减少(但并非完全消除)的过度依赖。虽然我们观察到了不确定性从一般角度表达的类似效果(如 “不清楚,但是...”),但这些效果较弱且不具有统计学意义。我们的发现表明,使用自然语言的不确定表达可能是减少对 LLM 过度依赖的有效方法,但使用的确切语言很重要。这凸显了在部署大规模 LLM 之前进行用户测试的重要性。
May, 2024