从语义潜空间生成对话回复
MentalAgora 是一个采用大型语言模型和多个代理之间的相互作用来提供量身定制的心理健康支持的新颖框架。通过战略辩论、定制辅导员创建和回应生成三个阶段的操作,该框架使得回应根据个体用户的喜好和治疗需要进行动态定制。使用由心理健康专业人员创建的高质量评估数据集 TherapyTalk 进行的实验表明,MentalAgora 生成了与专业人士一致并增强用户偏好的回应。我们的评估,包括实验和用户研究,证明 MentalAgora 符合专业标准并有效地满足用户偏好,为数字化心理健康干预设立了新的标杆。
Jul, 2024
通过成对偏好判断,对生成的语言进行人工评估是普遍存在的。然而,在常见情况下,例如模型生成非常相似或随机解码导致生成变化较大时,会导致偏好评分不一致。我们通过引入元评估指标 “可分性” 来解决这些挑战,该指标估计了用于成对偏好评估的测试实例的适用性。通过对候选测试实例进行可分性采样,从模型对生成的多组中进行度量,以测量两组生成的可区分程度。我们的实验结果显示,具有较高可分性值的实例可从人工和自动评分器中获得更一致的偏好评分。此外,可分性的分布允许了解哪些测试基准对于比较模型更有价值。最后,我们将可分性纳入 ELO 评分中,考虑每个测试实例对 LLM 可靠排名的适用性。总体而言,可分性对于使用人工和自动评分器进行一致、高效和健壮的 LLM 偏好评估具有重要意义。
Jul, 2024
我们研究了在低维线性潜空间假设下, extbf {DiT} 的统计和计算极限。根据渐进的潜空间维度,我们推导了 extbf {DiT} 潜空间网络的逼近误差界,并给出了相应的样本复杂度界限。同时,我们表明从估计的得分函数生成的数据分布收敛于原始数据分布的某个临近区域。我们还对潜空间 extbf {DiT} 的前向推断和反向计算进行了研究,证明了在强指数时间假设下,前向推断可以在接近线性时间内实现效率提升,而通过利用 extbf {DiT} 训练中的梯度计算中的低秩结构,反向计算可以实现几乎线性时间的训练加速。在低维空间假设下,我们发现收敛速度和计算效率都受到子空间维度的支配,表明潜空间 extbf {DiT} 有潜力克服初始数据的高维挑战。
Jul, 2024
SignCLIP 通过重新利用 CLIP 将口语文本和手语视频投影到相同的空间中,用于学习大规模、多语言视频文本对中有用的视觉表示,旨在处理手语。SignCLIP 在 Spreadthesign 上进行预训练,通过不同的下游数据集评估其性能,具有显著的文本 - 视频 / 视频 - 文本检索准确性,并在一些无关的任务(如孤立手语识别)上表现出竞争力。研究分析了口语文本和手语姿势形成的潜在空间,得出了额外的语言洞见。
Jul, 2024
我们展示了在两种未被充分探索的情况下,两点之间的余弦相似度的梯度趋近于零:(1)如果一个点的幅度很大,或者(2)如果这两个点位于潜在空间的两端。令人意想不到的是,我们证明,优化点之间的余弦相似度会导致它们的幅度增加。因此,(1)在实践中是不可避免的。然后,我们观察到这些推导非常通用,适用于深度学习架构和许多标准的自监督学习(SSL)损失函数。这引导我们提出切割初始化(cut-initialization):一种对网络初始化进行简单更改的方法,有助于所有研究的自监督学习方法更快地收敛。
Jun, 2024
大语言模型在零样本学习应用中表现出了显著的能力,仅仅使用预训练信息生成查询的响应,而无需额外的精调。先前的研究表明,大语言模型可能表现出串位效应,如首位和末位偏差,这是人类心理学中被广泛研究的认知偏差。我们在各种任务和模型上进行了广泛的测试,证实了这些效应的普遍存在,尽管它们的强度有所不同。我们还发现,虽然精心设计的提示可以在一定程度上缓解这些偏差,但其效果不一致。这些发现强调了串位效应在推理过程中的重要性,特别是在没有准确标签的情况下,凸显了需要更加关注处理大语言模型应用中的这些效应的重要性。
Jun, 2024
通过对相对空间的角度保持相对表示的可逆性进行形式化,并假设神经模型中解码器模块的尺度不变性,我们将两种方法结合起来,通过相对空间获得潜在空间转换的新方法。通过在各种架构和数据集上进行大量实验证实了我们的尺度不变性假设,并证明了我们方法在潜在空间转换中的高准确性。我们还将我们的方法应用于任意预训练文本和图像编码器及其分类器之间的零射缝,甚至跨模态。通过组合性,我们的方法具有促进模型实际重用的显著潜力。
Jun, 2024
我们通过大规模实验和分析发现,零 - shot 大语言模型的排名方法的差异不仅来源于排名算法和模型骨干,而且还很重要的来自于提示元素和用词的选择,实际上,我们在实验中发现,这些后者对排名器的有效性产生的影响有时比实际的排名算法更大,而且在考虑到提示的变化时,排名方法之间的差异变得更加模糊。
Jun, 2024
最近的大型语言模型(LLMs)在需要人类智能的任务上展示了令人瞩目的能力,是走向人类智能的重要一步。然而,LLMs 在推理任务上的表现相对较差,其推理能力成为一个重大争议。我们引入了一种称为组合推理(CR)的全自动提示方法的框架,其中理由是从 LLM 管道中采样并映射到一个二次无约束二进制优化(QUBO)问题中。该框架探索了 QUBO 解决方案是否可以有利地用于选择一个有用的理由子集来构建一种 “思维链” 的提示。我们研究了使用专门求解器加速 CR 的方法。我们还调查了简单的零样本策略,如线性多数规则或随机选择的理由。我们的初步研究表明,将组合求解器与生成型人工智能管道相结合是人工智能推理的有趣途径,并阐明了未来 CR 方法的设计原则。
Jun, 2024
通过对大规模语言模型(LLMs)使用检索增强生成(RAG)来评估知识冲突的处理方法,特别是针对来源相同且具有相等可信度的检索到的段落,研究发现所有模型在提供包含相互矛盾的事实的两个段落时,都难以生成准确反映冲突性质的答案,尤其是对于需要推理的隐含冲突。为了促进未来的研究,通过引入一个自动化模型,该模型使用一个开源强大的语言模型估计 LLM 的性能,实现了 0.8 的 F 分数,并在所有 WikiContradict 实例上评估了来自七个 LLM 的 1500 多个答案。
Jun, 2024