- EMNLP评估跨领域文本到 SQL 模型和基准
通过对几个重要的跨领域文本到 SQL 基准进行广泛的研究和重新评估,本文发现由于提供的样本可能有多个解释,这些基准的完美表现是不可行的,并且在重新评估后,模型的相对性能会发生变化。最令人瞩目的是,我们的评估发现,最近基于 GPT4 的模型在 - 基于不确定性梯度匹配的模型合并
通过对不同数据集进行训练的模型进行带权平均化可以提高其性能,但为什么会有效以及何时可能失败?我们通过梯度不匹配将带权平均的不准确性联系起来,并提出了一种基于不确定性的新方案,通过减少不匹配来改善性能。这种联系还揭示了其他方案(如平均化、任务 - 电子健康记录的问答:数据集和模型的综述
该研究对现有关于电子病历问答的工作进行了方法学综述,发现电子病历问答是相对较新且未被充分探索的研究领域,对于电子病历问答数据集和模型的使用进行了分析。
- 拉肖蒙重要度分布:摆脱不稳定、基于单一模型的变量重要度
量化变量的重要性对于回答遗传学、公共政策和医学等领域的重要问题至关重要。我们提出了一个新的变量重要性框架,可以跨越所有好模型的集合,稳定地衡量变量的重要性,并在数据分布上准确估计变量的真实重要性。
- 论证修订分类中的辅助来源学习
我们开发了模型来对论证写作中的理性修订进行分类。我们探索了两种方法 —— 多任务学习和迁移学习,以利用类似任务的辅助修订数据的优势。结果显示,这两种方法确实可以提高分类器的性能。虽然多任务学习表明同时在不同数据源上进行训练可以提高性能,但迁 - 从概率论进行信念修正
本文提出了一个概率的信念模型,并探讨了它对于信念动态的影响,比 AGM 理论约弱但比 Lockean 理论强,考虑一类特定模型并提出其自然的原则,最终相较于 Leitgeb 和 Lin 以及 Kelly 的竞争性概率信念模型而言本框架比较优 - UniUD 参加 EPIC-Kitchens-100 多实例检索挑战 2023
该研究报告介绍了作者参加 EPIC-Kitchens-100 多实例检索挑战的技术细节和实验结果,使用不同损失函数对 25%的训练数据进行了两个模型的集成,并获得了 56.81%的 nDCG 和 42.63%的 mAP 的平均分数。
- ACLNLPositionality: 数据集和模型设计偏差的表征
NLPositionality 框架用于检测自然语言处理(NLP)模型及数据集的偏差和位置特征,研究发现现有的数据集和模型普遍偏向西方白人、受过高等教育的年轻人,并排斥一些群体如非二元人群和非英语母语者,本文提出如何检查 NLP 模型及数据 - 面向源代码模型的数据增强方法:综述
该研究综述了针对源代码资料的数据增广方法,构建了一种源代码模型数据增广的分类方法,并探讨了代表性方法、优化策略、广泛接受的源代码场景和下游任务,以及未来研究的潜在挑战和可能性。
- ACL对话摘要中注释和检测细粒度事实错误
本文介绍了第一个 fine-grained 正误注释数据集 DIASUMFACT,以及通过候选排名使用预训练编码器 - 解码器模型提出的无监督模型 ENDERANKER,该模型表现出与 SOTA 模型相当的性能,并且需要更少的资源。这些发现 - 自然启发下的绘画风格创新
提出了两种使用仅经过自然图像训练的模型来创造绘画风格的方法,并使用具有艺术表现力的感性偏差来实现创造性表达,并使用重建误差来达到抽象化效果,这两种方法旨在使人们能够发明新的绘画风格。
- ACLFew-shot Event Detection: 一个实证研究与一个统一的视角
本文通过对 10 种方法的比较研究,提出一种对少样本事件检测模型的统一视图和基准,为未来的研究提供了许多有价值的研究见解。
- 语义变迁的计算建模
该研究论文介绍语义变化的计算建模方法,对不同类别的模型进行优缺点讨论,探讨了语义变化计算研究的重要方面与评估技术。
- 医疗保健可解释人工智能综述:为什么、如何和何时?
本研究系统分析了解释性人工智能(XAI),重点考虑目前在医疗领域中使用的模型。研究分析了 XAI 的流行趋势,并介绍了研究的主要方向。此工作的讨论将有助于规范 XAI 领域。
- 机器学习的可重复性:术语、建议和开放问题
本文回顾了当前关于 Artificial Intelligence 的可重复性的文献,并强调了未解决的问题。作者提出了一些建议来提高模型重复性,特别是涉及生物医学和物理人工智能领域的问题。
- 机器之爱
探讨让机器具备爱的概念,以促进人类成长和发展,表明目前的语言模型开始实现了具有质量的人本原则的体现,并提供了一个框架,将积极心理学与机器学习相结合,实现了机器爱的粗略概念。
- 关于文档级信息提取事件习得的研究
本文讨论信息抽取系统区分事件过程中存在的问题,进一步探讨事件模板填充在该问题中的适用性,通过反思评估度量,数据集质量以及模型学习能力等方面,提出了解决措施。
- 大规模弱监督进行稳健语音识别
研究了训练简单的语音处理系统预测互联网音频大量转录的能力,在 680,000 小时的多语言和多任务监督的基础上,生成的模型具有很好的泛化能力,并且通常与之前的完全监督结果竞争,但在零次传输设置下不需要进行任何微调,与人类相比,模型的准确性和 - 广泛应用领域物体检测的最新模型
该研究提供了一份数据集和最佳模型清单,比较分析了 5 个顶级数据集在各类深度学习模型上的性能,进一步探讨物体检测领域中的一阶和二阶方法。通过定量和定性分析,提供了性能最佳的模型和数据集组合。
- ICLR集体鲁棒认证的本地随机平滑
本文提出了一种基于新型局部化随机平滑方法的更普遍的模型合集鲁棒性认证方法,并在图像分割和节点分类任务上得到更高的准确性和更强的认证。