- MM评估扩散型生成模型的设计空间
对于扩散模型的准确性进行了理论研究,通过梯度下降方法对去噪积分评分匹配的训练和采样过程进行了非渐近收敛分析,并提供了方差爆炸模型的抽样误差分析。通过这两个结果的结合,明确了如何设计有效生成的训练和采样过程。
- COLINGCoNLL#: CoNLL-03 英文细粒度错误分析和校正测试集
现代命名实体识别系统在更大更强大的神经模型时代中稳步提高性能。本文通过对最高性能 NER 模型的测试输出进行深入分析,并在测试集上引入新的文档级注释,对其性能进行精细评估。我们通过对错误进行分类,超越 F1 分数,解释 NER 的真实技术水 - 深度祈兹方法中使用 PGD 训练的三层神经网络的误差分析
在这项工作中,我们专注于利用三层 tanh 神经网络在深 Ritz 方法 (DRM) 框架中解决具有三种不同边界条件的二阶椭圆方程,通过使用投影梯度下降 (PDG) 来训练三层网络并建立其全局收敛。我们对过参数化网络用于解决 PDE 问题的 - 利用 Apache Sedona 对 SpaceNet 8 进行洪水数据分析
利用 Apache Sedona 进行洪水损害检测的研究,通过历史洪水案例的检索、适应当前情景的案例修订以及基于聚类算法对模型的修订,解决了洪水损害检测中不准确性带来的挑战,并通过数据可视化解释和直方图均衡化技术显著提高了模型指标的精度、F - ACL比较 LLM 提示与跨语言转移性能对土著和低资源巴西语言的影响
大型语言模型在低资源语言上的自然语言处理任务上表现较差,并提供了错误分析和实例解释。
- COLING提问和回答以提取事件论元结构
本文提出了一种问答方法来提取文档级别的事件 - 论证结构,使用手动定义的模板和生成型 Transformer 自动生成问题,并使用数据增强策略和迁移学习提高抽取结果的准确性,同时对最佳模型的错误进行详细分析。
- 大型语言模型能像人类一样解决 ARC 视觉类比问题吗?
通过比较人类和大型语言模型(LLM)在一组新的儿童友好的 Abstraction Reasoning Corpus(ARC)项目上的表现,发现在 LLMs 和年幼儿童中有类似的 “fallback” 解决策略,并发现了两种其他错误类型,一种 - 使用 MATH-Vision 数据库测量多模态数学推理
我们通过提供一组全面多样的问题来评估大规模多模态模型的数学推理能力,并发现目前的模型在 MATH-V 数据集上与人类表现存在明显差距,强调了对大规模多模态模型的进一步发展的必要性,此外,我们的详细分类还允许对其错误进行全面分析,为未来的研究 - 学会检查:释放大型语言模型中的自我纠正潜能
通过精心设计的训练数据、详细分析数学推理中的错误类型并构建了一个自检修正数据集,本研究旨在增强大型语言模型的自检能力,从而提高自我修正的准确性。在与其他检查 - 修正数据相关的情境中,使用 “Step CoT Check” 提示进行微调的模 - 运用深度学习对网球动作进行分类
通过对深度学习在网球行为分类中的应用进行研究,本文探讨了其潜力和挑战。我们使用三种不同规模的基于深度学习架构 SlowFast 的模型对学术网球数据集 THETIS 进行训练和评估。最佳模型的泛化准确率达到了 74%,为网球行为分类的良好性 - 跨语言摘要的自动数据检索
英语到印地语的跨语种摘要涉及文本摘要转换为另一种语言。本研究的目标是通过匹配文字和视频格式中有新闻价值的事件的报道来进行英语到印地语的跨语种摘要,以帮助数据获取。我们通过分析数据并提出方法,将文章与视频描述匹配为文档和摘要对,并提出了过滤方 - 评估大型语言模型中的排除推理过程的难度
链式思维激励(COT)与排除法(PoE)相结合可增强语言模型在错误答案推理方面的解释性,研究对自动医学诊断等任务中的排除法与 COT 的应用效果,并发现其性能低于直接选择正确答案,以及建议进一步研究该问题的错误分析。
- BanglaNLP 参与 BLP-2023 任务 2:对孟加拉社交媒体帖子的情感分析进行不同 Transformer 模型的基准测试
这篇论文使用基于 Transformer 的架构进行情感分析,以解决 Bangla 这种低资源语言的问题,并通过细调模型在推特数据上获得最佳性能。同时,还进行了详细的错误分析。
- 图数据中嘈杂伪标签的深入洞察
给出伪标记策略对图学习模型的影响的深入见解,通过错误分析证明伪标记错误受伪标记阈值的置信度和多视图预测的一致性的限制,并在收敛性属性上理论上说明的基础上,提出了一种谨慎的伪标签方法,通过对置信度最高且多视图一致的样本进行伪标签,从而改进了图 - 文档级信息提取概览
这篇综述研究对最近的文档级信息抽取文献进行了系统回顾,通过与当前最先进的算法进行彻底的错误分析,确定它们的局限性以及文档级信息抽取任务的剩余挑战,包括标签误差、实体关联解析和缺乏推理,严重影响文档级信息抽取的性能。本综述的目标是为 NLP - 分布偏移感知的离策略区间估计:一种统一的误差量化框架
我们研究了基于无限时域马尔科夫决策过程的高置信度离策略评估,目标是仅使用预先收集的来自未知行为策略的离线数据建立目标策略值的置信区间。通过创新的统一误差分析,我们共同量化了建模边际化重要性权重的错误以及由抽样引起的统计不确定性这两个估计误差 - SPFQ:一种用于神经网络量化的随机算法及其误差分析
本文提出了一种快速随机算法来对完全训练的神经网络权重进行量化,建立了全网络错误边界,证明了过参数化程度增加时相对平方量化误差呈线性衰减,同时展示了在每个权重上仅使用 O (log (log N)) 位可以达到等同于无穷字母表情况下的错误边界 - 使用基于物理信息的神经网络求解椭圆型最优控制问题
通过使用物理知识的神经网络方法,我们提供了一个数值求解器来解决线性和半线性二阶椭圆问题的最优控制问题,并进行了误差分析和性能比较。
- 诊断人 - 物体交互检测器
我们介绍了一种用于分析现有 HOI 检测模型错误源的诊断工具箱,通过修复错误并测量 mAP 改进来详细分析不同错误的重要性。
- ICML分布式强化学习的方差控制
基于分布式强化学习的新 Q 函数估计器和 QEMRL 算法通过误差分析和理论证明能够减小偏差和方差,并在 Atari 和 Mujoco 基准任务中显著提高了样本效率和收敛性能。