- BERGEN: 检索增强生成的基准库
以 BERT 为基础的生成模型,利用外部知识辅助检索,通过系统性评估不同组件在 RAG 流程中的影响,提出 BERGEN,一个用于标准化可复现研究的端到端库,对问答问题进行广泛的研究,并评估不同的检索器、排序器和生成模型,同时分析现有的 R - REAL-Colon: 结肠镜检查中开发真实世界的 AI 应用的数据集
通过引入 REAL-Colon 数据集,研究人员和开发人员可以推进结肠镜下人工智能研究,实现更准确可靠的结肠镜相关算法和模型的发展与基准测试。
- EasyTPP: 朝着开放基准测试的时间点过程
为了创建一个中央基准测试以评估时间点过程模型,本文介绍了 EasyTPP,它具有多个机器学习库的通用框架,提供了八个高度引用的神经时间点过程模型的全面实现,以及常用的评估指标和数据集。通过建立此基准测试,我们将有助于推动本领域的可重复研究, - InDL: 一种新的基于视觉错觉的图表逻辑解释数据集和基准
本文介绍了一种通过利用视错觉来评估深度学习模型在逻辑解释方面的能力的新方法,并建立了一个名为 InDL 的基准测试数据集,利用六种经典的几何光学错觉创建比较框架,以量化深度学习模型的逻辑解释能力,为模型改进提供可操作的见解。
- 面部识别准确率中的性别差异问题
通过实验发现,男女发型有重要差异,尤其是男性胡须会造成不同男性面孔之间的平均外观差异更大,而当基于发型来遮挡面部的数据在性别上平衡后,初始的性别差距在识别准确性上大部分消失,这个结果对未来研究中包含性别差异具有启示意义。
- 彩色三维点云感知质量评估
本文介绍了一种新的基于信息内容加权结构相似性的 3D 点云质量评估方法及其数据库,实验结果表明该方法在预测主观质量评分方面表现优异,具有较高的再现性。
- COLING评估测量经常在低分数范围内出现分歧:重新审视摘要评估测量指标
本文讨论了人工评价与自动评价在文本摘要中的应用,并提出了评价指标间的差异和相关性。研究发现评价指标的互相协议性取决于摘要的得分范围、摘要易于摘要的程度、摘要抽象程度和覆盖范围等方面。
- 寻找失落的领域泛化
本文介绍一种在不同训练集下预测性能好的算法 ——domain generalization algorithms,并提出它们在实际应用中的可用性。作者实现了一个名为 DomainBed 的测试平台,测试了不同数据集、不同基准算法和不同模型选 - CVPR使用神经网络实现鲁棒性和可重现的主动学习
本研究旨在证明在相同实验条件下,不同类型的主动学习算法(基于不确定性、多样性和委员会的),与随机采样基准相比,产生的收益不一致,这种性能度量的差异性可能导致结果与以前报告的结果不一致,强正则化下,主动学习方法在各种实验条件下显示出微小或无优 - 一种强大的自学习方法,用于完全无监督的跨语言单词嵌入映射:同时使该方法具有强大的可重现性
本文重现了 Artetxe 等人(2018b)的实验,探讨了全无监督交叉语言词向量映射的鲁棒自学习方法,并通过引入 4 种与原始文献所提出的语言不太相似的语言,进一步研究了其模型的可靠性。通过对合理超参数的网格搜索,评估了其模型的稳定性,并 - 非洲语言神经机器翻译的重点
探讨使用现代神经机器翻译技术实现英语翻译成五种南非官方语言(Afrikaans、isiZulu、Northern Sotho、Setswana、Xitsonga),提供可重复使用的数据、代码和结果,为非洲机器翻译研究提供比较和承建的起点。
- NIPS多样化神经网络结构高质量预测蛋白质 Q8 二级结构
利用机器学习方法,通过构建神经网络模型和使用最新的建模方法对蛋白质二级结构的预测结果进行了研究和探讨,实验结果表明,模型精度达到 70.7%。通过完整地开放训练数据及代码,为领域内可重复性研究树立了良好标准。
- EMNLP重新审视情感分类中编码逻辑规则的重要性
本研究分析了不同情感分类模型在语法复杂的输入(如 A 但 B 句子)上的表现,发现使用 ELMo 嵌入取代逻辑规则可以显著提高情感分类性能,并展示了 ELMo 隐式学习逻辑规则的能力。
- Mastodon 上多任务对话行为和情感识别
通过在一个具有可重现许可证的社交媒体 Mastodon 上进行手动注释,训练多任务分层递归网络,在社交媒体上,情绪和对话行为之间存在特定的相关性。
- 远程心率测量可重复性研究
本文研究了远程光电容积脉搏图 (rPPG) 的可重复性问题。建立了一个含有大量被试的、公开的数据库,并选择了三种发表在文献中最前沿的 rPPG 算法作为开放源代码软件进行实现和发布。通过在各种设置下的深入、公正的实验评估,发现没有一种选定的