- 多标签分类方法的综合比较研究
这项研究对各个领域的大量数据集使用 20 种不同的评估方法对 26 种不同的多标签分类方法进行了全面的实证研究,发现 RFPCT,RFDTBR,ECCJ48,EBRJ48 和 AdaBoostMH 是效果最好的方法,希望今后引入新方法时,应 - 寻求鲁棒的泛化测量方法
本文讨论了深度学习中的一项科学挑战,即解释归纳泛化问题,通过关注经验性评估方法,提出了将泛化度量评估纳入分布强健性框架的看法。
- PAC$^m$-Bayes:缩小误差贝叶斯模型的经验风险差距
本研究提出了一种多样本损失方法用以改进贝叶斯后验预测分布的泛化性能,该方法不仅具有计算优势还提供了 PAC 泛化保证,实证研究显示该方法可以有效改善预测分布。
- EMNLP位置编码学到了什么?一项关于预训练语言模型位置编码的实证研究
本文通过特征级别分析和大量实证研究主流预训练位置嵌入对 Transformer 的影响,从而为特定任务选择适当的位置编码函数提供新的见解。
- ACL神经关键词生成的实证研究
本文通过实证研究和数据分析,对神经关键词生成(KPG)任务中的不同模型设计和相关因素对其泛化性能的影响进行了全面的比较,旨在为澄清 KPG 任务的一些不确定性,促进未来的相关研究提供帮助。
- MM知识编译中的相变行为
研究随机 k-CNF 公式的规模和编译时间行为,以及使用知识编译进行的大小和运行时行为的严格实证研究和分析,类似于 SAT / CSP 社区对相变行为的早期研究,我们鉴定了不同参数方面的有趣行为:子句密度和解密度,并总结我们的经验研究。
- KDD现实世界超图的结构模式和生成模型
本文通过实证研究探索了多个领域的真实超图数据集,并引入多级分解方法,探讨了其五个结构特性,为超图生成问题建立了基础,并提出了一个简单而有效的超图生成器模型。
- On-Policy 强化学习中的重要因素:一个大规模实证研究
通过一个统一的基于策略的强化学习框架,在五种不同复杂度的连续控制环境中训练了超过 250000 个智能体,对强化学习的实现决策进行了大规模的实证研究,并提供了针对基于策略的训练推荐和技巧。
- EMNLP分析数据集中的性能不稳定性诅咒:后果、来源和建议
通过一项详尽的实证研究,我们发现自然语言推理和阅读理解分析数据集的最先进模型表现存在高度不稳定性,并展示了这种不稳定性的来源,提出了应对方案及未来研究的建议。
- 三角丰富复杂网络低秩表示的不可能性
本文研究了复杂网络的图嵌入,发现该方法无法捕捉复杂网络的重要特征,尤其是低度和大聚集系数。通过数学证明和实证研究,本文认为这种图嵌入技术不适用于揭示真实世界复杂网络的结构特征。
- 批量归一化使深度网络中残差块偏向于恒等函数
通过初始化时将剩余分支与跳过连接相比,批归一化可以缩小深度神经网络的剩余分支,从而通过将归一化因子放在网络深度的平方根上,确保在训练早期,深度网络中的标准化剩余块计算的函数接近于恒等函数,这是批归一化可以显着提高残差网络最大可训练深度的关键 - 贪心算法的不合理有效性:贪心算法适应尖锐度
通过定义锐度作为子模函数改善贪心算法性能的候选解释,本文探讨了贪心算法在最大化单调子模函数下的性能问题,显示子模函数的锐度影响贪心算法的表现,通过计算实验和理论结果,支持本文的说法。
- 强化学习离线策略评估的实证研究
通过实验基准和实证研究,我们提供了针对强化学习中的离线策略评估(OPE)的实验基准和实证研究,重点研究了实验设计的多样性以启用 OPE 方法的应力测试。我们提供了一个完整的基准套件,以研究不同属性对方法性能的相互作用,并将结果总结为实践指南 - EMNLP维基百科文章质量评估的基于编辑的方法
该研究提出了一种基于编辑为中心的方法来评估维基百科文章质量的模型,该模型包含一个主分类器和一个辅助生成模块,可以提供编辑质量的估计和自然语言描述,经过实证研究发现该模型在数据和质量要求方面具有成本效益。
- Twitter 上地理标记行为的大规模经验研究
本文基于 Twitter 平台 4 万多亿条 tweet,对 geotagging 行为进行了实证研究。结果显示,用户群体之间的 geotagging 偏好各不相同;在用户资料中报告位置信息的用户更容易使用 geotags;用户在 geot - CVPR基于传播方法的视频目标分割的实证研究
本文通过对传输提取方法的实证研究,设计了端到端的记忆网络,对核心方法、输入线索、多物体组合和训练策略等方面进行了详细的剖析研究,在 DAVIS 2017 数据集上取得了 76.1 的显著性能提升。
- 深度学习中的校准度量
本文探讨了机器学习分类器中出现的过度置信和欠置信问题,介绍了衡量分类器置信度的度量标准 —— 准确率校准度,以及该度量标准不足的缺点;进而进行了一项全面的实证研究,并开源了一种度量方法的库。实证研究发现,不同的度量标准对于分类器校准度的优化 - 非监督网络表示学习的比较研究
本文提出一种框架用于将不同的网络表示方法统一化,研究它们的有效性,经过一系列的实证研究表明,并没有一个单一的方法是最好的,选择一个适合的方法取决于嵌入方法的某些属性、任务和底层图的结构属性。
- 解释模型:解释对公正评判的影响的经验研究
通过一项关于程序生成解释的实证研究,我们发现不同类型的解释如何影响人们对机器学习系统的公平判断,其中某些解释可增强人们对算法公正性的信心,但也有部分解释会被认为是不公平的,此外,不同类型的解释也能更有效地揭示不同的公平问题,因此我们讨论了提 - ECCV一项向深度卷积网络如何识别跌倒行为的实证研究
通过系统的经验研究,本文探讨了基于深度卷积网络的跌倒识别过程及其效果,并提出了几个有助于提高跌倒检测系统性能的因素。