- MediaEval 预测媒体记忆力任务的经验
本文总结了 MediaEval 评估活动中的媒体记忆度预测任务,包括该任务使用的多个数据集和技术,以及从中得出的结论和对研究社区的启示。
- APPReddit: 一个 Reddit 帖子语料库,用于评估标注
通过开发一个按照多维评估理论进行注释的非实验数据语料库 APPReddit,我们证明了 SVM 模型可以预测 4 个评估维度而不会失去重要信息,并且将 APPReddit 和 enISEAR 数据集合并以进行训练可以提高评估维度预测的准确性 - WeaNF: 基于归一化流的弱监督
本文探讨生成式建模弱监督中的新方向,即通过正则化流为每个弱标记源或标记函数估计密度,同时捕捉标记函数重叠和相关性现象,并在各种弱监督数据集上进行分析比较。结果表明,弱监督正则化流相对于标准弱监督有更好的效果。
- AutoMLBench: 自动化机器学习框架的全面实验评估
评估和比较了六种流行的自动机器学习框架在 100 个数据集上的性能,并考虑了时间预算、搜索空间大小、元学习和集成构建等因素对比较的影响,结果揭示了多种有趣的见解。
- FIRE 2021 HASOC 子赛道概观:英语和印度-雅利安语言中的仇恨言论和攻击性内容识别
该研究论文介绍了 HASOC 子轨道,旨在为英语、印地语和马拉地语开发基准数据集,以支持在线平台的内容审核。他们解释了两种分析方法,分别为二元分类和精细分类问题,并提供分类算法的性能结果。
- 反事实解释可被操纵
本文介绍了反事实解释的脆弱性并表明其容易被操纵,进一步提出了一个新颖的目标来训练明显公平的模型,在轻微扰动下反事实解释可以找到更低成本的救济措施。然而,我们在贷款和暴力犯罪预测数据集上的实验表明,这些模型可能会不公平地提供低成本的救济措施给 - EvidentialMix: 结合开放集和封闭集噪声标签的学习
本研究研究了一个新的嘈杂标签问题变形,将开放式和封闭式嘈杂标签结合在一起,并介绍了一个基准评估来评估此设置下训练算法的性能。我们提出了一种新的算法,称为 EvidentialMix,并将其与已有的封闭式和开放式噪声分类算法进行比较。实验结果 - Tatoeba 翻译挑战:低资源和多语言 MT 的现实数据集
本文介绍了一种新的机器翻译基准,为超过 500 种语言的数千种语言对提供了训练和测试数据,并提供了从该集合创建最先进的翻译模型的工具,旨在促进开放翻译工具和具有更广泛语言覆盖范围的模型的发展。
- EMNLP最好的更好吗? 自然语言处理的贝叶斯统计模型比较
使用 k 倍交叉验证的贝叶斯统计模型比较技术,对六种英文词性标注器在两个数据集和三个评估指标下的排名进行估计。
- 遗忘我:减少领域适应阅读理解中的灾难性遗忘
本文介绍了如何使用辅助惩罚项来调整阅读理解模型,以克服在有限目标域上微调后性能下降的困境,同时维护源域上性能的方法,并提供了 6 个窄领域数据集以供进一步研究。
- 使用查询引导的胶囊网络增强上下文建模,用于文档级翻译
本文介绍了一种基于查询引导下的胶囊网络的上下文建模方法,来帮助文档级神经机器翻译生成连贯和一致的翻译;实验结果表明,我们的方法可以在不同领域的多个数据集上显著优于强基线。
- EMNLP一种结构化学习方法用于时间关系提取
本文讨论识别事件之间时间关系的问题,提出了一种结构化学习方法,以解决在学习识别这些关系时必须考虑依赖关系的挑战。同时,该方法还提出了一个新的处理缺失关系问题的角度,并在两个基准数据集上取得了显著的改进。
- 交互转化演化算法用于符号回归
本文提出一种基于交互转换(IT)的进化算法,通过限制搜索空间到更简单但表达能力更强的函数形式,相对于遗传编程中常用的表达式树,该表示法具有创建更平滑的搜索空间的优点,并在真实数据集的逼近方面比传统方法和最先进的遗传编程算法表现更好。
- ICLR深度神经网络学习中示例遗忘的实证研究
研究神经网络在单分类任务训练中的学习动态,发现在缺乏明显分布偏移的数据情况下,存在相关遗忘现象,某些样例更容易被遗忘,而基于遗忘动态可以从训练数据集中省略部分例子却仍能保持最佳泛化性能。
- 关于生成对抗网络的自我调制
本文提出了一种简单的结构性改进 self-modulation,以提高生成对抗网络 (GAN) 的性能,并证明其可以适用于不同的数据集、架构、损失函数、正则化和超参数设置,大规模的实证研究表明,相对 FID 降低了 5%~35%,并且在 1 - 在线新闻源的多源社交反馈
本文介绍了一个大型数据集,旨在为预测分析任务提供评估比较的基准数据,并涵盖了新闻内容、社交反馈等信息以及经济、微软、奥巴马和巴勒斯坦等四个主题。
- 关于言语评估中规范数据的重要性
通过使用基于语音的图片描述评估的两个规范数据集,通过 ADASYN 对 DementiaBank 进行少数类过采样,我们优于二元分类,这突显了将稀疏且难以获取的患者数据与相对较大且易于访问的规范数据集相结合的有效性。
- NIPSGAN 是否平等? 大规模研究
这篇论文通过对多个 GAN 算法的大规模实验研究得出,大多数模型在经过足够的超参数优化和随机重启后可以达到类似的分数,建议未来的 GAN 研究应该基于更系统和客观的评估程序,同时提出了一些可用于计算精度和召回率的数据集。
- NIPS没有代表,就没有分类:评估发展中国家开放数据集中的地球物理多样性问题
本文分析了两个大型公开图像数据集的地球多样性,发现这些数据集似乎存在明显的美欧中心主义倾向,这强调了在构建开发中国家使用的数据集时确保地球代表性的必要性。
- 统一主机和网络数据集
本文主要介绍了从洛斯阿拉莫斯国家实验室的运行网络环境中导出的大型数据集,重点讨论了网络安全研究数据集的重要性,并希望这个数据集和相关讨论将成为网络安全研究的新动力。