- 豪萨视觉基因组:用于多模式英豪机器翻译的数据集
该研究创建了首个 Hausa Visual Genome 语料库,其中包含 32923 个图像及图像描述,可用于实现 Hausa-English 机器翻译、多模式研究、图像描述等多个自然语言处理和生成任务。
- Klexikon:一个用于联合总结和简化的德语数据集
本研究提出了一种联合文本简化和摘要生成的方案,为此创建了一个新的数据集,并提供代码和数据以支持该方案的实现。
- EMNLPWANLI: 工人与人工智能合作创建自然语言推理数据集
通过使用自然语言生成技术和人工智能协作来创造数据集,以及使用 WANLI 数据集训练模型取得了较高精度,具有以下关键词:众包、NLP 数据集、数据集创作、人工智能、自然语言推理
- ObjectFolder: 具有隐含的视觉、听觉和触觉表征的物体数据集
该研究创建了一个包括 100 个虚拟对象的数据集,它旨在解决现有数据集太小、不足以代表实际物体等问题。该数据集可用于进行多感官输入识别、物体重建等基准测试,并可用于机器人手部抓取等任务。
- ACL用语义相关的图片替换文本构建多模式对话数据集
本文提出创建一种包含图像的 45k 多模态对话数据集的方法,该方法通过准备、预处理文本对话数据集、使用文本转图像技术创建混合图像对话,以及利用基于上下文相似性的过滤步骤确保数据集的上下文一致性。自动度量和人类评估结果表明,我们的数据集可以有 - 建立仇恨言论检测数据集的信息检索方法
通过信息检索领域的标准方法,采用池化和主动学习技术及任务分解和注释说明技巧,构建了一个更全面的针对 Twitter 中仇恨言论检测的基准数据集,并显示了现有检测模型在这些更广泛的仇恨形式测试中准确度的显著下降。
- 通过对抗性改写任务提升释义检测
通过对抗方法提出了一个新的数据集创建方式 —— 对抗性同义句生成任务(Adversarial Paraphrasing Task, APT),以更好地检测句级别的意义相等,从而加速数据集生成并提高同义句识别模型的性能。
- SDNet:使用 Swin 的多分支单图像去雨方法
本研究提出了一种使用 Swin-transformer 模型实现去雨任务的基本模块改进方法,并设计了一个三分支模型,并提出了一个新的数据集 Rain3000 来验证模型的性能和效果,实验结果表明,该方法在公开数据集 Rain100L,Rai - 快速准确的现实世界深度超分辨率:基准数据集和基准模型
本文提出了一种新的深度图像超分辨率方法,利用移动手机和 Lucid Helios 采集的配对 LR 和 HR 深度图构建了一个名为 RGB-D-D 的大规模数据集,并提供了一个快速深度图超分辨率(FDSR)基准线,与现有公共数据集上的基准方 - ACLDynabench: NLP 基准评估的重新思考
Dynabench 是一个开源平台,支持动态数据集创建和模型基准测试,可以在一个 web 浏览器中运行。通过人和模型操作,使 annotators 创建能够被目标模型误分类但另一个人不能误分类的示例。本文认为,Dynabench 解决了当前 - ACL长格式问答进展的障碍
该论文探讨了长篇问答任务中关于评估和数据集构建所面临的挑战,在提出新模型的同时指出该任务中 ROUGE-L 评估不具信息性,且训练集和验证集存在显著重复。给出了缓解这些问题的建议。
- DynaSent: 一种情感分析动态基准测试
DynaSent 是一项新的英语情感分析三元基准测试,将自然发生的句子与使用 DynaBench 平台创建的句子相结合,旨在人 - 模型 - 数据集共同创建数据集。本篇论文重点介绍了如何提高质量和减少人为因素,同时呼吁定期重新训练模型。
- ACL信息查询问答中的挑战:无法回答的问题和段落检索
本文分析了预训练语言模型在信息查找问题回答方面的挑战和解决方案,包括段落选择和答案预测。作者人手对多语言数据集进行了分类和标注,在此基础上提出了未来在数据集收集和模型开发方面的研究前景。
- COLING一份用于评估机器阅读理解的越南语数据集
本研究为缺乏基准数据集的低资源语言(如越南语)创建了一个新的数据集 UIT-ViQuAD,包含超过 23000 个由人类创建的问题 - 答案对和 174 篇来自维基百科的越南文章。通过用现有最先进的机器学习模型解决问题来比较联合测量人类表现 - 回复和引用中的立场(SRQ):用于学习 Twitter 会话中立场的新数据集
通过对推特上有争议话题的帖子进行回复和引用回复的态度标注,创建了包含超过 5200 个态度标注的推特态度数据集,以提高谣言识别和用户间敌对关系判定的效果。同时,为了提高识别准确率,研究者还设计了引导标注数据选取的方法。研究表明,与单一信息源 - 虐待性语言训练数据的方向:垃圾进,垃圾出
本研究从数据驱动分析、骚扰性在线内容、数据集创建、建议和基于证据的综合等方面,系统性地评估了一种在线暴力语言数据集。通过这种基于知识的综合,我们向从事这种复杂多样数据处理的从业者提供了推荐建议。
- ICLREgoshots,自我视角记录生活数据集和语义保真度量,用于评估图像字幕模型中的多样性
本文介绍用于图像字幕生成的数据集 Egoshots,并使用现有的预训练图像字幕和对象识别网络对其进行注释,展示现有作品的局限性;此外,还提出了一种新的图像字幕度量标准 SF,可以在没有注释的情况下评估生成的标题,使其对实际生活中产生的标题非 - ECCVTextCaps:一种带有阅读理解的图像字幕数据集
该研究创建了一个新的数据集 TextCaps,涉及 28k 张图片和 145k 个标题,用于挑战计算机视觉模型识别图像中的文本,与视觉环境进行关联,并决定要复制或释义文本的哪个部分。研究表明,这个新的数据集提供了许多前所未有的技术挑战。
- 问答系统能从游戏达人身上学到什么
通过创建竞赛数据集,可以激发机器学习回答问题的能力并揭示出哪个系统回答问题最好,但是需要借鉴历史上竞赛社区创建竞赛的经验教训,包括消除歧义、评估技能和裁定争议。
- ICCV来自弱标注照片的美学图像字幕生成
本文介绍了如何通过使用基于网站提供的图片和嘈杂的评论的自动清洗策略创建一个用于美学图像标题生成的基准数据集(AVA-Captions)。同时,还介绍了一种概率的标题过滤方法,以及利用美学属性间的潜在关联性进行卷积神经网络(CNN)特征提取器