关键词pretraining techniques
搜索结果 - 7
- 可以相信你的回答吗?基于视觉的视频问答
我们研究了视觉基础的视频问答,以回应利用预训练技术进行视频语言理解的新趋势。通过迫使视觉语言模型(VLMs)回答问题并同时提供视觉证据,我们试图确定这些技术的预测在多大程度上基于相关视频内容,而非语言或无关的视觉上下文的虚假相关性。通过构建 - ICCV胸部 X 光片的长尾多标签分类的技巧包
通过整合多种先进设计,例如数据增强、特征提取器、分类器设计、损失函数加权、外生数据补充等,以及简单的测试时数据增强和集成,我们的框架在 ICCV CVAMD 2023 CXR-LT 比赛的测试集上最终实现了 0.349 的 mAP,排名前五 - 视觉与语言预训练
本篇研究综述了当下 Vision-and-Language 领域内的预训练模型,并归纳总结了相关预训练技术、训练集以及下游任务。同时,文章还讨论了未来研究的多个方向。
- ACL通过对多模态指南进行排序来理解多模态程序化知识
本文通过构建数据集和收集人类注释来检验机器学习模型分析和排序多模式事件的能力,发现机器模型不仅表现远远不如人类,而且不能有效地利用多模式信息。为了改善机器在多模式事件排序上的性能,作者提出了针对顺序性的预训练技术,可以获得显著的 > 5% - EMNLP自动摘要是否需要知识迁移的预训练?
本文研究文本摘要中的预训练技术,表明使用随机字符 n-gram 构成的文档进行预训练可以达到与使用真实语料库进行预训练相当的性能,这种方法可以避免一些有关不当言论、偏见和版权问题的担忧。
- ACL更大上下文标记化:何时以及为何起作用?
本研究从四个角度评估了收集上下文信息的四种聚合器对更大背景的训练的影响,并提出了一个属性辅助评估方法来解释更大背景训练带来的改进,旨在加深人们对更大背景的培训的理解和启发更多的后续工作。
- 多语言 BERT 中的各种语言是否平等?
本文研究了 Multilingual BERT 在多种语言下的性能表现,特别是在对低资源语言的表示质量方面的评估,结果表明 Monolingual BERT 和 mBERT 相比差距较大,而解决这个问题的关键在于更有效的预训练技术或更多的数