MediaPipe：用于构建感知流水线的框架

Jun, 2019

MediaPipe：用于构建感知流水线的框架

MediaPipe: A Framework for Building Perception Pipelines

Camillo Lugaresi, Jiuqiang Tang, Hadon Nash, Chris McClanahan, Esha Uboweja...

TL;DRMediaPipe 框架可帮助开发人员构建基于算法和模型发展的原型和实现，从而促进智能化应用的迭代改进和跨平台性能测量。

Abstract

Building applications that perceive the world around them is challenging. A developer needs to (a) select and develop corresponding machine learning algorithms and models, (b) build a series of prototypes and demos, (c) balance resource consumption against the quality of the solutions,

perception machine learning mediapipe framework prototype cross-platform applications

发现论文，激发创造

多任务媒体偏见分析泛化预训练的表达式识别

MAGPIE 是第一个专门针对媒体偏见检测的大规模多任务预训练方法，通过提出 Large Bias Mixture (LBM)，编制了 59 个与偏见相关的任务。实验证明，MAGPIE 在 Bias Annotation By Experts (BABE) 数据集上的媒体偏见检测表现优于之前的方法，相对提升了 3.3% 的 F1 得分。MAGPIE 在 Media Bias Identification Benchmark (MBIB) 的 8 个任务中有 5 个任务表现更好。通过使用 RoBERTa 编码器，相比单任务方法，MAGPIE 只需要 15% 的微调步骤。结果显示，情感和情绪等任务可提升所有任务的学习，所有任务都可以增强对假新闻的检测，而扩展任务可以取得最佳结果。MAGPIE 证实了多任务学习是解决媒体偏见检测的一种有前景的方法，提高了现有模型的准确性和效率。此外，LBM 是第一个专注于媒体偏见多任务学习的资源收集。

Feb, 2024

MMBench: 您的多模型是否是全能选手？

提出了一种新的多模式基准测试方法 MMBench，通过精心策划的数据集和结合 CircularEval 策略和 ChatGPT 的方法来对大视觉语言模型进行综合评估，旨在帮助研究社区更好地评估其模型以及鼓励未来的进步。

Jul, 2023

VideoPhy: 视频生成中的物理常识评估

通过创建一个基准测试集 VideoPhy，我们评估了现有的文本到视频生成模型是否能符合真实世界活动的物理常识，结果显示这些模型缺乏生成符合文字提示和物理规律视频的能力，从而揭示了视频生成模型远未准确模拟物理世界的程度。

Jun, 2024

利用基于 Transformer 的多任务学习技术检测新闻报道中的媒体偏见

本文提出了一种基于多任务深度学习训练的 Transformer 架构，使用六个与偏见相关的数据集来解决媒体偏见检测问题，取得了较好的效果。

Nov, 2022

神奇修复：通过观察动态视频简化照片编辑

我们提出了一个生成模型，根据粗略编辑的图片合成一个遵循预定布局的逼真输出，并从原始图像中转移细节，同时保留其部分的身份信息，并将其调整到由新布局定义的光照和上下文。

Mar, 2024

模型重编程：资源高效的跨域机器学习

本文介绍了一种名为模型再编程的新技术，通过从源域重新利用和重用开发良好的预训练模型来解决目标域中的任务，从而实现资源高效的跨域机器学习，其方法论、现有应用案例和开放性研究问题等均有详细阐述。

Feb, 2022

Prism: 一个解耦和评估 VLM 能力的框架

Prism 是一个创新的框架，旨在解决视觉问题求解中构成的知觉和推理过程的相互交织难题，通过将感知和推理分离为两个不同的阶段，实现了对专有和开源 Vision Language Models 在感知和推理能力上的系统比较和评估。通过将专注于感知的精简 VLM 与专为推理而设计的强大 LLM 相结合，Prism 在一般的视觉语言任务中取得了卓越的结果，同时大幅减少了训练和操作成本的投入。在严格的多模式基准 MMStar 上，使用 vanilla 2B LLaVA 和免费获取的 GPT-3.5 配置 Prism，在性能上媲美比其大 10 倍的 VLM。

Jun, 2024

通过迭代一致性组合预训练模型集合

本文提出了一种基于闭环迭代一致优化的框架，将不同的预训练模型组合在一起，以零样本方式解决各种多模态问题，该框架通过生成器和评分器的迭代反馈，使模型之间通过沟通逐渐纠正错误，形成一致性，从而显著提高下游任务的性能。

Oct, 2022

EvalCrafter: 大规模视频生成模型的基准测试和评估

对于图像和语言生成模型的视觉和语言生成模型，我们提出了一种新的框架和流程来彻底评估生成视频的性能，并通过系数对齐目标度量与用户意见，以获得模型的最终排行榜。

Oct, 2023

MAFIA: 多适配器融合式全包含语言模型

通过使用结构化知识和大型生成模型，在多个偏见维度上以半自动的方式构建多样化反事实数据扩充（CDA），我们提出了一种模块化地消除预训练语言模型中的多个偏见维度。我们强调现有的去偏见方法未考虑多个社会偏见之间的相互作用，并提出了一种在各种社会偏见之间利用协同效应、能够同时进行多偏见去偏见的模型。通过在多个任务和多种语言上进行广泛评估，证明了我们的方法的有效性。

Feb, 2024