Mar, 2024

一张图片胜过 500 个标签:Instagram 和 TikTok 本地机器学习模型中的人口统计差异案例研究

TL;DR移动应用程序通过将数据处理移至用户的智能手机来保护用户隐私。利用先进的机器学习(ML)模型,如视觉模型,现在可以在本地分析用户图像以提取推动多种功能的见解。通过分析两个流行的社交媒体应用程序 TikTok 和 Instagram,揭示了(1)这两个应用中的视觉模型从用户的图像和视频数据中推测出的见解以及(2)这些模型在与人口统计学相关性方面是否存在性能差异。了解这些模型中的潜在偏见对于确保用户获得公平且准确的服务至关重要。我们开发了一种捕获和评估移动应用程序中 ML 任务的新方法,克服了代码混淆、本地代码执行和可扩展性等挑战。我们的方法包括 ML 任务检测、ML 流水线重建和 ML 性能评估,特别关注人口统计学的差异。我们将该方法应用于 TikTok 和 Instagram,揭示了重要的见解。对于 TikTok,我们发现了关于年龄和性别预测准确性的问题,特别是对未成年人和黑人个体而言。在 Instagram 中,我们的分析揭示了超过 500 个图像概念中的人口统计学差异,存在某些概念与人口统计学特征之间的虚假相关性。