深度递归双 Q 学习用于 Atari 游戏

ICMLAug, 2019

Performing Deep Recurrent Double Q-Learning for Atari Games

Felipe Moreno-Vera

TL;DR本文介绍了基于深度强化学习的新模型，使用双 Q-Learning 算法和循环神经网络（如 LSTM 和 DRQN）的实现方案，应用在类似阿塔里游戏、马里奥等的视频游戏中，通过奖励数据进行自我学习。

Abstract

Currently, many applications in machine learning are based on define new models to extract more information about data, In this case Deep Reinforcement Learning with the most common application in video games lik

deep reinforcement learning double q-learning recurrent networks machine learning video games

发现论文，激发创造

实时揭示印度人的属性的智能城市监控

这篇论文关注于为印度城市创建一个智能监控系统，该系统可以实时识别和分析人们的属性。通过使用人工智能和机器学习等先进技术，该系统可以识别上半身颜色、穿着、配饰以及头饰等属性，并通过城市周围安装的摄像头来分析人们的行为。

Jul, 2024

众多是否更好？导航在集成学习系统中准确性与能效设计权衡

从绿色人工智能的角度出发，我们建议使用机器学习的小规模集合（2 个或最多 3 个模型），利用基于子集的训练、多数投票和能源高效的 ML 算法（如决策树、朴素贝叶斯或 KNN）来设计更加高效的机器学习模型组合。

Jul, 2024

利用人工智能和机器学习生成的假设（使用 TxGraffiti）

TxGraffiti 是一种基于机器学习和启发式方法的人工智能，旨在自动完成数学猜想的任务，并生成许多令人惊讶的猜想，已发表在权威的数学期刊上。本文概述了 TxGraffiti 所实施的机器学习和启发式技术，并宣布了一个新的在线版本，供对图论中的猜想感兴趣的人探索使用。

Jul, 2024

锐性感染和脓毒症的基于血液的诊断和预后的机器学习分类器开发

我们应用机器学习技术解决急性感染和败血症快速准确诊断和预后的医学需求，通过测量患者血液中 29 种信使 RNA 的丰度作为机器学习的特征，并通过分类器将这些特征转化成直观的检测报告，包括细菌感染、病毒感染和病情严重程度的区分。在内部验证中，该系统在三种疾病诊断（细菌感染、病毒感染或未感染）上实现了 0.83 的 AUROC 值，在疾病严重程度的二元预测上实现了 0.77 的 AUROC 值。该系统已经获得了美国食品药品监督管理局（FDA）的突破性设备认定，本工程手稿介绍了用于将学术研究概念转化为临床产品的标准和新颖机器学习方法，并讨论了相关经验教训。

Jul, 2024

比较基于特征和上下文感知的方法在个人身份信息概化级别预测中的应用

提出了两种方法来保护文本数据中的个人可识别信息（PII）的隐私性，一种是使用机器学习改进结构化输入性能的基于特征的方法，另一种是考虑原始文本和泛化候选项之间的上下文和语义关系的新颖上下文感知框架。实验证明，上下文感知方法在不同尺度上优于基于特征的方法，通过突出特征选择、集成学习和融入上下文信息等方面推进了 PII 泛化技术的发展，从而更好地保护文本匿名化中的隐私保护。

Jul, 2024

旅行推销员问题中具有退火的因子分解机的高效位标记

本研究探讨了参数转换为实际机器可用变量对大规模问题中寻找最佳参数组合的关键性，以及借助机器学习（如具有退火功能的因式分解机）将参数转换为二进制变量来解决二次无约束二进制优化问题。通过旅行商问题的实例，我们提出并评估了灰度标记方法，该方法将二进制标记中的海明距离与旅行距离相关联。通过对最多 15 个城市的旅行商问题进行数值模拟，并限制迭代次数，与自然标记相比，灰度标记显示出更低的局部最小解百分比和更短的旅行距离。

Jul, 2024

针对差分隐私的攻击感知噪声校准

我们的研究提出了一种新方法，通过直接校准噪声规模到期望的攻击风险水平，而无需选择隐私预算参数 ε，从而显著降低噪声规模，提高模型的准确性，同时保护隐私。

Jul, 2024

与机器交流：你能听懂我说的话吗？

通过对话研究的回顾和介绍，本篇论文更详细地展示了作者在模块化体系结构、机器学习 / 深度学习、强化学习以及端到端深度神经网络等方面的研究，同时也讨论了会话型智能代理的相关问题和任务导向对话领域的科研成果。

Jul, 2024

基于安全驱动的深度强化学习框架的协作机器人：一种 Sim2Real 方法

提出了一种新方法，将安全约束整合到深度强化学习（DRL）的机器人模拟训练中，并通过将安全要求的特定部分直接整合到机器人的学习算法中来评估这些安全约束的有效性。通过测试 DRL 模型在包括具有和没有障碍物规避的抓取任务等各种场景下的效率来验证这一方法，并使用基于仿真的测试来评估 DRL 模型对潜在危险和合规性的响应。该研究验证了这种方法显著提高了机器人系统的安全性能，且该 DRL 模型能够在维持操作效率的同时预测和减轻危险。采用带有安全传感器的协作机械臂测试平台进行验证，并使用平均安全违规次数、障碍物规避次数和成功抓取次数等指标来评估其性能，结果显示该方法在仿真场景中的平均成功率提高了 16.5%，在无安全违规的测试平台上提高了 2.5%。

Jul, 2024

深度学习模型中实施成员推断攻击的方法

现代机器学习（ML）生态系统提供了大量的 ML 框架和代码库，可以极大地促进 ML 模型的开发。本研究考虑了恶意 ML 提供者供应模型训练代码给数据持有者的情况，该提供者无法访问训练过程，只能以黑盒查询方式访问结果模型。我们展示了一种新形式的成员推断攻击，比以往的攻击更强大，使对手能够可靠地取消识别所有训练样本，并且被攻击的模型仍然保持与未受损对照模型相当的性能。此外，我们还展示了被污染的模型可以在常见的成员隐私审核下有效伪装被放大的成员泄漏，只有对手知道的一组秘密样本才能揭示。总体而言，我们的研究不仅指出了最坏情况下的成员隐私泄漏，还揭示了现有隐私审核方法的一个常见问题，需要未来努力重新思考机器学习模型中的隐私审核实践。

Jul, 2024