使用朴素贝叶斯分类器进行采样审计证据

Mar, 2024

使用朴素贝叶斯分类器进行采样审计证据

Sampling Audit Evidence Using a Naive Bayes Classifier

Guang-Yih Sheu, Nai-Ru Liu

TL;DR将机器学习与抽样技术相结合，以提高台湾审计师处理过多审计数据的能力，并实现随机性、多样性和针对性风险取样。三种实验表明，机器学习整合抽样具有绘制无偏样本、处理复杂模式、相关性和非结构化数据以及提高大数据抽样效率的优势。

Abstract

Taiwan's auditors have suffered from processing excessive audit data, including drawing audit evidence. This study advances sampling techniques

auditors sampling techniques machine learning integration representativeness index audit evidence

发现论文，激发创造

采样攻击：通过重复查询放大成员推断攻击

该研究关注于机器学习模型中有关成员推断攻击的问题，并提出了一种新的会员推断技术 —— 抽样攻击，进一步研究了两种最近的攻击模型以及针对这些攻击的防御方法，最终发现在预测输出时的输出微扰技术是一种简单易行的隐私保护方法，对预测结果的影响较小。

Sep, 2020

机器学习和人工智能系统的数据可代表性

本文研究数据的代表性对于通过机器学习模型进行数据推断至关重要，探讨了模型中的偏见和公正性，以及与输入数据固有偏见的关系。本文介绍了三个可测量概念，以帮助集中观点并评估不同的数据样本。通过对美国人口普查数据的实证演示，我们评估了这些概念之间的对比。最后，我们提出了一个问题框架，帮助设计人员在数据文档模板中考虑数据的代表性。

Mar, 2022

通过赌博审计公平性

本文提出了一种使用非参数方法、连续监控、基于概率策略和适应分布变化等特征的公平性审计方法，并在多个基准公平性数据集上验证其有效性。

May, 2023

面向通用、可扩展的贝叶斯教学框架及其在主题模型中的应用

通过基于人类教学的伪边际抽样实现机器学习的普适性教学方法，成功地在主题模型上进行训练，并在电影简介数据中验证了该方法的优势。

May, 2016

对抗噪声标签的无偏样本选择

在这篇论文中，我们揭示了现有的样本选择方法在实践中存在的数据和训练偏差问题，并提出了一种鲁棒的网络架构和混合采样策略来解决这些问题，以实现对带有噪声标签的学习任务的准确建模。

Jan, 2024

应用典型度量方法评估决策树处理未知车辆碰撞数据的可靠性

研究论文通过理论和实验，探讨了 ε- 代表性方法在决策树中评估数据集相似性的可靠性，发现 ε- 代表性与特征重要性排序具有显著相关性，并将结果扩展到 XGboost 在未见车辆碰撞数据中的应用。

Apr, 2024

一种基于混合采样的不平衡学习框架

研究提出了一种新型的样本采样算法，“SMOTE-RUS-NC”，它可以通过结合三种不同的采样技术来实现数据的平衡处理，进而提高分类算法的性能，特别是能够在高度不平衡的数据集中表现出卓越的效果。

Aug, 2022

机器翻译人类评估的有效性改进探讨

本研究探讨了一种简单的降低标注成本的方法，即采用分层抽样和控制变量等技术，结合文档成员身份信息和自动评估指标，从而在固定标注预算下获得更高的准确性。在测试集上，相比于纯随机抽样，平均误差降低了高达 20%。该技术易于实现且适用于类似结构的问题。

Apr, 2022

通过贝叶斯数据选择实现模型训练加速

使用轻量级贝叶斯处理和基于大规模预训练模型的即用型零样本预测器，解决了现实场景中标记错误、重复或有偏差的数据在训练中的问题，提高了模型的训练效率。

Aug, 2023

不受信任的推荐引擎中隐私的代价

本文研究了在本地差分隐私条件下从用户隐私数据中学习项目簇的问题，并且开发了一些方法来限制互信息，其结果表明采取不同的算法和方法可以实现不同零星用户样本复杂度，同时研究的技术具有更广泛的适用性。

Jul, 2012