一文解读合成数据在机器学习技术下的表现
为了测试每个数据集的强度,我将采用三种不同的机器学习技术:多层感知器(MLP),支持向量机(SVM)和决策树(Decision Trees)。为了帮助训练,由于某些特征的幅度比其他特征大得多,因此利用特征缩放来规范化数据。使用网格搜索调整各种模型的超参数,以最大化到达最好的超参数集的概率。 总之,我在8个不同的数据集上训练了24种不同的模型,以便了解合成数据对学习效果的影响。 相关代码在这里:https://github.com/EricLeFort/DataGen 结果 经过几个小时调整超参数并记录下精度测量结果后,出现了一些反直觉的结果!完整的结果集可以在下表中找到: ☟多层感知器(MLP) ☟支持向量机(SVM) ☟决策树(Decision Trees) 在这些表中,“Spike 9”或“Plateau 9”是指分布和使用的尖峰/平台的数量。单元格中的值是使用相应的训练/测试数据对模型进行训练/测试,并用验证集验证后的的最终精度。还要记住,“完整”(Full)类别应该是准确性的理论上限,“真实”(Rea;)类别是我们在没有合成数据的情况下可以实现的基线。 一个重要的注意事项是,(几乎)每次试验的训练/测试准确度都明显高于验证准确度。例如,尽管MLP在Spike-5上得分为97.7%,但在同一试验的训练/测试数据上分别得分为100%和99%。当在现实世界中使用时,这可能导致模型有效性的过高估计。 完整的这些测量可以在GitHub找到:https://github.com/EricLeFort/DataGen 让我们仔细看看这些结果。 首先,让我们看一下模型间的趋势(即在所有机器学习技术类型中的合成数据集类型的影响)。似乎增加更多尖峰/平台并不一定有助于学习。你可以看到在3对 5时尖峰/平台之间的一般改善,但是当看到5对9时,则要么变平或稍微倾斜。 对我来说,这似乎是违反直觉的。随着更多尖峰/平台的增加,我预计会看到几乎持续的改善,因为这会导致分布更类似于用于合成数据的正态分布。 现在,让我们看一下模型内的趋势(即各种合成数据集对特定机器学习技术的影响)。对于MLP来说,尖峰或平台是否会带来更好的性能似乎缺少规律。对于SVM,尖峰和平台似乎表现得同样好。然而,对于决策树而言,平台是一个明显的赢家。 总的来说,在使用合成数据集时,始终能观察到明显的改进! 以后的工作 需要注意的一个重要因素是,本文的结果虽然在某些方面有用,但仍然具有相当的推测性。因此,仍需要多角度的分析以便安全地做出任何明确的结论。 这里所做的一个假设是每个类别只有一个“类型”,但在现实世界中并不总是如此。例如,杜宾犬和吉娃娃都是狗,但它们的重量分布看起来非常不同。 此外,这基本上只是一种类型的数据集。应该考虑的另一个方面是尝试类似的实验,除了具有不同维度的特征空间的数据集。这可能意味着有15个特征而不是10个或模拟图像的数据集。 相关报道:https://www.codementor.io/ericlefort/my-thoughts-on-synthetic-data-kq719a5ss 【本文是51CTO专栏机构大数据文摘的原创译文,微信公众号“大数据文摘( id: BigDataDigest)”】 戳这里,看该作者更多好文 【编辑推荐】
点赞 0 (编辑:海南站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |