一文解读合成数据在机器学习技术下的表现

发布时间：2018-08-26 03:06:04 所属栏目：教程来源：数据派

导读：副标题#e# 作者：Eric Le Fort 编译：蒋雨畅卢苗苗想法相比于数量有限的有机数据，我将分析、测评合成数据是否能实现改进。动机我对合成数据的有效性持怀疑态度预测模型只能与用于训练数据的数据集一样好。这种怀疑论点燃了我内心的想法，即通过客观调

为了测试每个数据集的强度，我将采用三种不同的机器学习技术：多层感知器(MLP)，支持向量机(SVM)和决策树(Decision Trees)。为了帮助训练，由于某些特征的幅度比其他特征大得多，因此利用特征缩放来规范化数据。使用网格搜索调整各种模型的超参数，以最大化到达最好的超参数集的概率。

总之，我在8个不同的数据集上训练了24种不同的模型，以便了解合成数据对学习效果的影响。

相关代码在这里：https://github.com/EricLeFort/DataGen

结果

经过几个小时调整超参数并记录下精度测量结果后，出现了一些反直觉的结果!完整的结果集可以在下表中找到：

☟多层感知器(MLP)

多层感知器(MLP)

☟支持向量机(SVM)

支持向量机(SVM)

☟决策树(Decision Trees)

一文解读合成数据在机器学习技术下的表现

在这些表中，“Spike 9”或“Plateau 9”是指分布和使用的尖峰/平台的数量。单元格中的值是使用相应的训练/测试数据对模型进行训练/测试，并用验证集验证后的的最终精度。还要记住，“完整”(Full)类别应该是准确性的理论上限，“真实”(Rea;)类别是我们在没有合成数据的情况下可以实现的基线。

一个重要的注意事项是，(几乎)每次试验的训练/测试准确度都明显高于验证准确度。例如，尽管MLP在Spike-5上得分为97.7%，但在同一试验的训练/测试数据上分别得分为100%和99%。当在现实世界中使用时，这可能导致模型有效性的过高估计。

完整的这些测量可以在GitHub找到：https://github.com/EricLeFort/DataGen

让我们仔细看看这些结果。

首先，让我们看一下模型间的趋势(即在所有机器学习技术类型中的合成数据集类型的影响)。似乎增加更多尖峰/平台并不一定有助于学习。你可以看到在3对 5时尖峰/平台之间的一般改善，但是当看到5对9时，则要么变平或稍微倾斜。

对我来说，这似乎是违反直觉的。随着更多尖峰/平台的增加，我预计会看到几乎持续的改善，因为这会导致分布更类似于用于合成数据的正态分布。

现在，让我们看一下模型内的趋势(即各种合成数据集对特定机器学习技术的影响)。对于MLP来说，尖峰或平台是否会带来更好的性能似乎缺少规律。对于SVM，尖峰和平台似乎表现得同样好。然而，对于决策树而言，平台是一个明显的赢家。

总的来说，在使用合成数据集时，始终能观察到明显的改进!

以后的工作

需要注意的一个重要因素是，本文的结果虽然在某些方面有用，但仍然具有相当的推测性。因此，仍需要多角度的分析以便安全地做出任何明确的结论。

这里所做的一个假设是每个类别只有一个“类型”，但在现实世界中并不总是如此。例如，杜宾犬和吉娃娃都是狗，但它们的重量分布看起来非常不同。

此外，这基本上只是一种类型的数据集。应该考虑的另一个方面是尝试类似的实验，除了具有不同维度的特征空间的数据集。这可能意味着有15个特征而不是10个或模拟图像的数据集。

相关报道：https://www.codementor.io/ericlefort/my-thoughts-on-synthetic-data-kq719a5ss

【本文是51CTO专栏机构大数据文摘的原创译文，微信公众号“大数据文摘（ id: BigDataDigest）”】

大数据文摘二维码

戳这里，看该作者更多好文

【编辑推荐】

外媒速递：五大Python发行版助你攻克机器学习难题
我们该如何学习机器学习中的数学
达观数据：一文详解深度学习、机器学习与NLP的前世今生
外媒速递：开发者应当了解的18套机器学习平台
在工程领域中，机器学习的数学理论基础尤为重要

【责任编辑：赵宁宁 TEL：（010）68476606】
点赞 0

（编辑：海南站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/3

首页

amd9550四核cpu如何 a	cpu风扇调速器是什么
PS如何做乐高效果马赛	Oracle数据表分区的规