|
Post by account_disabled on Apr 27, 2024 3:59:01 GMT -6
元等在这里我们尝试删除变量的均值并除以标准差以创建均值和离差的变量。请在此处查看有关标准化的更多信息。这样我们就不会出现单元冲突的问题并且聚类会更加有效。下一步是找到最佳的簇数。也就是说根据我们拥有的数据存在统计上不同的组的数量。在本例中我们找到最佳簇数为在图中您可以看到最佳簇数已被标记为。我们继续吧。下一点是应用聚类算法。在本例中我们将使用k-k均值算法。我在这个视频中解释了更多应用您刚刚发现的k均值聚类算法这就是结果。您看到的两个轴是前两个主成分的轴。有一天我会和你谈谈这件事使用k-算法生成的三个簇请注意您可以区分三个完全不同的组。 下一步是计算每个化学成分变量的平均值。让我们来看看它它们是每个聚类特征的平均值的结果。从这三个集群中我们可以分析集群之间是否存在显着差异并根据成分找到最能定义葡萄酒类别的集群。最后的解释部分将从您的数据中为我们提供有趣的结论。您可以借助 希腊移动的电话数字 平均值的置信区间和描述性箱线图来比较各组。这就是聚类或分段当您想要创建数据分段时它是一个非常有趣的工具。主要聚类算法现在我将列出最常用的数据分割算法。我已经用视频向你解释了k-算法。但还有其他一些非常常见且有用的。为了不使文章变得冗长我将三种最常用的算法与维基百科内容链接起来以便您可以了解这些算法的工作原理。 但首先我将尝试让您大致了解一下每一个分层聚类使用观测值之间的距离构建距离树然后将其划分为聚类。K-也使用点之间的距离。我根据簇与簇重心的距离对簇进行分组。首先您必须知道要创建多少个簇以便算法知道将每个点放置在哪里。高斯混合模型使用不同形状的高斯模型或正态分布模型以便您可以创建椭圆形式的组。对于每个点计算属于每个高斯模型的概率。还有其他算法但实际上k均值和高斯混合模型效果很好。我邀请您看看它们在维基百科上的工作方式。免费统计培训了解如何成功分析您的项目数据。无需浪费数千小时来破译难以理解的统计公式。立即参加免费培训聚类的步骤当您要应用数据分段时可以遵循以下步骤第步–标准化为了计算好的聚类有必要对数据进行标准化。
|
|