在统计学中,专业人员用来分析数据的最常用工具之一是归一化方法。这是一个重要的过程,可以帮助您比较数据集。如果您处理数据,了解规范化技术及其与标准化技术的区别可以帮助您更准确地计算并知道在不同情况下使用哪种技术。
归一化公式是什么?
归一化公式是一种统计公式,可用于缩小数据集,使其所有变化均低于 1 和 0。它可以帮助您将数据点表示为 1 和 0 之间的值。最大数据的归一化值为 1,最小数据点为零。1 和 0 内的其他数据点具有与其在数据集范围内的位置成比例的小数值。此技术还可以帮助您比较来自多个数据集的相应规范化值,以消除数据集规模变化的影响。
它使比较具有小值和大值的数据集变得容易。例如,如果您的数据值为“2、4、6、8和10”,则第一个和最后一个数据点的标准化值分别为零和一。两者中归一化值的中间点是 0.5,因为它是中间点。该公式还有助于比较具有不同比例的多个数据集。归一化技术的公式为:
归一化 (X 新) = (X – Xmin) / (Xmax – Xmin)
归一化公式的目的是什么?
以下是归一化技术的一些主要用途:
按比例缩小:归一化技术是一种重要工具,可用于创建通用比例来比较具有不同值的数据集。它在评级等广泛领域发挥着重要作用,专业人士使用它来将他们在不同尺度上测量的值调整为概念上的通用尺度。
计算复杂的功能:您也可以将它用于更复杂和复杂的功能。例如,对齐整组调整后值的概率分布或将它们转换为分位数归一化,其中不同度量的分位数保持对齐。
评分考试:或者,考试公司和教师可以使用标准化技术对难度不同的考试进行评分,并将分数与正态分布对齐。该技术很有用,因为它有助于在一定范围内平均分配分数,并通过包含更难问题的考试来补偿学生。
数据挖掘和处理:同样,专业人员可以使用这种技术来处理或挖掘数据。当您的数据集包含已知的上限和下限并且数据在整个范围内保持均匀分布时,您也可以使用此公式。
预测建模和预测:专业人士也将其用于预测、预测和建模。他们更喜欢将此公式用于这些功能,以使数据模型对用户友好且更具相关性。
如何使用归一化技术
如果您希望使用规范化技术,请执行以下步骤:
1.计算数据集中的范围
计算数据集范围的第一步是找出集合中的最小值和最大值。当您按升序或降序排列数据集中的值时,您可以轻松地做到这一点。然后从最大值中减去最小值。例如,一位科学家想要使用归一化技术分析数据集。多次实验的结果分别是12、26、28、32,最大的数据点是32,最小的是12。根据公式,这个数据集的范围是20。
2.数据点值减去最小值
使用该技术的下一步是从您正在分析的数据点中减去您的范围。您可以从数据集中的任何数据点开始。例如,科学家数据集中的第一个数据点是 25。然后,从中减去最小值 12 得到 13。
3. 将数值代入公式并相除
最后,将最小值与特定数据点之间的差异除以范围。这一步意味着将第二步的结果除以第一步。在上面的示例中,您将 13 除以 20,得到 0.65。该结果遵循归一化技术,因为值介于 0 和 1 之间。
4. 用额外的数据点重复这个过程
将公式应用于每个数据点以正确分析数据集非常重要。它在比较集合内的数据点时也很有用。或者,您可以使用电子表格程序自动执行此过程并节省时间而不是手动计算。例如,在使用归一化技术完成第一次分析后,您可以对其他数据点进行相同的分析,分别给出 0、0.8 和 1 的结果。
规范化数据的原因
应用归一化技术的原因包括:
了解和评估数据范围
归一化技术允许您将范围广泛的数据简化为易于理解的图形。例如,您可能希望对 50 名学生的数学成绩列表进行标准化,结果通常在零到一百之间。标准化这些数字会将分数减少到零和一之间的小数,这样您就可以将最低分数 20 表示为 0.2,将最高分数 99 表示为 0.9。
比较具有不同数据范围的不同数据集
您还可以使用规范化技术通过在不同数据集之间建立关系来更好地理解它们。例如,您可能希望将数学考试成绩与物理成绩进行比较,以确定这两个科目中最成功和最不成功的学生。也有可能当你的数学测试得分为 100 分时,物理得分为 50 分。虽然范围不同,但将它们标准化会使分数处于平衡的范围内,这样数学得分为 80 分且物理得分为 40 分的学生得到统一的分数在零到一的范围内评分为 0.8。
自定义范围的标准化技术
尽管归一化技术将所有结果放在一个介于 0 和 1 之间的数据集中,但您可以改变公式,使值落在自定义范围内。例如,您可以自定义计算,使结果范围从零到五而不是零到一。该技术非常适用于计算标准比例为 1 到 10 的数据、百分比或考试评分。您可以使用的公式是:
X 归一化 = a+ = ( ((X- 最小值) * (ba)) / X 的范围)
统计中类似的分析技术
除了归一化技术,科学家用来修改和分析数据集以用于其他目的的其他技术包括:
特征裁剪
此公式是删除超出特定最大值或最小值的数据点的过程。科学家们使用这个公式来去除可能扭曲数据集中计算结果的异常值和极端数字。例如,当科学家研究行星上的轨道物体时,他们可能会移除轨道超出设定距离的物体。此步骤确保它们包括围绕特定行星运行的项目,而不是随机项目。
Z分数
科学家在机器学习中使用 Z-score 归一化来判断数据集平均值与特定数据点之间的距离。当数据集中存在一些离群值时,它有助于提供一种更简单的方法来将数据点与常态进行比较。您还可以使用它来比较由于实验或遗传原因可能相似的数据集,例如特定时间范围内的结果或动物的相似物理属性。
日志缩放
对数缩放使用对数将大范围压缩为更小的范围。它减少了前一个数据集和后一个数据集之间的距离,因为按比例缩小可能不成比例。这种方法最适用于测量不同的自然现象,例如恒星的亮度。
规范化与标准化
规范化和标准化是相似的思想,但它们有一些重要的区别。归一化是对一系列数据进行归一化的过程。这是科学家用来实现 1 和 0 之间尺度的一系列过程。该技术还将数据范围内的数据点置于最大和最小范围内。或者,标准化使用标准差来表示数据点的分布。它还将数据点与所有数据点的平均值或平均值相关联。
例如,计算 z 分数是一个标准化过程,因为您可以将结果超出 1 到 0 的范围。同样,当归一化技术将数据范围内的值转换为适合某个范围(更常见的是从一到零)时,标准化将相同的值转换为适合包含均值为零和标准差为一的分布。您可以将此过程称为均值居中或计算 Z 分数。 |