快捷搜索:  手机  明星

数据型数据离散程度的测量指标(入行数据分析要知道什么是离散程度度量)

数据型数据离散程度的测量指标(入行数据分析要知道什么是离散程度度量)是数据离散程度的最常用测度值,反映了各变量值与均值的平均差异。是各变量值与其平均数离差绝对值的平均数,能全面反映一组数据的离散程度,数学性质较差,实际中应用较少(最小离差回归)。是对分类数据离散程度的测度,对非众数组的频数占总频数的比例(即非众数和/总数),用于衡量众数的代表性(比例越小越有代表性)。是对顺序数据离散程度的测度,也称为内距或四分间距。上四分位数与下四分位数之差公式反映了中间50%数据的离散程度。并且不受极端值的影响,用于衡量中位数的代表性。是一组数据的最大值与最小值之差。是离散程度的最简单测度值,易受极端值影响,未考虑数据的分布状态。

数列中各个数值之间的存在差距和离散程度。离中趋势的测定是对统计资料分散状况的测定,找出各个变量值与集中趋势的偏离程度。通过测定离中趋势,可以清楚地了解一组变量值的分布情况。

数据的离散程度越大,那么集中趋势的这个指标的代表性就越差。

其中主要包括的内容有:

  1. 数据特征 中的离中趋势、异众比率。
  2. 离散程度的测度 中四分位差、极差、平均差、方差和标准差。
  3. 数据观测 中自由度。
  4. 数据相对位置的度量 中标准分数、离散系数。
  5. 数据分布的测度 中偏态和峰态。

数据型数据离散程度的测量指标(入行数据分析要知道什么是离散程度度量)(1)

数据特征离中趋势

是数据分布的另一个重要特征,反映各变量值远离其中心值的程度(离散程度),并且从另一个侧面说明了集中趋势测度值的代表程度,不同类型的数据有不同的离散程度测度值。

数据型数据离散程度的测量指标(入行数据分析要知道什么是离散程度度量)(2)

异众比率

是对分类数据离散程度的测度,对非众数组的频数占总频数的比例(即非众数和/总数),用于衡量众数的代表性(比例越小越有代表性)。

数据型数据离散程度的测量指标(入行数据分析要知道什么是离散程度度量)(3)

离散程度的测度四分位差

是对顺序数据离散程度的测度,也称为内距或四分间距。上四分位数与下四分位数之差公式反映了中间50%数据的离散程度。并且不受极端值的影响,用于衡量中位数的代表性。

数据型数据离散程度的测量指标(入行数据分析要知道什么是离散程度度量)(4)

极差

是一组数据的最大值与最小值之差。是离散程度的最简单测度值,易受极端值影响,未考虑数据的分布状态。

数据型数据离散程度的测量指标(入行数据分析要知道什么是离散程度度量)(5)

平均差

是各变量值与其平均数离差绝对值的平均数,能全面反映一组数据的离散程度,数学性质较差,实际中应用较少(最小离差回归)。

数据型数据离散程度的测量指标(入行数据分析要知道什么是离散程度度量)(6)

方差和标准差

是数据离散程度的最常用测度值,反映了各变量值与均值的平均差异。

方差和标准差 :分为总体和样本的区别,是根据不同的数据计算所得。

数据型数据离散程度的测量指标(入行数据分析要知道什么是离散程度度量)(7)

数据观测自由度

是指数据个数与附加给独立的观测值的约束或限制的个数之差。是指一组数据中可以自由取值的个数。当样本数据的个数为n时,若样本平均数确定后,则附加给 n 个观测值的约束个数就是 1 个,因此只有 n-1 个数据可以自由取值,其中必有一个数据不能自由取值。按这一逻辑,如果对 n 个观测值附加的约束个数为 k 个,自由度则为n-k。

数据相对位置的度量标准分数

是对数据一种相对位置的度量,也称标准化值。对某一个值在一组数据中相对位置的度量。可用于判断一组数据是否有离群点(outlier),用于对变量的标准化处理。

数据型数据离散程度的测量指标(入行数据分析要知道什么是离散程度度量)(8)

离散系数

是标准差与其相应的均值之比。是对数据相对离散程度的测度消除了数据水平高低和计量单位的影响,用于对不同组别数据离散程度的比较。

数据型数据离散程度的测量指标(入行数据分析要知道什么是离散程度度量)(9)

一般来说离散系数越小,说明平均指标的代表性越好,离散系数越大,平均指标的代表性越差。

数据分布的测度偏态和偏态系数

是数据分布偏斜程度的测度。

  • 偏态系数= 0为对称分布
  • 偏态系数> 0为右偏分布
  • 偏态系数< 0为左偏分布

数据型数据离散程度的测量指标(入行数据分析要知道什么是离散程度度量)(10)

  • 偏态系数大于1或小于-1,被称为高度偏态分布。
  • 偏态系数在0.5~1或-1~-0.5之间,被称为中等偏态分布。
  • 偏态系数越接近0,偏斜程度就越低。

一般来说,偏态反应了数据的集中趋势,根据具体情况确定。

数据型数据离散程度的测量指标(入行数据分析要知道什么是离散程度度量)(11)

峰态和峰态系数

数据分布扁平程度的测度。

数据型数据离散程度的测量指标(入行数据分析要知道什么是离散程度度量)(12)

  • 峰态系数=0扁平峰度适中
  • 峰态系数<0为扁平分布
  • 峰态系数>0为尖峰分布

一般来说,峰态反应了数据分布趋势。

数据型数据离散程度的测量指标(入行数据分析要知道什么是离散程度度量)(13)



猜您喜欢: