1、什么是方差
方差 (variance) :计算:特征的所有数值的方差。意义:观察特征所有数值的离散情况 ( 标准差的平方 ) 。
2、什么是协方差
Covariance 期望值分别为E[X]与E[Y]的两个实随机变量X与Y之间的协方差Cov(X,Y)定义为: 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值时另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值;如果两个变量的变化趋势相反,即其中一个变量大于自身的期望值时另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。
如果X与Y是统计独立的,那么二者之间的协方差就是0,因为两个独立的随机变量满足E[XY]=E[X]E[Y]。但是,反过来并不成立。即如果X与Y的协方差为0,二者并不一定是统计独立的。
协方差Cov(X,Y)的度量单位是X的协方差乘以Y的协方差。
协方差为0的两个随机变量称为是不相关的。
若两个随机变量X和Y相互独立,则E[(X-E(X))(Y-E(Y))]=0,因而若上述数学期望不为零,则X和Y必不是相互独立的,亦即它们之间存在着一定的关系。
3、Max 最大值
最大值 (max) :计算:特征的数值中的最大值。意义:观察特征的最大表达量。
4、Min 最小值
最小值 (min) :计算:特征的数值中的最小值。意义:观察特征的最小表达量。
3、Average 平均值
平均值 (average) :计算:特征的所有数值的平均值。意义:观察特征的平均表达量。
6、什么是cv系数
C-v 系数 (cv) :计算:特征的标准差 / 特征的平均值。意义:通过考虑特征的平均表达量来考察特征所有数值的离散情况。
7、什么是熵值
熵值 (entropy) :计算:每个特征数值的数目除以 count 数即为该特征数值对应的概率 p ,所有特征数值的统计平均值即为该特征的熵值。记特征的 distinct 数为 n ,特征的 count 数为 N ,第 i 个特征数值的个数为 n i ,则第 i 个特征数值的概率为:
,该特征的熵值为:
。意义:熵值越大,表明数据越无序、混乱。
8、什么是Data数据量
数据量:计算:样本个数。意义:数据量的大小。
9、什么是覆盖率
覆盖率:计算:该值域内数据量占数据总量的比例。意义:数据占比。
10、什么是Distinct数
Distinct 数 (disntinct) :计算:特征的所有不同数值的个数。意义:观察特征的取值情形, distinct 数越大表明特征的取值越多。
11、什么是Pearson
Pearson: 计算:特征与 Label 间的 pearson 相关系数。两特征间的 pearson 相关系数计算如下:给定两个特征 X 、 Y ,均服从正态分布, cov(X,Y) 表示两个特征之间的协方差, σ x 表示特征 X 的标准差, σ y 表示特征 Y 的标准差,则它们之间的 Pearson 相关系数为:
。意义:相关系数绝对值越大,表明两个特征间线性相关程度越强。相关系数为负表明两个特征间为负相关。一般而言,相关系数绝对值在 0~0.2 表示弱相关, 0.2~0.4 表示较弱相关, 0.4~0.6 表示中等相关, 0.6~0.8 表示较强相关, 0.8~1 表示强相关。
12、什么是Spearman
Spearman: 计算:计算每个 group( 按 query 分组 ) 内特征与 Label 间的 spearman 相关系数,求均值。两特征间的 spearman 相关系数计算如下:给定两个特征 X 、 Y (对分布无要求),分别对特征的数值排序统计出各数值对应的秩次 Rx 、 Ry ,计算 Rx 与 Ry 间的 Pearson 相关系数即为 X 与 Y 间的 Spearman 相关系数。意义: Spearman 相关系数是一种非参数统计方法,对数据的初始分布无要求。相关系数绝对值越大,表明两个特征间相关程度越强。相关系数为负表明两个特征间为负相关。一般而言,相关系数绝对值在 0~0.2 表示弱相关, 0.2~0.4 表示较弱相关, 0.4~0.6 表示中等相关, 0.6~0.8 表示较强相关, 0.8~1 表示强相关。
13、什么是逆序对数
逆序对数Negative Pair Count:计算:同一个 group( 按 query 分组 ) 的两个样本,在特征上的大小关系与在 Label 上的大小关系相反,称为一个逆序对,所有逆序对数目为逆序对数。意义:按 query 分组后,特征与 Label 取值变化相反的样本对数。
14、什么是正序对数 Positive Pair Count
正序对数:计算:同一个 group( 按 query 分组 ) 的两个样本,在特征上的大小关系与在 Label 上的大小关系相同且这种大小关系不包含相等,称为一个正序对,所有正序对的数目为正序对数。意义:按 query 分组后,特征与 Label 取值变化相同的样本对数。
15、什么是特殊对数 Special Pair Count
特殊对数:计算:同一个 group( 按 query 分组 ) 的两个样本,对应的特征数值相等或 Label 相等,称为一个特殊序对,所有特殊序对的数目为特殊序对数。意义:按 query 分组后,特征与 Label 取值变化无关的样本对数。
16、什么是正序率
正序率:计算:(正序对数 + 特殊序对数 /2 ) / 总对数。意义:按 query 分组后,特征取值变化与 Label 取值变化间的关系。正序率大于 0.5 表明两者变化方向一致;小于 0.5 表明两者变化方向相反。
17、什么是正逆序对比
正逆序对比:计算:正序对数 / 逆序对数
18、什么是总体对数
总体对数:计算:逆序对数 + 正序对数 + 特殊序对数。意义:按 query 分组后,数据中样本 pair 数目。
19、什么是Mean Negative
Mean Negative :计算:两个特征值间差值的绝对值称为 pair diff ,所有逆序对中的两个特征间的 pair diff 的平均值为 Mean Negative 。意义:逆序对中,样本 pair 对中的特征取值差值的平均量。
20、什么是Mean Positive
Mean Positive :计算:两个特征值间差值的绝对值称为 pair diff ,所有正序对中的两个特征间的 pair diff 的平均值为 Mean Positive 。意义:正序对中,样本 pair 对中的特征取值差值的平均量。
21、什么是Mean SpecialMean Special :计算两个特征值间差值的绝对值称为 pair diff ,所有特殊序对中的两个特征间的 pair diff 的平均值为 Mean Special 。意义:特殊序对中,样本 pair 对中的特征取值差值的平均量。
22、什么是 Variance Negative
Variance Negative :计算:两个特征值间差值的绝对值称为 pair diff ,所有逆序对中的两个特征间的 pair diff 的方差为 Variance Negative 。意义:逆序对中,样本 pair 对中的特征取值差值的离散程度。
23、什么是 Variance Positive
Variance Positive :计算:两个特征值间差值的绝对值称为 pair diff ,所有正序对中的两个特征间的 pair diff 的方差为 Variance Positive 。意义:正序对中,样本 pair 对中的特征取值差值的离散程度。
24、什么是Variance Special
Variance Special :计算:两个特征值间差值的绝对值称为 pair diff ,所有特殊序对中的两个特征间的 pair diff 的方差为 Variance Special 。意义:特殊序对中,样本 pair 对中的特征取值差值的离散程度。
25、什么是Pairwise
Pairwise :计算:对同一个 group( 按 query 分组 ) 内的两个样本,他们再该特征的取值分别为 x1 、 x2 , label 分别 y1 、 y2 。把 (y1-y2)/(x1-x2) 看做梯度,将其记录在 (x1,x2] 的区间上,认为 (x1,x2] 的区间上,单位特征值需要产生 (y1-y2)/(x1-x2) 的 label 递增。如果 (x1,x2] 区间上,单位特征值上产生 (y1-y2)/(x1-x2) 的 label 递增, x1 、 x2 的 feature_diff 上就可以产出 y1 、 y2 的 label_diff 。对单位特征的 label 增长求积分即可得到每个特征值对应的累积 Label 梯度。意义:衡量按 query 分组后,特征与 Label 间的关系,单位特征的变化可以引起多少单位的 Label 变化。
26、什么是卡方检验
卡方检验:计算:给定两个分布 X 和 Y ,将分布平均划分成 n 个区间 (bins) ,每个区间看做一个数据,则
使用如下的统计量:
,其中
为总体 1 上第 i 个数据被观测到的频数(即落在区间 i 内的数据量 count ), 是总体 2 上第 i 个数据被观测到的频数。意义:衡量两个分布的差异程度。显著性值小于 0.05 ,表明两个分布存在显著差异。
27、什么是K-S检验
K-S 检验:计算:给定两个分布 X=[x1,x2,…,xm] , Y=[y1,y2,…,yn] ,且各分部内数据分别有序。记 X 的真实分布函数为 F(x) , Y 的真实分布函数为 G(x) 。则 X 与 Y 间的 K-S diversity 记为 D m,n =sup|F n1 (x)-G n2 (x)| 。直观起见可按如下方式计算,将 X 和 Y 的数值混合后记为 Z=[z1,z2,…,zk] ,则 D m,n =max k {abs||F(x ≤ zk)|-|G(x ≤ zk)||} ,这里 F 表示 X 分布中小于 zk 的数据量占总数据量的比例, G 表示 Y 样本中小于 zk 的数据量占总数据量的比例。意义:衡量两个分布的差异程度。显著性值小于 0.05 ,表明两个分布存在显著差异。
28、什么是Wilcoxon检验
Wilcoxon 检验:计算:把分布 X1 、 X2 、 … 、 Xm 和 Y1 、 Y2 、 … 、 Yn 混合起来,并把这 N= ( m+n )个观测值从小到大排列起来,这样 Y 的每一个观察值在混合排列中都有自己的秩(有相同值取平均秩) . 令 Ri 为 Yi 在这 N 个数中的秩,这些秩的和记为 Wy=∑Ri ,称为 Wilcoxon 秩和统计量。意义:衡量两个分布的差异程度。显著性值小于 0.05 ,表明两个分布存在显著差异。
29、什么是Mood检验
Mood 检验:计算:把分布 X1 , X2 , … , Xm 和 Y1 , Y2 , … , Yn 混合起来,记 R11 , R12 , … , R1m 为 X 的观察值在混合分布中的秩, R21 , R22 , … , R2n 为 Y 的观察值在混合样本中的秩, N=m+n. 秩统计量为
。意义:衡量两个分布的差异程度。显著性值小于 0.05 ,表明两个分布存在显著差异。
30、什么是K-L divergence 相对熵
K-L divergence( 相对熵 ) :计算:给定数据 X 的两个分布 P 和 Q ,数据 x i (i=1,2,…,n) 在 P 和 Q 下的概率分别为 p i 和 q i ,则以 P 为基准时两个分布 P 和 Q 之间的距离 K-L divergence 为:
。同样可得到以 Q 为基准的 K-L divergence 。对两个结果求平均即为平均 K-L divergence ,
。意义:衡量给定两个分布之间的距离, K-L divergence 越大则量分布间的差异程度越大。
31、什么是MMD对比
MMD 对比: Maximum-Mean-Discrepancy ,用来衡量两个分布之间的差异程度,它的基本思想在于如果两个分布一样,那么不管对分布怎么变换它们间的差异都为 0 ;如果两个分布不一样,那么总可以找到一种变换使得变换后的两个分布的差异最大。
|