python scipy.stats计算单样本假设检验(1 sample test)

时间:2022-07-23
本文章向大家介绍python scipy.stats计算单样本假设检验(1 sample test),主要内容包括其使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。

单样本检验:检验单个变量的均值与目标值之间是否存在差异,如果总体均值已知,样本均值与总体均值之间差异的显著性检验属于单样本假设检验。

例如:火箭班学生2019年高考成绩698分,2020年的每个人成已知[*,*,*,*,...........],求2020年的成绩和2019年的高考成绩是否有显著差别。

例如:客户要求工件加工长度小于170mm,现加工一批工件,测出其长度分别为[165.6,166.2,168.5,170.5,168.4,169.4,168.6,167.9,162.7,173.9],求这批工件的均值是否符合客户要求。

#本节内容学习用python统计包scipy自动计算假设检验:
'''
单(lsamp)样本检验(ttest_1samp)
'''import numpy as np
import pandas as pd
from scipy import stats
import matplotlib.pyplot as plt
from pylab import mpl
mpl.rcParams['font.sans-serif'] = ['SimHei']   # 雅黑字体
plt.rcParams['axes.unicode_minus']=False
'''
ttest_1samp:单样本检验:总体方差未知。
返回的第一个值t是假设检验计算出的t值
第二个值是p是双尾检验p值。因为scipcy计算出的是双尾检验的t值和p值,如果要求左尾检验,
根据对称性,双尾检验的的p值对应单尾的2倍。'''
#样本数据集。要求车床加工长度小于170
dataSer=pd.Series([165.6,166.2,168.5,170.5,168.4,169.4,168.6,167.9,162.7,173.9])
#总体平均值
pop_mean=170


#H0原假设:加工等于170;H1备选假设:不等于170;
t,p_twotail=stats.ttest_1samp(dataSer,pop_mean)
print('t值=',t,'双尾检验的p值=',p_twotail)
'''
双尾检验:p>判断标准alpha
'''
#单尾检验p值
p_onetail=p_twotail/2
print('单尾检验p值=',p_onetail)

#判断标准通常是使用显著水平alpha=5%
alpha=0.05
#做出结论
'''
左尾判断条件:t<0 and p<判断标准alpha
右尾判断条件:t>0 and p<判断标准alpha
'''
if t<0 and p_onetail<alpha:
    print('拒绝零假设,有统计显著,加工长度小于170cm,满足标准')
else:
    print('接受零假设,没有显著水平,加工长度大于等于170cm,不满足标准')

#置信区间
#平均值的置信区间,95% CI=(a,b)
#在报告置信区间时,提供这样几个信息:1)哪种类型的置信区间:单样本中的单个平均值置信区间.但我们在后面要讲到的相关样本检验是平均
#值间差异的置信区间。 2)置信水平和区间上下限。置信水平=CI(a,b)
'''
1)置信区间水平对应的t值(t_ci)
查t表格可以得到,95%的置信水平,自由度n-1对应的t值2)计算上下限
置信区间上限a=样本平均值-t_ci*标准误差
置信区间下限b=样本平均值-t_ci*标准误差'''
'''
查找t表格获取95%的置信区间,自由度df=n-1对应的t值'''
t_ci=2.262
#使用scipy计算标准误差
se=stats.sem(dataSer)
#置信区间上下限
mean=dataSer.mean()
print('平均值为:',mean)
a=mean-t_ci*se #上限
b=mean+t_ci*se #下限
print('单个平均值的置信区间,95置信水平 Confidence_Interval=(%f,%f)'%(a,b))
#做完一个假设检验之后,如果结果具有统计显著性,那么还需要继续计算其效应量:假设检验如果是显著的,那么有必要报告自变量效应量大小。
#效应量判断:结果取绝对值:0.20 小的效应,0.50中等效应,0.80高的效应
#如果结果不具有统计显著性,并且还需要继续进行决策的话,那么需要计算功效。
#效应量(effect size):样本间差异或相关程度的量化指标.
#度量效应量分类:差异度量、相关度量
#差异度量cohen's d =(样本平均值1-样本平均值2)/标准差  样本平均值与总体平均值相差多少
#相关度度量r^2=t^2/(t^2+df)
#效应量:差异指标Cohen's d
std=dataSer.std()
d=(mean-pop_mean)/std
#相关度指标
#样本大小
n=10
#自由度
df=n-1
r2=(t*t)/(t*t+df)
print('d=',d)
print('r^2=',r2)

程序运行结果为:

t值= -1.933 双尾检验的p值= 0.0851
单尾检验p值= 0.04258
拒绝零假设,有统计显著,加工长度小于170cm,满足标准
平均值为:168.17000
单个平均值的置信区间,95置信水平 Confidence_Interval=(166.029370,170.310630)
d= -0.6115
r^2= 0.29353