大学统计学课件抽样调查.pptx
大学统计学课件抽样调查按随机原则抽取样本单位节约人力、物力和财力可靠性高 三、抽样推断中常用得几个基本概念三、抽样推断中常用得几个基本概念 全及总体和抽样总体全及总体和抽样总体 全及总体指研究对象得全部单位,即具有同一性质得若干单位得集合体,简称总体,抽样调查中又叫全及总体。无限总体包含得单位数包含得单位数 N 就是无限得或相对无就是无限得或相对无限限有限总体包含得单位数包含得单位数 N 就是有限就是有限抽样总体抽样总体也叫子样,简称样本。大样本 n 30小样本 n30全及指标和抽样指标全及指标和抽样指标 全及指标根据全及总体各个单位得标志值计算 得反映其某种特征得综合指标 _全及平均数(总体平均数)(X)全及总体某一变全及总体某一变 量值得算术平均数量值得算术平均数全及成数(总体成数)(P)全及总体具有某种标全及总体具有某种标 志得单位数在总体中所占得比重志得单位数在总体中所占得比重总体方差(2)和总体标准差()测定全及总体标测定全及总体标 志变异程度得指标志变异程度得指标抽样指标根据抽样总体各个单位标志值计算得综合 指标,与全及指标相对应抽样平均数(x)抽样总体中某一变量抽样总体中某一变量值值(观测值观测值)得算术平均数得算术平均数抽样成数(p)具有某种标志得单位数具有某种标志得单位数在抽样总体在抽样总体 中所占得比重中所占得比重样本方差(s2)和样本标准差(s)说明说明抽样总体标志变异程度得指标抽样总体标志变异程度得指标重复抽样重复抽样从全及总体从全及总体N个单位中抽取个单位中抽取n个样本个样本,每每 次从总体中随机抽出一个单位后次从总体中随机抽出一个单位后,再放再放 回总体中重新参加下一次抽取回总体中重新参加下一次抽取不重复抽样不重复抽样从全及总体从全及总体N个单位中抽取个单位中抽取n个样本个样本,当某一个单位被随机抽出后当某一个单位被随机抽出后,不再放不再放 回总体回总体 一、抽样误差得概念及其影响程度一、抽样误差得概念及其影响程度在统计调查中在统计调查中,调查资料与实际情况不调查资料与实际情况不一致一致,两者得偏离称为统计误差。两者得偏离称为统计误差。调查误差代表性误差技术性误差登记性误差责任性误差系统性误差随机误差抽样误差即指随机误差抽样误差即指随机误差,这种误差就是抽样这种误差就是抽样调查固有得误差调查固有得误差,就是无法避免得。就是无法避免得。xXpP抽抽样样误误差差就就是是指指样样本本指指标标和和总总体体指指标标之之间间数数量量上上的的差差别别,即即、。抽样平均误差抽样平均误差 所有可能样本抽样误差得平均数,即一系列抽样指标得抽样平均数或抽样成数得标准差x抽样平均数得抽样平均误差p抽样成数得抽样平均误差抽样平均误差得计算方法抽样平均误差得计算方法重复抽样情况下抽样平均数得平均误差计算重复抽样情况下抽样平均数得平均误差计算。样本可能数目的个数样成数样本平均指标个数或抽全及总体平均数;抽样总体平均数;抽样平均数的平均误差式中)()(2KXxKXxxx 在在N中抽出中抽出n样本样本,从排列组合中可以有各从排列组合中可以有各种各样得样本组种各样得样本组:重复抽样重复抽样:N:Nn n不重复抽样不重复抽样:CnN2 1020304050X30()525()五户家庭三月份购买某商品的支出:元,元,元,元,元元现从五户中抽取二户作调查,如果为重复抽样 考虑顺序种排列组合如下:例例101010-20 400102015-15 225103020-10 100104025 -5 25105030 0 0201015-15 225202020-10 100203025 -5 25204030 0 0205035 5 25301020-10 100302025 -5 25303030 0 0 x样样本本平平均均数数xX 误误差差 2xX 抽抽取取样样本本x样样本本平平均均数数xX 误误差差 2xX 抽抽取取样样本本304035 5 2530504010 100401025-5 25402030 0 0403035 5 2540404010 10040504515 225501030 0 0502035 5 2550304010 10050404515 22550 505020 400合 计-2 500接左:接左:)()(10252500 )(2为样本配合总数元抽样平均误差nKXxxx样本数样本数f(f(即次数分配即次数分配)101-20152-15203-10254 -5305 0354 5403 10452 15501 20合计 25 -xX 2(xX)ff 重复纯随机抽样条件下重复纯随机抽样条件下,抽样平均误差计算抽样平均误差计算样本总体单位数。全及总体标准差;抽样平均数的平均误差式中nnnxx2没有全及总体标准差资料时没有全及总体标准差资料时,用抽样总体标准差用抽样总体标准差 s s 代替代替nsnsx2nPPPPpP)1()1(抽样成数的平均误差总体成数的标准差没有全及总体标准差资料时没有全及总体标准差资料时,用抽样总体标准差用抽样总体标准差 s s 代替代替抽样成数pnppnsp)1(重复抽样情况下抽样成数得平均误差计算重复抽样情况下抽样成数得平均误差计算不重复抽样情况下不重复抽样情况下,抽样平均数得平均误差和抽样成数得平抽样平均数得平均误差和抽样成数得平均误差计算均误差计算设设:全及总体单位数全及总体单位数 N 抽样总体单位数抽样总体单位数 n有有:抽样总体单位数。总体单位数;全及总体标准差;式中抽样平均数的平均误差nNNnnx)1(2没有全及总体标准差资没有全及总体标准差资料时料时,用抽样总体标准用抽样总体标准差差 s s 代替代替)1(2Nnnsx样本总体单位数。总体单位数;抽样成数;式中抽样成数平均误差nNpNnnppp)1()1(抽样平均误差得计算不重复抽样重复抽样抽样成数平均误差抽样平均误差抽样形式nppp)1(nsx)1(2Nnnsx)1()1(Nnnppp%5Nn%5Nn应用条件全及总体标志变动程度全及总体标志变动程度 与抽样误差得大小成正比关系与抽样误差得大小成正比关系样本单位数样本单位数 与抽样误差得大小成反比关系与抽样误差得大小成反比关系抽样组织形式抽样组织形式 抽样组织形式不同抽样组织形式不同,抽样误差得大小不同抽样误差得大小不同例6、1 某地对2800户农户年收入进行调查,抽取5%农户作样本,调查显示:1998年每人年平均收入为5965元,其年收入得标准差为104、80元,试计算重复抽样和不重复抽样得抽样平均误差。已知已知:N=2800(户),n=28005%=140(户),s=104、80(元)重复抽样得抽样平均数得抽样平均误差为重复抽样得抽样平均数得抽样平均误差为:不重复抽样得抽样平均数得抽样平均误差为不重复抽样得抽样平均数得抽样平均误差为:)(86.81408.104元nsx)(63.8)28001401(1408.104)1(22元Nnnsx例6、2 某厂生产某产品,按正常生产检验产品中一级品率占60%。现从10 000件产品中抽取100件产品进行检验,试按重复和不重复抽样计算一级产品率得抽样成数得平均误差。已知:p=0、6,N=10 000 件,n=100 件重复抽样得抽样成数平均误差重复抽样得抽样成数平均误差:不重复抽样得抽样成数平均误差为不重复抽样得抽样成数平均误差为:%9.41004.06.0)1(nppp%88.4)100001001(1004.06.0)1()1(Nnnppp一、点估计和区间估计一、点估计和区间估计xXpP是是由由样样本本指指标标直直接接代代替替全全及及指指标标,不不考考虑虑任任何何抽抽样样误误差差因因素素。即即用用 直直接接代代表表,用用直直接接代代表表。就就100 x 1002p 98%X 1002P 98%在在全全部部产产品品中中,抽抽取取件件进进行行仔仔细细检检查查,得得到到平平均均重重量量克克,合合格格率率,我我们们直直接接推推断断全全部部产产品品的的平平均均重重量量克克,合合格格率率。例例(二二)区间估计区间估计 区间估计得含义 根据样本指标和抽样误差推断总体指标得可能范围,并说明估计总体指标得准确程度和可靠性。-抽样极限误差x、p抽样指标与全及指标之间抽样误差得可能范围。-x x-X p p-P等价变换:ppxxpPpxXx说明说明:(1)式表示全及平均指标全及平均指标以抽样平均指标为中心,-落在抽样平均指标x x 范围内;(1)(2)(2)式表示全及成数全及成数以抽样成数为中心,落在抽样成数 p p 范围内。例:某村5 000亩粮食耕地,用不重复抽样方法抽取50亩,求得其平均亩产为400公斤。若确定抽样极限误差为10公斤,请估计5000亩粮食耕地亩产。解:估计亩产(公斤)亩产(公斤)亩产4103901040010400 xxxXx例:从某品种农作物播种地块随机抽取秧苗1 000棵,其中死苗80棵。若确定抽样极限误差为3%,试估计该农作物秧苗得成活率区间。解:该农作物秧苗得成活率区间%95%89%31000801000%31000801000成活率成活率pppPp 区间推断得可靠程度区间推断得可靠程度(置信度置信度)令令 差的倍数)度(极限误差为平均误概率式中:则则自由tttttppppxxxxxxtxXtx则则 依据中心极限定律依据中心极限定律,当当 n n3030,抽样平均指标近似服从抽样平均指标近似服从正正态分布态分布,全及指标所落范围就可以用曲线所围成得面积大小全及指标所落范围就可以用曲线所围成得面积大小来计算。来计算。99.73%95.45%X-3 X-2 X-X X+X+2 X+368.27%其中:概率度 t 与概率 F(t)对应概率度 t 与概率 F(t)得对应关系表(常用)概率度(t)概率F(t)概率度(t)概率F(t)0、671、001、501、96 2、000、50000、68270、86640、95000、95452、53、04、04、55、00、987600、997300、999400、999930、99999例6、3 某大学有500人进行高等数学统考,随机抽查20%,所得有关成绩数据如表。试以95、45%得概率保证:(1)估计全部学生得平均成绩;(2)确定成绩在80分以上学生所占得比重和估计人数。考试成绩分组组中值x各组人数占(%)f/f向下累计x f/f(x-x)2f/f 60分以下 60-70 70-80 80-90 90-1005565758595822402550、080、220、400、250、051、000、920、700、300、054、4014、3030、0021、254、7531、047220、70000、066020、522520、6045解:(1)由于 n/N=20%5%,应采用不重复抽样公式计算平均误差:因 F(t)=95、45%,即可得到:t=2)(945.99102.98)()(70.74)(100%205002分分人ffxxffxxnx)(48.7692.7278.17.74)(78.1)5001001(100945.92)1(22分分xxxxXNnntt 由此说明有 95、45%得概率估计全校学生得高等数学统考成绩平均在 72、9276、48 分之间。(2)设80分以上成绩 p=0、3,t=2%20.38%80.21%20.8%30%20.8%10.42%10.4)5001001(100)3.01(3.0)1()1(pppppPtNnnpp 估计80分以上人数为:NP=50021、8%=109(人),至 50038、20%=191(人)例6、4 某灯泡厂从一批灯泡中抽取100只进行使用寿命检查,测得其平均寿命为1250小时,标准差为240小时。若推断这批灯泡得使用寿命在11781322小时之间,其可靠程度有多大?解:通过上述计算可知其可靠程度为99、73%、%73.99)(,324727211781250)(7213221250)(24100240tFtXxtnsxxx