卖逼视频免费看片|狼人就干网中文字慕|成人av影院导航|人妻少妇精品无码专区二区妖婧|亚洲丝袜视频玖玖|一区二区免费中文|日本高清无码一区|国产91无码小说|国产黄片子视频91sese日韩|免费高清无码成人网站入口

數(shù)據(jù)分析需要哪些統(tǒng)計(jì)學(xué)知識(shí)(統(tǒng)計(jì)基礎(chǔ)知識(shí)入門?)

統(tǒng)計(jì)基礎(chǔ)知識(shí)入門?要做好數(shù)據(jù)分析,除了自身過(guò)硬的技術(shù)和靈活的數(shù)據(jù)思維,還必須學(xué)習(xí)必要的統(tǒng)計(jì)學(xué)基礎(chǔ)知識(shí)!因此,統(tǒng)計(jì)學(xué)是數(shù)據(jù)分析必須掌握的基礎(chǔ)知識(shí),即通過(guò)對(duì)數(shù)據(jù)的搜索、整理、分析和描述,推斷被測(cè)對(duì)象的性質(zhì)

數(shù)據(jù)分析需要哪些統(tǒng)計(jì)學(xué)知識(shí)(統(tǒng)計(jì)基礎(chǔ)知識(shí)入門?)

統(tǒng)計(jì)基礎(chǔ)知識(shí)入門?

要做好數(shù)據(jù)分析,除了自身過(guò)硬的技術(shù)和靈活的數(shù)據(jù)思維,還必須學(xué)習(xí)必要的統(tǒng)計(jì)學(xué)基礎(chǔ)知識(shí)!因此,統(tǒng)計(jì)學(xué)是數(shù)據(jù)分析必須掌握的基礎(chǔ)知識(shí),即通過(guò)對(duì)數(shù)據(jù)的搜索、整理、分析和描述,推斷被測(cè)對(duì)象的性質(zhì),甚至預(yù)測(cè)對(duì)象的未來(lái),是一門綜合性的科學(xué)。

統(tǒng)計(jì)用了大量的數(shù)學(xué)等學(xué)科的專業(yè)知識(shí),其應(yīng)用幾乎涵蓋了社會(huì)科學(xué)和自然科學(xué)的所有領(lǐng)域,甚至是數(shù)據(jù)量巨大的互聯(lián)網(wǎng)領(lǐng)域,所以扎實(shí)的統(tǒng)計(jì)學(xué)基礎(chǔ)是一個(gè)優(yōu)秀的數(shù)據(jù)人必備的技能。

而統(tǒng)計(jì)知識(shí)包括圖形信息、數(shù)據(jù)集中趨勢(shì)、概率計(jì)算、排列組合、連續(xù)概率分布、離散概率分布、假設(shè)檢驗(yàn)、相關(guān)與回歸等。對(duì)于具體知識(shí)點(diǎn),本文就不一一介紹了。有興趣的同學(xué)可以參考《深入淺出統(tǒng)計(jì)學(xué)》、《統(tǒng)計(jì)學(xué):從數(shù)據(jù)到結(jié)論》等專業(yè)書籍。

統(tǒng)計(jì)可分為描述性統(tǒng)計(jì)和推斷性統(tǒng)計(jì)。

一.描述性統(tǒng)計(jì)

定義:用具體的數(shù)字或圖表來(lái)表示數(shù)據(jù)的集中和分散。

1.集中趨勢(shì)

集中趨勢(shì)是指一組數(shù)據(jù)的中心值,使用的指標(biāo)有:算術(shù)平均值、幾均值、中位數(shù)。

1)算術(shù)平均值:平均值,反映一組對(duì)稱分布的變量值的平均水平。

2)幾均數(shù):常用來(lái)反映一組對(duì)稱分布的變量值經(jīng)過(guò)對(duì)數(shù)轉(zhuǎn)換后的平均水平。

3)中位數(shù):是第50個(gè)百分位數(shù),適用于偏態(tài)分布數(shù)據(jù)和一端或兩端沒(méi)有確切值的數(shù)據(jù)。

4)百分位數(shù):用于確定醫(yī)學(xué)參考值范圍的邊界值。

2.離散趨勢(shì)

離散趨勢(shì)反映了數(shù)據(jù)的變異程度,常用的指標(biāo)有極差、四分位間距、方差和標(biāo)準(zhǔn)差、變異系數(shù)等。

1)范圍:一組數(shù)據(jù)的最大值和最小值之差,但范圍可以 不能反映所有數(shù)據(jù)的變化,而且容易受樣本內(nèi)容的影響。通常用于描述偏態(tài)分布。

2)四分位數(shù)間距:由第11個(gè)四分位數(shù)減去第3個(gè)四分位數(shù)得到,常與中位數(shù)一起描述偏態(tài)分布數(shù)據(jù)的分布。

3)方差和標(biāo)準(zhǔn)差:反映一組數(shù)據(jù)的平均離散程度,排除樣本含量的影響,常用來(lái)與均值一起描述一組數(shù)據(jù)中離散和集中的趨勢(shì)。

4)變異系數(shù):又稱離群值,常用于觀察指標(biāo)單位的差異,可以消除因單位不同而造成的比較困難。

例如,箱線圖可以很好地反映一些關(guān)鍵的統(tǒng)計(jì)數(shù)據(jù)。

3.抽樣方法和中心極限定理

#取樣方法

我們做產(chǎn)品檢驗(yàn)的時(shí)候,不可能把所有的產(chǎn)品都打開看是否合格。我們只能從所有產(chǎn)品中抽取一些樣品進(jìn)行檢驗(yàn),并根據(jù)樣品的質(zhì)量來(lái)估計(jì)整體的產(chǎn)品質(zhì)量。這是取樣。抽樣的定義是從整體中檢驗(yàn)整體。抽取一些樣本進(jìn)行測(cè)試,并根據(jù)樣本的測(cè)試結(jié)果估計(jì)整體質(zhì)量的方法。

采樣的方法有很多種,不同的目的和場(chǎng)景需要不同的方法。常見的采樣方法有:

#概率抽樣

?簡(jiǎn)單隨機(jī)抽樣;

?分層抽樣;

?整群抽樣(先將群體中的幾個(gè)單元合并成組,這樣的組稱為群,然后直接對(duì)群進(jìn)行抽樣);

?系統(tǒng)抽樣(將總體中的所有單元按一定順序排列,在規(guī)定范圍內(nèi)隨機(jī)選取一個(gè)單元作為初始單元,然后根據(jù)預(yù)先規(guī)定的規(guī)則確定其他樣本單元);

?階段抽樣(首先對(duì)組進(jìn)行抽樣,然后在組內(nèi)進(jìn)行兩階段抽樣)。

#非概率抽樣

?方便取樣(根據(jù)方便原則自行確定);

?判斷抽樣(基于專業(yè)知識(shí)的判斷);

?自愿樣本(研究者自愿參與);

?雪球樣本(類似樹形結(jié)構(gòu));

?配額樣本(類似于分層抽樣);

#兩種取樣方法的比較:

?非概率抽樣適用于探索性研究,為進(jìn)一步的數(shù)據(jù)分析做準(zhǔn)備,其特點(diǎn)是操作簡(jiǎn)單,時(shí)效快,成本低。而且抽樣對(duì)統(tǒng)計(jì)學(xué)專業(yè)的技術(shù)要求不是很高;

?概率抽樣的技術(shù)含量更高,調(diào)查成本更高,對(duì)統(tǒng)計(jì)專業(yè)知識(shí)的要求也更高。適用于考察目的,得到總體參數(shù)的置信區(qū)間。

#中心極限定理:如果給定樣本量的所有樣本來(lái)自任意一個(gè)整體,樣本均值的抽樣分布近似服從正態(tài)分布,樣本量越大,逼近性越強(qiáng)。以30為界,當(dāng)樣本量大于30時(shí),符合中心極限定理,樣本服從正態(tài)分布;當(dāng)樣本量小于30,總體近似正態(tài)分布時(shí),此時(shí)樣本服從t分布。樣本的分布決定了我們?cè)诩僭O(shè)檢驗(yàn)中用什么方法來(lái)檢驗(yàn)它。

第二,推斷統(tǒng)計(jì)學(xué)

定義:從樣本數(shù)據(jù)推斷總體的數(shù)據(jù)特征。

1、基本步驟

幾乎所有質(zhì)檢用的產(chǎn)品都是抽樣方法的推斷統(tǒng)計(jì),推斷過(guò)程是假設(shè)檢驗(yàn)。在做推斷統(tǒng)計(jì)時(shí),我們需要明確以下幾點(diǎn):

1)什么問(wèn)題?——

2)需要明確的證據(jù)是什么?

3)標(biāo)準(zhǔn)是什么?

明確之后,可以對(duì)應(yīng)我們假設(shè)檢驗(yàn)的幾個(gè)步驟:

1)提出原假設(shè)(H0)和替代假設(shè)(H1),確定顯著性水平(原假設(shè)正確時(shí)人們拒絕原假設(shè)的概率)。

2)選擇檢驗(yàn)方法,確定檢驗(yàn)統(tǒng)計(jì)量。

3)確定P值,進(jìn)行統(tǒng)計(jì)推理。

假設(shè)對(duì)于某個(gè)器件,國(guó)家標(biāo)準(zhǔn)要求平均值要低于20。

某公司制造了10臺(tái)設(shè)備,相關(guān)值如下:15.6 16.2 22.5 20.5 16.4 19.4 16.6 17.9 12.7 13.9。

利用假設(shè)檢驗(yàn)判斷該公司設(shè)備是否符合國(guó)家標(biāo)準(zhǔn);

1)假設(shè):

原始假設(shè):設(shè)備平均gt=20;

替代假設(shè):設(shè)備平均lt20;

2)總體呈正態(tài)分布,方差未知,樣本較小,采用t檢驗(yàn)。

3)計(jì)算檢驗(yàn)統(tǒng)計(jì)量:樣本平均值為17.17,樣本標(biāo)準(zhǔn)差為2.98,檢驗(yàn)統(tǒng)計(jì)量為(17.17-20)/(2.98/√10)=-3.0031。

4)當(dāng)置信度為97.5%,自由度為9時(shí),為單尾檢驗(yàn),臨界值為2.262。

5)由于-3.0031lt-2.262拒絕了原假設(shè),接受了替代假設(shè),裝置符合國(guó)家標(biāo)準(zhǔn)。

2.假設(shè)測(cè)試類型

?單樣本檢驗(yàn):檢驗(yàn)單個(gè)樣本的平均值是否等于目標(biāo)值。

?相關(guān)配對(duì)檢驗(yàn):檢驗(yàn)相關(guān)或配對(duì)觀測(cè)值之差的平均值是否等于目標(biāo)值。

?獨(dú)立雙樣本檢驗(yàn):檢驗(yàn)兩個(gè)獨(dú)立樣本的平均值之差是否等于目標(biāo)值。

3.統(tǒng)計(jì)測(cè)試方法

z檢驗(yàn):一般用于檢驗(yàn)大樣本(即樣本量大于30)平均值差異的方法。它利用標(biāo)準(zhǔn)正態(tài)分布的理論來(lái)推斷差異的概率,從而比較兩個(gè)平均數(shù)gt之間的差異是否顯著。

t檢驗(yàn):用于樣本含量小(如nlt30)且總體標(biāo)準(zhǔn)差σ未知的正態(tài)分布樣本。

f檢驗(yàn):f檢驗(yàn)也叫方差齊性檢驗(yàn)。雙樣本t檢驗(yàn)采用f檢驗(yàn)。檢驗(yàn)兩個(gè)樣本的方差是否存在顯著差異是選擇哪種T檢驗(yàn)(等方差雙樣本檢驗(yàn),異方差雙樣本檢驗(yàn))的前提。

(t檢驗(yàn)用于檢測(cè)數(shù)據(jù)的準(zhǔn)確性和系統(tǒng)誤差;f檢驗(yàn)用于檢測(cè)數(shù)據(jù)的精度和偶然誤差)

卡方檢驗(yàn):主要用于檢驗(yàn)兩個(gè)或兩個(gè)以上抽樣率或構(gòu)成比之間差異的顯著性,也用于檢驗(yàn)兩類事物之間是否存在一定的關(guān)系。

4.雙尾檢測(cè)和單尾檢測(cè)

這與我們提出的原始假設(shè)有關(guān),比如我們檢驗(yàn)的原始假設(shè):器件的平均值gt = 20我們需要拒絕的假設(shè)是設(shè)備平均值lt20,這是單尾檢驗(yàn)。如果我們?cè)瓉?lái)的假設(shè)是器件平均值gt20,那么我們需要拒絕器件平均值lt20和器件平均值=20的假設(shè),這就是雙尾檢測(cè);

5.置信區(qū)間和置信水平

在統(tǒng)計(jì)學(xué)中,幾乎所有的人都是基于樣本來(lái)推斷一般情況的,但是在推斷的過(guò)程中,我們會(huì)遇到各種各樣的阻礙和干擾,所以我們推斷的結(jié)果并不是一個(gè)確切的數(shù)字,而是在一個(gè)合理的區(qū)間內(nèi),這個(gè)區(qū)間就是置信區(qū)間。

但是整體所有的數(shù)據(jù)都在這個(gè)范圍內(nèi)是不現(xiàn)實(shí)的。我們只需要絕大多數(shù)出現(xiàn)在置信區(qū)間。這里絕大多數(shù)是置信度的概念。通常,我們的置信度是95%。

置信區(qū)間[a,b]的計(jì)算方法如下:(z得分:由置信水平?jīng)Q定,查表得到)

A =樣本均值-z*標(biāo)準(zhǔn)誤差,b =樣本均值z(mì)*標(biāo)準(zhǔn)誤差。