Anal´Yza Rozptylu - Jednoduch´Etˇr´Idˇen´I 14
Total Page:16
File Type:pdf, Size:1020Kb
UCˇEBN´I TEXTY OSTRAVSKE´ UNIVERZITY Pˇr´ırodovˇedeck´a fakulta ANALYZA´ DAT Petr Bujok Ostravsk´a univerzita 2019 ANALYZA´ DAT KIP/ANDAT texty pro distanˇcn´ıstudium Autor: Petr Bujok Ostravsk´auniverzita, Pˇr´ırodovˇedeck´afakulta Katedra Informatiky a poˇc´ıtaˇc˚u Jazykov´akorektura nebyla provedena, za jazykovou str´anku odpov´ıd´aautor. c Petr Bujok, 2019 OBSAH i Obsah 1 Parametrick´etesty o shodˇestˇredn´ıch hodnot 4 1.1 Jednov´ybˇerov´yt-test ........................... 4 1.2 Dvouv´ybˇerov´yt-test ........................... 6 1.3 P´arov´yt-test ............................... 11 2 Anal´yza rozptylu - jednoduch´etˇr´ıdˇen´ı 14 3 Z´aklady line´arn´ıregrese 21 4 Neparametrick´emetody 33 4.1 Test dobr´eshody ............................. 34 4.2 Kontingenˇcn´ıtabulky - test nez´avislosti ................. 36 4.3 Znam´enkov´ytest ............................. 41 4.4 Jednov´ybˇerov´yWilcoxon˚uv test ..................... 43 4.5 Dvouv´ybˇerov´yWilcoxon˚uv test ..................... 46 4.6 Kruskal˚uv-Wallis˚uv test ......................... 50 4.7 Spearman˚uv koeficient poˇradov´ekorelace ................ 52 5 Programov´eprostˇredky pro statistick´ev´ypoˇcty 57 5.1 Tabulkov´yprocesor MS Excel ...................... 57 5.2 Statistick´eprogramov´esyst´emy ..................... 62 5.3 Volnˇedostupn´yprogram JASP ..................... 63 6 Prezentace v´ysledk˚uanal´yzy dat 69 6.1 Prezentace tabulek a uˇzit´ıvhodn´ych graf˚u ............... 69 6.2 Jak´ym chyb´am se vyhnout? ....................... 74 7 Literatura - komentovan´yseznam 78 8 Statistick´etabulky 81 OBSAH 1 8.1 Distribuˇcn´ıfunkce normovan´eho norm´aln´ıho rozdˇelen´ı ......... 82 8.2 Vybran´ekvantily rozdˇelen´ıCh´ı-kvadr´at ................. 83 8.3 Vybran´ekvantily Studentova t-rozdˇelen´ı ................ 84 8.4 Vybran´ekvantily Fisherova Snedecorova F-rozdˇelen´ı .......... 85 8.5 Kritick´ehodnoty pro jednov´ybˇerov´yWilcoxon˚uv test ......... 86 8.6 Kritick´e hodnoty pro dvouv´ybˇerov´y Wilcoxon˚uv (Mann˚uv- Whitney˚uv) test .............................. 87 8.7 Kritick´ehodnoty Spearmanova korelaˇcn´ıho koeficientu ........ 88 OBSAH 3 Pˇredmluva Tento text slouˇz´ıjako opora pro pˇredmˇet Anal´yza dat. Navazuje na kurs Z´aklady matematick´estatistiky. C´ılem kursu je aplikovat z´akladn´ıstatistick´eznalosti v rela- tivnˇejednoduch´ych ´uloh´ach, s nimiˇzse velmi ˇcasto setk´av´ame pˇri anal´yze dat. Casovouˇ n´aroˇcnost zvl´adnut´ıtohoto textu a vyˇreˇsen´ı zadan´ych pˇr´ıklad˚ulze odhad- nout na pˇribliˇznˇe80 aˇz100 hodin. V nˇekter´ych pˇr´ıkladech, jejichˇzˇreˇsen´ıje uvedeno v uˇcebn´ımtextu, se uˇz´ıvaj´ıdata ze soubor˚uBI97.txt. Pokud si chcete uveden´aˇreˇsen´ısami ovˇeˇrit a zopakovat, tato data si m˚uˇzete st´ahnout z webov´ych str´anek autora textu, http://www1.osu.cz/ bujok/. ∼ Kaˇzd´akapitola zaˇc´ın´apokyny pro jej´ıstudium. Tato ˇc´ast je vˇzdy oznaˇcena jako Pr˚uvodce studiem s ikonou na okraji str´anky. Pojmy a d˚uleˇzit´esouvislosti k zapamatov´an´ıjsou vyznaˇceny na okraji str´anky textu ikonou. V rozsahu cel´eho textu jsou um´ıstˇeny Pˇr´ıklady, jejichˇzpodrobn´eˇreˇsen´ıumoˇzˇnuje porozumˇet prob´ıran´eproblematice do vˇetˇs´ıhloubky a tak si sn´aze osvojit praktiky pro dalˇs´ıaplikace. V z´avˇeru kaˇzd´ekapitoly je rekapitulace nejd˚uleˇzitˇejˇs´ıch pojm˚u. Tato rekapitulace je oznaˇcena textem Shrnut´ı a ikonou na okraji. Odd´ıl Kontroln´ı ot´azky oznaˇcen´yikonou by v´am mˇel pomoci zjistit, zda jste prostudovanou kapitolu pochopili a snad vyprovokuje i vaˇse dalˇs´ıot´azky, na kter´e budete hledat odpovˇed’. U nˇekter´ych kapitol je pˇripomenuta Korespondeˇcn´ı ´uloha. Pro kombinovan´ea distanˇcn´ıstudium jsou korespondenˇcn´ı ´ulohy zad´av´any v r´amci kurzu dan´eho se- mestru. Uspˇeˇsn´evyˇreˇsen´ıkorespondenˇcn´ıch´ ´uloh je souˇc´ast´ıpodm´ınek pro celkov´e hodnocen´ıpˇredmˇetu. Hlavn´ı´ulohou, kterou byste mˇeli osvˇedˇcit poznatky z´ıskan´ev tomto kursu, je ana- l´yza v´ami vybran´eho souboru dat z vaˇseho okol´ı.Proto se poohl´ednˇete po datech, kter´ebyste chtˇeli statisticky zpracovat, a kde jste zvˇedavi na v´ysledky t´eto anal´yzy. Pˇr´ıpadn´enejasnosti vˇcas konzultujte s vyuˇcuj´ıc´ım. V´ysledky anal´yzy bude pak po- tˇreba pˇredloˇzit formou vytiˇstˇen´estruˇcn´ea pˇrehledn´ezpr´avy, pokud moˇzno v rozsahu max. 3 strany. Pˇred pˇr´ıpravou zpr´avy si prostudujte kap. 6 o prezentaci v´ysledk˚u. 4 1 PARAMETRICKE´ TESTY O SHODEˇ STREDNˇ ´ICH HODNOT 1 Parametrick´etesty o shodˇestˇredn´ıch hodnot Pr˚uvodce studiem: Tato kapitola shrnuje tˇri statistick´eparametrick´etesty. Text je rozdˇelen do nˇekolika logicky ucelen´ych ˇc´ast´ı.K prostudov´an´ıcel´et´eto kapitoly budete potˇrebovat asi 12 hodin. Studium v´am ulehˇc´ıˇcetn´eilustrativn´ıpˇr´ıklady. V pˇr´ıpadˇenejasnost´ıje moˇzn´e se obr´atit na oporu pˇredchoz´ıho kursu Z´aklady pravdˇepodobnosti a statistiky. C´ıl: Po prostudov´an´ıt´eto ˇc´asti kapitoly byste mˇeli: zn´at detaily testov´an´ıstatistick´ych hypot´ez, • urˇcit a interpretovat testov´ekrit´erium jednotliv´ych test˚u, • ch´apat rozd´ılymezi z´akladn´ımi parametrick´ymi testy, • rozliˇsovat mezi jednostrannou a oboustrannou alternativn´ı hypot´ezou. • 1.1 Jednov´ybˇerov´yt-test Jednov´ybˇerov´yoboustrann´y t-test byl podrobnˇevysvˇetlen v uˇcebn´ımtextu Z´aklady pravdˇepodobnosti a statistiky. Doporuˇcujeme se k tomu vr´atit a z´aklady testov´an´ı hypot´ez si znovu pˇripomenout. M´ame n´ahodn´yv´ybˇer (X1,X2,...,Xn) nez´avisl´ych n´ahodn´ych veliˇcin norm´alnˇeroz- dˇelen´ych, tj. X N(µ, σ2), i = 1, 2,...,n. Testujeme hypot´ezu, ˇze stˇredn´ıhod- i ∼ nota rozdˇelen´ıpopulace, z n´ıˇzm´ame v´ybˇer, tj. µ je rovna nˇejak´edan´ehodnotˇe µ0. proti alternativˇe, ˇze µ = µ0. Za platnosti nulov´ehypot´ezy m´astatistika T rozdˇelen´ı 6 X µ0 podle n´asleduj´ıc´ıho vztahu T = − tn 1 a pˇri oboustrann´ealternativˇe µ = µ0 je s/√n ∼ − 6 kritick´yobor W ( , tn 1(α/2)] [tn 1(1 α/2), + ). Pokud vypoˇcten´ahod- ≡ −∞ − ∪ − − ∞ nota T leˇz´ıv kritick´em oboru, tak nulovou hypot´ezu µ = µ0 pro dan´e α zam´ıt´ame (kvantily t-rozdˇelen´ıjsou tabelov´any 8.3). Oboustrann´aalternativa H : µ = µ vˇsak nen´ıjedin´amoˇzn´aformulace alternativn´ı 1 6 0 hypot´ezy. M´ame-li k dispozici nˇejakou apriorn´ıinformaci o stˇredn´ıhodnotˇepopu- lace, ze kter´eje realizov´an v´ybˇer, m˚uˇzeme zformulovat alternativu jednostrannˇe: H0 : µ = µ0 H1 : µ>µ0 (tzv. pravostrann´a alternativa) Dalˇs´ıpostup testu bude zcela analogick´yjako u oboustrann´eho testu, pouze kritick´y obor bude jin´y, totiˇz W [tn 1(1 α), + ). Nulovou hypot´ezu m˚uˇzeme zam´ıtnout ≡ − − ∞ 1.1 Jednov´ybˇerov´yt-test 5 ve prospˇech t´eto alternativy tehdy, kdyˇzv´ybˇerov´ypr˚umˇer X je o hodnˇevˇetˇs´ıneˇz µ0. Pˇresnˇeji vyj´adˇreno, kdyˇzpro hodnotu testov´eho krit´eria plat´ı X µ0 − tn 1(1 α). s/√n ≥ − − Vid´ıme, ˇze pravdˇepodobnost neopr´avnˇen´eho zam´ıtnut´ı nulov´ehypot´ezy je opˇet rovna hladinˇev´yznamnosti α. T´ım, ˇze jsme alternativu formulovali s vyuˇzit´ımnˇejak´eapri- orn´ıinformace, staˇc´ık zam´ıtnut´ınulov´ehypot´ezy, aby hodnota testov´eho kriteria T byla alespoˇn tn 1(1 α). U oboustrann´ealternativy by to bylo tn 1(1 α/2). − − − − Zcela analogicky, pokud bychom mˇeli k tomu d˚uvod, m˚uˇzeme formulovat i levostran- nou alternativu H1 : µ<µ0. Pak kritick´yobor je W ( , tn 1(α)]. ≡ −∞ − Obecnˇepˇri uˇz´ıv´an´ıtest˚u, zejm´ena jednostrann´ych, je vhodn´enejdˇr´ıve formulovat alternativu ve tvaru obsahuj´ıc´ımtvrzen´ı,kter´ebychom chtˇeli prok´azat“ – tzv. v´y- ” zkumnou hypot´ezu. Pak pokud nulovou hypot´ezu zam´ıtneme, m´ame t´emˇeˇrjistotu (s rizikem rovn´ym α), ˇze tvrzen´ıvyj´adˇren´ealternativn´ıhypot´ezou je pravdiv´e. Pˇr´ıklad 1.1 Na vybranou optimalizaˇcn´ı´ulohu byl aplikov´an deterministick´y algo- ritmus, kter´ydos´ahl jej´ıho ˇreˇsen´ıza 2400 v´ypoˇcetn´ıch krok˚u. Dlouhodob´yv´yzkum ukazuje, ˇze nedeterministick´y(stochastick´y) pˇr´ıstup m˚uˇze b´yt efektivnˇejˇs´ı.Proto byl na stejnou ´ulohu nasazen rovnˇeˇzstochastick´yalgoritmus. Z d˚uvodu stochastiˇcnosti byl experiment opakov´an 60 kr´at, a v´ysledn´epoˇcty krok˚u k dosaˇzen´ıˇreˇsen´ı t´eˇze ´ulohy jsou v tabulce: 2622 2906 3816 1371 2812 1058 1749 2262 3992 1841 1200 2895 1675 4512 2530 2182 3044 2510 3087 3852 1220 1285 3984 2588 2232 2727 1741 2742 1932 3790 1548 1085 899 2269 2804 1336 3457 2525 1933 2307 2821 2333 2523 1122 1405 2661 1828 788 2018 1400 2130 635 1419 3275 2767 957 2594 1413 3124 3923 Zjistˇete, zda je stochastick´yalgoritmus efektivnˇejˇs´ıneˇz deterministick´y. Pokud m´ame zjistit, zda jsou v´ysledky opakov´an´ıstejn´eho pokusu stochastick´eho algoritmu lepˇs´ıneˇzv´ysledek deterministick´eho etalonu“, pouˇzijeme jednov´ybˇerov´y ” t-test. Nulovou hypot´ezu m˚uˇzeme formulovat H0 : µstoch = 2400. Dosad´ıme-li do testov´eho krit´eria, obdrˇz´ıme T = 0.909, a pokud v´ysledek porovn´ame s tabul- − kou 8.3 (α =0.05, proto Tkrit=2), zjist´ıme, ˇze T < Tkrit. Na z´akladˇetoho nem˚uˇzeme | | zam´ıtnout H0, tud´ıˇznovˇeaplikovan´ystochastick´yalgoritmus dosahuje obdobn´ych v´ysledk˚ujako deterministick´ypˇr´ıstup (a to i pˇres to, ˇze je pr˚umˇern´ypoˇcet krok˚u stochastick´eho algoritmu roven 2291). Uk´azka v´ystupu programu JASP: 6 1 PARAMETRICKE´ TESTY O SHODEˇ STREDNˇ ´ICH HODNOT 95% CI for Mean Difference t df p Mean Difference Lower Upper kroky -0.909 59 0.367 -109.067 -349.254 131.121 N Mean SD SE kroky 60.000 2290.933 929.780 120.034 1.2 Dvouv´ybˇerov´yt-test Pˇredpokl´ad´ame, ˇze m´ame dva nez´avisl´ev´ybˇery o rozsahu n1, resp. n2, ze dvou 2 norm´alnˇe rozdˇelen´ych populac´ı. Prvn´ı populace m´a rozdˇelen´ı N(µ1, σ1), druh´a 2 N(µ2, σ2).