LIETUVOS EDUKOLOGIJOS UNIVERSITETAS GAMTOS, MATEMATIKOS IR TECHNOLOGIJŲ FAKULTETAS INFORMATIKOS KATEDRA

Kristina Staškūnaitė

S TATISTINIŲ PAKETŲ TA IKYMAI MOKYMUI

Magistro baigiamasis darbas

Baigiamojo darbo vadovas: Doc. Dr. Tomas Petkus

Vilnius, 2015 m. 2

TURINYS

ANOTACIJA ...... 3

1. STATISTIKOS ISTORIJA ...... 4

1. 1. KAS YRA STATISTIKA ...... 5

1. 2. STATISTIKA MŪSŲ GYVENIME ...... 7

2. ATLIKTŲ MOKSLINIŲ DARBŲ APŽVALGA ...... 8

3. STATISTINIAI PAKETAI ...... 11

3. 1. STATISTINIAI PAKETAI LIETUVOS UNIVERSITETUOSE IR VALSTYBINĖSE ĮSTAIGOSE ...... 12

3. 2. SPSS ...... 14 3. 2. 1. Duomenų rinkimo produktai ...... 14 3. 2. 2. Statistiniai produktai ...... 15 3. 2. 3. Duomenų tyrybos ir modeliavimo produktai ...... 16 3. 2. 4. Analizės rezultatų panaudojimo sprendimai ...... 17

3. 3. STATISTINIS PAKETAS ...... 17

4. SPSS STATISTICS IR R PALYGINIMO TYRIMAS ...... 19

4. 1. STUDENTŲ PASISKIRSTYMAS ...... 19

4. 2. PROGRAMOS PLANAS...... 25 4. 2. 1. Aukštosios mokyklos dalykiniai reikalavimai ...... 25 4. 2. 2. Programos planas ...... 26 4. 2. 3. Pamokos ...... 26

4. 3. STATISTINIŲ PAKETŲ PALYGINIMO REZULTATAI ...... 28

SANTRAUKA ...... 36

SUMMARY ...... 37

INFORMACIJOS ŠALTINIŲ SĄRAŠAS ...... 38

PRIEDAI ...... 41 3

ANOTACIJA

Praėjusio šimtmečio viduryje prasidėjusi informacinė revoliucija kardinaliai pakeitė visuomenės gyvenimą. Nusistovėję visuomenėje procesai radikaliai kinta, tampa orientuoti į informaciją, jos panaudojimą. Šiuolaikiniame pasaulyje sėkmė didele dalimi priklauso nuo sugebėjimų rinkti, kaupti, apdoroti ir skleisti informaciją, kurti ir panaudoti savo žinių bazę. Efektyvus informacinių išteklių panaudojimas daro įtaką naujų produktų ir paslaugų kūrimo procesams. Šiuolaikinė taikomoji statistika — mokslas apie informacijos rinkimą, sisteminimą, analizavimą ir interpretavimą — neįsivaizduojama be kompiuterio, kurio atsiradimas turėjo milžiniškos įtakos teorinės ir praktinės statistikos vystymuisi. Šiuo metu egzistuoja daugybė kompiuterinių statistinių paketų, skirtų statistinių duomenų analizei. Tenka pripažinti, kad tarp daugumos populiarių komercinių paketų kūrėjų vyksta ganėtinai aštri konkurencija. Daugumos komercinių produktų galimybės yra maždaug vienodos, o vieno ar kito produkto pasirinkimą dažnai nulemia gamintojo reklaminės veiklos intensyvumas ar aptarnavimo kokybė, kaina, profesiniai interesai ar tiesiog vartotojo pripratimas [26]. Baigiamojo darbo tikslas — išanalizuoti ir palyginti komercinių, nemokamų ir atviro kodo statistinių paketų paprastumą-sudėtingumą studento (naudotojo) mokymo(-si) atžvilgiu. Baigiamojo darbo uždaviniai:  apžvelgti statistikos istoriją;  apžvelgti atliktus statistinių paketų lyginamuosius tyrimus ir parašytus mokslinius darbus;  pasirinkti komercinį ir nemokamą statistinį paketą tyrimui atlikti;  atlikti studentų apklausą apie jų turimas statistikos žinias;  parengti statistinių paketų taikymo praktikos planą ir praktikos užduotis studentams;  išanalizuoti, kurį statistinį paketą studentai geba greičiau įsisavinti ir pritaikyti įgytoms teorinėms žinioms. 4

1. STATISTIKOS ISTORIJA

Žodis „statistika“ kilo iš lotynų žodžio „status“, kuris reiškia valstybė, o itališkai „statista“ — žmogus, tvarkantis valstybės reikalus. Statistikos atsiradimas buvo sąlygotas praktinio poreikio apskaityti gyventojų ūkinę veiklą [3]. Tam tikrų statistinių duomenų rinkimas buvo atliekamas jau pirmykštėse civilizacijose. Babiloniečiai rinko duomenis apie gyventojus ir laikė juos svarbiais valstybei. Pirmykštėse civilizacijose pati statistika buvo suvokiama kaip gausa duomenų, susijusių su valstybe. Gyventojų surašymas prasidėjo senovės Romoje ir siekia apie I – II a. pr. Kr. Tokie surašymai buvo atliekami tam, kad būtų galima nustatyti mokesčius ir skaičių vyrų, imamų į kariuomenę. Be pačių gyventojų buvo atliekami ir jų turto bei žemių surašymai. Pasak graikų istoriko Herodoto, viso Egipto žemių surašymas buvo atliktas jau 1400 m. pr. Kr. Taip pat rasta duomenų, kad tokie surašymai buvo atliekami ir kitose pirmykštėse civilizacijose: Graikijoje, Kinijoje ir Indijoje [2]. Duomenų publikavimo ir sisteminimo naudojant lenteles pradžia laikomas Londono mirtingumą aprašantis Dž. Graunto (1620 — 1674) darbas „Observations on the London bill of mortality“ (1662 m.). Dž. Graunto genialumą rodo idėja — statistiką panaudoti prognozavimui. Jam pasisekė išgarsėti įrodžius, kad gimimų ir mirimų duomenys leidžia nustatyti svarbius gyventojų natūralaus judėjimo dėsningumus, iš jų ir tą, kad didesnė tikimybė numirti pirmaisiais gyvenimo metais. Esminis Dž. Graunto įnašas — mokslinių analizės metodų pritaikymas gyventojų tyrimams. Jis padėjo pagrindus demografijai kaip mokslui [4]. Į mokslo apyvartą žodį statistika įvedė vokiečių mokslininkas (filosofas ir teisininkas) profesorius Gotfridas Achenvalis (1719 — 1773) ir ją suprato kaip valstybės mokslą. G. Achenvalis 1746 m. Marburgo universitete pradėjo dėstyti statistikos kursą — aprašomojo pobūdžio discipliną apie valstybės būklę ir įžymybes. Vystantis duomenų rinkimui, vystėsi ir duomenų analizė bei jos metodai, kurie galiausiai buvo susieti su matematika. Statistikos mokslo raidai didelę įtaką darė tikimybių teorija, kuri vystėsi nepriklausomai nuo statistikos (t. y. kaip duomenų rinkimo). Visai nauja tikimybių teorijos ir moderniosios statistinės metodologijos era prasidėjo 1713 m. Adolphe Quetelet (1796 —1874), belgų astronomas, matematikas ir statistikas, suvokė galimybę sujungti dvi sritis — duomenų rinkimą ir duomenų analizę naudojant matematinius metodus — į vieną bendrą mokslą, dabar mums žinomą kaip statistika [5]. A. Quetelet didžiąją savo gyvenimo dalį paskyrė statistikos mokslo ir praktikos klausimams spręsti. Pagrindinė jo idėja — žmogus — tyrimo objektas. Panaudodamas masinius duomenis, jis nustatė, kad tam tikri dėsningumai pastebimi ne tik fizinėse žmonių savybėse, bet ir jų socialiniuose santykiuose ir elgesyje. Jam vadovaujant, pirmąkart susijungė įvairių šalių statistai, vyko tarptautiniai statistikos kongresai. Statistikos fundamentaliu 5 pagrindu A. Quetelet iškėlė tikimybių teoriją: „Tikimybių teorija gimė beveik kartu su statistika, savo jaunesniąja seserimi, kuriai ji turi tapti pačia ištikimiausia ir neišskiriama drauge. Šis ryšys visai neatsitiktinis: vienas iš šių mokslų savo skaičiavimais tiria ir koordinuoja tai, ką kitas įgyja savo stebėjimais“ [4]. A. Quetelet bandė naujai pagrįsti statistikos mokslą, statistinius skaičiavimus pagrįsti tikimybiniais skaičiavimais. Iš tikrųjų, be tikimybių teorijos statistiniai skaičiavimai nebūtų pakankamai pagrįsti, o be statistinės metodologijos negalima būtų tikimybių teorijos pritaikyti masinių visuomeninių reiškinių ir procesų kiekybinei analizei, atskleidžiant statistinius dėsningumus. XX a. Pabaigoje įvairių šalių mokslininkų ir statistikos žinybų darbuotojų bendromis pastangomis ėmė formuotis naujos taikomosios statistikos kryptys:  imčių metodo teorija ir praktika;  tarptautinė statistinių lyginimų metodika;  statistikos indeksų teorija ir praktika;  empiriniais tyrimais pagrįsta ūkio ir socialinės statistikos teorija ir metodai. XX a. visose Europos valstybėse buvo sukurtos atitinkamos administracinės statistikos tarnybos. Svarbus XX a. Mokslo ir praktikos laimėjimas — tarptautinės statistikos teorijos ir metodologijos susiformavimas. Statistika iš matematikos sričių išsiskiria tuo, kad yra bene labiausiai taikoma praktikoje. Statistikos praktiškumas atsispindi ir jos istorijoje bei paties termino reikšmėje [3].

1. 1. Kas yra statistika

Statistika — tai metodologinis taikomasis mokslas, tiriantis skaitmeninių duomenų rinkimo, sisteminimo, analizės ir interpretacijos metodus ir jų taikymą. Statistika susideda iš kelių matematinių mokslų, kurie nagrinėja duomenų rinkimą, analizavimą ir interpretavimą ar paaiškinimą ir pristato informaciją, tai matematikos šaka, kuri tik renka ir interpretuoja duomenis [1]. Matematinė statistika — matematikos sritis, tyrinėjanti statistinių duomenų analizės metodus, jų išvadų tikėtinumą bei patikimumą. Remiasi tikimybių teorijos modeliais, naudojama daugelyje praktinės veiklos sričių, kur susiduriama su atsitiktinumu, neapibrėžtumu, duomenų sisteminimu, parametrų apskaičiavimu ir įvertinimu: socialinių tyrimų, laboratorinių, marketingo duomenų apdorojime ir išvadų gavime formaliais matematiniais metodais. Atskiros matematinės statistikos dalys yra:  koreliacinė analizė (sąryšių ir priklausomybės laipsnių nustatinėjimui);  regresinė analizė (kintamojo priklausomybės nuo kitų nustatymui); 6

 hipotezių tikrinimas (imčių identiškumo problemai);  diskriminantinė analizė (klasifikavimo, diagnozės uždaviniams spręsti);  spiečių analizė (vadinama Klaster-analizė) (duomenų sankaupų — spiečių nustatymui);  faktorinė analizė (matavimų mažinimui);  eksperimento planavimo analizė  ir kt. Praktikoje duomenų apdorojimui yra naudojami specializuoti kompiuteriniai taikomųjų programų paketai, kurie gerokai palengvina ir paspartina skaičiavimus [27]. Statistika tiria masinių visuomenės reiškinių kiekybinę pusę neatskiriamai nuo jų kokybinės pusės, atskleidžia ir kiekybiškai išreiškia juose esamus dėsningumus konkrečiomis vietos ir laiko sąlygomis. Statistika sudaro rodyklių, atspindinčių socialinių-ekonominių reiškinių apimtį ir santykius, sistemą [6]. Statistinio tyrimo tikslas — gauti apibendrinamąją kiekybinę charakteristiką apie tam tikrą sudėtingą reiškinį, tam tikrą daugybę, siekiant pažinti ją. Iš statistinių duomenų, remiantis tam tikrais reiškinių kitimo dėsningumais, galima susidaryti vaizdą ne tik apie praeitį, dabartį, bet ir apie ateitį. Kas yra dėsningumas? Žmonės nuolat susiduria su pasikartojimais, tam tikra gamtos ir visuomenės reiškinių tvarka ir jų nuoseklumu. Toks reiškinių pasikartojimas, nuoseklumas ir tvarka vadinamas dėsningumu. Dinaminiai dėsningumai pasireiškia kiekviename pavieniame reiškinyje, statistiniai dėsningumai — tik jų masėje, dideliame stebėjimo vienetų skaičiuje. Dėsningumas numato kad egzistuoja priežasties ir pasekmės ryšys, tačiau šis ryšys dinaminiuose ir statistiniuose dėsningumuose pasireiškia skirtingai. Dinaminiuose dėsningumuose ryšys tarp priežasties ir pasekmės gali būti išreikštas tikslia matematine formule, lygčių sistema ir pan. Tuo tarpu statistinis dėsningumas susijęs su didžiųjų skaičių dėsnio sąvoka, t. y. jis išryškėja tik stebint daug to paties tipo reiškinių. Statistinis dėsningumas išreiškia būtinumo ir atsitiktinumo vienybę. Statistikos metodas — viena iš objektyvios tikrovės pažinimo priemonių, leidžianti matematiškai išreikšti tyrimo proceso metu surastus konkrečius santykius ir priklausomybes, o daugeliu atveju — ir padedanti juos surasti. Taigi statistikos metodas pasireiškia kaip būdas aprašyti konkretaus mokslo tiriamus reiškinius ir juos atitinkamai paaiškinti, remiantis nagrinėjamos srities sąvokų sistema (ją teikia konkreti mokslinė teorija — ekonomikos, medicinos, biologijos, sociologijos ir pan.). Naudojant šią sąvokų sistemą ir atliekamas masinių statistinių duomenų sisteminimas, apibendrinimas ir analizė. Identifikavus atitinkamas teorinių mokslų kategorijas, 7 formuojami statistiniai tos srities rodikliai. Taigi šiuolaikinės taikomosios statistikos esmę galima nusakyti tokiais teiginiais:  taikomoji statistika — tai masinių reiškinių ir procesų kiekybinis aprašymas (charakteristika) konkrečiomis vietos ir laiko sąlygomis;  statistikos pagrindą sudaro didžiųjų skaičių dėsnis (statistika nagrinėja dėsningumus, kurie pasireiškia masiniuose reiškiniuose);  statistiniai dėsningumai leidžia atlikti tikimybinius sprendimus, prognozuoti [4]. Statistiniam tyrimui būdinga: reiškiniai ir procesai tiriami visapusiškai susiję, nuolat besivystantys, dinamiški, kaip atsitiktinumo ir būtinumo dialektinis ryšys. Tyrimo etapai:  statistinis stebėjimas;  statistikos duomenų suvedimas;  duomenų analizė. Pasaulį pažįstame lygindami įvairius nežinomus reiškinius procesus, su jau pažintais. Vienas iš lyginimo atvejų — statistinis lyginimas. Tai visuomeninių reiškinių kokybinių skirtumų vaizdavimas kitais analogiškais reiškiniais, Visų lyginimų rezultatas — tam tikri rodikliai, minėtu atveju — statistiniai rodikliai. Jais išreiškiami duomenų rinkimo ir grupavimo rezultatai, todėl jie vadinami apibendrinamaisiais rodikliais. Tiriamųjų objektų savybės, požymiai yra glaudžiai tarpusavyje susiję, todėl ir jų rodikliai sudaro tam tikrą sistemą. Statistinių rodiklių sistemai būdingi horizontalūs ir vertikalūs ryšiai. Horizontalūs rodikliai išlaiko koordinacinius, o vertikalūs — subordinacinius (priklausomybės) ryšius [6].

1. 2. Statistika mūsų gyvenime

Faktų ieškojimas, renkant ir apdorojant duomenis, neapsiriboja profesionaliais tyrimais. Bandydami suprasti valstybės saugumo problemas, nedarbo būseną, futbolo komandų varžovių pasirodymo strategiją, peržiūrime ir interpretuojame skaitinę informaciją ir diagramas. Kasdieniniame gyvenime taip pat dažnai mokomės atlikti faktinės informacijos analizę. Be to, kiekvienas daugiau ar mažiau susipažinęs su statistika per žiniasklaidą. Lietuvoje būtų naudinga rinkti informaciją apie svarbiausias sritis, kurios reikalauja pagerinimo. Šios statistinės informacijos pagrindu būtų gauti strategiškai svarbūs rezultatai. Statistinės žinios kiekvienam pramonės darbuotojui — stovinčiam prie konvejerio, sėdinčiam kontoroje, kontrolieriui ar vadybininkui — yra gyvybingai reikalingos kokybės kontrolei [7]. 8

2. ATLIKTŲ MOKSLINIŲ DARBŲ APŽVALGA

Apžvelgus literatūrą, galima rasti gausybę vadovėlių ir mokomosios medžiagos matematinei statistikai mokytis, tačiau trūksta lietuviškų knygų, kuriuose būtų aprašyti populiarūs kompiuteriniai taikomųjų programų paketai, statistikos analizei. Daugelis universitetų leidžiamų vadovėlių nėra laisvai prieinami, neplatinami knygynuose ar kituose universitetuose. 2007/2008 m. m. Šiaulių universiteto informatikos specialybės studentas Robertas Vaitkevičius savo magistriniame darbe „Duomenų kompiuterinės statistikos analizės technologijos“ analizavo ir lygino keletą populiarių statistinių paketų galimybes [16]. Magistrantas išskiria, tokius kaip SPSS, , Statgraph, SigmaStat, S-plus, , ir SAS, populiarius statistinius paketus. Remdamasis savo žiniomis ir tyrimo rezultatais studentas įvertino SPSS, STATISTICA ir Minitab statistinių paketų galimybes šiais aspektais:  darbo aplinkos patogumas;  duomenų įvedimo mechanizmo logiškumas;  geras grafikos pateikimo algoritmas;  skaičiavimų tikslumas;  duomenų pasikeitimo su kitomis programomis galimybės;  kt. Studento mokslo darbe statistiniai paketai lyginami pagal: platinimo pobūdį (mokama-nemokama, pilnos versijos failo apimtis), aprašomąsias statistines funkcijas (aritmetinis vidurkis, mediana, moda, minimumas, maksimumas, imties dispersija ir kt.), duomenų suvedimą ir aprašymą (simbolių skaičius kintamojo varde, galimybė keisti įrašo pavadinimą, automatinis langelių užpildymas atsitiktiniais duomenimis ir kt.), pagal įrankių naudojimo patogumą (įrankių paskirties aiškumas, patogi, lanksti įrankių išdėstymo tvarka, duomenų rūšiavimas, filtravimas ir kt.), analizės rezultatų pateikimą (diagramos, histogramos, galimybė redaguoti diagramas, rezultatų analizės lentelės ir jų formos keitimas ir kt.). Atlikęs šį lyginamąjį tyrimą magistrantas aprašė tiriamųjų statistinių paketų privalumus bei trūkumus. Galutinėse išvadose Robertas Vaitkevičius, Šiaulių universiteto informatikos magistrantas SPSS statistinį paketą rekomenduoja atliekant socialinius tyrimus, dėl aiškių analizės lentelių ir diagramų. Statistinį paketą STATISTICA — pradedančiam vartotojui, profesionalui, norinčiam plačių pasirinkimo galimybių, ir entuziastui. Nesudėtingiems tyrimams, kuriems nereikia išsamių ir sudėtingų analizių, rekomenduoja Minitab statistinį paketą. 2007 m. Vilniaus pedagoginio universiteto, Matematikos ir informatikos fakulteto, Informatikos katedros studentė Kristina Buinovskaja parašė magistrinį darbą „Statistinis duomenų apdorojimas atviro kodo programomis“ [36]. Savo darbe studentė analizuoja ir lygina atviro kodo 9 statistinį paketą R ir komercinę statistinės analizės sistemą SAS, pritaikydama programas įmonės veiklos analizei. Magistrantė darbe daugiausia dėmesio skiria statistiniam paketui. Darbe išskiriamos ir apžvelgiamos tokias statistinio paketo R ypatybes:  darbo lango nustatymai;  duomenų įvestis;  pagalba;  bibliotekos ir duomenų rinkiniai;  matematiniai veiksmai;  darbas su failais;  veiksmai su matricomis;  veiksmai su vektoriais;  sąrašai;  vardiniai kintamieji;  atsitiktinių skaičių generavimas;  duomenų importavimas ir eksportavimas;  grafikos ypatybės. Studentės mokslo darbe atviro kodo statistinis paketas R lyginamas su komerciniu statistiniu paketu SAS keliais aspektais, tokiais kaip:  duomenų įvedimas;  grafikų braižymo galimybės;  pagrindinės statistinės funkcijos. Magistriniame darbe naudodamasi statistiniu paketu R studentė atlieka UAB „Čilija“ finansinę, darbuotojų, prekių ir paslaugų analizę. Remdamasi atliktais darbais nustato bendrovės grėsmių ir galimybių sąrašą. Išvadose Kristina Buinovskaja nurodo, kad statistinis paketas R savo galimybėmis mažai skiriasi nuo komercinio statistinio paketo SAS ir mano, kad statistinis paketas R galėtų būti pagrindinis įrankis magistrantų, doktorantų ir mokslo darbuotojų moksliniuose tyrimuose. 2008 m. parašytas projektas „Empirinių duomenų ir informacijos HSM tyrimams kaupimas ir valdymas: Lietuvos HSM duomenų archyvas (LiDA)“. Pavyzdinį metodologinį mokomąjį studijų paketą „Statistinė kiekybinių duomenų analizė su SPSS ir “ sudaro trys dalys: 10

I. Pavyzdinė skaitmeninė duomenų bazė, į ją įtrauktų tyrimų aprašymai ir kintamųjų sąvadai bei paaiškinimai; II. Įvadinio kurso į statistinę analizę mokomoji medžiaga; III. Statistinės analizės pavyzdžių naudojant pavyzdinę skaitmeninę duomenų bazę medžiaga [30]. III dalies autorius Dr. Vaidas Morkevičius išskyrė devynis skyrius statistinės analizės pavyzdžių:  aprašomoji statistika;  pasikliautinieji intervalai,  hipotezių tikrinimas;  vidurkių palyginimas. Dispersinė analizė (ANOVA);  požymių priklausomumo tyrimas. Koreliacinė analizė;  daugialypė regresinė analizė;  klasterinė analizė;  faktorinė analizė;  daugiamačių skliautų analizė (MDS). Kiekvienai temai autorius pateikia pavyzdžių. Jei įmanomos, statistinės analizės atlikimo procedūros SPSS ir Stata statistiniuose paketuose, jos grafiškai iliustruojamos, pateikiama aiškinamoji tekstinė informacija, nurodomos sintaksės komandos bei išvesties rezultatai. Naudojantis šiais pavyzdžiais galima palyginti SPSS ir Stata statistinius paketus. Apžvelgtoje literatūroje, magistro baigiamuosiuose ar kituose moksliniuose darbuose lyginamos statistinių pakėtų galimybės ir atliekamos statistinės analizės, tačiau nerasta atliktų tyrimų, kuriuose komerciniai ir nekomerciniai, atviro kodo statistiniai paketai būtų lyginami paprastumo-sudėtingumo dirbant atžvilgiu.

11

3. STATISTINIAI PAKETAI

Statistiniai paketai — specializuota kompiuterinė programinė įranga, skirta statistinei analizei. Statistinius paketus pagal jų licenzijos pobūdį galima išskirti į:  atviro kodo;  viešus;  nemokamus;  komercinius [8]. 1 lentelėje pateikiama bendra informacija apie pagrindinius statistinius paketus [9].

1 lentelė. Bendra informacija apie pagrindinius statistinius paketus. Programinės Produkto Naujausia Atviro Kūrėjas įrangos Sąsaja pavadinimas versija kodo licenzija ADaMSoft Marco Scarno 2012-05-05 Taip GNU GPL CLI/GUI Analyse-it Analyse-it Ne Komercinė GUI AroniSmartIntelligence AroniSoft LLC 2013-04 Ne Komercinė GUI AroniSmartStat AroniSoft LLC 2012-08 Ne Komercinė GUI AroniStat AroniSoft LLC 2012-02 Ne Komercinė GUI ASReml VSN 2009-10 Ne Komercinė CLI International BMDP Statistical Ne Komercinė Solutions Alan Heckert 2005-03 Taip Vieša CLI/GUI Centers for 2011-01-26 Taip Vieša CLI/GUI Disease Control and Prevention EViews IHS 2013-02 Ne Komercinė CLI/GUI GAUSS Aptech systems 2011-10 Ne Komercinė CLI/GUI GentStat VNS 2011-07 Ne Komercinė CLI/GUI International GraphPad Prism GraphPad 2009-02 Ne Komercinė G45 Software, Inc. The gretl Team 2013-03-15 Taip GNU GPL CLI/GUI JMP SAS Intitute 2012-03 Ne Komercinė CLI/GUI Maplesoft 2012-03-28 Ne Komercinė CLI/GUI LIMDEP Econimetric 2012-05 Ne Komercinė CLI/GUI Software, Inc., William Greene Mathematica Wolfram 2013-02 Ne Komercinė CLI/GUI Research MATLAB MathWorks Du kartus Ne Komercinė CLI/GUI per metus Minitab Minitab Inc 2010-05 Ne Komercinė CLI/GUI NLOGIT Econimetric 2012-05 Ne Komercinė CLI/GUI Software, Inc., William Greene 12

Programinės Produkto Naujausia Atviro Kūrėjas įrangos Sąsaja pavadinimas versija kodo licenzija NumXL Spider Financial 2009-10 Ne Komercinė GUI OpenEpi A.Den, K. 2011-06 Taip GNU GPL GUI Sullivan, M. Soe Primer Primer-E 2007-02 Ne Komercinė GUI PSPP GNU Project 2012-02-04 Taip GNU GPL CLI/GUI R R Foundation 2012-04-03 Taip GNU GPL CLI/GUI Norman Nie 2007 Taip Komercinė CLI/GUI Sage >100 2013-03 Taip GNU GPL CLI & developers GUI worldwide SAS SAS Institute 2011-12 Ne Komercinė CLI/GUI SOCR UCLA 2008-10-28 Taip LGPL GUI SOFA Statistics Grant Paton- 2010-04 Taip AGPL GUI Simpson SPlus Insightful Inc. 2010 Ne Komercinė CLI SPSS IBM 2011 Ne Komercinė CLI/GUI STATISTICA StatSoft 2010-11 Ne Komercinė GUI SYSTAT Systat Software 2007-02-21 Ne Komercinė CLI/GUI Inc. TSP TSP 2009-09 Ne Komercinė CLI International Unistat Ltd 2011-04-08 Ne Komercinė GUI, „Excel“ WPS World 2012-02 Ne Komercinė CLI/GUI Programming

3. 1. Statistiniai paketai Lietuvos universitetuose ir valstybinėse įstaigose

Lietuvoje veikia 23 universitetai. Vienas iš jų Lenkijos universiteto filialas [31]. Tačiau būsimieji studentai dažniausiai renkasi iš devyniolikos LAMA BPO sistemos vienijamų universitetų [32]. Dauguma šių universitetų ruošia būsimuosius informatikos, finansų ar vadybos specialistus. Šios specialybės studentai, pagal studijų krypties numatomus studijuoti dalykus, turi susipažinti su statistika ir praktiniu jos taikymu. Atsižvelgiant į tai, buvo atlikta trumpa, Lietuvos universitetuose mokymui naudojamų statistinių paketų, analizė [žr.: 1 pav.]. Ne visi Lietuvos universitetai viešai skelbia mokomųjų dalykų programas ir mokymui naudojamą kompiuterinę taikomąją programinę įrangą. Tačiau daugumos universitetų nurodytų naudojamų statistinių paketų analizėje aiškiai matyti, kad populiariausias statistinis paketas — SPSS. Plačiai, mokymo tikslais Lietuvos universitetuose, naudojamas ir SAS statistinis paketas. Pastarieji taikomųjų programų paketai yra komerciniai. Džiugina, kad ir nedidelė Lietuvos universitetų dalis paminėjo statistinį paketą R, kuri naudoja studentų mokymo tikslams. Pavieniai 13 universitetai paminėjo, mokymo procese taikomus, tokius statistinius paketus kaip: PSPP, Minitab, Gretl, Eviews — 1 paveikslėlyje išskirta srityje „kita“.

kita 25% SPSS 44%

R 12%

SAS 19%

1 pav. Lietuvos universitetuose mokymui(-si) naudojami statistiniai paketai

Lietuvoje yra gausybė valstybinių institucijų, ministerijų, savivaldybių ir valstybės įmonių. Natūralu, kad veikianti įstaiga turi vykdyti įvairią vidaus apskaitą. Kiekviena institucija, pagal savo veiklos pobūdį turi vesti statistiką, pvz.: valstybinė mokykla turi rinkti statistinius duomenis apie atvykusių ir išvykusių mokinių skaičių. Tokio lygio, kaip mokykla ir pan., vedamai statistikai įstaigose paprastai naudojama Microsoft Office paketo programa Excel. Naudoti sudėtingesnius statistinius paketus nedideliems statistiniams duomenim apdoroti, būtų nenaudinga finansiškai. Sudėtingos ir didelės programos brangiai kainuoja. Taip pat reiktų paruošti specialistą, dirbti statistiniais paketais. Lietuvos statistikos departamentas rengia ir skleidžia oficialią Lietuvos statistiką, reikalingą sprendimams priimti šaliai aktualiais klausimais. Lietuvos statistikos departamentas yra Vyriausybės įstaiga, dalyvaujanti formuojant valstybės politiką finansų ministrui priskirtoje statistikos valdymo srityje ir ją įgyvendinanti bei koordinuojanti šalies oficialiosios statistikos rengimą. Taikydamas statistinius metodus, Lietuvos statistikos departamentas renka, apdoroja, analizuoja statistinius duomenis ir skelbia statistinę informaciją apie šalies ekonominius, socialinius, demografinius ir aplinkos pokyčius šalies ir regionų lygmeniu. Lietuvos statistikos departamentas koordinuoja ministerijų ir kitų institucijų veiklą oficialiosios statistikos srityje. Statistinė informacija, parengta pagal oficialiosios statistikos darbų programą, yra prieinama ir nemokamai teikiama visiems besidomintiems šalies ekonomikos ir visuomenės raida [33]. Lietuvos statistikos departamentas statistiniams duomenims apdoroti naudoja keletą statistinių paketų: SPSS ir SAS — anksčiau minėti, kaip populiarūs statistiniai paketai — Statgraphics plus 5, PC-Axis ir Sudaan. 14

3. 2. SPSS

SPSS, an IBM Company (anksčiau SPSS Inc.) yra pažangios analitinės programinės įrangos ir IT sprendimų gamintoja. Įmonė buvo įkurta 1968 m., o 2009 m. IBM įsigijo SPSS Inc. Šiandien įmonė turi daugiau negu 250000 klientų pasaulyje, tarp kurių yra 95 procentai pelningiausių „Fortune 1000“ sąrašo įmonių. Verslo, valstybinės ir mokslo organizacijos visame pasaulyje naudoja SPSS duomenų analizės technologijas, siekdami efektyviau pritraukti, išlaikyti ir ugdyti klientus ir tuo pačiu sumažinti veiklos riziką ir užkirsti kelią finansiniams sukčiavimams. Su SPSS programine įranga iš sukauptų duomenų apie klientus/procesus organizacijos gali: numatyti ateities įvykius ir klientų elgesį; pasinaudoti šią įžvalgą optimizuojant kasdienius sprendimus ir procesus [10]. SPSS patentuota programinė įranga pritaikyta , Linux, Linux/UNIX ir Mac operacinėms sistemoms [13]. Naudojantis SPSS prognozės ir analizės programinę įrangą, galima numatyti, kas bus toliau, įtakojant atlikti greitesnius sprendimus, problemų sprendimą ir gerinant įmonės darbo rezultatus. IBM SPSS produktų portfelį sudaro:  duomenų rinkimo produktai;  statistiniai produktai;  duomenų tyrybos ir modeliavimo produktai;  analizės rezultatų panaudojimo sprendimai [11].

3. 2. 1. Duomenų rinkimo produktai Pažangūs įrankiai profesionaliam klausimų kūrimui ir duomenų rinkimui internetu, telefonu, popieriniame formate, nešiojamaisiais prietaisais. Palaiko daugiakalbystę su kitais SPSS produktais. Toliau pateikiamos IBM SPSS Data Collection galimybės. Kūrimo. Intuityvi vartotojo sąsaja leidžia lengvai kurti apklausas. Vartotojo sąsaja buvo kuriama pagal Microsoft PowePoint, todėl klausimynus lengvai gali kurti visi vartotojai. Platus vedlių pasirinkimas padeda visuose apklausos etapuose — nuo klausimynų kūrimo iki ataskaitų. Pateikiamas platus vedlių pasirinkimas, o naudojantis Author Professional galima sukurti vartotojo pageidaujamą vedlį. Pateikiamas platus ir klausimynų pasirinkimas — vartotojų pasitenkinimo, darbuotojų vertinimo, prekių testavimo bei kiti. Galimybė naudoti bet kokius klausimų tipus (pasirenkamuosius, skaitinius, skalės ir t. t.). Galimybė kurti interaktyvius klausimus įtraukiant paveikslėlius, kalendorius ar kitus elementus [17]. PASW Data Collection Author Profesional galinga moderni programavimo kalba, paremta Microsoft technologija. Čia yra makrokomandos, galimybė diegti funkcijas užtikrinančias 15 minimalų klaidų skaičių. Galimybė nustatyti net ir sudėtingiausią klausimų pateikimo tvarką, nustatyti įvykius, kurie gali paveikti apklausos rezultatus. Automatinis klausimynų vertimo įrankis, leidžiantis išversti klausimynus į daugiau nei 100 kalbų. Galinga apklausų tikrinimo funkcija, leidžianti patikrinti apklausos veiksmingumą, generuojant atsitiktinius atsakymus [18]. Interviu. IBM SPSS Data Collection Author sukurtą klausimyną galima naudoti bet kokioms apklausoms — internetu, telefonu ar „akis į akį“. IBM SPSS Data Collection Data Entry — modernus duomenų įvedimo sprendimas, užtikrinantis, kad anketų duomenys būtų įvedami tiksliai ir greitai bei leidžiantis suinteresuotiems asmenims kontroliuoti ir valdyti visą duomenų rinkimo procesą. Ataskaitos. Galimybė lengvai ir efektyviai kurti profesionalias ir interaktyvias ataskaitas tiek platinimui internete, tiek lokaliam naudojimui. IBM SPSS Data Collection Reports Professional leidžia kurti individualizuotas ataskaitas, naudojantis galingu automatizavimo varikliu.

3. 2. 2. Statistiniai produktai Populiarūs statistiniai įrankiai, skirti valdyti ir analizuoti duomenis bei atvaizduoti analizės rezultatus grafikais ir lentelėmis. Šiais įrankiais galima patikrinti prielaidas ir būti tikru savo sprendimais ir rezultatais. Galingi, bet lengvai naudojami statistiniai įrankiai leidžia efektyviai atlikti bet kokio sudėtingumo analizę ir profesionaliai pateikti rezultatus įvairiais būdais. Platus funkcijų spektras leidžia panaudoti programinę įrangą įvairiuose rinkos, socialiniuose, verslo, medicinos tyrimuose, prognozuodami poreikį, optimizuodami veiklą bei greitam ataskaitų generavimui. Produktai taip pat suteikia galimybę centralizuotai saugoti ir apsikeisti analizės rezultatais tarp kelių šalių bei efektyviai atlikti analizę su milžiniškais duomenų kiekiais serverio-kliento architektūroje.

2 pav. IBM SPSS Statistics 20.0

IBM SPSS Statistics yra integruota produktų grupė, kuri suteikia galimybę nagrinėti visą analitinį procesą, nuo planavimo, duomenų rinkimo ir analizės iki ataskaitų. Su daugiau nei 16 dešimt visiškai integruotų modulių galima rasti specializuotus sprendimus ar vykdyti mokslinius tyrimus [12]. IBM SPSS Statistics Standart. Pagrindinės analizės įvairaus verslo ir mokslinių tyrimų galimybės. Ši programinė įranga suteikia įrankius, kurie leidžia vartotojams greitai peržiūrėti duomenis, formuoti hipotezes, atlikti papildomus bandymus ir kurti procedūras, kurti grupes, nustatyti tendencijas ir daryti prognozes. IBM SPSS Statistics Standart versijos pagrindinės galimybės: tiesiniai modeliai, netiesiniai modeliai, simuliacinės galimybės, individualizuota aplinka [19]. IMS SPSS Statistics Professional. Papildomos galimybės duomenų kokybės, duomenų sudėtingumo ir automatizavimo. Ši programinė įranga skirta vartotojams, kurie atlieka daug rūšių išsamių ir nestandartinių analizių, kuriems reikia taupyti laiką automatizuojant duomenų rengimo užduotis. IBM SPSS Statistics Professional versijos pagrindinės galimybės: tiesiniai modeliai, netiesiniai modeliai, simuliacinės galimybės, individualizuota aplinka, duomenų ruošimas, duomenų pagrįstumas ir trūkstamos reikšmės, sprendimų medžiai, prognozavimo funkcijos [20]. IBM SPSS Statistics Premium. Visas spektras metodų ir struktūrinių lygčių modeliavimui, išsamus atrankos vertinimas, patikros ir procedūros. Skirtas duomenų analitikams, projektuotojams, tyrėjams, programų vertintojams, duomenų bazių rinkodaros specialistams ir kt. IBM SPSS Statistics Premium versijos pagrindinės galimybės: tiesiniai modeliai, netiesiniai modeliai, simuliacinės galimybės, individualizuota aplinka, duomenų ruošimas, duomenų pagrįstumas ir trūkstamos reikšmės, kategoriški ir skaitmeniniai duomenys naudojami prognozuoti išvadas ir atskleisti ryšius grafiškai, sprendimų medžiai grupių identifikavimui, prognozavimo funkcijos, struktūrinių lygčių modeliavimo įrankiai, įkėlimo ryšiai leidžiantys patikrinti stabilumo ir patikimumo modelį, išplėstinės atrankos vertinimas ir testavimas, tiesioginės rinkodaros ir produktų sprendimų priėmimo įrankiai, aukštos klasės diagramos ir grafikai [21].

3. 2. 3. Duomenų tyrybos ir modeliavimo produktai Intuityvūs duomenų ir teksto tyrybos įrankiai, su kuriais galima atrasti paslėptus ryšius net milžiniškuose duomenų kiekiuose, modeliuoti verslo procesus ir patikimai prognozuoti būsimų veiksmų rezultatus. Šie produktai leidžia:  prieiti prie visų tipų duomenų — struktūrizuotų iš duomenų bazių, dokumentų ir teksto duomenų;  apjungti skirtingus duomenų šaltinius, patogiai tvarkyti, analizuoti duomenis per intuityvią vartotojo sąsają;  kurti prognozinius patikimus modelius, kurie padės priimti tinkamus sprendimus realiu laiku; 17

 derinti skirtingų vartotojų darbą ir didinti produktyvumą. IBM SPSS Modeler Professional. Suteikia galimybes analizuoti didelius duomenų kiekius pažangiais metodais ir atrasti paslėptus ryšius. Unikali grafinė vartotojo sąsaja ir plačios statistinės galimybės leidžia tai atlikti patogiai ir greitai. Produktas turi platų spektrą įvairių duomenų įkėlimo ir eksportavimo funkcijų, duomenų tvarkymo funkcijų, grafikų sudarymo ir apie 30 statistinių, save mokančių ir dirbtinio intelekto modeliavimo metodų. Šis produktas integruojasi su IBM SPSS Statistics produktais ir leidžia pilnai naudoti jų funkcionalumą iš savo vartotojo sąsajos. Taip pat yra pritaikytos automatinės duomenų paruošimo ir modeliavimo funkcijos, kurios leidžia automatiškai patikrinti keletą algoritmų su tais pačiais duomenimis ir pasiūlyti tinkamiausią sprendimą [22]. IBM SPSS Modeler Premium. Šis produktas praplečia Modeler Professional funkcionalumą. Itin patogi galimybė naudotis įvairiausio formato duomenimis. Identifikuoti ir išrinkti tekstą galima aštuoniomis kalbomis. IBM SPSS Modeler Premium leidžia pritaikyti produktą pagal individualius ir rinkos poreikius naudojantis specialiai tam sukurtais: išteklių redaktoriumi bei terminų, sinonimų ir prekių ženklų sukauptais šaltiniais [23].

3. 2. 4. Analizės rezultatų panaudojimo sprendimai Pažangūs sprendimai įmonės analitikų rezultatų integracijai į egzistuojančią IT sistemą. Patogūs įrankiai modelių ir verslo taisyklių valdymui ir automatizavimui, rezultatų ir ataskaitų platinimui. SPSS Decision Managment funkcijos: nuspėjamieji įrankiai ir matematiniai metodai sprendimų optimizavimui, sujungti ir integruoti prognozavimo modeliai, taisyklės ir loginiai sprendimai rekomenduojamiems sprendimams pateikti, „Kas jei?“ modeliavimas, lanksti ir intuityvi vartotojo sąsaja, integracija su IBM Business Analytics programine įranga [24].

3. 3. R statistinis paketas

R yra programavimo kalba ir nemokama programinė įranga skirta statistiniams skaičiavimams ir grafikams. Tai GNU projektas sukurtas 1993 m. Ross Ihaka ir Robert Gentleman. R lygina su tokiais populiariais statistiniais paketais, kaip SAS, SPSS ir Stata, ir gerai vertina. 2009 m. sausį „New York Times“ išspausdino straipsnį apie R įgytą pripažinimą tarp duomenų analitikų ir keliamą grėsmę komercinių paketų, tokių kaip SAS, užimamai rinkos daliai [14]. 18

3 pav. R Statistics

R suteikia platų statistikos (tiesinio ir netiesinio modeliavimo, klasikinius statistinius testus, laiko eilučių analizė, klasifikavimas grupavimas ir kt.) ir grafinius metodus. Ji veikia įvairiose UNIX platformose, Windows ir MacOS. R turi integruotų rinkinių, skirtų duomenų manipuliavimo metodams, skaičiavimams ir grafiniams vaizdams. R turi tokias dalis:  veiksmingas duomenų tvarkymo ir saugojimo kompleksas;  operacijų ir masyvų skaičiavimų rinkinys konkrečioms matricoms;  daug, nuoseklių, integruotų prieinamų įrankių duomenų analizei;  grafinės galimybės duomenų analizei rodyti ekrane ar popieriuje;  gerai išvystyta, paprasta ir veiksminga programavimo kalba, kuri apima sąlygas, ciklus, vartotojo apibrėžtas rekursines funkcijas ir įvesties ir išvesties įrenginius [15]. Prie R galimybių plėtimo, tobulinimo ir programinės įrangos platinimo yra prisidėję daugybė žmonių iš 30 pasaulio šalių, tarp kurių Slovėnija, Rumunija, Lenkija ir Estija. R statistinio paketo kūrėjų sąraše dominuoja žmonės iš JAV, UK ir Vokietijos.

19

4. SPSS STATISTICS IR R PALYGINIMO TYRIMAS

Šiuolaikinė taikomoji statistika neįsivaizduojama be kompiuterio, o didžiulis statistinių paketų skirtų statistinei analizei pasirinkimas glumina ne vieną vartotoją. Daugumos statistinių paketų galimybės labai didelės, todėl vieno ar kito paketo pasirinkimas dažnai priklauso nuo jo prieinamumo, paprastumo dirbant ir kainos.

4. 1. Studentų pasiskirstymas

Siekiant atrasti tiriamųjų stipriąsias ir silpnąsias puses statistikos srityje, buvo atlikta apklausa. Apklausoje, kurią sudarė vienuolika klausimų (žr. 1 priede) dalyvavo Panevėžio kolegijos studentai. Paprasti anketos klausimai atskleidė respondentų nuomonę apie savo žinias. Pagal šios apklausos duomenis Panevėžio kolegijos studentai buvo suskirstyti į dvi grupes ir dalyvavo tyrime. Apklausos pagrindinis tikslas — suskirstyti studentus į lygiavertes grupes (pagal turimas žinias, pagal motyvaciją ir žingeidumą), todėl apklausa nebuvo anoniminė. Pirmasis klausimas prašė nurodyti savo vardą. Antrasis apklausos klausimas „Kokia Jūsų specialybė?“ vaizdžiai pateiktas 4 paveikslėlyje. Šioje diagramoje matyti studentų studijuojamos specialybės. Daugiausia studentų studijuoja buhalterijos specialybę (t. y. 40 proc.) ir tik 2 proc. informacines sistemas. Toks didelis skirtumas tarp specialybių studentų skaičiaus yra todėl, kad statistikos dalyką Panevėžio kolegijoje studijuoja reklamos vadybos, verslo vadybos ir buhalterijos studentai. Apklausos duomenys leidžia daryti išvadas, kad tyrime mieliau dalyvavo su statistikos dalyku susidūrę studentai.

40% 45%

40%

35% 31% 26% 30%

25%

20%

15%

10% 2% 5% 0%

0% Reklamos Verslo Informacinės Buhalterija Kita vadyba vadyba sistemos

4 pav. Kokia studentų studijuojama specialybė 20

Trečiajame apklausos klausime, studentai turėjo pažymėti studijuojamą kursą (žr.: 5 pav.). Apklausos rezultatai rodo, kad daugiau nei pusė tyrime dalyvavusių studentų, studijuoja antrame kurse. Mažiausia, 5 proc., buvo pirmojo kurso studentai — smalsūs ir puikiai savo žinias vertinantys verslo vadybos studijų studentai.

57% 60%

50% 38%

40%

30%

20%

5% 10% 0%

0% I II III Kita

5 pav. Kokiame kurse studijuoja studentai

Ketvirtame apklausos klausime, kuris pavaizduotas 6 paveikslėlyje, buvo klausiamas studentų amžius. Apklausos rezultatai leidžia manyti, kad daugiausia (90 proc.), į Panevėžio kolegijos reklamos vadybos, verslo vadybos ir buhalterijos specialybes, stoja gimnazijas tik baigę moksleiviai.

2% 26 ir daugiau

7% 22-25

90% 18-21

0% 20% 40% 60% 80% 100%

6 pav. Studentų amžius

Penktasis apklausos klausimas, ar teko susidurti su statistika prieš įstojant į aukštąją mokyklą, privertė studentus susimastyti. Septintame paveikslėlyje matyti, kad daugelis (62 proc.) 21 studentų statistikos pagrindų mokėsi dar vidurinėje mokykloje ar gimnazijoje. Tačiau aukštesnių kursų studentai nepamena, kad statistikos mokėsi vidurinėje mokykloje ar gimnazijoje. Vyresni studentai mano, kad su vienokia ar kitokia statistikos forma tenka dažnai susidurti gyvenime.

0% 7% Taip, gyvenime dažnai 31% tenka susidurti

Taip, vidurinėje mokykloje

Ne 62%

Kita

7 pav. Ar teko studentams susidurti su statistika prieš įstojant į aukštąją mokyklą

Šeštojo apklausos klausimo „Ar Jūsų mokymo programoje jau buvo statistikos dalykas?“, atsakymų rezultatai vaizdžiai pavaizduoti 8 paveikslėlyje. Pirmojo kurso verslo vadybos studentai statistikos dalyko dar nesimokė( t. y. 5 proc. respondentų). Iš visų kitų specialybių ir kursų studentų 92 proc. statistikos dalyką mokėsi. Dalis pastarųjų respondentų mano, kad dalyką įsisavino, bet 40 proc. mano, kad nieko nemoka.

60% 52%

50% 40%

40%

30%

20%

5% 10% 2%

0% Taip, viską Taip, bet nieko Ne Nepamenu išmokau nemoku

8 pav. Ar studentų mokymo programoje jau buvo statistikos dalykas

9 paveikslėlyje vaizdžiai pavaizduoti apklausos septintojo klausimo, kuriame studentai buvo prašomi įvertinti savo statistikos žinias, jei jau mokėsi šio dalyko, rezultatai. Diagramoje 22 aiškiai matoma, kad beveik pusė studentų įgytas žinias vertina vidutiniškai. Kitą diagramos pusę pasidalino puikiai (26 proc.) ir silpnai (19 proc.) savo žinias vertinantys studentai. Diagramos sritis „Kita“, kur yra 7 proc. respondentų, sudaro statistikos dalyko nesimokę verslo vadybos pirmojo kurso studentai ir informacinių sistemų studentai.

Puikiai, dalyko 7% įvertinimas buvo 19% aukštas ir viską moku 26% Vidutiniškai, kažką atsimenu puikiai, kai ko visai nepamenu

Silpnai, reiktų 48% peržiūrėti užrašus, kad prisiminčiau

Kita

9 pav. Kaip studentai vertina savo žinias, jei jau mokėsi statistikos dalyko.

Aštuntame apklausos klausime studentai turėjo pažymėti jiems pažįstamus statistinių paketų ar pritaikytų su statistiniais duomenimis dirbti programų pavadinimus (žr.: 10 pav.). Visi apklausoje dalyvavę studentai neabejotinai žino ir dirba su MS Office Excel programa. Gerai žinoma MATLAB programa, kuria mokoma dirbti Panevėžio kolegijoje. Tačiau kiti statistiniai paketai, ypač atvirojo kodo nemokami, buvo mažai kam girdėti.

Excel

MATLAB

PSPP

Taip, dirbu Sage Nežinomas

STATISTICA Žinomas

Dataplot

SAS

0 5 10 15 20 25 30 35 40 45

10 pav. Kurie statistiniai paketai ar programos pritaikytos dirbti su statistiniais duomenimis žinomos studentams. 23

Devintame apklausos klausime studentai turėjo įvertinti savo žinias apie statistinį paketą SPSS (žr.: 11 pav.). Analogiškai dešimtajame klausime buvo prašoma įvertinti savo žinias apie statistini paketą R (žr.: 12 pav.). Statistinį paketą SPSS žino ir vienaip ar kitaip savo žinias vertina 95 proc. studentų, tačiau apie statistinį paketą R nežino net 98 proc. Statistinis paketas SPSS daugeliui Panevėžio kolegijos studentų žinomas iš praktinių užsiėmimų paskaitų metu. Tai rodo, kad studentai naudojasi, tik jiems pateikta mokymo medžiaga, ir neplečia savo akiračio domėdamiesi savo studijuojamais dalykais.

43% 31% Puikiai

Vidutiniškai

Silpnai 5% 21% Nesu apie tokį girdėjas (-usi)

11 pav. Kaip studentai vertina savo žinias apie statistini paketą SPSS

0% 2% Puikiai

Vidutiniškai

98% Silpnai

Nesu apie tokį girdėjas (-usi)

12 pav. Kaip studentai vertina savo žinias apie statistini paketą R

Paskutiniame, vienuoliktame apklausos klausime, studentų buvo klausiama ar statistinių paketų taikymai yra naudingi [žr.: 13 pav.]. 38 proc. studentų, kuriems puikiai sekėsi statistikos dalykas ir dalis vidutiniškai savo žinias vertinančių studentų, mano, kad statistinių 24 paketų taikymas palengvina darbą su statistiniais duomenimis. 2 proc. studentų sako, kad statistinių paketų taikymai apsunkina darbą ir 10 proc. atsakė, kad tai jiems niekur nepravers, ankstesniuose klausimuose šie studentai savo žinias įvertino silpnai. Likusieji vidutiniškai įvertinę savo įgytas žinias ir su statistika dar nesusidūrę studentai dėl statistinių paketų taikymo naudos neturi tvirtos nuomonės (50 proc.)

Ne, man tai niekur nepravers 10%

Ne, tai apsunkina darbą 2%

Galbūt 50%

Taip, tai labai palengvina darbą su statistiniais 38% duomenimis

0% 10% 20% 30% 40% 50%

13 pav. Studentų nuomonė, ar statistinių paketų taikymai yra naudingi

Studentai suskirstyti į dvi lygiavertes grupes. Studentų skirstyme į tyrimo grupes buvo atsižvelgiama į respondentų turimas žinias apie vieną ir kitą statistinį paketą. Jei studentui neteko dirbti su statistiniu paketu SPSS ar jis blogai vertina savo įgytas žinias — jis priskirtas į tyrimo grupę, dirbančią su SPSS statistiniu paketu. Studentai gerai vertinantys savo praktines žinias su statistiniu paketu SPSS — nukreipti į darbo grupę su statistiniu paketu R. Likusieji, vidutiniškai vertinantys savo žinias, buvo skiriami į dvi dalis: buhalterijos specialybės trečiojo kurso studentus, kuriems teko dirbti su programiniu paketu Matlab ir į antrojo kurso studentus, kurie dar nesimokė dirbti Matlab. Pastarieji priskirti tyrimo grupei dirbti su SPSS statistiniu paketu, likusieji — dirbti R statistiniu paketu.

Pirmoji grupė mokėsi dirbti statistiniu paketu SPSS. Šią grupę sudarė pirmojo kurso verslo vadybos studentai (5 proc.), kurie dar nesimokė statistikos dalyko ir nedirbo SPSS statistiniu paketu. 31 proc. visų studentų grupėje dalyvavo reklamos vadybos studentai, silpnai vertinantys savo žinias darbe su SPSS ir manantys, kad tai jiems negali praversti. Taip pat šioje tyrimo grupėje dalyvavo buhalterijos specialybės studentai, vidutiniškai vertinantys savo žinias. Pastarieji studentai nesimokė dirbti Matlab programa.

Antrąją grupę, kuri tyrimo metu dirbo su statistiniu paketu R, sudarė verslo vadybos būsimieji specialistai, puikiai vertinantys savo žinias su SPSS statistiniu paketu (21 proc.). Į šią 25 grupę buvo įtraukti informacinių technologijų studentai, kuriems teko susidurti su statistiniu paketu R. 27 proc. visų studentų grupėje dalyvavo buhalterijos specialybės studentai, kurie kritiškai vertina savo žinias statistikos dalyke ir statistinio paketo SPSS naudojime.

4. 2. Programos planas

4. 2. 1. Aukštosios mokyklos dalykiniai reikalavimai Lietuvos Respublikos Švietimo ir mokslo ministro 1999-12-22 įsakymu Nr. 1260 buvo patvirtintos neuniversitetinių studijų programų rengimo nuostatos. Šios nuostatos nurodo neuniversitetinio aukštojo mokslo studijų programų trukmę, apimtį, sandarą bei rengimo principus [34].

Vadovaujantis Lietuvos Respublikos Švietimo ir mokslo ministro 2010-04-09 įsakymu Nr. V-501 „Dėl laipsnį suteikiančių pirmosios pakopos ir vientisųjų studijų programų bendrųjų reikalavimų aprašo patvirtinimo“ aukštoji mokykla turi parengti studijų programos aprašą. Studijų programos turi atitikti bendruosius ir specialiuosius reikalavimus, nustatomus studijų krypties aprašuose, kuriuos tvirtina Lietuvos Respublikos Švietimo ir mokslo ministras. 3 įsakymo straipsnyje nurodoma, kad kolegijinių studijų programos apimtis yra ne mažesnė kaip 180 ir paprastai ne didesnė kaip 210 kreditų, iš jų:

 ne mažiau kaip 135 kreditus turi sudaryti studijų krypties dalykai;

 ne mažiau kaip 15 kreditų turi sudaryti bendrieji koleginių studijų dalykai;

 nuo 30 iki 60 kreditų gali sudaryti kolegijos nustatyti ir studento pasirenkami dalykai [28].

Panevėžio kolegijoje studijų programos įgyvendinamos vadovaujantis Lietuvos Respublikos Vyriausybės 2010-10-06 nutarimu Nr. 1429 (Lietuvos Respublikos Vyriausybės 2012-07-11 nutarimo Nr. 857 redakcija). Šio nutarimo 4 straipsnio 15 dalyje sakoma, kad kolegijos mokslo ir studijų vienovė užtikrinama per glaudų ryšį su praktika [35]. Studijų programų studentai žinias įgyja dalykų teorinių paskaitų metu, įgūdžius ir gebėjimus formuoja dalykų praktikumų ir profesinių praktikų metu.

Specialybės dalykų, kurių sąrašą ir apimtį numato programos rengėjas, galutinis tikslas — įgyti profesines kvalifikacijas, pakankamas savarankiškai atlikti darbą visose, programoje 26 nurodytose, profesinės veiklos srityse. Kiekvieno dalyko aprašą1 parengia studijų programos apraše numatyti dėstytojai, vadovaudamiesi dalykiniais reikalavimais2.

4. 2. 2. Programos planas Vadovaujantis Lietuvos Respublikos Švietimo ir mokslo ministro 2010-02-19 įsakymu Nr. V-222 „Dėl studijų kryptis sudarančių šakų sąrašo patvirtinimo“ Panevėžio kolegijos parengtuose studijų programų aprašuose numatoma verslo vadybos, reklamos vadybos ir buhalterijos specialybių statistinių paketų taikymo praktika. Pagal praktikos vadovo rekomendacijas paruoštas praktinių mokymų (tyrimo) programos planas, kuriame numatyti programos tikslai ir uždaviniai (žr. 2 priedas). Programos plane numatyta įžanginė tema susipažinimui su statistiniais paketais ir penkios, dažniausiai naudojamų, statistinei duomenų analizei, funkcijų, temos. Kiekvienai temai iškelti uždaviniai, kuriais vadovaujantis studentai įgyja naujų kompetencijų.

4. 2. 3. Pamokos Naudojamos sąvokos:

Statistinis dažnis — skaičius fi rodantis, kiek imties narių priklauso i-tajam intervalui arba kiek imties narių turi vertę i. Moda — dažniausiai pasikartojanti požymio reikšmė imtyje. Mediana — tai požymio reikšmė, kuri dalija variacinę eilutę į dvi lygias dalis. Vidurkis — vidutinė požymio reikšmė, nustatyta tiriant skirtingus objektus. Dispersija — statistinė imties charakteristika, atspindinti labiausiai tikėtiną vertės nukrypimą nuo aritmetinio vidurkio. Standartinis nuokrypis (arba vidutinis kvadratinis nuokrypis) — dydis, nusakantis atsitiktinio dydžio įgyjamų reikšmių sklaidą apie vidurkį. Standartinio nuokrypio dimensija lygi atsitiktinio dydžio dimensijai. Histograma — stulpelinė diagrama, kuri grafiškai vaizduoja statistinių duomenų pasiskirstymą arba jų tankį. Tiesinė regresija — dviejų požymių priklausomumas išreikštas tiesine lygtimi. Koreliacija — statistinis ryšys tarp dviejų požymių.

1 Dalyko aprašas — dokumentas, kuriame įrašytas studijų dalyko pavadinimas, jo apimtis, aprašyti tikslai, trumpas turinys, studijų būdai (auditorinis darbas, praktika, savarankiškas darbas) ir atsiskaitymo forma (įskaitymas arba įvertinimas pažymiu) [29]. 2 Dalykiniai reikalavimai — aukštosios mokyklos nustatyti reikalavimai kiekvieno dalyko studijų tikslams, turiniui ir apimčiai [29] 27

Pirma paskaita: „Statistiniai paketai“ Pirmoje paskaitoje studentai trumpai supažindinami su: komercinių, nemokamų ir atviro kodo statistinių paketų gausa, komercinių statistinių paketų kainomis ir vartotojo aplinkos skirtumais. Antra paskaita: „Duomenų įvedimas“ Studentai antrojoje paskaitoje mokomi sudaryti statistinių duomenų lenteles. Pakeisti ar priskirti duomenų tipą vienam ar kitam duomenų lentelės stulpeliui. Skaitiniam duomenų tipams nurodyti skaitmenų kiekį. Pabaigus paskaitos mokymus studentams duodama savarankiška užduotis, kuriuose studentai turi sudaryti duomenų lentelę iš minimaliai trijų duomenų požymių, priskirti ar pakeisti duomenų tipą. Trečia paskaita: „Pagrindinės statistinės charakteristikos“ Trečios paskaitos temai iškelti penkti uždaviniai, kuriuos įgyvendinant studentai išmoksta: apskaičiuoti duomenų dažnius ir pateikti juos lentelėje, apskaičiuoti duomenų lentelės stulpelių sumas, aritmetinius vidurkius, modą ir medianą, braižyti duomenų histogramas. Užtvirtinant įgytas žinias studentams pateikiama antroji savarankiška užduotis (tęsinys pirmosios užduoties), kur turi panaudoti visas paskaitos metu įgytas žinias. Ketvirta paskaita: „Pagrindinės aprašomosios statistikos charakteristika“ Ketvirtosios paskaitos metu studentai mokomi apskaičiuoti: duomenų lentelės požymių minimalią ir maksimalią reikšmes, dispersiją ir standartinį nuokrypį. Po paskaitos studentai tęsia savarankišką užduotį, papildydami skaičiavimus minimalia, maksimalia duomenų lentelės stulpelių reikšmėmis, apskaičiuodami dispersiją ir standartinį nuokrypį. Penkta paskaita: „Tiesinė regresija“ Penktosios paskaitos metu studentai mokomi atlikti požymių priklausomybės tyrimą tiesine regresija, braižyti taškines dviejų požymių diagramas. Studentų savarankiškoje užduotyje duomenų lentelė papildoma dviem naujais požymiais. Atliekamas kelių atsitiktinai pasirinktų požymių priklausomybės tyrimas tiesine regresija ir nubraižoma taškinė diagrama. Šešta paskaita. „Požymių koreliacija“ Studentai šeštojoje paskaitoje mokomi apskaičiuoti požymių koreliacijos koeficientus ir juos palyginti. Paskaitos žinioms įtvirtinti studentai atlieka savarankišką užduotį, kurioje turi apskaičiuoti visų objektų požymių koreliacijos koeficientus.

28

4. 3. Statistinių paketų palyginimo rezultatai

Analizuoti statistiniai paketai SPSS ir R turi daugybę funkcijų — statistinių metodų, rezultatų analizės pateikimo formų ir kitų galimybių. Sunku aprėpti ir pateikti visas minėtų statistinių paketų galimybes ir šių galimybių skirtumus, todėl buvo apsiribota dažniausiai naudojamomis statistinių paketų funkcijomis. Paskaitų metu kartu su studentų grupėmis buvo analizuojamos SPSS ar R statistinių paketų galimybės. Kiekvienos paskaitos įgytoms žinioms užtvirtinti ir siekiant patikrinti, kaip studentai suprato ir įsisavino pateiktą mokymo medžiagą, buvo skiriamos savarankiškos užduotys. Norint palyginti, kuri studentų grupė geriau perprato analizuojamas statistinio paketo funkcijas, užduotys buvo vertinamos pažymiu. Studentų grupė, kuri mokėsi dirbti SPSS statistiniu paketu geriausiai įsisavino pirmoje užduotyje analizuojamas paketo funkcijas. Studentų pirmosios užduoties pažymių vidurkis — 9,7 balo [žr.: 14 pav.]. Analizuojant sudėtingesnes statistinio paketo galimybes, studentų užduočių įvertinimai nežymiai nukrito. Žemiausi trečios ir ketvirtos užduoties pažymių vidurkiai — 8,7 balo.

9,7 10 9,4 9,5 8,7 8,7 8,8 9 8,5 8 7,5 7 6,5 6 5,5 5 1 užduotis 2 užduotis 3 užduotis 4 užduotis 5 užduotis

14 pav. Studentų grupės dirbusios su SPSS užduočių įvertinimų vidurkiai

R statistinį paketą analizavusi antroji studentų grupė, analogiškai kaip ir pirmoji, dirbusi su SPSS statistiniu paketu, geriausiai įsisavino pirmoje paskaitoje pateiktas statistinio paketo galimybes. Pirmosios užduoties bendras pažymių vidurkis 0,6 balo mažesnis, nei pirmosios studentų grupės ir siekia 9,1 balo [žr.: 15 pav.]. Sudėtingiausia studentams buvo ketvirtoji užduotis, kurios įvertinimų vidurkis — 7,9 balo — mažesnis 0,8 balo lyginant su studentų grupe, analizavusia SPSS statistinį paketą. 29

9,5 9,1 8,7 8,6 9 8,5

8,5 7,9 8 7,5 7 6,5 6 5,5 5 1 užduotis 2 užduotis 3 užduotis 4 užduotis 5 užduotis

15 pav. Studentų grupės dirbusios su R užduočių įvertinimų vidurkiai

Pasirinkus reikšmingumo lygmenį 0,05, kuris žymimas p, nustatytas statistinis reikšmingumas užduočių įvertinime tarp pirmosios grupės, kuri mokėsi dirbti SPSS programiniu paketu ir antrosios grupės, kuri mokėsi dirbti R statistiniu paketu. Statistiškai reikšmingi tie vidurkiai, kuriuos lyginant p<0,05. Statistiniam užduočių vidurkių skirtumų reikšmingumui apskaičiuoti buvo taikoma kovariančių analizė (ANCOVA) SPSS statistiniu paketu. Pirmosios užduoties grupių įvertinimų vidurkių skirtumai yra statistiškai reikšmingi p=0,007<0,05 [žr.: 16 pav.].

16 pav. Pirmosios užduoties įvertinimų statistinis reikšmingumas

Antrosios užduoties įvertinimų pirmosios grupės vidurkis — 9,4 balo, antrosios grupės — 8,7 balo. SPSS statistiniu paketu apskaičiavus šių vidurkių skirtumų statistinį reikšmingumą, gauta p reikšmė lygi 0,003 [žr.: 17 pav.]. Šis vidurkių skirtumas yra statistiškai reikšmingas. 30

17 pav. Antrosios užduoties įvertinimų statistinis reikšmingumas

Trečiosios užduoties grupių dirbusių su SPSS ir R statistiniais paketais įvertinimų vidurkių skirtumas yra 0,1 balo. Apskaičiavus SPSS statistiniu paketu p= 0,764>0,05 [žr.: 18 pav.]. Statistiškai trečiosios užduoties įvertinimų vidurkių skirtumai yra nereikšmingi, nes p reikšmė viršija nustatytą reikšmingumo lygį.

18 pav. Trečiosios užduoties įvertinimų statistinis reikšmingumas

Ketvirtosios užduoties pirmosios grupės, dirbusios su SPSS statistiniu paketu, įvertinimų vidurkis yra 8,7, antrosios grupės, dirbusios su R statistiniu paketu, įvertinimų vidurkis — 7,9. Statistiškai šių įvertinimų vidurkių skirtumas yra reikšmingas, nes SPSS statistiniu paketu apskaičiuota p reikšmė lygi 0,034 neviršija pasirinkto 0,05 reikšmingumo lygio [žr.: 19 pav.]. 31

19 pav. Ketvirtosios užduoties įvertinimų statistinis reikšmingumas

Penktosios užduoties grupių įvertinimų vidurkių skirtumas nedidelis — 0,3 balo. Apskaičiavus SPSS statistiniu paketu, šis įvertinimų vidurkių skirtumas yra statistiškai nereikšmingas. Apskaičiuota p reikšmė lygi 0,401 [žr.: 20 pav.].

20 pav. Penktosios užduoties įvertinimų statistinis reikšmingumas

Kaip ir tikėtasi tyrimo pradžioje studentų grupės analizavusios ir atlikusios užduotis su SPSS statistiniu paketu įvertinimai buvo aukštesni nei studentų grupės dirbusios su R statistiniu paketu. Pirmosios grupės, kuri mokėsi dirbti SPSS statistiniu paketu bendras įvertinimų vidurkis yra 9,0381. Antrosios grupės, kuri mokėsi dirbti R statistiniu paketu bendras užduočių įvertinimų vidurkis yra 8,5619 [žr.: 21 pav.].

21 pav. Bendras pirmosios ir antrosios grupių užduočių įvertinimų vidurkis 32

Kaip matyti 22 paveikslėlyje, pirmosios ir antrosios studentų grupių atliktų užduočių bendras vidurkis skiriasi tik 0,48 balo.

8,56 R

9,04 SPSS

5 5,5 6 6,5 7 7,5 8 8,5 9 9,5

22 pav. Visų užduočių studentų grupių vidurkiai

Taikant vienfaktorę dispersinę analizę (ANOVA) gauti rezultatai, kad pirmosios grupės užduočių įvertinimų vidurkiai statistiškai reikšmingai skiriasi nuo antrosios grupės įvertinimų vidurkių [žr.: 23 pav.]. Gauta p reikšmė lygi 0,031<0,05.

23 pav. Visų užduočių studentų grupių vidurkių statistinis reikšmingumas

Statistiniai paketai SPSS ir R labai skirtingi savo vartotojo sąsaja, duomenų pateikimo ir rezultatų išvedimo forma. Tačiau vienas kitam nenusileidžia savo funkcionalumu. Manyta, kad atviro kodo statistinis paketas R yra priimtinesnis pažengusiems matematinės statistikos specialistams ir sunkiai „įkandamas“ pradedantiesiems. Remiantis atlikto tyrimo rezultatais, galime spręsti, kad tyrimo prasme statistinis paketas R yra nesunkiai perprantamas ir įsisavinamas pradedančių vartotojų, nors statistine prasme gautų rezultatų skirtumas yra reikšmingas. Atlikus tyrimą ir paskelbus studentų grupių įvertinimus, t.y. tyrimo rezultatus, studentai buvo paprašyti įvertinti pažymiu statistinį paketą, kurį jie analizavo. Įvertindami statistinį paketą studentai turėjo pagalvoti, ar dar naudotųsi analizuotu statistiniu paketu, ar jiems buvo priimtina ir patogi statistinio paketo vartotojo sąsaja, ar rekomenduotų nagrinėtą statistinį paketą. Kaip ir tyrimo rezultatai, statistinių paketų įvertinimai nežymiai išsiskyrė. SPSS statistiniu paketu 33 mokęsi dirbti studentų vertinimų vidurkis — 9,0952. Antrosios grupės, kuri mokęsi dirbti R statistiniu paketu, vertinimų vidurkis lygus 8,5714 [žr.: 24 pav.].

24 pav. Statistinių paketų vertinimų vidurkiai pagal studentus

Statistinis paketas SPSS studentams pasirodė šiek tiek priimtinesnis savo vartotojo aplinkos paprastumu [žr.: 25 pav.].

8,6

R

9,1

SPSS

5 5,5 6 6,5 7 7,5 8 8,5 9 9,5

25 pav. Statistinių paketų vertinimai pagal studentus

Nors studentų vertinimų vidurkių skirtumas 0,5 balo, taikant SPSS ANOVA vienfaktorę dispersinę analizę gauti rezultatai, kad šis vidurkių skirtumas statistiškai nėra reikšmingas [žr.: 26 pav.]. Gauta p reikšmė lygi 0,061 ir viršija nustatytą reikšmingumo lygį 0,05.

26 pav. Statistiniu paketų vertinimų vidurkių statistinis reikšmingumas

34

Reikėtų atkreipti dėmesį, kad visi tyrime dalyvavę studentai naudojasi MS Office Excel programa [žr.: 10 pav.]. Daugelis studentų, dalyvavusių pirmoje grupėje, nagrinėjusioje SPSS statistinį paketą, nuolatos ieškojo panašumų ir tapatino paketą su minėtąja programa. Todėl galima daryti išvadą, kad priimtinos ir įprastos darbo aplinkos panašumas šiems studentų vertinimams turėjo didelės įtakos.

35

IŠVADOS

 Apžvelgus atliktus statistinių paketų lyginamuosius tyrimus ir parašytus mokslinius darbus, nerasta darbų, kuriuose komerciniai ir nemokami statistiniai paketai būtų lyginami studentų įsisąmoninimo ar paprastumo-sudėtingumo dirbant atžvilgiu.  Atlikus trumpą statistinių paketų apžvalgą ir Lietuvos universitetuose mokymui naudojamų statistinių paketų tyrimą, išsiaiškinta, kad populiariausi — SPSS (44 proc.), SAS (19 proc.) ir R (12 proc.) statistiniai paketai.  Atlikus Panevėžio kolegijos studentų anketinį tyrimą apie jų turimas statistikos žinias ir žinomus ar naudojamus statistinius paketus, paaiškėjo, kad 95 proc. apklausoje dalyvavusių studentų žino ir yra naudoję SPSS statistinį paketą, o 98 proc. studentų nėra girdėję apie statistinį paketą R.  Remiantis studentų atliktomis ir įvertintomis užduotimis, atliktas statistinių paketų taikymo mokymui tyrimas. Studentų geriau pritaikytas įgytoms statistikos žinioms SPSS statistinis paketas, aplenkęs 0,48 balo (statistiškai reikšmingas vidurkių skirtumas), studentų bendro užduočių vidurkio, statistinį paketą R.  Remiantis studentų statistinių paketų, kuriais jie dirbo, vertinimu, SPSS yra priimtinesnis nei statistinis paketas R. Tačiau vertinimų vidurkių skirtumas nėra statistiškai reikšmingas. Verta pažymėti, kad studentai teigė jog SPSS pranašesnis, nes sąsaja panaši į MS Office Excel. 36

Kristina Staškūnaitė. Statistinių paketų taikymai mokymui: informatikos magistro studijų baigiamas darbas/ vadovas: Doc. Dr. Tomas Petkus, Lietuvos edukologijos universitetas, Gamtos, matematikos ir technologijų fakultetas, Informatikos katedra. — Vilnius, 2015. — 43 p. SANTRAUKA

Pagrindinis darbo tikslas — išanalizuoti ir palyginti komercinių, nemokamų ir atviro kodo statistinių paketų paprastumą-sudėtingumą studento (naudotojo) mokymo(-si) atžvilgiu. Tikslui pasiekti iškelti ir įgyvendinti darbo uždaviniai. Darbe trumpai aprašyta statistikos istorija, apžvelgti atlikti statistinių paketų lyginamieji darbai, tačiau nerasta darbų, kuriuose komerciniai ir nemokami statistiniai paketai būtų lyginami studentų įsisąmoninimo ar paprastumo-sudėtingumo dirbant atžvilgiu. Atliktas trumpas tyrimas, išsiaiškinti populiariausius Lietuvos universitetuose mokymui(-si) taikomus statistinius paketus. Pagrindiniam tyrimui atlikti pasirinktas komercinis statistinis paketas SPSS ir nemokamas atviro kodo statistinis paketas R. Tyrime dalyvavo Panevėžio kolegijos studentai, kurie prieš tyrimą anketoje įvertino savo statistikos žinias. Remiantis studentų anketų duomenimis, studentai suskirstyti į dvi lygiavertes grupes. Pirmoji grupė buvo mokoma(-si) dirbti su SPSS statistiniu paketu, antroji — su R statistiniu paketu. Abi grupės buvo mokomos pagal parengtą šešių dalių planą. Studentai atliko penkias praktines savarankiškas užduotis, kurios buvo vertinamos. Bendras abiejų grupių atliktų užduočių įvertinimų vidurkių skirtumas 0,48 balo yra statistiškai reikšmingas.

37

Kristina Staškūnaitė. The usage of statistical packages for training: Master's Final Thesis of Computer Science / Leader: Ass. prof. Dr. Tomas Petkus, Lithuanian University of Educational Sciences, Faculty of Natural Sciences, Mathematics and Technology, Department of Computer Science. - Vilnius, 2015. - 43 p. SUMMARY

The main goal is to analyze and compare the simplicity-complexity of commercial, free and open source statistical package from the student`s (user`s) teaching (learning) aspect. To achieve the goal of the work tasks were raised and accomplished. The thesis briefly describes the history of statistics, reviews the conducted comparative works of statistical packages, but there were no works found in which commercial and free statistical packages are compared from the student`s awareness of the simplicity or complexity while working aspect. A short survey was conducted to find out the most popular teaching (learning) statistical packages in Lithuanian universities. Commercial statistical package SPSS and free open source statistical package R were selected for a main survey. Panevėžys College`s students, who rated their knowledge of statistics in a questionnaire before the study were involved in it. According to the data of student`s questionnaires, students are divided into two equivalent groups. The first group was taught (learning) to work with the SPSS statistical package, the second group was taught (learning) to work with the R statistical package. Both groups were taught according to a six-point plan. Students accomplished five independent practical tasks that have been evaluated. The total difference in evaluation averages of the two groups` performed tasks is 0.48 points , which is statistically significant.

38

INFORMACIJOS ŠALTINIŲ SĄRAŠAS

1. Vakaro žinios, http://zodynas.vz.lt/Statistika, žiūrėta: 2013-03-05 2. Statistikos istorija, http://liusk4.wordpress.com/2010/10/26/trumpa-statistikos-istorija/, žiūrėta: 2013-03-05 3. Statistikos atradimas, http://raivydas.wordpress.com/2009/11/14/statistikos-atsiradimas/, žiūrėta: 2013-03-07 4. Statistikos mokomoji knyga, http://lt.scribd.com/doc/123160122/3/STATISTIKOS- SAMPRATA-IR-JOS-RAIDA, žiūrėta: 2013-03-07 5. Adolphe Quetelet biografija, https://en.wikipedia.org/wiki/Adolphe_Quetelet, žiūrėta: 2013-03-10 6. Statistikos knyga, http://www.andriuz.skynet.lt/knygos/Matematika/Statistika%20(Jakubauskas).pdf, žiūrėta: 2013-03-10 7. LEU virtuali mokymosi aplinka, http://www.estudijos.vpu.lt/mod/resource/view.php?id=6852, žiūrėta: 2013-03-13 8. List of statistical packages, http://en.wikipedia.org/wiki/List_of_statistical_packages, žiūrėta: 2013-03-13 9. Comparison of statistical packages, http://en.wikipedia.org/wiki/Comparison_of_statistical_packages, žiūrėta: 2013-03-13 10. Apie SPSS, an IBM Company, http://www.insol.lt/redirect/apie/, žiūrėta: 2013-03-13 11. Why SPSS software?, http://www-01.ibm.com/software/analytics/spss/, žiūrėta: 2013-03-13 12. IBM SPSS Statistics, http://www-01.ibm.com/software/analytics/spss/products/statistics/, žiūrėta: 2013-03-13 13. SPSS, http://en.wikipedia.org/wiki/SPSS, žiūrėta: 2013-04-07 14. What is R?, http://www.r-project.org/about.html, žiūrėta: 2013-04-07 15. The R Project for Statistical Computing, http://www.r-project.org/, žiūrėta: 2013-04-07 16. Duomenų kompiuterinės statistinės analizės technologijos, magistro darbas, http://vddb.laba.lt/fedora/get/LT-eLABa-0001:E.02~2008~D_20080929_140053- 98826/DS.005.0.01.ETD, žiūrėta: 2013-09-19 17. IBM SPSS Data Collection Author, http://www.insol.lt/software/data-collection/author/, žiūrėta: 2013-04-15 18. IBM SPSS Data Collection Author Professional, http://www.insol.lt/software/data- collection/professional/author/, žiūrėta: 2013-04-15 39

19. SPSS Statistics Standard, http://www-03.ibm.com/software/products/us/en/spss-stats- standard/, žiūrėta: 2013-04-15 20. SPSS Statistic Professional, http://www-03.ibm.com/software/products/us/en/spss-stats-pro, žiūrėta: 2013-04-15 21. SPSS Statistics Premium, http://www-03.ibm.com/software/products/us/en/spss-stats- premium, žiūrėta: 2013-04-15 22. IBM SPSS Modeler Professional, http://www.insol.lt/software/modeling/modeler/, žiūrėta: 2013-04-15 23. IBM SPSS Modeler Premium, http://www.insol.lt/software/modeling/modeler-premium/, žiūrėta: 2013-04-15 24. IBM Products, http://www-03.ibm.com/software/products/us/en/spss-decision- management, žiūrėta: 2013-04-15 25. Pats trumpiausias statistikos kursas su R, http://web.vu.lt/mif/a.reklaite/files/2013/02/2010.01-Pats-trumpiausias-su-R.pdf, žiūrėta: 2013-09-19 26. Įvadas į statistiką su R, http://www.mif.vu.lt/~rlapinskas/2012- 2013/Ivadas%20i%20statistika%20su%20R/IntroStatR%20-%202012xi30.pdf, žiūrėta: 2013-09-19 27. Tikimybių teorija ir matematinė statistika, http://www.mif.vu.lt/ttsk/bylos/ku/files/ttms_4.pdf, žiūrėta: 2015-02-27 28. LR Švietimo ir mokslo ministro įsakymas, http://www3.lrs.lt/pls/inter3/dokpaieska.showdoc_l?p_id=369937, žiūrėta: 2015-02-27 29. Studijų rezultatų įskaitymų tvarka, http://ankstesne.ttvam.lt/informacija-studentui/studijas- reglamentuojantys-dokumentai/studiju-rezultatu-iskaitymo- tvarka?phpMyAdmin=793442549aba6e6a688aa976d390c771&phpMyAdmin=793442549aba 6e6a688aa976d390c771, žiūrėta: 2014-04-21 30. Statistinė kiekybinių duomenų analizė su SPSS ir STATA, http://www.lidata.eu/files/mokymai/stat/Statistika_galutine_redakcija.pdf, žiūrėta: 2015-02-27 31. Valstybiniai universitetai, http://lurk.lt/lt/universitetai/universitetai/valstybiniai.html, žiūrėta: 2015-03-19 32. LAMA BPO universitetai, http://www.lamabpo.lt/turinys/aukstosios- mokyklos/universitetai#top, žiūrėta: 2015-03-19 33. Lietuvos statistikos departamento veikla, http://www.stat.gov.lt/veikla, žiūrėta: 2015-03-19 40

34. LR Švietimo ir mokslo ministro įsakymas, http://www.smm.lt/teisine- informacija/99_1260.htm, žiūrėta: 2015-04-28 35. LR Vyriausybės nutarimas, http://www3.lrs.lt/pls/inter3/dokpaieska.showdoc_l?p_id=430204&p_tr2=2, žiūrėta: 2015-04-28 36. Statistinis duomenų apdorojimas atviro kodo programomis, magistro darbas, http://talpykla.elaba.lt/elaba-fedora/objects/elaba:1730676/datastreams/MAIN/content žiūrėta: 2015-05-02 37. Čekanavičius V., Murauskas G. Statistika ir jos taikymai, I. Vilnius:TEV. 2000. [žr.: 2014-04-23] 38. Čekanavičius V., Murauskas G. Statistika ir jos taikymai, II. Vilnius:TEV. 2004. [žr.: 2014-05-15] 39. Čekanavičius V., Murauskas G. Statistika ir jos taikymai, III. Vilnius:TEV. 2009. [žr.: 2014-05-29]

41

PRIEDAI

1 priedas Anketa Gerb. respondente, Esu Lietuvos edukologijos universiteto informatikos magistro studijų studentė. Šiuo metu atlieku diplominio darbo tyrimą, kurio tikslas išsiaiškinti, kuris statistinis paketas yra priimtinesnis ir lengviau įsisąmoninamas studentams. Anketa nėra anoniminė, nes gauti rezultatai padės paruošti mokymo medžiagą Jūsų statistinių paketų taikymų praktikai ir suskirstyti Jus į lygiavertes grupes. Iš anksto dėkoju už atsakymus.

1. Jūsų vardas ______2. Kokia Jūsų specialybė? a. Reklamos vadyba b. Verslo vadyba c. Informacinės sistemos d. Buhalterija e. Kita 3. Kokiame kurse Jūs mokotės? a. I b. II c. III d. Kita 4. Koks Jūsų amžius? a. 18-21 b. 22-25 c. 26 ir daugiau 5. Ar teko susidurti su statistika prieš įstojant į aukštąją mokyklą? a. Taip, gyvenime dažnai tenka susidurti b. Taip, vidurinėje mokykloje c. Ne d. Kita ______6. Ar Jūsų mokymo programoje jau buvo statistikos dalykas? a. Taip, viską išmokau b. Taip, bet nieko nemoku c. Ne d. Nepamenu

42

7. Jei jau mokėtės statistikos dalyko, kaip vertinate savo žinias? a. Puikiai, dalyko įvertinimas buvo aukštas ir viską moku b. Vidutiniškai, kažką atsimenu puikiai, kai ko visai nepamenu c. Silpnai, reiktų peržiūrėti užrašus, kad prisiminčiau d. Kita ______8. Ar teko girdėti, o gal dirbti su šiais statistiniais paketais? Statistinis paketas Žinomas Nežinomas Taip, dirbu SAS Dataplot Maple STATISTICA Sage PSPP MATLAB EXCEL

9. Kaip vertinate savo žinias apie statistinį paketą SPSS? a. Puikiai b. Vidutiniškai c. Silpnai d. Nesu apie tokį girdėjęs (-usi) 10. Kaip vertinate savo žinias apie statistinį paketą R? a. Puikiai b. Vidutiniškai c. Silpnai d. Nesu apie tokį girdėjęs (-usi) 11. Kaip manote, ar statistinių paketų taikymai yra naudingi? a. Taip, tai labai palengvina darbą su statistiniais duomenimis b. Galbūt c. Ne, tai apsunkina darbą d. Ne, man tai niekur nepravers

Priedas 2 PROGRAMOS TIKSLAS Suteikti galimybę visiems studentams plėtoti pažinimo, mastymo gebėjimus, praktinius įgūdžius, papildyti statistikos žinių bagažą apie šiuo metu pasaulyje itin populiarius statistinius paketus, susipažinti jų galimybėmis, apdoroti statistinius duomenis vienu ar kitu statistiniu paketu.

PROGRAMOS UŽDAVINIAI 1. Susipažinti su statistinių paketų gausa ir jų galimybėmis. 2. Atliekant praktinius darbus apdoroti statistinius duomenis skirtingais metodais. 3. Apdoroti statistinius duomenis pasinaudojant statistinių paketų suteikiamomis skirtingomis funkcijomis.

PROGRAMOS TURINYS Eil. Tema Uždaviniai Pastabos Nr. 1. Susipažinti su komerciniais, nemokamais ir atviro kodo 1 Statistiniai paketai statistiniai paketais. 2. Sudaryti duomenų lentelę. 2 Duomenų įvedimas 3. Nustatyti duomenų tipus. 1. Apskaičiuoti duomenų dažnius. 2. Apskaičiuoti duomenų lentelės stulpelių sumas. 3 Pagrindinės statistinės charakteristikos 3. Apskaičiuoti duomenų lentelės stulpelių aritmetinius vidurkius. 4. Apskaičiuoti duomenų modą ir medianą. 5. Braižyti duomenų histogramas. 1. Apskaičiuoti kiekvieno duomenų lentelės stulpelio minimalią ir maksimalią reikšmes. Pagrindinės aprašomosios statistikos 4 2. Apskaičiuoti kiekvieno duomenų lentelės stulpelio dispersiją. charakteristikos 3. Apskaičiuoti kiekvieno duomenų lentelės stulpelio standartinį nuokrypį. 1. Požymių priklausomybės tyrimas tiesine regresija. 5 Tiesinė regresija 2. Taškinės diagramos braižymas. 6 Požymių koreliacija 1. Apskaičiuoti požymių koreliacijos koeficientus.