Sommario • Indici statistici di posizione o locazione o di tendenza centrale Corso di Statistica • Medie Facoltà di Economia • Moda a.a. 20102010--20112011 • Mediana francesco mola • Quantile

Lezione n° 3

lez 3 _2010-2011 statistica-francesco mola 2

Perché le medie? Medie secondo Chisini

• Individuazione di una misura sintetica che tenda ad esprimere la tipicità = della distribuzione X carattere quantitati vo • Vengono definite misure di tendenza centrale perché “solitamente” si con posizionano al centro della distribuzione (ma non sempre rappresentano ≤ ≤ ⋯ ≤ ≤ ⋯ ≤ ≤ esattamente il centro) x1 x2 M xn−1 xn • Esistono molti indici di tendenza centrale alcuni che possono essere La quantità M è una media se… calcolati solo per fenomeni quantitativi altri sia per quantitativi che qualitativi . ⋯ = ⋯ • La scelta del tipo di media da utilizzare riguarda aspetti diversi, per lo più f (x1, x2 , , xn ) f (M , M , , M ) relativi alla conoscenza del fenomeno in studio (o la relazione che lega i dati o li ha generati), oppure ad una preliminare analisi grafica della Cioè: distribuzione. considerare la funzione f() sulle n modalità della X • Molti indici di tendenza centrale risentono infatti dei dati anomali (outliers ). o considerarla su n volte la costante M è equivalente. Questi a prima vista possono sembrare errori nei dati, ma non sempre è Seguendo questo approccio, al variare della funzione f() così. si ottengono differenti tipi medie. lez 3 _2010-2011 statistica-francesco mola 3 lez 3 _2010-2011 statistica-francesco mola 4 Un esempio su tredici studenti … Media aritmetica Voto in (semplice) Matematica Voto In Studenti (X) Statistica (Y) = Consideriamo come criterio Gregory 28 30 n 13 la somma degli elementi 30 18 = n Robert 27 21 ∑xi 365 f (x , x ,⋯, x ) = x AllisonCameron 28 28 1 2 n ∑i=1 i ⇒ Eric Foreman 26 30 y =324 µ ∑ i Nella espressione del Chisini sostituisco a M il simbolo che indica la media aritmetica RemyHadley(13) 28 27 James 27 30 f (x , x ,⋯, x ) = f (µ, µ,⋯, µ) ⇔ ∑xi 365 1 2 n Amber Volakis(B.T.) 29 21 µ = = = x 28,08 n n n 28 22 n 13 = µ = µ 29 26 ∑ xi ∑ ⇔ ∑ xi n ⇒ i=1 i=1 i=1 Edward Vogler 27 23 ∑yi 324 n StacyWarner 29 30 µ = = = 24,92 x y ∑i=1 i Michael Tritter 29 18 n 13 = µ 365 324 lez 3n _2010-2011 statistica-francesco mola 5 lez 3 _2010-2011 statistica-francesco mola 6

media aritmetica (ponderata) per… Un esempio su tredici studenti … distribuzioni di frequenze assolute con distribuzione di frequenza Voto in Matematica Frequenze (X) assolute (n) Consideriamo una variabile X nella forma: 26 1 27 3 (xi ,ni ) i=1,2,⋯,k 28 4 29 4 …la media aritmetica sarà: 30 1 13 nnn=+ + n + n + n = 13 k 1 2 3 4 5 = + + + += ∑ xini ∑ xi n i 26*1 27*3 28*4 29*4 30*1 365 µ = i=1 k ∑ xi n i 365 ∑ = ni Ogni x ha un’influenza µ = = = 28, 08 i 1 i x n 13 dettata da n i lez 3 _2010-2011 statistica-francesco mola 7 lez 3 _2010-2011 statistica-francesco mola 8 Un esempio su tredici studenti … media aritmetica (ponderata) per… con distribuzione di frequenza distribuzioni di frequenze relative Frequenze assolute Voto in Statistica (Y) (n) 18 2 Consideriamo una variabile X nella forma: 21 2 22 1 (x , f ) = ⋯ 23 1 i i i 1,2, ,k 26 1 …la media aritmetica sarà: 27 1 28 1 k 30 4 µ = x f 13 ∑i=1 i i =+++++++= nnnnnnnnn12345678 1 3 = + + ++ = ∑ yi n i 18*2 21*2 22*1 ... 30*4 324 Ogni x i ha un’influenza y n µ =∑ i i =3 2 4 = dettata da f y 24, 9 2 i lez 3 _2010-2011n 1 3 statistica-francesco mola 9 lez 3 _2010-2011 statistica-francesco mola 10

Un esempio su tredici studenti … Un esempio su tredici studenti … con distribuzione di frequenze relative con distribuzione di frequenze relative Voto in Statistica Frequenze Frequenze Voto in Frequenze Frequenze (Y) assolute (n) relative (f) Matematica (X) assolute (n) relative (f) 18 2 2/13 26 1 1/13 21 2 2/13 27 3 3/13 22 1 1/13 28 4 4/13 23 1 1/13 29 4 4/13 26 1 1/13 30 1 1/13 27 1 1/13 13 1 28 1 1/13 = + + + ∑ xi f i 26*(1/13) 27*(3/13) 28*(4/13) 30 4 4/13 13 1 +29*(4/13) + 30*(1/13) = =+ + + + = + + 2 6,230769 6,461538 8,615385 ∑ yi f i 18*(2/13) 21*(2/13) +8,923077 + 2,307692 = 28,08 +22*(1/13) ++ ... 30*(4/13) == 24,92 = µ µ = = y x∑ x i f i 28, 08 lez 3 _2010-2011 statistica-francesco mola 11 lez 3 _2010-2011 statistica-francesco mola 12 media aritmetica (semplice e ponderata) per… con alcuni esempi vediamo perché diciamo… distribuzioni in classi aritmetica Dati i valori 1, 2 e 3, la media è Si considerano i valori centrali di ogni classe + + Progressioni x + x µ = 1 2 3 = c = i−1 i 2 aritmetiche di i 2 3 ragione 1 con n …la media aritmetica sarà: dispari Dati i valori 1, 2, 3, 4 e 5, la media è k c k ∑i=1 i µ = c f La media in questo µ = ∑i=1 i i 1+ 2 + 3+ 4 + 5 n µ = = 3 caso è il VALORE 5 CENTRALE Si ipotizza uniformità nelle classi!!!! della distribuzione

lez 3 _2010-2011 statistica-francesco mola 13 lez 3 _2010-2011 statistica-francesco mola 14

a con alcuni esempi vediamo perché diciamo… 1 Proprietà della media aritmetica aritmetica l’internalità o criterio di Cauchy Dati i valori 3, 8 e 13, la media è Progressioni ≤ µ ≤ x1 xn 3+ 8 +13 aritmetiche di µ = = 8 ragione 5 con n 3 la media è il baricentro della distribuzione dispari Dire che la media è il baricentro della distribuzione equivale a dire che: Dati i valori 3, 8, 13, 18 e 23, la media è La media in − µ = ∑ (xi ) 0 + + + + questo caso è il i 3 8 13 18 23 VALORE − µ µ = =13 dove (xi ) ∀i= ,2,1 ⋯,n 5 CENTRALE della Sono gli scarti dalla media

lez 3 _2010-2011 statistica-francesco mola distribuzione15 lez 3 _2010-2011 statistica-francesco mola 16 Un esempio su tredici studenti … Voto in Voto In …graficamente abbiamo…. Matematica Statistica Studenti (X) (Y) X-mx Y-m 28 30 -0,08 5,08 Lisa Cuddy 30 18 1,92 -6,92 27 21 -1,08 -3,92 28 28 -0,08 3,08 Eric Foreman 26 30 -2,08 5,08 Remy Hadley(13) 28 27 -0,08 2,08 27 30 -1,08 5,08 Amber Volakis(B.T.) 29 21 0,92 -3,92 La media Chris Taub 28 22 -0,08 -2,92 aritmetica è Lawrence Kutner 29 26 0,92 1,08 il baricentro della Edward Vogler 27 23 -1,08 -1,92 Dove si distribuzione 29 30 0,92 5,08 posizionerà la Michael Tritter 29 18 0,92 -6,92 media 365 324 0,00 0,00 lez 3 _2010-2011 statistica-francesco mola 17 lez 3 _2010-2011aritmetica? statistica-francesco mola 18

Un esempio su tredici studenti … a Voto in Voto In 2 proprietà: Matematica Statistica Studenti (X) (Y) X-mx (X-mx)^2 Y-my (Y-my)^2 la media è l’unico valore che rende minima la Gregory House 28 30 -0,08 0,01 5,08 25,78 somma degli scarti al quadrato Lisa Cuddy 30 18 1,92 3,70 -6,92 47,93 Robert Chase 27 21 -1,08 1,16 -3,92 15,39 AllisonCameron 28 28 -0,08 0,01 3,08 9,47 2 Eric Foreman 26 30 -2,08 4,31 5,08 25,78 − µ = RemyHadley(13) 28 27 -0,08 0,01 2,08 4,31 ∑(xi ) min James Wilson 27 30 -1,08 1,16 5,08 25,78 Amber Volakis(B.T.) 29 21 0,92 0,85 -3,92 15,39 Chris Taub 28 22 -0,08 0,01 -2,92 8,54 Lawrence Kutner 29 26 0,92 0,85 1,08 1,16 Edward Vogler 27 23 -1,08 1,16 -1,92 3,70 StacyWarner 29 30 0,92 0,85 5,08 25,78 Michael Tritter 29 18 0,92 0,85 -6,92 47,93 365 324 0,00 14,92 0,00 256,92 lez 3 _2010-2011 statistica-francesco mola 19 lez 3 _2010-2011 statistica-francesco mola 20 Minimo Es: H=4; n=22 3a Proprietà associativa x Consideriamo una variabile X ed H gruppi di numerosità non 2 x1 µ x x x7 necessariamente uguale e con ognuno una propria media 1 3 6 x x µ 8 x 9 2 Consideriamo quindi una variabile x4 5 x 10 x11

= ⋯ x18 X x , x , , x x x17 x 1 2 n 16 µ 19 x13 4 x x20 x 12 µ 21 x 3 22 raggruppata in H gruppi secondo l’esempio x15 x14 seguente:

lez 3 _2010-2011 statistica-francesco mola 21 lez 3 _2010-2011 statistica-francesco mola 22

…allora abbiamo… …… µ n + µ n +⋯+ µ n H 1 1 2 2 H H = µ Media ponderata n + n +⋯+ n ∑ hnh delle medie dei 1 2 H = µ = h 1 singoli gruppi H n n n µ 1 + µ 2 +⋯+ µ H ∑ nh 1 2 H h=1 n n n

+ +⋯+ = cioè con n1 n2 nh n

lez 3 _2010-2011 statistica-francesco mola 23 lez 3 _2010-2011 statistica-francesco mola 24 Aggiungiamo come informazione l’anno di corso ai nostri tredici studenti Cosa accade se vogliamo conoscere la media dei voti in funzione dell’anno di iscrizione?

nh Voto in x n Studenti Matematica (X) Voto In Statistica (Y) Anno di corso Per ciascun gruppo ∑ i i per avere la media del gruppo h µ = i=1 Gregory House 28 30 Primo calcoliamo la media h n Lisa Cuddy 30 18 Secondo h Robert Chase 27 21 Secondo Primo AllisonCameron 28 28 H Eric Foreman 26 30 Secondo µ ∑ hn h RemyHadley(13) 28 27 Terzo La formula da utilizzare èµ = h=1 per avere la media generale James Wilson 27 30 Secondo H n Amber Volakis(B.T.) 29 21 Primo ∑ h h=1 Chris Taub 28 22 Secondo Lawrence Kutner 29 26 Secondo Edward Vogler 27 23 Terzo Stacy Warner 29 30 Secondo Numero di gruppi H = 3 Michael Tritter 29 18 Secondo 365 324

lez 3 _2010-2011 statistica-francesco mola 25 lez 3 _2010-2011 statistica-francesco mola 26

Abbiamo quindi per i voti in MATEMATICA : E’ come se avessimo costruito tre distribuzioni in funzione della provenienza

3 Voto in Matematica Frequenze ∑x n i i 28*2+ 29*1 Media del (X) assolute (n) Primo anno µ =i=1 = = 28 2 1 28,333 3 3 primo anno 29 1 3 8 ∑x n i i 26*1+ 27*2 + 28*1 + 29*3 + 30*1 Voto in Matematica Frequenze µ =i=1 = = (X) assolute (n) 2 28,125 Media del 8 8 secondo anno 27 1 Secondo anno 2 28 1 ∑ x n i i 27*1+ 28*1 2 µ =i=1 = = 27,5 Media del 3 2 2 terzo anno Voto in Matematica Frequenze (X) assolute (n) H µ n 26 1 ∑ h h 27 2 = 28,333*3+ 28,125*8 + 27,5*2 µ =h 1 = = 28,08 Media generale 28 1 Terzo anno n 13 29 3 30 1 8

lez 3 _2010-2011 statistica-francesco mola 27 lez 3 _2010-2011 statistica-francesco mola 28 4a Proprietà della media aritmetica Ancora sulla 4 a Proprietà della media aritmetica linearità linearità

Consideriamo una variabile X con media M(X)= µ e Consideriamo una variabile X con media M(X)= µ e consideriamo la seguente combinazione lineare: consideriamo la seguente combinazione lineare: Y = α ± βX Y = α ± X Si può facilmente dimostrare che: Si può facilmente vedere che: M (Y) =α ± βM (X ) = = α ± βµ M (Y ) = α ± M (X ) = = α ± µ

lez 3 _2010-2011 statistica-francesco mola 29 lez 3 _2010-2011 statistica-francesco mola 30

Ancora sulla 4 a Proprietà della media aritmetica Media geometrica linearità

Consideriamo una variabile X con media M(X)= µ e n consideriamo la seguente combinazione lineare: ⋯ = f (x1, x2 , , xn ) ∏ xi ⇒ Y = βX i=1 Si può facilmente vedere che: f (x , x ,⋯, x ) = f (G,G,⋯,G) ⇔ =βM (X ) = = βµ 1 2 n M (Y ) n n n = ⇔ x = G n ⇔ ∏ xi ∏G ∏ i i=1 i=1 i=1

lez 3 _2010-2011 statistica-francesco mola 31 lez 3 _2010-2011 statistica-francesco mola 32 Media geometrica dim. n 1 1 1 n 1   (∏ x ) = G ⇒ = = ()n ⇔ ()= ()n = i G exp( ∑log xi ) G ∏ xi lg G lg  ∏ xi  i=1 n   1 = 1 Consideriamo come criterio lg ∏ xi ∑lg xi ⇒ Il prodotto degli elementi n n 1  E’ geometrica perché è legata ad []= ⇒ exp lg( G) exp  ∑lg xi  una progressione geometrica n    2 3 n−q = 1 (x q)( x q )( x q )...( x q ) G exp  ∑lg xi  C.V.D 1 1 1 1 n  lez 3 _2010-2011 statistica-francesco mola 33 lez 3 _2010-2011 statistica-francesco mola 34

media geometrica (ponderata) per… media geometrica (ponderata) per… distribuzioni di frequenze assolute distribuzioni di frequenze relative

Consideriamo una variabile X nella forma: Consideriamo una variabile X nella forma:

(xi ,ni ) i=1,2,⋯,k (xi , fi ) i=1,2,⋯,k …la media geometrica sarà: …la media geometrica sarà:  1  = ( ) = ( ( ) ) G exp ∑ fi lg xi G exp  ∑lg xi ni  ∑ ni  Ogni x i ha una influenza Ogni x i ha una influenza dettata da f i lez 3 _2010-2011 statistica-francescodettata mola da n i 35 lez 3 _2010-2011 statistica-francesco mola 36 La moda La moda

Per distribuzioni di frequenza assolute Per distribuzioni di frequenza relatve

X ni X fi=n i/n x n x f 1 1 Mo = x : n = max 1 1 Mo = x : f = max x2 n2 i i x2 f2 i i •• ••

xi ni xi fi • • • •

xk nk xk fk n 1

lez 3 _2010-2011 statistica-francesco mola 37 lez 3 _2010-2011 statistica-francesco mola 38

La moda Per distribuzioni in classi Pregi e difetti della moda X ni fi x x n f Si parla in questo 0— 1 1 1 • Pregi • Difetti caso di classe modale x1—x2 n2 f2 – Semplice da – Troppo influenzata da ••• individuare singole osservazioni – Non è monotona xi-1—xi ni fi ••• – Per distribuzioni in classi, va analizzata xk-1—xk nk fk l’ampiezza delle classi = − = e la uniformità della Mo xi−1 xi : ni max distribuzione nelle = − = stesse Mo xi−1 xi : fi max lez 3 _2010-2011 statistica-francesco mola 39 lez 3 _2010-2011 statistica-francesco mola 40 Individuiamo la moda per i nostri studenti Frequenze Frequenze La mediana Voto in Statistica (Y) assolute (n) relative (f) Voto in Frequenze Frequenze Matematica (X) assolute (n) relative (f) 18 2 2/13 È la modalità o la classe della 26 1 1/13 21 2 2/13 variabile statistica che occupa la 1/13 27 3 3/13 22 1 posizione centrale e che ha nel 28 4 4/13 23 1 1/13 29 4 4/13 26 1 1/13 punto mediano la 30 1 1/13 27 1 1/13 funzione di ripartizione empirica 13 1 28 1 1/13 30 4 4/13 pari a 0.5 13 1 1 In matematica abbiamo 2 mode = = 28 e 29 In Statistica abbiamo 1 moda 30 F(Me ) 5.0 Alla luce dei risultati ottenuti riconsiderare le valutazioni su “ pregi e difetti della moda ”!! 2

lez 3 _2010-2011 statistica-francesco mola 41 lez 3 _2010-2011 statistica-francesco mola 42

La mediana per variabili discrete Esempio = ≤ ≤ ≤ ⋯ ≤ X x1 x2 x3 xn 1, 2, 3, 4, 5, 5 +  X ()n 2 X ()n 2 +1 + +  n = pari = x3 x4 = 3 4 = Me = 2 Me 5.3  = 2 2  X  n+1  n dispari     2 

lez 3 _2010-2011 statistica-francesco mola 43 lez 3 _2010-2011 statistica-francesco mola 44 La mediana per variabili discrete Esempio Per distribuzioni di frequenza 1, 2, 3, 4, 5 X fi x f 1 1 = = = = = x f Me X : F(Me ) 5.0 Me x6 x3 3 2 2 •• 2

xi fi • •

xk fk 1 lez 3 _2010-2011 statistica-francesco mola 45 lez 3 _2010-2011 statistica-francesco mola 46

esempio La mediana per variabili continue

X fi Fi x x f F = = 0— 1 1 1 X fi Fi Me X : F(Me ) 0.5 x1—x2 f2 F2 1 0.2 0.2 ••• 3 0.1 0.3 Me = 5 xi-1—xi fi Fi 5 0.4 0.7 ••• 6 0.3 1 xk-1—xk fk 1 1

Viene considerata come mediana il valore della x tale che la F arrivi a 0.5

Spesso si usa considerare come valore mediano la semisomma delle x comprendenti la mediana. Nel nostro casa (3+5)/2=4 lez 3 _2010-2011 statistica-francesco mola 47 lez 3 _2010-2011 statistica-francesco mola 48 F k Proviamo ad interpretare Fk−1 graficamente ⋮ ( − ) ( − )= ( − ) ( − ) Me xi−1 : xi xi−1 5.0 Fi−1 : Fi Fi−1

Fi = FMe 0.5

Fi−1 ⋮ Unica nostra incognita 5.0 − F − F2 i 1 Me ≅ x − + (x − x − ) F i 1 i i 1 1 − Fi Fi−1 ⋯ ⋯ xx121 xMexi− i xx kk − 1

( − ) ( − ) =( − ) ( F− F − ) M e x i − 1 : xi x i − 1 0.5Fi −1 : i i 1

lez 3 _2010-2011 statistica-francesco mola 49 lez 3 _2010-2011 statistica-francesco mola 50

Relativamente ai 13 studenti abbiamo che la mediana in I quantili MATEMATICA è 28 mentre in STATISTICA è 26 Decili: dividono la distribuzione in 10 parti uguali Confrontando i risultati con media e moda notiamo sensibili 1°decile => F(X) =0.1 2°decile => F(X) =0.2 differenze: perché? ……… …. …. …. … 9°decile => F(X)=0.9

La moda andrebbe utilizzata solo per distribuzioni monotone Percentili: dividono la distribuzione in 100 parti uguali

La media è il baricentro di una distribuzione e non il centro Quartili: dividono la distribuzione in 4 parti uguali (come la mediana) risentendo quindi del valore effettivo delle modalità. Nota che il secondo quartile, il quinto decile, il 50 percentile corrispondono alla mediana! Cosa accade se nel calcolo della Mediana non ordiniamo i dati?

lez 3 _2010-2011 statistica-francesco mola 51 lez 3 _2010-2011 statistica-francesco mola 52