Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
Variabili statistiche continue:
Misure di posizione
Possono essere:
medie analitiche (o algebriche): utilizzo tutto il collettivo statistico
➔ - media aritmetica
- media geometrica
medie lasche: utilizzano solo un sottoinsieme del collettivo
➔ - quantili
- moda
- mediana
Media secondo Cauchy:
si dice che una media, data una collezione di valori, sarà sempre compresa tra il massimo e
➔ minimo valore che assume α
Media secondo Chisini: { }
data la successione di dati individuali si dice media della v.s. X rispetto ad una
➔ α α=1,...,
funzione invertibile quella costante M che soddisfa la condizione di invarianza:
φ(1,..., )
Per impiegare la definizione del Chisini al fine di individuare una media, si deve scegliere in primo luogo
la funzione e successivamente individuare la costante M che soddisfa la condizione di invarianza
rispetto alla funzione scelta.
Sono le medie che possono essere individuate, tra quelle di maggior utilizzo:
media aritmetica:
➔ - essa è quella costante che soddisfa la condizione di invarianza per la funzione somma
dei dati individuali
media armonica:
➔ - essa è quella costante che soddisfa la condizione di invarianza per la funzione somma
del reciproco dei dati individuali, posto che questi siano tutti positivi
media quadratica:
➔ - essa è quella costante che soddisfa la condizione di invarianza per la funzione somma
del quadrato dei dati individuali, posto che questi non siano negativi
media geometrica:
➔ - essa è quella costante che soddisfa la condizione di invarianza per la funzione prodotto
dei dati individuali, posto che questi siano tutti positivi
- è definita solo per v.s. a valori positivi
Media di r-esima potenza:
data una v.s. X con modalità osservate > 0 per ogni = 1, . . . , n si dice media di r-esima
➔ α
α
potenza la radice r-esima della media aritmetica delle potenze r-esime dei valori , cioè
α
Se avessimo le frequenze assolute, le medie sopracitate si calcolerebbero:
Se invece abbiamo le frequenze relative:
Esempio
Se avessimo variabili raggruppate in classi, le medie:
vado a sostituire nelle formule sopra il centro di classe al posto della modalità
➔
Proprietà media aritmetica
Altre misure di posizione
minimo (min( ), x1) e massimo (max( ), xk)
➔
α α
- intervallo di escursione o range [ 1, ]
quantili ( )
➔ ( )= α
→
α
α
- x quartili: media interquartile
- x(0,5) è la mediana se la media è uguale alla mediana abbiamo una distribuzione
→
simmetrica
moda:
➔ - modalità che si presenta con frequenza massima
- ce ne può essere anche + di una variabili plurimodali
→
Misure di variabilità
distribuzione normale:
➔ - simmetrica rispetto a punto in cui la frequenza è massima (moda)
ampiezza del range :
➔ [ 1, ]
differenza interquartile:
➔ varianza:
➔ - + sigma quadro è grande + i dati sono tanto distanti dalla media (+ i dati sono vicini alla
media + la varianza sarà prossimi a zero)
deviazione standard o scarto quadratico medio:
➔
Proprietà della varianza
2
1. σ ≥0
2 2
2. () = ( ) − [ () ]
2
3. () = · () 2
- dove , ,
() = σ = + () = + ()
Standardizzazione
trasformazione lineare
➔ data una variabile X, con valore atteso e varianza
➔ µ ()
proprietà: e
➔ () = 0 () = 1
Box-plot (scatola a baffi)
rappresentazione grafica utilizzata per descrivere la distribuzione di un campione tramite
➔ semplici indici di dispersione e di posizione
per la sua costruzione serve:
➔ - mediana
- I quartile (Q1)
- III quartile (Q3)
- differenza interquartile DI
- minimo x1
- massimo xk
se mediana è al centro del rettangolo: distribuzione simmetrica
➔ se mediana spostata a dx/sx: distribuzione asimmetrica a dx/sx
➔ “baffo” non è detto che coincida con max o min (come nel disegno sotto)
➔
Indici di simmetria
1. asimmetria:
- simmetria: α =0
2
- asimmetria a dx: α >0
2
- asimmetria a sx: α <0
2
2. curtosi:
- pone a confronto la curtosi dei dati che ho e la curtosi di una distribuzione normale
(che fa sempre 3)
- ho le stesse code come in una distribuzione normale
γ = 0
- leptocurtica
γ < 0
- platicurtica
γ > 0
Disuguaglianza di Chebyshev
è la frequenza relativa
➔ /(Ω)
Indici di variabilità relativi
range ( )
➔ − 1
differenza interquartile ( )
➔ = −
0,75 0,25
coefficiente di variazione CV
➔
Analisi bivariata - studio congiunto di 2 caratteri
Matrice dei dati:
con riferimento a 2 caratteri 2 insiemi di modalità (M1, M2)
→
ω ∈ Ω
α
La rilevazione congiunta di due caratteri sulle unità del collettivo statistico darà luogo ad un insieme di
coppie di modalità (insieme dei dati individuali):
1. mutabile statistica bivariata: abbiamo 2 mutabili A e B
2. variabile statistica bivariata: abbiamo 2 variabili X e Y
3. variabile statistica mista: abbiamo una mutabile A e una variabile Y
Tabella di contingenza (frequenze)
Frequenza assoluta/relativa congiunta
Distribuzioni/frequenze marginali
disponendo della distribuzione di frequenze congiunte di una variabile statistica mista (A, Y ) è
➔ possibile ricavare la distribuzione di frequenze della mutabile statistica univariata A e quella
della variabile statistica univariata Y (distribuzioni marginali)
ad es. possiamo ricavare le frequenze assolute ni associate alle modalità ai della componente
➔ A di una variabile statistica mista (A, Y ) dalla sua distribuzione di frequenze congiunte
sommando rispetto all’indice j le frequenze nij (frequenze marginali):
Riassumendo, la tabella della distribuzione delle frequenze congiunte sarà:
dove:
Mentre le distribuzioni delle frequenze univariate di A (o Y) sono date da:
Variabile statistica condizionata
le v.s. Y |ai individuabili dalla distribuzione di frequenze congiunte di una variabile statistica
➔ mista (A, Y ) sono tante quante sono le modalit`a distinte della componente A
la distribuzione di frequenze assolute della v.s. condizionata Y |ai è ricavabile dalla forma
➔ tabellare della distribuzione di frequenze congiunte della v.s. mista (A, Y ) leggendo
congiuntamente la prima riga a margine e la i-esima riga, e cioè qualunque sia i = 1, . . . , r si ha:
la distribuzione di frequenze relative condizionate invece dividendo ciascuna frequenza
➔ assoluta per la numerosità ni· dello strato (frequenza marginale)
Media/valore atteso e varianza condizionata
Con riferimento, dunque, alla distribuzione di frequenze congiunte di una variabile mista (A, Y ):
consideriamo la componente variabile Y e osserviamo che la sua media aritmetica e la sua
➔ varianza possono essere calcolate a partire sia dalla distribuzione di frequenze congiunte che
dalla distribuzione marginale della v.s. Y cioè:
inoltre ciascuna delle r variabili statistiche condizionate Y|ai è dotata di un proprio valore
➔ medio (detto in breve media condizionata) e di una propria varianza (detta varianza
condizionata), per cui, qualunque sia i = 1, . . . , r, si ha:
ovviamente per media e varianza valgono tutte le proprietà dimostrate nel caso univariato in
➔ particolare per il calcolo della varianza di Y utilizzeremo anche in questo caso la proprietà:
che per la varianza condizionata sarà:
➔
Esercizio riassuntivo:
Covarianza
si dice covarianza di una v.s. bivariata (X, Y ) la media aritmetica del prodotto fra gli scarti delle
➔ xα dalla media di X e gli scarti delle yα dalla media di Y . Essa corrisponde pertanto al valore
numerico risultante dall’operazione:
essa può essere calcolata anche in altri modi:
➔ può avere anche valori negativi (a differenza della varianza che ha solo valori positivi), in
➔ particolare:
(, ) > 0 → ,
(, ) < 0 → , ( )
(, ) = 0 →
dimostrazione proprietà covarianza:
➔ la covarianza ammette sempre la maggiorazione:
➔
Correlazione lineare
chiamiamo coefficiente di correlazione lineare (in simboli il rapporto:
➔ ρ),
esso, per costruzione, assume valori compresi tra e +1
−1
➔
Esercizio riassuntivo:
Combinazioni lineari di variabili statistiche
Data una v.s. bivariata (X, Y ) si definisce combinazione lineare delle sue componenti la v.s. univariata:
la media sarà data da:
➔ la varianza sarà data da:
➔
Indipendenza statistica
Data una variabile statistica mista (A, Y ) può essere interessante chiedersi se, ad esempio, i valori
assunti da Y sul collettivo statistico sono in qualche modo influenzati dalle modalità assunte dalla
mutabile statistica A
Indipendenza di Y rispetto a A:
data una variabile statistica mista (A, Y ), diremo che la v.s Y è indipendente dalla m.s. A se e
➔ solo se risultano essere identiche tra loro le r distribuzioni di frequenze delle v.s. condizionate
Y | ai
da ciò segue che la v.s. Y è indipendente da A se e solo se le r distribuzioni di frequenze di Y
➔ condizionata a ciascuna modalità di A, e precisamente:
risultano uguali tra loro. Nel caso di indipendenza sarà, qualunque sia i = 1, . . . , r:
Proprietà indipendenza statistica:
Se la v.s. Y è indipendente dalla m.s. A, allora:
queste chiamate frequenze teoriche (di solito c’è un “cappellino” sopra la n)
➔ n è numerosità collettivo
➔ se c’è indipendenza le frequenze teoriche coincidono con le frequenze congiunte
➔
Esercizio:
Misura della discrepanza tra le frequenze osservate e le frequenze teoriche: contingenza
per le quali si ha:
in caso di indipendenza le frequenze osservate nij coincidono con le frequenze teoriche ,
➔
per cui segue che l’indipendenza tra le componenti la variabile statistica