Anteprima
Vedrai una selezione di 9 pagine su 39
Analisi dei dati (statistica) Pag. 1 Analisi dei dati (statistica) Pag. 2
Anteprima di 9 pagg. su 39.
Scarica il documento per vederlo tutto.
Analisi dei dati (statistica) Pag. 6
Anteprima di 9 pagg. su 39.
Scarica il documento per vederlo tutto.
Analisi dei dati (statistica) Pag. 11
Anteprima di 9 pagg. su 39.
Scarica il documento per vederlo tutto.
Analisi dei dati (statistica) Pag. 16
Anteprima di 9 pagg. su 39.
Scarica il documento per vederlo tutto.
Analisi dei dati (statistica) Pag. 21
Anteprima di 9 pagg. su 39.
Scarica il documento per vederlo tutto.
Analisi dei dati (statistica) Pag. 26
Anteprima di 9 pagg. su 39.
Scarica il documento per vederlo tutto.
Analisi dei dati (statistica) Pag. 31
Anteprima di 9 pagg. su 39.
Scarica il documento per vederlo tutto.
Analisi dei dati (statistica) Pag. 36
1 su 39
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

Variabili statistiche continue:

Misure di posizione

Possono essere:

medie analitiche (o algebriche): utilizzo tutto il collettivo statistico

➔ - media aritmetica

- media geometrica

medie lasche: utilizzano solo un sottoinsieme del collettivo

➔ - quantili

- moda

- mediana

Media secondo Cauchy:

si dice che una media, data una collezione di valori, sarà sempre compresa tra il massimo e

➔ minimo valore che assume α

Media secondo Chisini: { }

data la successione di dati individuali si dice media della v.s. X rispetto ad una

➔ α α=1,...,

funzione invertibile quella costante M che soddisfa la condizione di invarianza:

φ(1,..., )

Per impiegare la definizione del Chisini al fine di individuare una media, si deve scegliere in primo luogo

la funzione e successivamente individuare la costante M che soddisfa la condizione di invarianza

rispetto alla funzione scelta.

Sono le medie che possono essere individuate, tra quelle di maggior utilizzo:

media aritmetica:

➔ - essa è quella costante che soddisfa la condizione di invarianza per la funzione somma

dei dati individuali

media armonica:

➔ - essa è quella costante che soddisfa la condizione di invarianza per la funzione somma

del reciproco dei dati individuali, posto che questi siano tutti positivi

media quadratica:

➔ - essa è quella costante che soddisfa la condizione di invarianza per la funzione somma

del quadrato dei dati individuali, posto che questi non siano negativi

media geometrica:

➔ - essa è quella costante che soddisfa la condizione di invarianza per la funzione prodotto

dei dati individuali, posto che questi siano tutti positivi

- è definita solo per v.s. a valori positivi

Media di r-esima potenza:

data una v.s. X con modalità osservate > 0 per ogni = 1, . . . , n si dice media di r-esima

➔ α

α

potenza la radice r-esima della media aritmetica delle potenze r-esime dei valori , cioè

α

Se avessimo le frequenze assolute, le medie sopracitate si calcolerebbero:

Se invece abbiamo le frequenze relative:

Esempio

Se avessimo variabili raggruppate in classi, le medie:

vado a sostituire nelle formule sopra il centro di classe al posto della modalità

Proprietà media aritmetica

Altre misure di posizione

minimo (min( ), x1) e massimo (max( ), xk)

α α

- intervallo di escursione o range [ 1, ]

quantili ( )

➔ ( )= α

α

α

- x quartili: media interquartile

- x(0,5) è la mediana se la media è uguale alla mediana abbiamo una distribuzione

simmetrica

moda:

➔ - modalità che si presenta con frequenza massima

- ce ne può essere anche + di una variabili plurimodali

Misure di variabilità

distribuzione normale:

➔ - simmetrica rispetto a punto in cui la frequenza è massima (moda)

ampiezza del range :

➔ [ 1, ]

differenza interquartile:

➔ varianza:

➔ - + sigma quadro è grande + i dati sono tanto distanti dalla media (+ i dati sono vicini alla

media + la varianza sarà prossimi a zero)

deviazione standard o scarto quadratico medio:

Proprietà della varianza

2

1. σ ≥0

2 2

2. () = ( ) − [ () ]

2

3. () = · () 2

- dove , ,

() = σ = + () = + ()

Standardizzazione

trasformazione lineare

➔ data una variabile X, con valore atteso e varianza

➔ µ ()

proprietà: e

➔ () = 0 () = 1

Box-plot (scatola a baffi)

rappresentazione grafica utilizzata per descrivere la distribuzione di un campione tramite

➔ semplici indici di dispersione e di posizione

per la sua costruzione serve:

➔ - mediana

- I quartile (Q1)

- III quartile (Q3)

- differenza interquartile DI

- minimo x1

- massimo xk

se mediana è al centro del rettangolo: distribuzione simmetrica

➔ se mediana spostata a dx/sx: distribuzione asimmetrica a dx/sx

➔ “baffo” non è detto che coincida con max o min (come nel disegno sotto)

Indici di simmetria

1. asimmetria:

- simmetria: α =0

2

- asimmetria a dx: α >0

2

- asimmetria a sx: α <0

2

2. curtosi:

- pone a confronto la curtosi dei dati che ho e la curtosi di una distribuzione normale

(che fa sempre 3)

- ho le stesse code come in una distribuzione normale

γ = 0

- leptocurtica

γ < 0

- platicurtica

γ > 0

Disuguaglianza di Chebyshev

è la frequenza relativa

➔ /(Ω)

Indici di variabilità relativi

range ( )

➔ − 1

differenza interquartile ( )

➔ = −

0,75 0,25

coefficiente di variazione CV

Analisi bivariata - studio congiunto di 2 caratteri

Matrice dei dati:

con riferimento a 2 caratteri 2 insiemi di modalità (M1, M2)

ω ∈ Ω

α

La rilevazione congiunta di due caratteri sulle unità del collettivo statistico darà luogo ad un insieme di

coppie di modalità (insieme dei dati individuali):

1. mutabile statistica bivariata: abbiamo 2 mutabili A e B

2. variabile statistica bivariata: abbiamo 2 variabili X e Y

3. variabile statistica mista: abbiamo una mutabile A e una variabile Y

Tabella di contingenza (frequenze)

Frequenza assoluta/relativa congiunta

Distribuzioni/frequenze marginali

disponendo della distribuzione di frequenze congiunte di una variabile statistica mista (A, Y ) è

➔ possibile ricavare la distribuzione di frequenze della mutabile statistica univariata A e quella

della variabile statistica univariata Y (distribuzioni marginali)

ad es. possiamo ricavare le frequenze assolute ni associate alle modalità ai della componente

➔ A di una variabile statistica mista (A, Y ) dalla sua distribuzione di frequenze congiunte

sommando rispetto all’indice j le frequenze nij (frequenze marginali):

Riassumendo, la tabella della distribuzione delle frequenze congiunte sarà:

dove:

Mentre le distribuzioni delle frequenze univariate di A (o Y) sono date da:

Variabile statistica condizionata

le v.s. Y |ai individuabili dalla distribuzione di frequenze congiunte di una variabile statistica

➔ mista (A, Y ) sono tante quante sono le modalit`a distinte della componente A

la distribuzione di frequenze assolute della v.s. condizionata Y |ai è ricavabile dalla forma

➔ tabellare della distribuzione di frequenze congiunte della v.s. mista (A, Y ) leggendo

congiuntamente la prima riga a margine e la i-esima riga, e cioè qualunque sia i = 1, . . . , r si ha:

la distribuzione di frequenze relative condizionate invece dividendo ciascuna frequenza

➔ assoluta per la numerosità ni· dello strato (frequenza marginale)

Media/valore atteso e varianza condizionata

Con riferimento, dunque, alla distribuzione di frequenze congiunte di una variabile mista (A, Y ):

consideriamo la componente variabile Y e osserviamo che la sua media aritmetica e la sua

➔ varianza possono essere calcolate a partire sia dalla distribuzione di frequenze congiunte che

dalla distribuzione marginale della v.s. Y cioè:

inoltre ciascuna delle r variabili statistiche condizionate Y|ai è dotata di un proprio valore

➔ medio (detto in breve media condizionata) e di una propria varianza (detta varianza

condizionata), per cui, qualunque sia i = 1, . . . , r, si ha:

ovviamente per media e varianza valgono tutte le proprietà dimostrate nel caso univariato in

➔ particolare per il calcolo della varianza di Y utilizzeremo anche in questo caso la proprietà:

che per la varianza condizionata sarà:

Esercizio riassuntivo:

Covarianza

si dice covarianza di una v.s. bivariata (X, Y ) la media aritmetica del prodotto fra gli scarti delle

➔ xα dalla media di X e gli scarti delle yα dalla media di Y . Essa corrisponde pertanto al valore

numerico risultante dall’operazione:

essa può essere calcolata anche in altri modi:

➔ può avere anche valori negativi (a differenza della varianza che ha solo valori positivi), in

➔ particolare:

(, ) > 0 → ,

(, ) < 0 → , ( )

(, ) = 0 →

dimostrazione proprietà covarianza:

➔ la covarianza ammette sempre la maggiorazione:

Correlazione lineare

chiamiamo coefficiente di correlazione lineare (in simboli il rapporto:

➔ ρ),

esso, per costruzione, assume valori compresi tra e +1

−1

Esercizio riassuntivo:

Combinazioni lineari di variabili statistiche

Data una v.s. bivariata (X, Y ) si definisce combinazione lineare delle sue componenti la v.s. univariata:

la media sarà data da:

➔ la varianza sarà data da:

Indipendenza statistica

Data una variabile statistica mista (A, Y ) può essere interessante chiedersi se, ad esempio, i valori

assunti da Y sul collettivo statistico sono in qualche modo influenzati dalle modalità assunte dalla

mutabile statistica A

Indipendenza di Y rispetto a A:

data una variabile statistica mista (A, Y ), diremo che la v.s Y è indipendente dalla m.s. A se e

➔ solo se risultano essere identiche tra loro le r distribuzioni di frequenze delle v.s. condizionate

Y | ai

da ciò segue che la v.s. Y è indipendente da A se e solo se le r distribuzioni di frequenze di Y

➔ condizionata a ciascuna modalità di A, e precisamente:

risultano uguali tra loro. Nel caso di indipendenza sarà, qualunque sia i = 1, . . . , r:

Proprietà indipendenza statistica:

Se la v.s. Y è indipendente dalla m.s. A, allora:

queste chiamate frequenze teoriche (di solito c’è un “cappellino” sopra la n)

➔ n è numerosità collettivo

➔ se c’è indipendenza le frequenze teoriche coincidono con le frequenze congiunte

Esercizio:

Misura della discrepanza tra le frequenze osservate e le frequenze teoriche: contingenza

per le quali si ha:

in caso di indipendenza le frequenze osservate nij coincidono con le frequenze teoriche ,

per cui segue che l’indipendenza tra le componenti la variabile statistica

Dettagli
Publisher
A.A. 2021-2022
39 pagine
1 download
SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher Saratorza54 di informazioni apprese con la frequenza delle lezioni di Analisi dei dati e probabilità e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli studi di Torino o del prof Nava Consuelo Rubina.