Anteprima
Vedrai una selezione di 10 pagine su 41
Analisi dei dati - Prima parte Pag. 1 Analisi dei dati - Prima parte Pag. 2
Anteprima di 10 pagg. su 41.
Scarica il documento per vederlo tutto.
Analisi dei dati - Prima parte Pag. 6
Anteprima di 10 pagg. su 41.
Scarica il documento per vederlo tutto.
Analisi dei dati - Prima parte Pag. 11
Anteprima di 10 pagg. su 41.
Scarica il documento per vederlo tutto.
Analisi dei dati - Prima parte Pag. 16
Anteprima di 10 pagg. su 41.
Scarica il documento per vederlo tutto.
Analisi dei dati - Prima parte Pag. 21
Anteprima di 10 pagg. su 41.
Scarica il documento per vederlo tutto.
Analisi dei dati - Prima parte Pag. 26
Anteprima di 10 pagg. su 41.
Scarica il documento per vederlo tutto.
Analisi dei dati - Prima parte Pag. 31
Anteprima di 10 pagg. su 41.
Scarica il documento per vederlo tutto.
Analisi dei dati - Prima parte Pag. 36
Anteprima di 10 pagg. su 41.
Scarica il documento per vederlo tutto.
Analisi dei dati - Prima parte Pag. 41
1 su 41
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

Proprietà: corretto, efficiente, consistente

Analisi dei Dati - a.a.2004/2005 203 9

Analisi dei dati Stimatore puntuale

Varianza Campionaria Corretta

Ampiezza della popolazione N

Ampiezza del campione n (n<N)

Parametro incognito: varianza del carattere nella popolazione

Stimatore puntuale del parametro Æ

Varianza campionaria corretta

( ) ( ) ( )2 2 2− + − + + −x x x x ... x x=2 n1 2S ( X ) n - 1

Proprietà: corretto, efficiente, consistente

Analisi dei Dati - a.a.2004/2005 204

Stima per intervalli

Intervallo di confidenza: intervallo di valore entro cui “cade” il valore incognito del parametro del carattere nella popolazione. Si associa a tale affermazione la probabilità con cui essa si realizza

Procedura

Si individua uno stimatore per il parametro

Si individua un intervallo di valori per lo stimatore

in base al livello di confidenza (probabilità fissata a priori)

Il valore incognito del parametro del carattere

nella popolazione è incluso, con una certa probabilità (livello di confidenza), nell'intervallo individuato Analisi dei Dati - a.a.2004/2005 205 10 Analisi dei dati Verifica d'ipotesi o Test d'ipotesi Formulata un'ipotesi a priori sul possibile valore del parametro incognito del carattere nella popolazione, si afferma, con una certa probabilità (livello di significatività del test), se, sulla base dei dati campionari, è possibile ritenere vera o meno quell'ipotesi Procedura Si formula un'ipotesi di base (ipotesi nulla) ¾ Si individua uno stimatore per il parametro ¾ Si calcola il valore dello stimatore sul campione ¾ Si confronta tale valore con l'ipotesi di base: tale ¾ confronto conduce all'accettazione o al rifiuto dell'ipotesi di base secondo il livello di significatività fissato a priori Analisi dei Dati - a.a.2004/2005 206 Errori H ipotesi nulla cioè l'ipotesi da

verificare0H ipotesi alternativa1

Si possono commettere 2 tipi di errore

Errore di prima specie: si rifiuta l'ipotesi nulla quando essa è vera

Errore di seconda specie: si accetta l'ipotesi nulla quando essa è falsa

Livello di significatività del test: è un numero compreso tra 0 e 1 (o tra 0 e 100 se espresso in percentuale) e corrisponde alla probabilità di commettere un errore di prima specie

Analisi dei Dati - a.a.2004/2005 207 11

Analisi dei dati Distribuzione Normale

La Variabile Aleatoria segue una distribuzione X sono normale se assume numeri reali (modalità x j numeri reali continui) e la funzione di densità di probabilità è

f(x) = (1 / (√(2π)σ)) * e^((-(x-μ)^2) / (2σ^2))

Distribuzione normale con μ=10 e σ=10

Dipende dai 2 parametri: media μ e varianza σ^2

Analisi dei Dati - a.a.2004/2005 208

Distribuzione

NormaleStandardizzataVariabile Standardizzata si ottiene sottraendo aXciascuna modalità di la sua media aritmetica eXdividendo il risultato per lo scarto quadratico medioµ−X σ Distribuzione normalestandardizzata con µ=0 eσ = 12La variabile Xstandardizzata ha sempremedia aritmetica µ=0¾ varianza =1σ¾ 2 Analisi dei Dati - a.a.2004/2005 209 12Analisi dei dati La notazioneAmpiezza del collettivo : nCarattere 1 osservato : X,…, ,…, K modalità assunte dal car.¾x x x X1 j Kmodalità generica, ultima modalità‘ xx j KSe mutabile ordinale o variabile :‘ X <…< <…<x x x1 j KCarattere 2 osservato : Y,…, ,…, H modalità assunte dal car.¾y y y Y1 i Hmodalità generica, ultima modalità‘ yyi HSe mutabile ordinale o variabile :‘ Y <…< <…<y y y1 i HAnalisi dei Dati - a.a.2004/2005 130La formalizzazioneX

Tot.x xx x … …j1 2 Ky 1y 2:Y y i:y HTot. n

Analisi dei Dati - a.a.2004/2005 131

1Analisi dei dati …continua

Frequenze assolute

frequenza assoluta associata alla coppia di¾n 11 (y , ) dei caratteri emodalita x Y X1 1rispettivamentefrequenza assoluta associata alla coppia di¾n ij (y , )modalita dei caratteri ex Y Xi jrispettivamente

Analisi dei Dati - a.a.2004/2005 132

…la formalizzazione

X Tot.x xx x … …j1 2 Kn n n ny … …1 11 12 1j 1Kn n n n… …y 21 22 2j 2K2: : : … : … :Y n nn n … …y i 1 i 2 ij i Ki: : : … : … :n n n ny … …H H1 H2 Hj HKTot. n

Frequenze assoluta della coppia di)modalità (y , xi j

Analisi dei Dati - a.a.2004/2005 133

2Analisi dei dati …continua

Proprietà delle frequenze assolute

i-esima :¾Riga + n +…+ n +…+ n = n .n i1 i2 ij iK ij-esima :¾Colonna + n +…+ n +…+ n = n.n 1j 2j ij Hj

jinterne¾Celle‘ n + n + …+ n + …+ n + …+ n +…+ n +11 22 1K i1 ij iK+ … + n + …+ n = n…+ n H1 Hj HKAnalisi dei Dati - a.a.2004/2005 134Riga i Colonna jX Tot.x xx x … …j1 2 Kn n n ny n .… …1 111 12 1j 1Kn n n n… … ny .21 22 2j 2K2 2: :: : … : … :Y n n n n… … ny .i 1 i 2 ij i Ki i: :: : … : … :n n n n ny .… …H HH1 H2 Hj HKTot. n nn n n… . … .. . j1 2 KTot. SommaTot. Somma nFrequenzenFrequenze i..j Analisi dei Dati - a.a.2004/2005 135 3Analisi dei dati …continuaFrequenze assolute frequenze Assolute¾n. , n. , …, n. , …, n.1 2 j Kassociate alle K modalità del carattere X→considerate singolarmente Distribuzionemarginale di X . frequenze Assolute¾n . , n . , …, n . , …, n1 2 i Hassociate alle H modalità del carattere Y→considerate singolarmente

Distribuzionemarginale di Y Proprietà delle frequenze assolute dei totali ¾Riga + n. + …+ n. + …+ n = nn 1 2 j K dei totali¾Colonna . + n . + …+ n . + …+ n = nn 1 2 i H Analisi dei Dati - a.a.2004/2005 136…la formalizzazione X Tot.x xx x … … j1 2 Kn n n ny n … … 1 111 12 1j 1Kn n n n… … ny .21 22 2j 2K2 2: :: : … : … : Y Frequenzen n n n… … ny .i 1 i 2 ij i Ki i assolute del: :: : … : … : carattere Y Distribuzionen n n n ny … … marginale diH HH1 H2 Hj HK YTot. n nn n n… . … .. . j1 2 KFrequenze assolute del carattere XDistribuzione marginale di XAnalisi dei Dati - a.a.2004/2005 137 4Analisi dei dati Tabella a doppia entrata Una distribuzione doppia di frequenze è una tabella a doppia entrata Può essere di 2 tipi di contingenza¾Tabella e entrambe qualitativi‘ X Y Qualitativo e Quantitativo (o‘ X Yviceversa)di

correlazione¾Tabellae entrambe quantitativi‘ X Y Analisi dei Dati - a.a.2004/2005 138Rappresentazioni grafiche didistribuzioni doppieDistribuzione doppia difrequenze Stereogrammadi contingenza¾Tabella di correlazione¾TabellaDistribuzione unitaria Scatterdoppia di 2 caratteri Plotquantitativi Analisi dei Dati - a.a.2004/2005 139 1Analisi dei dati Stereogramma della distribuzione doppia di frequenzedegli studenti per CDL e Num. Corsi FrequentatiNumero Corsi FrequentatiCDL 1 2 3 4 5 6 7 Totale12 19 50 47 20 3 1 152STC 2 23 49 32 12 5 1 124SCPO 1 1 4 1 0 0 0 7SCOSV 15 43 103 80 32 8 2Totale 283Studenti per CDL e Num. Corsi Freq. Stereogramma504030Frequenzaassoluta 20100 1 2 3 4 5 6 7SCOSV SCPO STCAnalisi dei Dati - a.a.2004/2005 140EsempioDistribuzione degli studenti di Scienze dellaComunicazione frequentanti la facoltànell’a.a. 2001/2002 per Corso di Laurea eNumero di Corsi FrequentatiNumero Corsi FrequentatiCDL 1 2 3 4 5 6 7 Totale12 19 50 47 20 3 1

Formattazione del testo

152STC 2 23 49 32 12 5 1 124SCPO n1 1 4 1 0 0 0 7SCOSV 2.15 43 103 80 32 8 2Totale 283n n n24 .6Analisi dei Dati - a.a.2004/2005 141 2Analisi dei dati Osservazione Distribuzione marginaledel Num. Corsi Freq.Distribuzionemarginale del CDL Num. Corsi Freq. nj1 15CDL n 2 43jSTC 152 3 103SCPO 124 4 80SCOSV 7 5 32Totale 283 6 87 2Totale 283Numero Corsi FrequentatiCDL 1 2 3 4 5 6 7 Totale12 19 50 47 20 3 1 152STC 2 23 49 32 12 5 1 124SCPO 1 1 4 1 0 0 0 7SCOSV 15 43 103 80 32 8 2Totale 283Analisi dei Dati - a.a.2004/2005 142Riga i Colonna jX Tot.x xx x … …j1 2 Kn n n ny n .… …1 111 12 1j 1Kn n n n… … ny .21 22 2j 2K2 2: :: : … : … :Y n n n n… … ny .i 1 i 2 ij i Ki i: :: : … : … :n n n n ny .… …H HH1 H2 Hj HKTot. n nn n n… . … .. . j1 2 KDistribuzione condizionataDistribuzione condizionata Xdel carattere alla modalitàYdel carattere alla modali

Dettagli
Publisher
A.A. 2011-2012
41 pagine
SSD Scienze economiche e statistiche SECS-S/05 Statistica sociale

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher flaviael di informazioni apprese con la frequenza delle lezioni di Analisi dei dati e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Roma La Sapienza o del prof Baragona Roberto.