Anteprima
Vedrai una selezione di 12 pagine su 53
Foundations of Probability and Statistics - Appunti completi Pag. 1 Foundations of Probability and Statistics - Appunti completi Pag. 2
Anteprima di 12 pagg. su 53.
Scarica il documento per vederlo tutto.
Foundations of Probability and Statistics - Appunti completi Pag. 6
Anteprima di 12 pagg. su 53.
Scarica il documento per vederlo tutto.
Foundations of Probability and Statistics - Appunti completi Pag. 11
Anteprima di 12 pagg. su 53.
Scarica il documento per vederlo tutto.
Foundations of Probability and Statistics - Appunti completi Pag. 16
Anteprima di 12 pagg. su 53.
Scarica il documento per vederlo tutto.
Foundations of Probability and Statistics - Appunti completi Pag. 21
Anteprima di 12 pagg. su 53.
Scarica il documento per vederlo tutto.
Foundations of Probability and Statistics - Appunti completi Pag. 26
Anteprima di 12 pagg. su 53.
Scarica il documento per vederlo tutto.
Foundations of Probability and Statistics - Appunti completi Pag. 31
Anteprima di 12 pagg. su 53.
Scarica il documento per vederlo tutto.
Foundations of Probability and Statistics - Appunti completi Pag. 36
Anteprima di 12 pagg. su 53.
Scarica il documento per vederlo tutto.
Foundations of Probability and Statistics - Appunti completi Pag. 41
Anteprima di 12 pagg. su 53.
Scarica il documento per vederlo tutto.
Foundations of Probability and Statistics - Appunti completi Pag. 46
Anteprima di 12 pagg. su 53.
Scarica il documento per vederlo tutto.
Foundations of Probability and Statistics - Appunti completi Pag. 51
1 su 53
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

Boxplot: riassunto di centro e variabilità

Il boxplot è un display grafico chiamato PLOT che riassume centro e variabilità. La casella contiene il 50% centrale della distribuzione, dal quartile inferiore al quartile superiore, la mediana è contrassegnata da una linea tracciata all'interno del riquadro. Le linee che si estendono dalla scatola sono chiamate baffi, che si estendono al massimo e al minimo, ad eccezione dei valori anomali, che sono contrassegnati separatamente. Il baffo superiore e la metà superiore della scatola centrale sono un po' più lunghi di quelli inferiori, ciò indica che la coda destra della distribuzione che corrisponde ai valori relativamente grandi è più lunga della coda sinistra. La trama riflette l'asimmetria a destra.

I boxplot identificano i valori anomali (outliers) separatamente. Per spiegare questo, presentiamo ora una definizione formale di un valore anomalo:

Valore anomalo: un'osservazione è un valore anomalo se si discosta significativamente dagli altri valori della distribuzione.

è maggiore di 1,5*IQR + Q3 oppure se è più piccolo di Q1-1,5*IQR (tolgo al quartile inferiore 1 volta e mezza la di erenza interquartile o aggiungo al quartile superiore 1 volta e mezza la di erenza interquartile). Nei box plot, i ba si estendono alle osservazioni più piccole e più grandi solo se quei valori non sono valori anomali cioè, se non sono più di 1,5 (IQR) oltre i quartili. Altrimenti, i ba si estendono alle osservazioni più estreme entro 1,5 (IQR) e i valori anomali sono contrassegnati separatamente. Un valore è definito estremo se eccede di +/- 3 (IQR). Spesso ha senso ripetere un'analisi statistica senza valori anomali, per assicurarsi che le conclusioni non siano eccessivamente sensibili a una singola osservazione. Se gli outliers sono un collettivo li studiamo separatamente. Un altro modo per misurare la posizione è tramite il numero di deviazioni.

Lo z-score è una misura statistica che indica di quanto un valore è distante dalla media. Per ogni valore si calcola il suo z-score, che rappresenta di quante deviazioni standard il valore è distante dalla media. La media degli z-score è sempre 0 e la varianza è sempre 1, poiché tutti i valori sono stati divisi per la deviazione standard.

Per ogni singolo soggetto, il valore dello z-score sarà minore di zero se l'osservazione è inferiore alla media, maggiore di zero se l'osservazione è superiore alla media.

Lo z-score può essere utilizzato come criterio per individuare gli outlier. Un'osservazione è considerata un outlier se il suo z-score è maggiore di 3 in valore assoluto.

Lo z-score non è una sintesi, ma rappresenta una posizione relativa dell'osservazione rispetto alla media.

Tutte le tecniche di statistica descrittiva bivariata si occupano dell'analisi congiunta di due variabili al fine di stabilire se esiste una relazione tra di esse.

le due variabili. Un'analisi tra due variabili è chiamata analisi bivariata perché ci sono due variabili, l'obiettivo principale è studiare l'associazione tra le variabili. L'associazione esiste se determinati valori di una variabile tendono ad andare con determinati valori dell'altra. Se siamo interessati a due variabili categoriali, ad esempio Classe e stato di disoccupazione o genere e uso di droghe, possiamo utilizzare una tavola di contingenza. Questa viene utilizzata soprattutto per variabili nominali/ordinali, ma non solo. La tavola di contingenza è la sintesi tabellare nel caso bivariato. Organizziamo una variabile in colonna ed una in riga. La distribuzione di frequenza bivariata è la sintesi tabellare di due variabili rilevate congiuntamente. Consiste in una tabella in cui in riga sono riportate le diverse modalità o valori con cui si manifesta un fenomeno, mentre in colonna sono riportate quelle dell'altro fenomeno. Nel caso di variabili quantitative, potremmo avere delle classi così come...

Analisi univariata

Data la variabile X che si manifesta con i = 1, 2,..., r modalità e la variabile Y che si manifesta con j = 1, 2,..., c modalità in una popolazione di N unità statistiche, si costruisce la seguente distribuzione di frequenza:

In rosso sono evidenziate le frequenze congiunte, in blu le frequenze marginali di X o di riga, in verde le frequenze marginali di Y o di colonna.

Le frequenze congiunte ci forniscono le frequenze associate ad ogni coppia di modalità, rappresentano il numero di osservazioni associate alla coppia di modalità. Ognuna ha due indici apedice, il primo associato alla modalità di riga e il secondo alla modalità di colonna.

Le frequenze marginali forniscono la distribuzione univariata di ciascun fenomeno; operando su queste frequenze è possibile proseguire nell'analisi con tutte le tecniche di analisi univariata.

Le frequenze marginali di riga si ottengono sommando le frequenze congiunte che

stanno sullastessa riga, mentre le frequenze marginali di colonna si ottengono sommando le frequenzecongiunte che stanno sulla stessa colonna. 10fi ffLe informazioni circa il comportamento di un fenomenocondizionatamente all'altro si ottengono considerando le righe ole colonne della tabella a doppia entrata separatamente,mediante la costruzione delle frequenzecondizionate.Se c'è indipendenza statistica le condizionate di riga sono uguali tra diloro, così come le condizionate colonnaSe sono diverse diremo che c'è connessione, se sono uguali c'èindipendenza.Posso calcolare anche le frequenze percentuali congiunte, se divido ilsingolo valore di casella per il totale.Se anziché dividere per il totale delle osservazioni divido per il totale diriga o di colonna calcolo la percentuale di una modalitàcondizionatamente all'altro attributo osservato. Nell'esempio calcolo lecondizionate rispetto alle colonne: tra le

donne il 62,8% è democratico e il 37,2% è repubblicano. Concludo che al cambiare del genere cambia la distribuzione del partito politico, i due fenomeni non sono indipendenti. Il primo passo nell'analisi statistica bivariata consiste nello stabilire se esiste una qualche relazione tra i due fenomeni considerati. Se non esiste alcuna relazione si dirà che X ed Y sono statisticamente indipendenti. Il metodo per stabilire se sono statisticamente indipendenti consiste nel confrontare le frequenze condizionate. Se al variare delle modalità del fenomeno condizionante le distribuzioni condizionate non variano, allora i due fenomeni sono statisticamente indipendenti. Se due fenomeni non sono statisticamente indipendenti allora esiste una relazione e si dirà che i fenomeni sono connessi. Dopo aver stabilito che una relazione esiste, il passo successivo dell'analisi bivariata consiste nello stabilire se tale relazione è forte o debole, ovveronecessario misurare il grado di connessione. Il metodo più utilizzato consiste nel considerare la differenza fra le frequenze congiunte osservate e le frequenze teoriche, ovvero le frequenze che si avrebbero in condizione di indipendenza statistica. Contingenze: Se queste differenze, dette contingenze, sono tutte vicine a zero si conclude che la connessione è bassa, mentre all'aumentare del valore di tali differenze si ha connessione sempre più alta, ovvero un legame più forte. A segni positivi delle contingenze corrisponde attrazione tra le modalità corrispondenti, mentre a segni negativi corrisponde repulsione tra le modalità corrispondenti. L'indice utilizzato per misurare la connessione è il Chi quadro di Pearson: Assume valori maggiori o uguali a zero, è zero se ho indipendenza perché si annulla il numeratore. È a disposizione una formula alternativa che non richiede il calcolo delle frequenze teoriche e che è.quindi più conveniente quando si devono fare i conti a mano: 11ff ff ffIl valore assoluto dell’indice di Pearson non è interpretabile, per questo è necessario ricorrere allasua normalizzazione:L’indice normalizzato varia da zero assenza di connessione, ovvero indipendenza statistica ad 1,massima connessione ovvero ad ogni modalità di X corrisponde una ed una sola modalità di Y(questo è certo per le tabelle quadrate ovvero quando c = r, oppure è vero osservando ladimensione minore tra le due) Lezione 5Gli indici di connessione valutano l’intensità del legame in modo generico andando cioè a valutarel’entità dell’allontanamento dalla situazione di indipendenza. Tuttavia spesso l’interesse verte nonsolo su quanto risultano connessi ma anche su come si con gura tale legameOccorrono quindi altri strumenti per l’analisi delle caratteristiche della relazione tra i due caratteri.Se

almeno uno dei due fenomeni è quantitativo, ad esempio Y. Ci si può chiedere se Y dipende in media da X, ovvero se al cambiare delle modalità di X cambiano le medie di Y. Si dice che Y dipende in media da X se la relazione di connessione tra le due variabili si riflette sulle medie condizionate di Y, che risultano diverse tra loro al variare di X. C'è indipendenza in media se tutte le medie condizionate sono tra loro uguali e quindi uguali all' media marginale. Se entrambi i fenomeni sono quantitativi, è necessario considerare anche la dipendenza in media di X da Y: si dice, allora, che X dipende in media da Y se la relazione di connessione tra le due variabili si riflette sulle medie condizionate di X, che risultano diverse tra loro al variare di Y. L'indipendenza in media di Y da X non implica l'indipendenza in media di X da Y. Si devono effettuare due analisi distinte. La dipendenza in media si misura mediante l'indice di dipendenza eta quadro.

che assume valori compresi tra 0 e 1. È il rapporto tra la varianza between e la varianza totale. Vale zero se la varianza FRA (BETWEEN) i gruppi è nulla, cioè quando Y è indipendente in media da X (e la varianza NEI gruppi coincide con la varianza marginale di Y). Vale 1 quando la varianza FRA i gruppi coincide con la varianza marginale di Y, cioè quando Y è perfettamente dipendente da X (e la varianza NEI (WITHIN) gruppi è nulla). La covarianza La variabilità congiunta di due variabili X e Y viene misurata dalla covarianza, la media dei prodotti degli scarti della X e Y dalle loro rispettive medie. Tra due variabili X e Y vi è correlazione positiva quando tra di esse esiste un legame lineare positivo, esse tendono a crescere (o decrescere) insieme. Si ha correlazione negativa quando tra di esse esiste un legame lineare negativo, ovvero la tendenza è opposta (una componente cresce e l'altra diminuisce).
Dettagli
Publisher
A.A. 2020-2021
53 pagine
SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher Sophie_13 di informazioni apprese con la frequenza delle lezioni di Foundations of Probability and Statistics e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Milano - Bicocca o del prof Siletti Elena.