Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
Distribuzioni unitarie semplice: Distribuzioni di frequenza: Esempio
Essendo risultato un numero negativo, l'asimmetria è negativa.
Box plot
È una rappresentazione grafica che permette di "visualizzare" la variabilità di una o più distribuzioni diverse, analizzando quindi le dispersioni dei valori, la simmetria, e cercando i valori anomali, outliers.
Box plot verticali
Box plot orizzontale
Come si costruisce? Per la costruzione di un box plot bisogna prendere in considerazione 5 parametri:
- Mediana, al centro, che divide i valori centrali del 50%;
- Primo e terzo quartile che escludono il 25% dei valori più piccoli e il 25% dei valori più grandi;
- Massimo e minimo della distribuzione, di quali iniziano i "baffi".
Baffo del box plot.
1) Analisi della dispersione (variabilità): per analizzare la variabilità della distribuzione è necessario calcolare la lunghezza della scatola; più la scatola è
lunga e più ci sarà dispersione, viceversa, più la scatola è corta e meno variabilità ci sarà. Dispersione e variabilità sono sinonimi in statistica, infatti gli indici di variabilità sono anche chiamati indici di dispersione. Per calcolare la lunghezza della scatola si fa ricorso alla differenza interquartile, una misura della dispersione del 50% dei dati più vicini alla media (meno estremi); quindi più è piccolo minore è la dispersione. W = Q - Q3 La lunghezza dei baffi indica la variabilità del 25% dei dati più piccoli e del 25% dei dati più grandi. 2) Analisi della simmetria: per analizzare la simmetria si calcola l'ampiezza dei rettangoli delimitati dalla mediana; se l'ampiezza dei due rettangoli è uguale, la distribuzione è simmetrica, altrimenti è asimmetrica negativa (mediana spostata verso l'alto) o positiva (mediana spostata verso il basso).di ripartizione F(x) come la probabilità che X assuma un valore minore o uguale a x. Formalmente, la funzione di ripartizione è definita come: F(x) = P(X ≤ x) = ∑ f_j, j=1,...,K, j j dove f_j è la frequenza relativa dell'intervallo j-esimo e K è il numero totale di intervalli. La funzione di ripartizione è una funzione crescente e ha le seguenti proprietà: 1) F(x) → 0 quando x → -∞ 2) F(x) → 1 quando x → +∞ 3) F(x) è continua a destra in ogni punto x 4) F(x) è discontinua solo nei punti di cambio di intervallo La funzione di ripartizione può essere utilizzata per calcolare la probabilità di ottenere un valore compreso tra due limiti a e b: P(a ≤ X ≤ b) = F(b) - F(a) Inoltre, la funzione di ripartizione può essere utilizzata per calcolare i quartili della distribuzione. Il primo quartile (Q1) è il valore per il quale F(x) = 0.25, il secondo quartile (Q2) corrisponde alla mediana e il terzo quartile (Q3) è il valore per il quale F(x) = 0.75. La funzione di ripartizione è uno strumento fondamentale nell'analisi statistica e viene utilizzata per calcolare diverse misure di posizione e dispersione, nonché per effettuare test di ipotesi e costruire intervalli di confidenza.Di ripartizione cumulativa delle frequenze relative l'insieme delle infinite coppie (x ; F ) dove:
j jF = frequenza cumulata j
Per semplicità indichiamo la frequenza cumulata corrispondente a una data x con F .x
Caratteristiche di una funzione di ripartizione:
- Il codominio è (0-1) perché qualsiasi valore maggiore di x non avrà comunque (k) una % maggiore del 100%, si fermerà ad 1, e allo stesso modo ogni valore minore di x avrà sempre 0 come %.(1)
- Il dominio va da -∞ a +∞ includendo qualsiasi valore reale.
- È una funzione crescente, proprio come lo sono le frequenze cumulate.
- Se il carattere è discreto la funzione ha una forma a gradini, se invece è continua ha un incremento lineare.
- I salti tra un gradino e l'altro corrispondono alle frequenze relative, l'altezza dei gradini a quelle cumulate.
Pedata
Salto k-1k-1
Ad ogni x compresa tra due modalità, corrisponde la frequenza cumulata
chesomma fino alla i-esima frequenza relativa.Se x >= x , la F = 1.k xEsempio con carattere quantitativo discreto.Tutti i valori inferiori al 18 hanno come percentuale 0, e tutti quelli superiori al 22 hannofrequenza relativa pari ad 1.Gli studenti che hanno preso un voto compreso tra 18 e 20 (escluso) hanno unafrequenza cumulata pari a 0.2, quelli che hanno preso un voto tra 20 e 22 (escluso)hanno F = 0.7.xLa funzione di ripartizione è la seguente:Esempio con carattere quantitativo continuo.L’incremento è lineare e costante tra i valori estremi delle classi.I valori minori del limite inferiore dellaclasse sono tutti 0, mentre quelli maggioridel limite superiore dell’ultima classe è 1.Come individuare la mediana in una funzione di ripartizione.Bisogna tracciare una retta in corrispondenza di 0.5; Se nessuna modalità ha frequenza cumulata pari a 0.5, la mediana è perconvenzione nel punto che ha generato il salto.Mediana = x 2 Se
c’è una frequenza cumulata pari a 0.5, significa che ci sono infiniti valori con tale frequenza, tutti quelli compresi nella pedata; quindi è mediana qualsiasi valore compreso nell’intervallo e si assume come mediana la semisomma dei due valori estremi della pedata stessa. Se il carattere è continuo suddiviso in classi, nella ricerca della mediana si formano due triangoli: uno più piccolo che si forma dal punto di intersezione della retta della mediana con la funzione, e l’altro più grande dal valore che ha generato il salto. In questo caso, per calcolare la mediana, è necessaria la formula derivante dalla proporzione dei due triangoli: Il denominatore corrisponde al salto, quindi può anche essere scritto come frequenza relativa. Statistica bivariata Studia le relazioni tra più variabili statistiche; le variabili diventano così doppie, bivariate o bidimensionali. L’analisi congiunta di due variabili ha loscopo di analizzare l'eventuale esistenza di un legame tra i fenomeni (X e Y) rilevati su ciascuna unità della popolazione, dove X e Y possono essere qualitativi o quantitativi. Distribuzioni unitarie doppie. Su ogni unità statistica vengono rilevati due caratteri, che diventano una coppia per ogni unità; se dovessero esserci coppie ripetute più volte si può convertire la distribuzione unitaria doppia con una: Distribuzioni doppie di frequenza. Grafico a dispersione: grafico che permette di rappresentare le distribuzioni doppie, sia unitarie che di frequenza, perché permette di visualizzare le relazioni tra variabili. Quando si vuole realizzare un grafico a dispersione bisogna porsi tre domande: 1. Esiste una relazione tra i due caratteri? 2. La relazione è diretta o inversa? (senso della relazione) 3. La relazione è intensa o debole? In questo caso è evidente una relazione tra statura ed età; all'aumentareDell'età, aumenta anche la statura. Si può quindi ipotizzare che il grafico rappresenti un collettivo di bambini. Una relazione intensa prevede che i punti siano addensati attorno a una retta ipotetica. Una relazione debole prevede invece che i punti siano allargati, distanti tra loro; tanto più sono allargati e tanto meno è forte la relazione. Se i punti sono eccessivamente distanti, non vi è proprio una relazione tra caratteri. Con una distribuzione di frequenza, ci sono due possibilità di grafico: tridimensionale con x, y e n (frequenze), oppure a bolle, in cui tanto più una bolla è grande e tanto più è alta la frequenza corrispondente alla coppia x e y. Distribuzione bivariata o tavola a doppia entrata. Questo metodo di rappresentazione viene utilizzato quando il numero di coppie è molto elevato e renderebbe anche la distribuzione di frequenza poco compatta. Ci sono: 135 giovani e 62 adulti 161 favorevoli e 36
sfavorevoli.110 giovani favorevoli; 51 adulti favorevoli25 giovani sfavorevoli; 11 adulti sfavorevoliPer convenzione si inserisce il carattere X in verticale e quello Y in orizzontale; anche al contrario va bene, come in questo esempio.Modalità di Y Frequenze congiunteFrequenze/Modalità di X Totali marginaliTotale delle Frequenze/Totali frequenze marginali assoluteSu n unità ci sono:• n unità sulle quali sono state rilevate la prima modalità di X e la prima 11 modalità di Y.• n unità sulle quali sono state rilevate la prima modalità di X e la seconda 12 modalità di Y.• n unità sulle quali sono state rilevate la prima modalità di Y, quindi la somma delle · 1 frequenze della 1° modalità Y.• n unità sulle quali sono state rilevate la seconda modalità di X, quindi la somma delle 2 · frequenze della 2° modalità X.Il punto a pedice indica pertanto la somma ditutte le colonne o di tutte le righe, a seconda che sia a destra o a sinistra.
Le frequenze congiunte, chiamate tali perché si riferiscono a una rilevazione congiunta sia del carattere X che Y, possono anche essere definite come frequenze interne (per la loro posizione all'interno della tavola).
n f = n /n
Può essere assolute, , oppure relative,
ij ij ij
In questo caso vengono utilizzate le frequenze relative: Su 100 persone intervistate:
- 69% sono giovani e 31% adulti.
- 81% sono favorevoli e 19% sfavorevoli.
- 56% sono giovani e favorevoli.
- 25% adulti e favorevoli.
In generale:
Con un numero indefinito di modalità dei due caratteri, si indica l'ultima modalità di X con la lettera h e come indice la lettera i; per il carattere Y si utilizza come indice la lettera j e come ultima modalità la k.
- Ci sono k modalità di Y
- Ci sono h modalità di X
Tutte le frequenze congiunte si trovano scegliendo una modalità di X e una di Y sostituendo i
numeri agli indici della n- L'ultima frequenza marginale delle Y è ·k- L'ultima frequenza marginale delle X è h·In ogni tavola a doppia entrata abbiamo che:Somma di tutte le righe con le h modalità di X in corrispondenza della j-esima modalità Y.Somma di tutte le colonne con le k modalità di Y in corrispondenza della i-esima modalità di X.La somma di tutte le frequenze marginali di X, così come la somma di tutte le