Statistica

Questi appunti sono completi e molto semplici da capire infatti possono essere utilizzati per studiare direttamente anche senza libro; in più sono presenti numerosi esempi di esercizi con spiegazioni passo per passo."> Appunti completi per il corso "Fisica Misure di errore e statistica" svolto dalla professoressa Simona Iacobelli presso l'università di Tor Vergata (scienze biologiche).Questi appunti …

Esame Misure di errore e statistica

Facoltà Scienze matematiche fisiche e naturali

Dal corso del Prof. Iacobelli Simona

Università Università degli Studi di Roma Tor Vergata

Publisher francytav2000

A.A. 2020-2021

176 pagine

2 download

Appunto

Vota 4,0 / 5 (2)

Scarica

Estratto del documento

Indici di posizione basati sui ranghi

N.B.Come possiamo vedere, in questo caso, il risultato ci dà come media aritmetica 1,25 anziché 0,6.Tutto questo ci suggerisce che la media aritmetica: - Va bene come valore rappresentativo quando la distribuzione è simmetrica. Al contrario, la media aritmetica: - Non va bene quando si hanno uno o più valori estremi molto anomali (come in questo caso con una persona che ha 6 figli). - Non va bene quando la distribuzione è asimmetrica (dal grafico a destra o a sinistra) e quindi ha dei valori o molto alti o molto bassi. Una soluzione al problema della media, sarebbe quello di utilizzare un indice centrale non rispetto ai valori osservati ma ai loro ranghi. Facciamo un esempio: - Abbiamo un campione di 13 individui e analizziamo la variabile Altezza (cm), la quale è una variabile quantitativa e continua. I 13 valori di altezza sono: 173 - 155 - 162 - 165 - 167 - 175 - 171 - 169– 164 – 178 – 156 – 158 – 166- In questo caso, se faccio la media aritmetica:173+155+ 162+165+ 167+175+171+169+164+178+ 156+158+16613= 166,1- Adesso, quello che provo a fare, è ordinare questi valori dal più basso al più alto:155 – 156 – 158 – 162 – 164 – 165 – 166 – 167 – 169 – 171 – 173 – 175 – 1781 2 3 4 5 6 7 8 9 10 11 12 13- Adesso, quello che posso fare, è dimenticarmi di quanto effettivamente valgono questi numeri e concentrarmi solamente sul loro rango, ovvero la posizione che occupano in graduatoria.- A questo punto, prendo il valore centrale, ovvero 7 e come si può intuire facilmente saranno presenti 6 valori precedenti (più bassi del valore centrale) e 6 valori successivi (più alti del valore centrale).N.B. in sostanza quindi, quando ho dei valori di cui non posso trovare la media aritmetica perché essa risulterebbe

influenzata (ad esempio quando la distribuzione non è simmetrica), posso sfruttare gli indici di posizione basati sui ranghi. Quindi prendo i valori, li riordino in base alla loro grandezza e poi individuo il valore centrale, il quale potrà essere utilizzato esattamente come la media aritmetica, per rappresentare tutti gli altri valori; questo valore centrale, prende il nome di mediana.

In questo caso, come abbiamo appena visto, i valori erano 13 e quindi abbiamo preso molto facilmente, come valore centrale quello collocato in posizione 7.

Il problema adesso però da capire è:

- Come ci si comporta se il numero dei valori è pari?

Facciamo un esempio:

Abbiamo 6 valori ordinati 55 – 61 – 68 – 72 – 84 – 91

1 2 3 4 5 6

In questo caso, per trovare la mediana, esamino il numero di valori, che sono 6. La metà di 6 è 3 quindi prenderò sia il 3° valore sia il 4° valore e se coincidono prenderò quel

valorecome mediana, altrimenti farò la media aritmetica tra loro due.
68+ 72 140
Ad esempio in questo caso non coincidono, quindi: = 70 (mediana)
2 2

MEDIANA

La mediana è quel valore di x tale che il 50% dei valori del campione / della distribuzione, saranno minori della mediana e l'altro 50% dei valori, saranno maggiori della mediana.

QUARTILI

Adesso facciamo un ulteriore passo in avanti. Abbiamo appena visto che la mediana divide perfettamente il 50% da una parte e il 50% dall'altra; tuttavia, la distribuzione può essere divisa anche in maniera differente. A questo punto parliamo dei quartili, i quali come suggerisce il nome, dividono in quarti; tra di loro possiamo distinguere:

Primo Quartile (Q1): divide la distribuzione di modo che il 25% sarà minore rispetto al primo quartile e il 75% sarà maggiore rispetto al primo quartile.
Terzo Quartile (Q3): divide la distribuzione di modo che il 75% sarà minore rispetto al terzo quartile.

quartilee il 25% sarà maggiore.75% 25 %- Secondo Quartile: non lo mettiamo, in quanto corrisponde alla mediana, infatti dividerà perfettamente il 50% da una parte e il 50% dall'altra.BOXPLOT: UN GRAFICO BASATO SUI QUARTILISulla base dei quartili, disegniamo anche un grafico chiamato boxplot, in quanto è rappresentato da una scatola.Come possiamo vedere, è presente un asse, sul quale metteremo i valori della variabile (x in questo caso).- L'estremo inferiore della scatola (a sinistra), è posizionato in corrispondenza del primo quartile (Q1).- L'estremo superiore della scatola (a destra), è posizionato in corrispondenza del secondo quartile (Q2).- Al centro invece, la linea più spessa è collocata in corrispondenza della mediana.Le linee esterne invece, rappresentano le cosiddette "whiskers", i quali si stenderanno tanto più se ci sono delle osservazioni basse (a sinistra) e tanto più se cisono delle osservazioni alte (a destra). Fuori dagli whiskers, ci sono anche dei valori segnati, che vengono chiamati "outliers" e sono dei valori fortemente estremi ovvero, o troppo alti o troppo bassi rispetto agli altri. Adesso vediamo degli esempi di Boxplot, soprattutto per imparare a leggerli.

SIMMETRICA (se pieghiamo a metà la figura, si verranno a formare due parti che si sovrappongono perfettamente).

Questo tipo di forma, viene definita a campana.

In una distribuzione del genere, il punto in cui piazzo l'asse di simmetria (ovvero dove piego il foglio per intenderci), corrisponde alla mediana in quanto separa metà delle informazioni a sinistra e metà a destra.

Inoltre in questo caso, i due quartili sono equidistanti dalla mediana.

Quindi abbiamo 25% Q1, poi 25% mediana e specularmente dall'altra parte.

In sostanza quindi, il boxplot, ha una scatola che è simmetrica, con la mediana perfettamente al centro della scatola e con i baffi (whiskers),

simmetrica l'uno all'altro. ASIMMETRICA A DESTRA: In questo caso, i valori a sinistra sono più frequenti rispetto a quelli di destra, quindi abbiamo un eccesso di frequenza su una delle code. Quindi i valori della x molto bassi sono molto frequenti, mentre i valori dell'asse x molto alti sono poco frequenti. In questo caso, non c'è simmetria quindi la mediana (Q2) non si troverà perfettamente al centro, ma comunque separerà metà dell'area da una parte e metà dall'altra. Per quanto riguarda i due quartili invece, non saranno equidistanti. In sostanza quindi, anche il boxplot risulterà asimmetrico. ASIMMETRICA A SINISTRA: In questo caso, i valori a destra sono più frequenti rispetto a quelli di sinistra, quindi abbiamo un eccesso di frequenza su una delle code.

discreta. In questo caso, abbiamo un campione di 18 osservazioni. Stiamo tenendo in considerazione la variabile quantitativa discreta (Gravidanze), la quale presenta cinque modalità (0, 1, 2, 3, 4). Noi vogliamo trovare la mediana.

In questo caso, per calcolare la mediana, dovrei fare 18 : 2 = 9. A questo punto, dovrei prendere la modalità di posto 9 e la modalità di posto 10.

Come posso trovare queste modalità di posto 9 e di posto 10?

A questo punto dovrei mettermi su un foglio e fare:

0 - 0 - 0 - 0 - 0 - 0 - 1 - 1 - 1 - 1 - 1 - 2 - 2 - 2 - 3 - 3 - 3 - 4

A questo punto, dopo aver trovato tutti e 18 i valori, vado ad individuare la modalità numero 9 e 10, che sono entrambe 1, quindi lo prendo una sola volta e quest'ultimo sarà la mediana.

Ovviamente, siccome in questo caso i numeri erano solo 18, il calcolo era facile da fare, ma se io avessi un numero elevato?

entra in gioco la tabella delle frequenze cumulate

Quest’ultima, suggerisce che ci sono 6 osservazioni fino a 0, poi 11 osservazioni fino a 1, poi 14osservazioni fino a 2 e così via…

In sostanza quindi, le frequenze cumulate sono molto importanti in quanto ci suggeriscono quandoraggiungiamo la posizione che stiamo cercando (in questo caso la 9 e la 10).

Quindi in questo caso, possiamo notare che sia il 9 che il 10 si trovano entrambi compresi nella caselladell’11 e quindi tutti e due sono pari a 1.

Quindi anche in questo modo, capiremo che la mediana = 1

MEDIANA DELLA DISTRIBUZIONE DI UNA VARIABILE QUALITATIVA ORDINATA

Se abbiamo una variabile qualitativa ma ordinata, come visto nelle lezioni precedenti, si può pensare dimettere in fila le modalità di questa variabile, secondo il loro ordinamento naturale e quindi individuaresempre il valore centrale.

Facciamo un esempio:

Es. 1:

Livello di dolore in 5 pazienti.

Le modalità sono: Assente, Debole, Forte,

Assente, Debole. Ordino i valori: Assente, Assente, Debole, Debole, Forte.

A questo punto, conto il numero delle osservazioni, che sono 5 quindi la mediana è 3, ovvero Debole, in quanto è il valore centrale.

Siamo in difficoltà nel trovare la mediana di una variabile qualitativa ordinata, quando il numero è pari.

Ad esempio abbiamo 4 modalità: Assente, Debole, Accentuato, Forte

In questo caso, per trovare la mediana, esamino il numero di valori, che sono 4

La metà di 4 è 2 quindi prenderò sia il 2° valore sia il 3° valore e se coincidono prenderò quel valore come mediana, altrimenti in questo caso, non essendo dei numeri e quindi non potendo fare una media aritmetica tra loro due, li prenderò entrambi.

In questo caso, per poter trovare la modalità centrale, utilizzo le frequenze percentuali p (%) e trovo le frequenze cumulate percentuali P (%).

In particolare, sappiamo dalle frequenze percentuali che il totale

è 100 il quale è pari, quindi 100 : 2 = 50 e prenderemosia 50 che 51.A questo punto, analizzando le P (%), queste mi suggerisconoche con la licenza elementare posso raggruppare solo l'8% deisoggetti quindi, non raggiungendo il valore centrale, dovròaggiungere anche la licenza media inferiore, ma anche inquesto caso non raggiungo il valore centrale, allora aggiungoMEDIANA PER UNA DISTRIBUZIONE IN CLASSIIn questo caso, possiamo vedere 60 pazienti pediatrici dei quali è stataosservata la variabile età e sono state fatte delle classi.La variabile età ovviamente è una variabile quantitativa continua e inquesto caso, vorremmo trovare il valore centrale.- La prima cosa che potrei fare, è andare a vedere qual è la classe checontiene questo valore centrale, sempre andando a vedere le frequenzecu

Anteprima

Vedrai una selezione di 10 pagine su 176