STATISTICA
Lez. 1
L’obiettivo della statistica è saper distinguere reali differenze dalla semplice variabilità
naturale e casuale. La statistica la dividiamo in:
- Descrittiva, ci insegna a sintetizzare i nostri dati, descrivendoli ed ordinandoli
- Inferenziale, ci permette di dedurre dei risultati partendo da un campione e
generalizzando su tutta la popolazione.
L’inferenza statistica quindi è fondamentale, perché mi permette di dire che se su 100
persone tetraplegiche a cui ho messo il tape, 95 sono migliorate allora lo devo mettere
a tutti i tetra.
Le variabili all’interno di un’analisi statistica possono essere:
- Dipendenti, se questa si modifica in risposta ad un’altra
- Indipendente, che quando io modifico, si modifica la dipendente.
Esempio: se io esto un farmaco, la variabile dipendente saranno i suoi effetti sui
pazienti, la variabile indipendente sarà ad esempio la quantità di farmaco che
somministro.
Le variabili le possiamo distinguere in:
- Qualitative, cioè non numeriche, come il sesso, il colore dei capelli, le abitudini
- Quantitative, cioè numeriche, come l’età, il numero di persone o il loro peso.
Le variabili pe possiamo dividere infine come:
- Discrete, che possono assumere solo valori interi, come i membri di una
famiglia, il numero di gravidanze;
- Continue, che possono assumere valori decimali come l’altezza o il peso.
Per iniziare ad analizzare i dati utilizziamo l’indice di tendenza:
- Centrale, indica dove si trova il centro dei nostri valori
- Dispersione, quanto quel dato valore si allontana dal centro.
Ad esempio, due persone all’università hanno la media del 24, la prima ha preso solo
24 come votazione, la seconda ha preso diversi voti tra il 18 ed il 30; queste due
persone hanno lo stesso indice di centralità (24), ma nel primo caso l’indice di
dispersione è 0, nel secondo caso invece sarà alto.
La media aritmetica è uno degli indici di tendenza centrale, infatti si effettua
facendo la somma dei valori / la numerosità, la media è un indice fortemente
influenzato dai valori estremi.
La mediana è un altro indice di tendenza centrale ma che non viene distorto dai valori
estremi, perché rappresenta il numero che divide a metà la nostra distribuzione dei
dati ordinata. Se i numeri sono dispari sarà semplicemente il numero che si trova a
metà distribuzione, se i numeri sono pari, la mediana sarà il numero risultante della
media tra i due numeri centrali.
Lez. 2
La frequenza può essere:
- Assoluta, indica quante volte compare un carattere
- Relativa, indica il rapporto tra la frequenza assoluta ed il totale.
La moda invece è un indice che fa riferimento alla numerosità, quante volte si
presenta quella caratteristica. La moda è quindi rappresentata da quella categoria con
frequenza maggiore, se ci sono più categorie con la stessa frequenza allora la
distribuzione sarà multimodale. La moda la utilizziamo per osservare i dati qualitativi
tendenzialmente.
Nella tabella di distribuzione di frequenze tendenzialmente andiamo a trovare prima la
frequenza assoluta (quante volte si è presentato quel dato), poi la frequenza relativa
(la frequenza assoluta fratto il totale), e la percentuale della frequenza relativa.
Un altro tipo di frequenza che possiamo incontrare è la frequenza cumulata, questa
si effettua andando a fare la frequenza assoluta cumulata, dove sommiamo la
frequenza assoluta dei nostri dati ai dati precedenti, e la frequenza relativa cumulata,
dove sommiamo la frequenza relativa di un dato alle frequenze relative dei dati
precedenti.
Quando vado a fare queste tabelle per tanti valori diversi tra loro, è importante saper
dividere in classi: anziché utilizzare 120 colonne per scrivere l’età di 120 persone le
divido in 5 classi per 5 fasce d’età. Decidere le classi è difficile perché l’obiettivo è sia
schematizzare, sintetizzare, e rendere facile la comprensione della tabella, ma anche
effettuare un’analisi statistica, quindi non posso riassumere troppo, altrimenti potrei
disperdere dei dati significativi. Per prima cosa mi calcolo l’intervallo di variazione
(range), e si fa effettuando la differenza tra il valore più alto ed il più basso, poi decido
il numero di classi (gruppi), e poi divido l’intervallo di variazione per il numero delle
classi: questo mi darà come risultato (arrotondando per eccesso) quanti elementi
devono essere all’interno di ogni classe per aver quel numero di raggruppamenti.
I grafici più utilizzati sono:
- Gli istogrammi, si utilizzano per i dati continui, numerici;
- I grafici a barre servono invece per i dati nominali, diversi tra loro;
- Poligono di frequenza, è simile ad un istogramma ma anziché le barre si
utilizzano dei punti che poi si connettono con linee di modo da rappresentare la
continuità più esplicitamente.
Gli indici di dispersione più osservati sono:
- Il range (valore massimo- valore minimo)
- Gli intervalli interquartili
Gli intervalli interquartili li facciamo mettendo i nostri dati in ordine crescente e
calcoliamo la mediana. Ora abbiamo una prima metà ed una seconda metà, e
facciamo la mediana di questi due gruppi, così che mi sono ricavato 4 gruppi uguali
divisi da: un quartile inferiore, la mediana, ed un quartile superiore. Se io voglio
dividere i miei dati non in quattro parti ma in enne, allora anziché quartili li definisco
quantili, e divido il mio campione nel numero di gruppi che mi serve, i quantili più
utilizzati sono i percentili, che mi dividono in campione in 100 parti. Quindi quando
dico che ad esempio un bambino ha un peso al 20° percentile, vuol dire che in un
gruppo di 100 bambini della sua età, 80 pesano più di lui, e 19 meno. La mediana,
quindi, rappresenta il 50° percentile di un campione, il quartile inferiore il 25° ed il
quartile superiore il 75°.
Un altro indice di dispersione importante è la varianza.
Lo scarto grezzo è un valore che mi calcolo effettuando la media del campione e
sottraendola da ogni valore, con questo calcolo posso vedere quanto ogni mio valore si
discosta dalla media. Tornando all’esempio della media dei voti, se il primo caso in cui
la media è 24 ed ho sempre preso 24, lo scarto grezzo sarà 0, perché la differenza tra i
miei valori e la mia media è nulla, se invece guardiamo il secondo caso in cui a volte
ho preso 18 ed altre volte 30 allora avrò uno scarto grezzo differente per ogni voto. La
somma degli scarti grezzi è SEMPRE uguale a 0. Per andare a vedere lo scarto
assoluto quindi dovrò sommare il valore assoluto degli scarti grezzi, così che non avrò
i numeri negativi ma solo la distanza in positivo dei miei valori dalla media, per andare
a vedere poi lo scarto medio dovrò fare la media degli scarti grezzi in valore
assoluto, quindi lo scarto assoluto / la numerosità del campione.
Il problema dello scarto medio è che avendo lavorato con valori assoluti,
algebricamente non possiamo utilizzare questo valore, anche se a livello descrittivo è
molto utile, per utilizzare algebricamente dei valori negativi in positivi serve elevarli al
quadrato, e riaggiustare la formula, quindi faremo lo scarto grezzo meno lo scarto
medio, tutto elevato al quadrato. E la sommatoria degli scarti grezzi meno lo scarto
medio al quadrato diviso la numerosità, corrisponde alla varianza.
Il nostro numero al quadrato però non è risolto, quindi per controbilanciare
l’aggiustamento algebrico dovremo mettere tutto sotto radice quadrata, e questo
risultato lo definiamo DEVIAZIONE STANDARD detta anche scarto quadratico
medio.
Il concetto da cui sono partita quindi è lo scarto, che mi indica proprio la differenza dei
miei valori rispetto la media, e cerco di sommarlo per avere un’idea globale di quanto
variano i miei dati, ma la somma degli scarti grezzi è sempre zero perché la media
divide esattamente a metà i miei valori, è il baricentro, quindi per avere uno scarto
globale devo elevare tutto al quadrato così da rendere positivi i numeri negativi, alla
fine ho quindi la sommatoria degli scarti al quadrato che divido per la quantità di
numeri presa in esame così da avere un valore bilanciato al mio campione e pongo
tutto sotto radice quadrata.
La formula più precisa al denominatore contiene N-1 e non N e basta, perché? N-1 lo
definiamo il grado di libertà, e rappresenta quanti numeri possono variare per
mantenere uguale la media, infatti se io ho una media, una numerosità, ma mi manca
un numero del mio campione, potrò risalirci con certezza a quell’ultimo numero, che è
per forza quello. Quindi se ho una media di 80 ed ho 4 valori che sono 90, il quinto
valore anche se non lo so è per forza 40, i primi 4 numeri quindi avrebbero potuto