Lezione 1: Statistica descrittiva
La statistica è utilizzata in diversi campi; essa in particolare si basa sullo studio e sull'osservazione dei dati, che verranno utilizzati per fare delle analisi statistiche. Lo studio statistico si basa su diverse fasi:
- Definizione degli oggetti di interesse (ad es. popolazione obiettivo, popolazione osservata, caratteristiche particolari di interesse ecc.).
- Rilevazione e organizzazione dei dati.
- Analisi statistica dei dati.
Popolazione e campione
Popolazione: per popolazione, intendiamo un insieme di soggetti che se osservati, ci permette di conoscere ogni aspetto di interesse del fenomeno che vogliamo studiare. Questa può essere una:
- Popolazione reale: se è potenzialmente osservabile interamente (ad es. i residenti in Italia oggi).
- Popolazione ideale o fittizia: quando studio una popolazione della quale non è possibile avere un elenco (ad es. tutte le persone che verranno infettate dal covid).
Campione: è un sottoinsieme della popolazione. In particolare, il numero di "unità" che nell'insieme compongono il campione, possono essere chiamate dimensione, numerosità o ampiezza del campione. Il campione può essere rappresentativo, ovvero nonostante esso sia una piccola parte della popolazione, assomiglia comunque ad essa in quanto presenta le stesse caratteristiche.
Campionamento casuale
Come estraiamo il campione? In questo corso, useremo il principio del campionamento casuale ovvero il campione viene estratto casualmente dalla popolazione generale. Per spiegare meglio questo fenomeno, possiamo fare quest'esempio:
- La popolazione è l'urna.
- Il campione invece è rappresentato dalle palline estratte dall'urna.
Un insieme di dati osservati
Facciamo un esempio. Questo studio riguarda pazienti diabetici; in particolare, possiamo osservare 6 unità e 5 variabili.
- Righe = unità (es. AG, SP, AB ecc.). Siccome in questo caso ci sono 6 unità, possiamo anche dire che l'ampiezza del campione è 6.
- Colonne = variabili (es. sesso, età, livello di educazione scolastica ecc.). I valori assunti da una variabile, vengono definiti modalità (ad es. le modalità della variabile sesso sono M o F, le modalità della variabile età sono 55, 44, 62, 48, 51).
N.B. in uno studio statistico del genere, se utilizzo una determinata terminologia, dovrò utilizzare la stessa per tutte. In questo caso la tabella è molto disordinata, infatti la prima regola da seguire quando si fa uno studio in cui si devono raccogliere dei dati, è quella di inserire questi ultimi in maniera più omogenea possibile. Ad es. inserirò sempre M al posto di uomo, come modalità della variabile sesso così come F al posto di f; la stessa cosa vale ad esempio per la variabile N. ricoveri, dove andrò ad inserire sempre 0 al posto di NO.
Diversi tipi di variabili
- Variabili quantitative: come suggerisce anche il nome, quantitativo vuol dire numerico, infatti sono delle variabili ottenute tramite conteggio o misurazione. Queste variabili quantitative, a loro volta, possono essere distinte in:
- Discrete: se saltano direttamente da un numero all'altro, (ad es. il N° di ricoveri può essere 1-2-3..., ma non può essere 1,2-1,3-1,4 ecc.).
- Continue: quando un numero compreso fra due modalità può essere a sua volta una modalità, (ad es. il peso; infatti io posso pesare 53 kg, 54 kg, 55 kg ma anche 52,4 kg, 52,7 kg e così via).
- Variabili qualitative (o categoriche): queste variabili non presentano delle relazioni di tipo numerico ma al contrario, corrispondono a nomi, aggettivi, caratteristiche particolari ecc. Queste variabili qualitative, a loro volta, possono essere distinte in:
- Sconnesse o nominali: quando non si ha un ordinamento naturale (ad es. per la variabile Complicanza principale, non possiamo ordinare le varie modalità perché abbiamo Neuropatia, Retinopatia, Nessuna ecc.) quindi è possibile solo dire se due unità sono uguali o diverse (ovvero se presentano la stessa modalità o modalità diverse).
- Ordinate: come suggerisce il nome, hanno un ordinamento naturale fra le varie modalità (ad es. per la variabile Livello Educazione Scolastica, possiamo ordinarla facendo un confronto con delle relazioni di superiorità/inferiorità, quindi ad esempio metteremo, primaria, secondaria, università. N.B. rientrano nelle variabili ordinate, anche gli stadi di malattia, (ad es. Ⅰ - Ⅱ - Ⅲ)).
Manipolazione delle variabili quantitative
- Trasformazioni matematiche: le modalità quantitative possono essere trasformate mediante tutte le operazioni matematiche purché abbia senso o sia utile.
- Ricodifica in classi: per le variabili quantitative, possiamo definire delle classi, questo avviene soprattutto per le variabili quantitative continue (ad es. 55,4 – 66,3 ecc.) ma in alcuni casi, anche per le variabili quantitative discrete ma con molte modalità. Ad esempio, la variabile quantitativa continua "Età" posso dividerla in questo modo:
- Fino a 25 anni. (N.B. se io volessi individuare un soggetto di 25 anni, dovrei cercare in questa classe e non in quella successiva).
- Appena dopo i 25 anni fino ai 45 anni compresi. N.B. Lo si capisce dalla barretta verticale, che ci indica che l'estremo (in questo caso 45) è incluso.
- Appena dopo i 45 anni, fino ai 65 anni compresi.
- Da 65 in poi. N.B. Questa viene chiamata anche classe aperta.
Manipolazione delle variabili qualitative (o categoriche)
Per quanto riguarda le variabili qualitative, possiamo procedere con la ricodifica, la quale può avvenire in vari modi:
- Se stiamo parlando di una variabile qualitativa sconnessa, quindi che non presenta alcun ordinamento naturale, possiamo procedere in vari modi. In alcuni casi, come in questo, si può fare una ricodifica, accorpando diverse modalità (purché abbia senso ai fini dello studio che stiamo effettuando). In questo caso, abbiamo una variabile qualitativa (o categorica) chiamata PATOLOGIA, che presenta tre possibili modalità (tumore gastrico, ulcera gastrica e tumore intestinale).
- Quello che si può fare in questo caso è ricodificare la variabile. Ad esempio potrei dire che di questa patologia, mi interessa sapere se si tratta di un'ulcera o di un tumore (freccia in alto); quindi in questo caso accorperò 1,3 insieme e 2 separato.
- Oppure potrei dire che mi interessa sapere il sito in cui è localizzata la malattia (gastrica o intestinale) e quindi in questo caso accorperò 1,2 insieme e 3 separato.
- Se la variabile qualitativa è ordinata, quindi che presenta un ordinamento naturale, come ad esempio lo stadio di una malattia, bisognerà necessariamente rispettare l'ordinamento della modalità.
Variabile dicotomica o binaria
Sono quelle variabili che possono assumere solamente 2 modalità, come ad esempio:
- La variabile SESSO, può assumere solamente le due modalità (M o F)
- Altri esempi ancora:
- Essere una donna (SI, NO)
- Essere un fumatore (SI, NO)
- Risposta al trattamento (SI, NO)
In genere, per queste variabili indicative, ovvero che ci suggeriscono la presenza o l'assenza della caratteristica che vogliamo studiare, si usa 0 e 1; in particolare 1 = SI = presenza della caratteristica, 0 = NO = assenza della caratteristica. Le variabili dicotomiche (o binarie), possono essere utilizzate anche per rappresentare una variabile qualitativa (o categorica) con più di due modalità.
NO = 0 SI = 1
Ad esempio la variabile qualitativa PATOLOGIA, in questo caso, come nell'esempio precedente, ha 3 possibili modalità, quindi può essere rappresentata, senza perdere informazioni, in maniera alternativa, eliminando la colonna di sinistra e creando altre due colonne: una che indica la presenza o meno dell'ulcera gastrica e l'altra, che indica se c'è o no il tumore intestinale.
Esercizio: determinare il tipo di variabile
- X1= Fase biologica (vita degli insetti: uovo, larva, giovane, adulto)
- X2 = Tipo di trasmissione delle malattie infettive: acqua, aria, animale, contatto diretto
- X3 = Body Mass Index (BMI): peso (kg)/altezza (m)2
- X4 = Classe di Body Mass Index (BMI): sottopeso, peso normale, sovrappeso, obeso
- X5 = Numero di infezioni sviluppate dopo un intervento chirurgico
- X6 = Karnofsky Performance Score (più alto=migliore): 10, 20, …, 80, 90, 100
QUALITATIVE o QUANTITATIVE CATEGORICHE SCONNESSE DISCRETE X2 X5 (X6) ORDINATE CONTINUE X1 X4 X6 X3 (X6)
Descrivere una variabile osservata
Fino ad ora, abbiamo visto degli esempi con piccoli campioni ma, in realtà la statistica si riferisce a grandi numeri. Descrivere un campione, vuol dire fornire una sintesi che deve essere il più possibile oggettiva e informativa. A questo punto, impariamo a descrivere una variabile (la descrizione di una coppia di variabili, verrà introdotta con lo STUDIO DELLE ASSOCIAZIONI).
Fino ad ora, per quanto riguarda le variabili, ci siamo limitati solamente a distinguere le varie modalità che essa può assumere; tuttavia, la semplice lista delle modalità osservate, non è sufficiente. Ad esempio, da uno studio statistico, vorremmo capire chi è che muore per coronavirus. In questo caso, vediamo due tipi di variabili:
- La variabile SESSO, che è variabile qualitativa (o categorica), sconnessa in quanto non ha un ordine naturale e dicotomica in quanto può assumere solo due modalità (M o F). N.B. Questa parte della tabella quindi, non ci suggerisce nulla di così importante per quanto riguarda lo studio che vogliamo fare, in quanto ci dice solo che le persone che muoiono sono maschi e femmine.
- La variabile Età, che è una variabile quantitativa continua, la quale ha diverse modalità, che sono state ricodificate in classi. N.B. Questa parte di tabella, ci dà delle informazioni in più, ovvero, ci indica la fascia d'età a cui appartengono le persone che muoiono; tuttavia neanche questa ci dà la risposta alla nostra domanda.
Il vero problema della semplice lista delle modalità quindi, è che manca un'informazione importante per poter rispondere alla domanda: Chi muore a causa del coronavirus? L'informazione mancante è: quante sono le persone che muoiono fino a 25 anni? Tutto questo discorso quindi, è per dire che la prima descrizione di una variabile qualitativa (o categorica) è indicare per ogni modalità, quanto spesso essa è presente nel campione, ovvero fornire dei conteggi, che ci daranno in questo modo delle frequenze.
Grazie a questi conteggi, possiamo passare da una tabella di questo tipo che descrive solo le possibili modalità delle due variabili presenti a una tabella di questo tipo:
- Una distribuzione degli studenti osservati, rispetto alla variabile Facoltà.
- Oppure, una distribuzione della variabile Facoltà nel campione.
Questa variabile, è qualitativa (o categorica) sconnessa (perché non presenta un ordinamento naturale) e presenta 4 modalità. A questo punto, possiamo vedere la tabella al completo.
Frequenze
- Frequenza assoluta (n): la frequenza assoluta, è quella che ci viene fornita dal semplice conteggio (ad es. di 1861 unità, 454 frequentano la facoltà di Medicina, quindi potrò dire anche che la frequenza assoluta della Facoltà di medicina è di 454, la frequenza assoluta per la facoltà di Scienze è di 1227 ecc.).
- Frequenza percentuale p (%): la frequenza percentuale, esprime la frequenza su un totale di 100, questo perché se addizioniamo tra di loro tutti i numeri della colonna della frequenza percentuale, devono dare come risultato 100. Ad es. si potrà dire che la freq. Percentuale della modalità Medicina, è di 24,4 %.
Come calcolare la Frequenza Percentuale?
- Frequenza assoluta di una delle modalità x 100 / Totale delle unità
Es. 454 / 1861 * 100 = 24,4 % (p %)
- Frequenza relativa (f): la frequenza relativa, al contrario di quella percentuale, non è stata ancora moltiplicata per 100, quindi se addizioniamo tra di loro tutti i numeri della colonna della frequenza relativa, otterremo come risultato 1.
Come calcolare la Frequenza Relativa?
- Frequenza assoluta di una delle modalità / Totale delle unità
Es. 454 / 1861 = 0,244 (f)
In sostanza quindi, l'utilizzo delle percentuali, ci descrive in modo più significativo i numeri che stiamo utilizzando. Ad esempio, in questo caso, ci fa capire molto bene quanto è piccola la presenza di ingegneria e quanto invece è grande la presenza di scienze.
Grafici di frequenze
Per rappresentare le distribuzioni di frequenza, si possono utilizzare anche dei grafici. I due grafici principali sono:
- Il grafico a colonna
- Il grafico a torta
Il grafico a colonne, ha:
- Sulle ordinate, le percentuali
- Alla base invece, sono raffigurate le varie modalità della variabile Facoltà, ed ogni modalità è rappresentata da una colonna alta quanto la propria percentuale.
Con il grafico a torta invece, è proprio evidente il concetto di proporzione, che viene rappresentata con delle fette.
Importanza delle misure relative
Mettiamo il caso, che io volessi comparare due università, le quali presentano due campioni differenti:
- Una ha un numero di studenti elevato
- Una ha un numero di studenti basso
Come si può notare da questo grafico, seppur esso sia corretto, si fa comunque fatica a comparare ad esempio i 454 iscritti alla Facoltà di medicina nell'università con un numero elevato, rispetto ai 32 iscritti dell'università con un numero basso. A maggior ragione, nel grafico a colonne, dove le differenze si notano ancor di più. Per eliminare l'influenza data dalla numerosità del campione, possiamo utilizzare le frequenze percentuali, le quali rendono possibile comparare le due università, esattamente in questo modo.
In questo caso, ho calcolato la Frequenza Percentuale p (%), esattamente in questo modo:
- Frequenza assoluta di una delle modalità x 100 / Totale delle unità
BLU: 454 / 1861 * 100 = 24,4 %
VERDE: 32 / 90 * 100 = 35,6%
Un indice sintetico, la moda
Come visto in precedenza, esistono vari modi per sintetizzare i dati osservati, ad esempio con tabelle, con grafici ecc. Adesso, vediamo come poter sintetizzare il tutto ulteriormente. Uno dei metodi migliori, è quello di andare ad individuare la modalità che presenta la frequenza più alta, questo è un indice che prende il nome di MODA. In questo caso, come si può intuire facilmente, la moda dell'università blu è Scienze.
N.B. La MODA è tanto più rappresentativa della distribuzione, quanto più è alta la sua frequenza relativa (vicino ad 1) o la sua frequenza percentuale (vicino a 100).
Frequenze cumulate
Le frequenze cumulate, rappresentano un supplemento che viene aggiunto alla tabella quando la variabile è qualitativa (o categorica) e ordinata oppure quando vi è una variabile quantitativa.
Frequenze cumulate: assolute (N) e percentuali P(%)
- Frequenze cumulate assolute (N): per trovare le frequenze cumulate assolute, innanzi tutto il primo termine delle frequenze assolute (n), in questo caso 142, si riscrive direttamente sotto la frequenza cumulata assoluta (N). A questo punto il numero al di sotto della frequenza cumulata assoluta (N), lo si addiziona con il numero della frequenza assoluta (n) successiva, quindi in questo caso (142 + 605 = 747). A questo punto si continua quindi: N + n (747 + 832 = 1579) e (1579 + 204 = 1783).
- Frequenze cumulate percentuali P (%): per trovale le frequenze cumulate percentuali, si effettua lo stesso ed identico passaggio. Innanzi tutto il primo termine delle frequenze percentuali p (%), in questo caso 8,0, si riscrive direttamente sotto la frequenza cumulata percentuale P (%). A questo punto il numero al di sotto della frequenza cumulata percentuale P (%), lo si addiziona con il numero della frequenza percentuale p (%) successiva, quindi in questo caso (8.0 + 33.9 = 41,9). A questo punto si continua, quindi: P (%) + p (%) (41,9 + 46,7 = 88,6) e (88,6 + 11,4 = 100).
N.B. Le frequenze cumulate, sono molto importanti, in quanto ci facilitano ulteriormente le cose: ad esempio, in questo caso, possiamo dire che il 42% dei partecipanti ha massimo la licenza media inferiore e di conseguenza il 58% ha più di una licenza media inferiore. Allo stesso tempo possiamo dire che l'89% ha al massimo la licenza media superiore ecc.
Esercizio: A questo punto, considerando l'esercizio precedente, aggiungere anche le frequenze cumulate.
Lezione 2: Descrizione di variabili quantitative continue
Adesso andremo a vedere come si lavora a livello di sintesi, soprattutto per quanto riguarda la rappresentazione della distribuzione, di una variabile quantitativa continua. Per ricordare, la variabile quantitativa continua, è una variabile che può assumere infiniti valori all'interno di un intervallo, (ad esempio 1 – 2 – 3 ma anche 2,1 – 2,2).
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.