Variabili
Variabili (X): è una qualsiasi caratteristica che può assumere valori o modalità differenti nei diversi soggetti (oppure nello stesso soggetto analizzato in momenti diversi).
Variabile casuale
Variabile casuale (aleatoria o stocastica): si intende quella variabile che assume determinati valori in accordo a una definita probabilità. In altri termini: a ogni valore della variabile è possibile associare la probabilità che esso avvenga. Ad esempio, si ha l'80% di probabilità che in seguito a una certa condizione si manifesti una certa variabile.
Rappresentazione delle variabili
Come vengono rappresentate e organizzate le variabili:
- Matrice di dati: è una tabella in cui ogni riga rappresenta un'unità statistica e ogni colonna rappresenta una variabile (vedi esemp. pag.40).
- Serie: elenco dei valori grezzi della variabile, acquisiti secondo l'ordine di rilevazione.
- Seriazione di dati: i dati delle variabili rilevati, vengono organizzati in ordine crescente: [x1, x2, x3, ..., xn]. La posizione occupata da un'unità statistica in una serie di dati disposti secondo l'ordine crescente rispetto a una variabile costituisce il rango (vedi esemp. pag.41).
- Serie temporale: valori di una stessa variabile, rilevati su un'unità statistica, a intervalli differenti (esemp. pag.41).
Riassumere i dati attraverso le frequenze
I dati possono essere riassunti mediante le frequenze con cui si sono registrati i singoli valori. Le frequenze possono essere:
- Frequenze assolute: numero di osservazioni rilevato per ogni valore della variabile (conteggio degli eventi). La somma delle frequenze assolute è uguale al numero totale delle osservazioni.
- Frequenze relative o proporzionali: la frazione delle osservazioni rilevate per ogni valore (x1) assunto dalla variabile (X). È dato dal rapporto tra frequenza assoluta e numero totale. La somma delle frequenze relative è uguale a 1.
- Frequenze percentuali: quantificano un certo valore della variabile rilevato, espresso in percentuale. La somma delle frequenze percentuali è sempre 100%. (esemp. i soggetti maschi rilevati sono il 65%, i soggetti femmina sono il 35%).
Classificazione delle variabili
Variabili qualitative
- Variabili qualitative nominali: sono caratterizzate da attributi, qualità. Le modalità che la variabile può assumere stanno fra loro in una relazione di uguaglianza o diversità. Queste variabili possono essere:
- Variabili binarie (quantali o dicotomiche): se ammettono 2 modalità (esemp. il sesso M o F).
- Variabili politomiche: se ammettono più di 2 modalità (esemp. i gruppi sanguigni A, B, AB, O).
- L'unico indice di tendenza centrale che può essere usato per queste variabili è la moda.
- Variabili qualitative ordinali: sono caratterizzate da attributi o da punteggi, rispetto ai quali è possibile stabilire un ordine in modo non ambiguo. Le modalità che la variabile può assumere stanno fra loro in una relazione di ordine (inferiorità, uguaglianza, superiorità). Sono spesso espressione di giudizio. Possono essere espresse numericamente, ma con il valore ottenuto non è possibile effettuare rapporti o confronto fra differenze di valori (esemp. pag.44).
Variabili quantitative
- Variabili su scala per intervalli: sono variabili caratterizzate da valori numerici che rappresentano una grandezza (misura), senza che però esista uno zero naturale sulla scala di misura. I valori che la variabile può assumere stanno fra loro in una relazione di intervallo e non è possibile effettuare rapporti, ma solo confronti fra differenze di valori (vedi esemp. pag.45).
- Variabili su scala per rapporti (razionali) (vedi esemp. pag.45): sono variabili caratterizzate da valori numerici che rappresentano una grandezza (misura), per la quale esiste uno zero naturale sulla scala di misura. I valori che la variabile può assumere stanno fra loro in una relazione di rapporto, è quindi possibile effettuare sia rapporti che confronto fra differenze di valori. Può essere:
- Su scala discreta: quando è presente una continuità tra i valori che la variabile può assumere (di solito si tratta di conteggi).
- Su scala continua: non esiste continuità tra i valori che la variabile può assumere (di solito si tratta di misurazioni).
Statistica descrittiva
Ha come scopo quello di descrivere in maniera sintetica, i risultati che derivano dalle osservazioni effettuate su un campione. Gli strumenti utilizzati per descrivere le osservazioni effettuate sono: tabelle, grafici, indici di tendenza centrale, indici di dispersione, indici di forma.
Indici di tendenza centrale
Descrivono con un solo valore la tendenza dell'intero campione. Tali indici possono essere classificati in:
- Media aritmetica (x, m, M, μ): somma dei dati, diviso il numero dei dati stessi (vedi pag.47 per la formula completa). Proprietà: la somma degli scarti dei dati della media aritmetica è sempre zero (gli scarti negativi bilanciano quelli positivi). Ciò significa che la media aritmetica è il baricentro dei dati.
Scarto
La differenza tra il valore di ogni variabile e la media aritmetica (xi - x) (esemp. pag.49).
Applicabilità della media
La media è applicabile solo nei confronti di variabili quantitative. La principale conseguenza di questa proprietà è la non applicabilità di tale indice sulle variabili qualitative ordinali, in quanto non ha senso confrontare differenze di valore tra loro. Si noti che è esattamente quello che è implicitamente espresso quando si afferma che gli scarti in negativo della media bilanciano quelli in positivo. (se da 1 a 5, il soggetto A sa l'inglese da 2 e il soggetto B da 4, non significa che il soggetto B ha una preparazione il doppio migliore del soggetto A. In questo caso il valore numerico è solo espressione di un giudizio e non ha senso mettere in rapporto i 2 valori).
Non applicabile neanche sulle variabili qualitative nominali, in quanto esprimono una qualità o attributo senza utilizzare valori numerici. In una serie di variabili quantitative, la media non può essere applicata quando sono presenti dati troncati.
Mediana [Me]
È data dal valore centrale.