Statistica descrittiva
Definizioni fondamentali
Variabile (X): fenomeno d'interesse.
Modalità: valori, livelli o categorie che può assumere la variabile d'interesse (X).
Unità statistica: entità elementare osservabile che presenta la variabile (X).
Popolazione (N): insieme completo delle unità statistiche che esauriscono le informazioni sulla variabile X.
Parametro: caratteristica specifica della popolazione.
Campione (n): sottoinsieme di unità osservate nella popolazione.
Statistica: caratteristica specifica del campione.
Tipo di campionamento: procedimento utilizzato per selezionare un campione di dimensione n da una popolazione N.
Nella statistica descrittiva si opera in condizioni di certezza. Per ogni variabile X, si ipotizza di conoscere tutte le informazioni relative all'intera popolazione. Gli indicatori sintetici perciò sono dei parametri che descrivono una caratteristica della popolazione. Per ogni parametro, possiamo individuare una o più statistiche corrispondenti che individuano la stessa caratteristica in un campione della popolazione.
Tipi di variabili
Variabili qualitative (categoriche)
Alla modalità della variabile osservata non si può attribuire un valore numerico. Possono essere:
- Sconnesse (sesso, colore dei capelli)
- Ordinali (titolo di studio, livello di soddisfazione)
Variabili quantitative (numeriche)
Alla modalità della variabile si attribuisce un valore numerico e pertanto le modalità sono ordinali:
- Discrete (numero d'esami, numero dipendenti)
- Continue (altezza, peso)
Distribuzione individuale
Data una variabile X osservata su una popolazione N (unità statistiche), la distribuzione individuale dei dati è l'insieme delle modalità osservate per unità statistica.
{a1, a2, a3, ..., an}
Esempi: Sesso (M,F), Titolo di studio (E,M,S,L), Età (27,45,68,78,52,56), Peso (72.5, 59.1, 56.5)
Distribuzione di frequenza
X è una variabile qualitativa o quantitativa discreta osservata su N unità, K è il numero di modalità che può assumere la variabile X.
- Frequenza assoluta: numero delle unità per cui X assume modalità xk
- Frequenza relativa: fk = nk/N
- Frequenza percentuale: pk = fk × 100
| Variabile | Modalità | n (freq. assoluta) | f (freq. relativa) | pk |
|---|---|---|---|---|
| Finanza | 160 | 0.40 (160/400) | 40% | |
| Marketing | 140 | 0.35 (140/400) | 35% | |
| Contabilità | 100 | 0.25 (100/400) | 25% | |
| ∑ | 400 | 1 | 100% |
Se X è una variabile qualitativa ordinale o quantitativa discreta:
Frequenza cumulata: Nk
Frequenza relativa cumulata: Fk
Tabella per variabili ordinali
| Livello di soddisfazione | Modalità | Freq. assoluta | Freq. relativa | Freq. % | Freq. cumulata | Freq. cum. relativa |
|---|---|---|---|---|---|---|
| Molto insoddisfatto | 40 | 0.37 | 37% | 40 | 0.37 | |
| Abbastanza insoddisfatto | 6 | 0.06 | 6% | 46 | 0.43 | |
| Indifferente | 37 | 0.35 | 35% | 83 | 0.78 | |
| Abbastanza soddisfatto | 17 | 0.16 | 16% | 100 | 0.94 | |
| Molto soddisfatto | 7 | 0.06 | 6% | 107 | 1.00 | |
| ∑ | 107 | 1 | 100% | - | - |
Distribuzioni frequenza variabili continue
Non si può definire il numero di K modalità assunte dalla variabile, è necessario classificare le osservazioni attraverso degli intervalli. L'uso delle classi comporta una sintesi dei dati ma anche una perdita d'informazioni. Le classi sono contigue, collettivamente esaustive e mutuamente esclusive; la chiusura delle classi può essere ┤ oppure ├, ampiezza della classe (wk) valore centrale (mk).
m = 250/2 = 125
Uso del cellulare in minuti k (280+250)/2 = 265
| Classi | n | mk | wk | fk | pk | Nk | Fk |
|---|---|---|---|---|---|---|---|
| 250├ 280 | 67 | 265 | 30 | 0.61 | 61% | 93 | 0.85 |
| 280├ 300 | 17 | 290 | 20 | 0.15 | 15% | 110 | 1.00 |
| ∑ | 110 | - | - | 1.0 | 100% | - | - |
Distribuzioni in classi per variabili discrete
A volte il numero K di modalità assunte può essere molto alto, classificare le osservazioni attraverso degli intervalli facilita la sintesi anche se comporta una perdita d'informazione. Essendo le classi contigue, è importante definire la chiusura delle classi. N.b un soggetto che ha 20 anni appartiene alla 3° classe 20 ├ 30.
| Età | Classi | n | fk | pk | Nk | ||
|---|---|---|---|---|---|---|---|
| 0├10 | 8 | 5 | 10 | 0.16 | 16% | 8 | 0.16 |