Estratto del documento

Compendio di statistica

A cura di Andrea Alesiani e Gabriele Fabozzi

Anno 2013/2014

Statistica descrittiva: introduzione

Indagine statistica: rilevazione delle caratteristiche di una “popolazione” di unità/individui.

Unità: È l’oggetto principale dell’indagine statistica per ogni fenomeno individuale. Un’unità può essere ad esempio una persona di cui viene rilevato il reddito o l’altezza, oppure un macchinario di cui vengono misurate le dimensioni.

Variabile/carattere: caratteristica che si intende rilevare compiendo l’indagine statistica. Una variabile può essere l’altezza, il reddito, le dimensioni, ma anche la concentrazione di globuli rossi nel sangue. Il contenuto della matrice è detto modalità. È un concetto fondamentale che rappresenta le “risposte” che le unità danno alle “domande” che gli vengono fatte.

Supporto: insieme delle possibili risposte/modalità per una certa domanda/variabile. Ad esempio, la variabile “genere” ha come supporto “Maschio, Femmina”.

Distribuzioni unitarie

Durante la somministrazione di un questionario a degli studenti, gli studenti saranno le unità statistiche, mentre le domande del questionario saranno le variabili (o caratteri).

Esempio di questionario:

Genere Residenza # Esami Qual. Didattica
M RM Scarso 2
F RM Sufficiente 3
F FI Scarso 4
M VT Scarso 5

In questo questionario, ciò che viene a delinearsi è una matrice (tabella) unità-variabili. Quest’ultima è un confronto fra le unità scelte e le variabili. All’inizio di ogni indagine statistica, si conoscono fin dal principio chi sono le unità e quali sono le variabili. I risultati sono ciò che interessa a chi ha sottoposto il questionario.

Struttura di una matrice unità-variabile

unità\var. X Y … Z

x y z…1 1 1 1

x y z…2 2 2 2

… … … …

… x y z…i i i i

… … … …

… x y z…n n n n

i = unità generica di indagine

n = numero totale di unità

La prima riga definisce le variabili dell’indagine, indicate con lettere dell’alfabeto maiuscole (di solito X, Y, Z etc…). La prima colonna definisce le unità dell’indagine, indicate con un numero identificativo oppure con dei nomi. Ad esempio, posso avere degli individui numerati (1,2,3…100) oppure una serie di nomi (Antonio, Giovanni… Ruggero). La lettera “i” sta a indicare l’unità generica di indagine, ossia una qualsiasi unità dell’indagine, mentre n sta a indicare l’ultima unità esaminata (se le unità fossero 16 in totale, n sarebbe uguale a 16); se serve, oltre a “i” si può usare anche “j”. Se parlo di due individui i e j, sto parlando di due individui generici ma diversi fra loro.

Le modalità sono indicate con x minuscola e con un pedice, che indica l’individuo corrispondente: x1 e y1 sono le risposte dell’individuo 1 alle domande x e y. L’insieme delle modalità di qualsiasi colonna è detta distribuzione unitaria, e sta ad indicare le modalità di una determinata variabile rispetto a tutte le unità (ovvero le risposte di ogni individuo a una certa domanda). L’insieme delle modalità di qualsiasi riga è invece detto profilo (o profilo-riga). Esso indica come ha risposto una singola unità ad ogni domanda. Qui è l’unità ad essere costante, mentre è la variabile che cambia.

Tipi di variabili

Le variabili di un’indagine statistica possono essere di vari tipi, generalmente divise in variabili quantitative e qualitative.

Variabili qualitative

  • Qualitative sconnesse: variabili per le cui modalità possiamo solo svolgere operazioni/constatazioni di uguaglianza o disuguaglianza. Le uniche operazioni consentite con queste variabili sono quelle di osservazione: si può solo vedere se le modalità sono uguali o meno.

Esempio. Il genere. Sono possibili due risultati, ossia {M,F}. Nel caso del genere, non si può compiere alcuna operazione, tranne constatare che, per qualsiasi unità (es. i e j), le modalità in relazione alla variabile genere (xi e xj) possono essere differenti.

Esempio. La residenza. Nel caso della residenza, il supporto è {Tutti i comuni italiani} perché, per quanto ne sappiamo, le unità dell’indagine potrebbero provenire da qualsiasi comune. Anche in questo caso non si può compiere alcuna operazione tranne osservare se le modalità sono uguali o non fra di loro per unità diverse.

  • Qualitative ordinabili: variabili per le cui modalità si possono compiere, oltre che constatazioni di uguaglianza o disuguaglianza, anche constatazione di maggioranza o minoranza. Possiamo capire quale precede l’altra, e quale vale di più.

Esempio. Giudizio sulla qualità della didattica. In questo caso il supporto è {scarso, sufficiente, discreto, buono}. Per due unità qualsiasi (i e j) e per le loro modalità in relazione alla variabile “qualità didattica” (xi e xj), non solo si può vedere se le due modalità sono uguali o no, ma è possibile anche ordinare le modalità in un certo ordine di grandezza. Non vi sarà alcuna unità di misura, dato che non vi è modo di calcolare la differenza fra sufficiente e discreto, ma sicuramente si può dire che sufficiente è inferiore a discreto o a buono. Le modalità sono dunque ordinabili secondo un certo criterio.

Variabili quantitative

Sono variabili con un supporto composto da numeri e non da sostantivi/aggettivi. È stabilito uno zero ed un’unità di misura fra modalità (metri, chili, o anche giorni, figli ecc…). Avendo un’unità di misura posso dire non solo se un’unità è più grande di un'altra, ma anche quanto (es. Ludovica è più vecchia di 5 anni rispetto a Gualtiero).

  • Quantitative discrete: Sono in genere numeri interi. Ad esempio, il numero di incidenti ogni giorno per un mese è una variabile quantitative discreta. Bisogna notare che fra un numero e l’altro (es. 1 e 2) “non c’è nulla”: non posso avere “un incidente e mezzo” o simili.

Attenzione: i singoli devono essere interi, ma non i risultati di operazioni come la media.

  • Quantitative continue: variabili il cui supporto può contenere numeri decimali, e la cui unità di misura può variare. In generale il punto focale è che tra due individui alti 1,752 m e 1,753 m potrà sempre esserci un individuo “a metà” fra i due: tra le modalità non esiste il vuoto. Ad esempio, l’altezza di ogni studente di una classe è una variabile quantitativa continua, in quanto non si saprà mai l’altezza esatta e l’unità di misura può variare in quanto può essere espressa in millimetri, centimetri, metri ecc… Ovviamente a seconda dell’unità di misura potrò avere numeri decimali o no: ad esempio 90 min = 1,5 ore.

Elemento fondamentale per le quantitative continue è la divisione in classi (a volte si fa anche per le discrete, ma non è rilevante in questa sede). È vero che due individui alti 1,75 e 1,76 sono diversi, ma non così tanto da doverli considerare come modalità separate: nel capitolo sugli Istogrammi spieghiamo come avviene questa divisione in classi.

Una precisazione finale. Una determinata variabile non “nasce” quantitativa o qualitativa ecc… Ad esempio, il reddito in genere è una variabile quantitativa continua, ma il reddito in migliaia di euro (1,2 per mille, duemila euro) può anche essere considerata una variabile discreta.

Distribuzioni di frequenze

Una volta determinate le modalità, è possibile determinare la frequenza. Ma facciamo un passo indietro e partiamo con un esempio tratto dalla variabile GENERE.

Unità Variabile

Unità Genere

1 X1 1 M

2 X2 2 M

… … …

i Xi i F

… … …

n Xn n F

Unità Genere

1 M Modalità Frequenza

Ad esempio 2 M M 2

3 F F 4

4 F

5 F

6 F

In queste tre tabelle è illustrato il modo in cui si può sintetizzare una matrice unità-variabile. Nella prima tabella essa è nella sua forma più generale. Nella seconda tabella le modalità generiche sono sostituite con elementi presenti nel supporto, ed è specificata la variabile, in questo caso il genere. Nella terza tabella si elencano le modalità per ogni unità, in questo caso 6. A questo punto si può passare da una matrice unità-variabile ad una distribuzione di frequenza. Essa non è altro che una tabella indicante la frequenza della modalità per una determinata variabile. In altre parole, indica il numero di volte che si è verificata una determinata modalità per una variabile, in questo caso la variabile GENERE. Ovvero: quanti maschi e quante femmine abbiamo?

Frequenze assolute, relative e percentuali

Dunque, per ottenere una distribuzione di frequenza assoluta per una determinata variabile, è sufficiente prendere la sua distribuzione unitaria, e contare quante unità condividono la stessa modalità (nella gran parte degli esercizi vi vengono date direttamente le frequenze).

Una frequenza assoluta si indica con nk, dunque ricordiamoci di distinguere tra:

  • nk: frequenza assoluta n per la modalità k (per la variabile x)
  • xk: generica modalità di X (che potrebbe essere la prima modalità, la seconda, l’ultima ecc…).

Distribuzione di frequenza relativa

Un altro modo per sintetizzare le modalità di un’indagine statistica è attraverso le distribuzioni di frequenza relativa. Esse non sono altro che il rapporto tra le frequenze assolute delle modalità in questione in relazione al numero totale delle unità. Per intenderci, se ho 10 unità e la modalità A ha frequenza assoluta pari a 4, la mia frequenza relativa per A sarà 4/10.

Una distribuzione di frequenza sia assoluta sia relativa avrebbe il seguente aspetto.

X nk (freq. ASSOLUTA) fk (freq. RELATIVA)
X1 n1 f1 = n1/n
X2 n2 f2 = n2/n
... ... ...
Xk nk fk = nk/n
TOTALE n 1

Dunque, per fare l’esempio di prima usando la variabile GENERE, una distribuzione di frequenza relativa avrebbe il seguente aspetto:

nk fk
M 2 2/6 = 0.33
F 4 4/6 = 0.66
TOTALE 6 1

Notare che la somma delle frequenze relative è sempre uguale a 1, in quanto le singole frequenze relative sono indicatrici della proporzione della totalità delle unità che quella determinata modalità rappresenta. Usando la frequenza relativa è possibile eliminare l’influenza della numerosità del campione quando si comparano due variabili.

La frequenza percentuale non è altro che la frequenza relativa moltiplicata per 100:

pk = fk × 100

Ad esempio, se fk = 0.05, la mia percentuale sarà pari al 5%. Chiaramente, la somma delle percentuali è sempre uguale a 100. Riassumendo, per tutte le frequenze, avremo le seguenti somme:

K Σ nk = n

K Σ fk = 1

K Σ pk = 100

Rappresentazioni grafiche

Diagrammi a barre

Sono rappresentazioni grafiche usate per rappresentare le distribuzioni di frequenze, mettendo sull’asse delle ascisse (x, in orizzontale) le varie modalità rilevate e sull’asse delle ordinate (y, in verticale) la frequenza (assoluta, relativa o percentuale). Nell’esempio le modalità sono il giudizio dei clienti di un supermercato sulla cortesia dei dipendenti.

  • L’altezza della barra è determinata dalle frequenze.
  • La larghezza della barra è arbitraria (non rappresenta nulla) ma va tenuta costante per tutte le modalità.
  • La distanza fra le barre è arbitraria ma va tenuta anch’essa costante.
  • Per le variabili qualitative ordinabili, è opportuno/giusto rappresentare le distribuzioni di frequenza in modo ordinato secondo un criterio crescente.

Il diagramma a barre si può usare tranquillamente per variabili qualitative sconnesse, ordinabili o quantitative discrete. Ma cosa succede quando abbiamo variabili quantitative continue?

Istogrammi

Gli istogrammi sono usati per rappresentare distribuzioni di frequenza di variabili continue. Immaginiamo di avere una variabile continua come il ritardo dei treni. Per questa variabile, una distribuzione di frequenza non riesce a sintetizzare la distribuzione unitaria. Avremmo centinaia di modalità con frequenza bassissima o addirittura 0, perché 30,2 minuti di ritardo e 30,3 sono due modalità diverse fra loro, anche se vicine.

Per sintetizzare in distribuzioni di frequenza delle variabili continue, si procede raccogliendo le modalità in classi. Le classi non sono altro che intervalli di modalità entro i quali sono incluse le modalità dell’indagine, in questo caso il ritardo dei treni.

Ritardo (minuti) Frequenza assoluta
[-10, -6) 2
[-6, -2) 16
[-2, 2) 21
[2, 6) 9
[6, 10] 2

ATTENZIONE: la parentesi quadra include il numero, la parentesi tonda lo esclude dalla classe: la classe [-10, -6) include chi fa 10 minuti di anticipo, ma ne esclude chi ne fa 6, che appartiene invece alla classe successiva, che difatti è [-6,-10].

Consideriamo sempre il ritardo dei treni in base alla tabella precedente. Costruiamo degli intervalli in modo da far cadere un certo numero di modalità dentro ad ogni classe. In questo caso, l’ampiezza della classe è di 4 minuti, ma può variare a discrezione di chi compie l’indagine. N.B. Il “ritardo negativo”, cioè i valori come -10, indicano che il treno è arrivato in anticipo. Questa divisione in classi ci indica per esempio che 16 treni hanno fatto dai 2 ai 6 minuti di ritardo.

Per rappresentare graficamente le distribuzioni di frequenza per classi, si usano gli istogrammi.

  • Non si usano più le modalità come riferimento, ma le classi create.
  • L’ampiezza delle barre è data dall’ampiezza delle classi.
  • Non c’è distanza fra le barre, a meno che non ci sia una classe che ha frequenza zero.
  • L’altezza delle barre è la densità, non la frequenza, ed è determinata dividendo la frequenza (assoluta o relativa) per l’ampiezza della classe.
  • L’area delle barre rappresenta la frequenza (assoluta o relativa).

Densità di frequenza

La densità sta a indicare la quantità di unità che sono “addensate” in quella classe. Se in una classe di ampiezza 4 ci sono 100 unità (ad es. se 100 treni hanno fatto da 2 a 6 minuti di ritardo), la sua barra sarà più alta di una di eguale ampiezza in cui ci sono venti unità. Allo stesso modo, se due classi hanno stessa frequenza ma ampiezza diversa, la più significativa sarà la classe più piccola (perché “addensa” più modalità nello stesso spazio).

La densità si può trovare a partire dalle frequenze assolute o dalle frequenze relative, secondo le seguenti formule:

densità = fk/Ak oppure nk/Ak

Dove Ak rappresenta l’ampiezza della classe.

Differenza fra densità e frequenza assoluta

In classi di eguale ampiezza esse hanno lo stesso significato. Maggiore è la densità, maggiore è la frequenza assoluta della classe. Ma a volte posso avere anche classi di ampiezza diversa (ad esempio potrei raggruppare in una macro-classe i treni che arrivano in anticipo, lasciando però per i ritardi la divisione in classi da 4 minuti). In quest’ultimo caso l’altezza della barra non mi dice automaticamente se una classe comprende più unità di altre, dunque devo fare attenzione anche all’ampiezza/larghezza della classe/barra.

In un diagramma a barre, l’altezza è la frequenza. In un istogramma, l’altezza è la densità. E la frequenza? Non perdiamo quest’informazione nell’istogramma: essa è rappresentata dall’area della barra. Essendo la barra un rettangolo, facendo base per altezza (ovvero ampiezza per densità) otteniamo la frequenza.

Anteprima
Vedrai una selezione di 25 pagine su 117
Compendio di Statistica Descrittiva, Probabilità e Inferenza - Appunti Pag. 1 Compendio di Statistica Descrittiva, Probabilità e Inferenza - Appunti Pag. 2
Anteprima di 25 pagg. su 117.
Scarica il documento per vederlo tutto.
Compendio di Statistica Descrittiva, Probabilità e Inferenza - Appunti Pag. 6
Anteprima di 25 pagg. su 117.
Scarica il documento per vederlo tutto.
Compendio di Statistica Descrittiva, Probabilità e Inferenza - Appunti Pag. 11
Anteprima di 25 pagg. su 117.
Scarica il documento per vederlo tutto.
Compendio di Statistica Descrittiva, Probabilità e Inferenza - Appunti Pag. 16
Anteprima di 25 pagg. su 117.
Scarica il documento per vederlo tutto.
Compendio di Statistica Descrittiva, Probabilità e Inferenza - Appunti Pag. 21
Anteprima di 25 pagg. su 117.
Scarica il documento per vederlo tutto.
Compendio di Statistica Descrittiva, Probabilità e Inferenza - Appunti Pag. 26
Anteprima di 25 pagg. su 117.
Scarica il documento per vederlo tutto.
Compendio di Statistica Descrittiva, Probabilità e Inferenza - Appunti Pag. 31
Anteprima di 25 pagg. su 117.
Scarica il documento per vederlo tutto.
Compendio di Statistica Descrittiva, Probabilità e Inferenza - Appunti Pag. 36
Anteprima di 25 pagg. su 117.
Scarica il documento per vederlo tutto.
Compendio di Statistica Descrittiva, Probabilità e Inferenza - Appunti Pag. 41
Anteprima di 25 pagg. su 117.
Scarica il documento per vederlo tutto.
Compendio di Statistica Descrittiva, Probabilità e Inferenza - Appunti Pag. 46
Anteprima di 25 pagg. su 117.
Scarica il documento per vederlo tutto.
Compendio di Statistica Descrittiva, Probabilità e Inferenza - Appunti Pag. 51
Anteprima di 25 pagg. su 117.
Scarica il documento per vederlo tutto.
Compendio di Statistica Descrittiva, Probabilità e Inferenza - Appunti Pag. 56
Anteprima di 25 pagg. su 117.
Scarica il documento per vederlo tutto.
Compendio di Statistica Descrittiva, Probabilità e Inferenza - Appunti Pag. 61
Anteprima di 25 pagg. su 117.
Scarica il documento per vederlo tutto.
Compendio di Statistica Descrittiva, Probabilità e Inferenza - Appunti Pag. 66
Anteprima di 25 pagg. su 117.
Scarica il documento per vederlo tutto.
Compendio di Statistica Descrittiva, Probabilità e Inferenza - Appunti Pag. 71
Anteprima di 25 pagg. su 117.
Scarica il documento per vederlo tutto.
Compendio di Statistica Descrittiva, Probabilità e Inferenza - Appunti Pag. 76
Anteprima di 25 pagg. su 117.
Scarica il documento per vederlo tutto.
Compendio di Statistica Descrittiva, Probabilità e Inferenza - Appunti Pag. 81
Anteprima di 25 pagg. su 117.
Scarica il documento per vederlo tutto.
Compendio di Statistica Descrittiva, Probabilità e Inferenza - Appunti Pag. 86
Anteprima di 25 pagg. su 117.
Scarica il documento per vederlo tutto.
Compendio di Statistica Descrittiva, Probabilità e Inferenza - Appunti Pag. 91
Anteprima di 25 pagg. su 117.
Scarica il documento per vederlo tutto.
Compendio di Statistica Descrittiva, Probabilità e Inferenza - Appunti Pag. 96
Anteprima di 25 pagg. su 117.
Scarica il documento per vederlo tutto.
Compendio di Statistica Descrittiva, Probabilità e Inferenza - Appunti Pag. 101
Anteprima di 25 pagg. su 117.
Scarica il documento per vederlo tutto.
Compendio di Statistica Descrittiva, Probabilità e Inferenza - Appunti Pag. 106
Anteprima di 25 pagg. su 117.
Scarica il documento per vederlo tutto.
Compendio di Statistica Descrittiva, Probabilità e Inferenza - Appunti Pag. 111
Anteprima di 25 pagg. su 117.
Scarica il documento per vederlo tutto.
Compendio di Statistica Descrittiva, Probabilità e Inferenza - Appunti Pag. 116
1 su 117
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher Wheat88 di informazioni apprese con la frequenza delle lezioni di Statistica e calcolo delle probabilità e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi Roma Tre o del prof Lagona Francesco.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community