Appunti di statistica
Capitolo 1: Introduzione
Definizione di statistica: La disciplina che studia i metodi per l'analisi dei fenomeni della natura e trovare il modo ottimale per raccogliere dati per una certa finalità.
I metodi per l'esame dei fenomeni della natura sono diffusi nelle ricerche delle scienze, che si possono dividere in scienze deduttive e scienze empiriche.
- Scienze deduttive: Metodo di indagine per ricavare le proprie "leggi" solo tramite deduzione.
- Scienze empiriche: Metodo di indagine che include sia deduzione che introduzione.
Analisi: Su chi lo devo studiare? Che fenomeno devo studiare?
Capitolo 2: Partizioni della statistica
Definizione di popolazione: Insieme di unità generiche/entità ("unità statistiche") che intendiamo esaminare.
Statistica:
- Inferenziale/induttive: Predispone metodi che permettono di estendere le sintesi campionarie a tutta la popolazione (previsione/probabilità).
- Descrittiva: Ha come scopo quello di descrivere, con opportuna sintesi, i dati relativi alle unità statistiche della popolazione (si riferiscono a dati parziali - su un campione).
Capitolo 3: Statistica descrittiva
La descrizione, che è l'obiettivo della statistica descrittiva, passa attraverso varie fasi:
- Formazione dei dati statistici: Raccoglimento dati di fatto (reali) riguardanti i fenomeni da esaminare.
- Analisi statistico-matematica dei dati: I dati vengono sintetizzati in grandezze che colgono gli aspetti più importanti dei fenomeni.
Fase 1: Formazione dei dati statistici
Bisogna innanzitutto individuare la popolazione, da queste unità statistiche poi ricaveremo i dati statistici.
a) Formazione dei casi statistici:
- Individuazione della popolazione di riferimento.
- Individuazione dei fenomeni ("carattere") da rilevare.
- Per ognuno dei fenomeni considerati, specifico i possibili modi con cui gli stessi possono esprimersi ("modalità di carattere").
Nell'individuare la lista delle modalità di un carattere bisogna fare in modo che:
- Le modalità siano fra loro incompatibili (ovvero che una modalità deve escludere l'altra in modo che sia possibile assegnare inequivocabilmente una sola modalità ad ogni unità statistica della popolazione).
- La lista sia esaustiva (ad ogni unità del gruppo di rilevazione si deve poter attribuire una modalità).
Classificazione dei caratteri:
- Quantitativi discreti: Modalità assumono numero finito di valori.
- Quantitativi continui: Modalità assumibili sono ipoteticamente tutti i risultati di un conteggio o di una misurazione compresi nell'intervallo (a, b) con b>a.
- Qualitativi: Modalità di carattere indicano categorie, attributi, ecc. e sono espresse da vocaboli/espressioni verbali.
Scala di misurazione del carattere: Lista modalità di un carattere e criteri di appartenenza delle stesse (n.b.: per uno stesso carattere si possono rilevare più scale).
Quantitativi su:
- Scala di rapporti: Adotta 0 assoluto come assenza fenomeno (=; ≠; >; <; +; -; x ; ÷).
- Scala di intervalli: Adotta 0 convenzionale che non significa assenza fenomeno (>; < ; =; ≠; - ; +).
- Scala nominale: Quando non è possibile fare nessun ordinamento tra m. (=; ≠).
Qualitativi su:
- Scala ordinale: M. hanno ordine naturale (>; < ; = ; ≠).
b) Rilevazione dei casi statistici:
Rilevare/annotare, per ogni unità statistica, la modalità presente per ogni carattere considerato.
Modalità di rilevazione: esistono diversi modelli: auto rilevazione (questionario); intervista; rilevazione tramite sensori; rilevazione di "specialisti".
Rilevazione totale, se rilevate tutte le unità della popolazione di interesse; parziale (o campionaria), se rilevata solo una parte di tutta la popolazione di interesse.
c) Spoglio dei casi rilevati:
Riunire i casi simili attraverso lo spoglio dei casi rilevati.
d) Preparazione dei dati e delle tabelle statistiche:
- Fase di pulizia dei dati (o "data cleaning").
- Preparazione della matrice dei dati.
- Preparazione delle tabelle statistiche.
Tabelle statistiche
Distribuzione di unità:
- Simboli: # X - ID unità statistica (indico con carattere univoco es_ CF, MATR...)
- x - Carattere (lettera maiuscola)
- Modo con cui si esprime il carattere (lettera minuscola)
- Numero di unità statistiche nella popolazione Ni
- "iesima" unità statistica – generica unità statistica
- N - Differenti caratteristiche con cui si esprime
- Sommatoria: (x → (x + x ) = i 1 2 i N ∑ "la somma per i che va da 1 a N"
Distribuzione di frequenze: per ogni modalità carattere vedo le corrispettive freq. riscontrate in una pop.
- Carattere qualitativo "mutabile statistica"
- Carattere quantitativo "variabile statistica"
N.B.: Se carattere quantitativo continuo con molti dati, vengono raggruppati in classi → formazione lista delle classi che diventano quindi le modalità del carattere (es. altezza popolazione, caso 3).
Per capire quale degli estremi è compreso o meno si usano: , │
Ampiezza di classe (aj)
- Caratteri quantitativi discreti con modalità in classi, essa coincide con il numero di modalità differenti rappresentate dalla classe stessa → aj
- Caratteri quantitativi continui: ampiezza è la lunghezza della classe in un intervallo unitario → aj
Esempio
1 - Carattere qualitativo su scala nominale – colore degli occhi
| Colore occhi | Frequenza |
|---|---|
| A | 3 |
| G | 1 |
| M | 22 |
| V | 7 |
2 - Carattere quantitativo discreto – numero scarpe
| N° scarpe | Frequenza |
|---|---|
| 35-36 | 3 |
| 37-38 | 6 |
| 39-40 | 11 |
| 41-42 | 4 |
| 43-44 | 8 |
| 45-46 | 2 |
3 - Carattere quantitativo continuo – altezza
| Altezza | Frequenza |
|---|---|
| 150 |─ 160 | n |
| 160 |─ 170 | ... |
| 170 |─ 180 | n |
| 180 |─ 190 | ... |
Proprietà sommatoria
∑ = ∑ = =1 =1a , k sono costanti
∑(a + b) = ∑ a + ∑ b = =1 =1 =1 =1
Rimanda alla proprietà: (a+b) + rimanda a proprietà: (a*x1 +(c+d) = (a+c) + (b+d) a*x2 + ... + a*xn) ∑bj è una costante = a (x1 +x2 + ... + xn) = =1
Altri tipi di distribuzioni
Distribuzioni di quantità
Ripartizione tra le modalità di un carattere di una "quantità totale".
ES: Popolazione 100 imprese; per ognuna si rilevano: consumo energia, settore appartenenza.
| Settore di appartenenza | Consumi di energia (migliaia di kwh) |
|---|---|
| Agricoltura | 2.594 |
| Industria | 100.000 |
| Servizi | 5.937 |
In questa tabella non ho frequenze ma ho l'insieme di tutte le energie per tutte le unità statistiche.
# Azienda Settore Consumi di energia (migliaia di kwh)
| # | Azienda | Settore | Consumi di energia (migliaia di kwh) |
|---|---|---|---|
| 1 | Agricoltura | 327 | |
| 2 | Agricoltura | 412 | |
| 3 | Industria | 1510 | |
| ... | ... | ... | ... |
| N | Servizi | 870 |
Sommo quindi tutte le aziende di quel settore e le inserisco nella tabella per distribuzione di quantità.
Serie storiche e serie territoriali:
- Serie storica: Serie numeri che arrivano da un carattere in istanti successivi di tempo (es. azioni in borsa, abitanti nazione nel tempo) – vedo l'evoluzione nel tempo di un carattere. "Dati di stock": dati delle serie temporali che fanno riferimento a un istante.
- ES: X = prezzo di chiusura dell'azione xxx quotata in borsa y = popolazione residente in Italia
Data x Data Y censimento (x1.000)
| Data | X | Data | Y |
|---|---|---|---|
| 23/02/19 | 3,57€ | 1861 | 26.328 |
| 26/02/19 | 3,47€ | 1871 | 28.751 |
...
- Serie territoriale: Successione di fenomeno quantitativo in corrispondenza di locazioni geografiche
ES: Popolazione residente in Italia nel 1981 suddivisa per regione.
| Regione | Pop. residente (x1.000) |
|---|---|
| Lombardia | 56.224 |
| Piemonte | ... |
Fase 2: Trattamento statistico-matematico dei dati
Statistica univariata: Metodi che descrivono gli aspetti più importanti di un solo carattere.
Statistica multivariata: Metodi che analizzano contemporaneamente più caratteri, permettendo di evidenziare eventuali relazioni esistenti fra gli stessi.
Capitolo 4: I rapporti statistici
II° strumento di analisi matematico-statistica dei dati: Rapporti statistici: è il quoziente tra 2 dati di cui almeno uno è di natura statistica.
Interpretazione:
- Quanta parte di Q1 (numeratore) spetta ad 1 unità di Q2 (denominatore) → il rapporto ci dice quale tra numeratore e denominatore è il più grande [1= sono uguali; 2= è il doppio; <1= ; >1=]
- Quanta parte di Q2 è rappresentata da Q1 (1/2= metà di)
Classificazione dei rapporti:
- Rapporto di composizione (o di parte al tutto): Si rapporta un'intensità/frequenza parziale all'intensità/frequenza totale (n° compreso tra 0 e 1).
ES: Colore occhi
| Colore occhi | Freq. relativa | Freq. assoluta |
|---|---|---|
| A | 3 | 3 |
| G | 1 | 5 |
| M | 22 | 0,64 |
- Rapporto di densità: Si rapporta una "circostanza quantitativa" relativa a un fenomeno con la dimensione del campo di osservazione (indicano quanta pt num fa riferimento a un'unità).
Si usa per eliminare l'influenza esercitata dal denominatore sulla grandezza a numeratore, rendendo confrontabili i dati, che altrimenti sarebbero eterogenei.
ES: Densità di popolazione = 5 stabilimenti → N=5 X = valore della produzione in un mese (x1.000€) Y = n° di dipendenti nello stabilimento.
| STAB | MI | TO | BO | CO | NA |
|---|---|---|---|---|---|
| X | 1.870 | 1.630 | 1.700 | 1.763 | 1.596 |
| Y | 130 | 85 | 95 | 110 | 80 |
| Rapporto di densità | 14,38 | 19,18 | 17,89 | 16,03 | 19,95 |
- Rapporto di derivazione: Rapportano l'intensità/frequenza di un fenomeno all'intensità/frequenza di un altro fenomeno che ne è il presupposto (causa).
ES: Ammontare delle vendite annuali di 2 aziende (x1.000€)
| Azienda | Vendite | Regione | Abitanti (2004) |
|---|---|---|---|
| A | 5.600 | Liguria | 1.577.474 |
| B | 6.400 | Lombardia | 9.246.796 |
- Rapporto di coesistenza: Rapportano intensità/frequenze di 2 fenomeni antitetici (ossia che coesistono).
ES: (2004) nati vivi in Italia classificati per sesso.
| Genere | N° di nati vivi |
|---|---|
| M | 288.850 |
| F | 273.749 |
Per ogni 100 femmine nate ci sono 105,52 maschi.
- Rapporti indici (o numeri indici): Rapportano 2 intensità/frequenze relative a 2 differenti istanti temporali (facilitano la comprensione delle variazioni nel tempo e nello spazio di dati statistici).
Variazione assoluta di dal ... si intende la differenza: (Xt - Xs ) ...
Variazione relativa di dal ... si intende il rapporto: ...
Notazione:
- Tempo t: effetto di fenomeno
- x: primo istante temporale in cui effettuo le rilevazioni
- t0, t1, t2, ... tj
- x0, x1, x2, ... xj
Numeri indici:
- Base fissa: Prendono un istante temporale come punto di riferimento
- Ii = j,i, tipicamente i=0, j=1, 2, 3, ...
- Ij,0 = Ij,0 Ij-1,0...
ES: I3,0 = I3,2 * I2,1 * I1,0
Capitolo 5: Statistica descrittiva univariata
Elementari delle frequenze
- Frequenze assolute: Considerata una modalità di un carattere X, la frequenza assoluta coincide con il numero di unità statistiche che presentano quella modalità all'interno della popolazione. "nj".
- Frequenze relative: "fj" = rapporto di composizione (calcolabile per ogni tipo di carattere che abbia una disposizione di frequenza).
Proprietà: è sempre NON negativa → 0 ≤ fj ≤ 1
∑ fj = 1
ES: Colore di capelli
| x | nj | fj |
|---|---|---|
| C | 24 | 0,706 |
| N | 3 | 0,088 |
| B | 5 | 0,147 |
| R | 2 | 0,059 |
| A | 0 | 0 |
Diagramma a barre e areogramma a torta
ES: Autovalutazione delle proprie abilità logico-matematiche (scala nominale)
| xj | nj | fj | Cj |
|---|---|---|---|
| S | 0 | 0 | 0 |
| SU | 7 | 0,206 | 7 |
| B | 25 | 0,735 | 32 |
| O | 2 | 0,059 | 34 |
- Frequenze cumulate: Sono quelle che si accumulano dall'alto verso il basso → Cj
- Fornisce n° unità statistiche con modalità ≤ a
- Frequenze cumulate relative: Fj
∑ = FREQUENZE CUMULATE RELATIVE: F = j =1=
- Frequenze retrocumulate: Rj → Fornisce n° unità statistiche con modalità ≥ a
- ∑ = FREQUENZE RETROCUMULATE RELATIVE: =
ES: Numero di scarpa
| Classi di modalità | nj | Cj | Rj | aj | hj |
|---|---|---|---|---|---|
| 35-38 | 9 | 34 | 4 | 2,25 | 42 |
| 39-40 | 11 | 20 | 25 | 2 | 5,53 |
| 41-44 | 12 | 32 | 14 | 4 | 3 |
| 45-46 | 2 | 34 | 2 | 2 | 1 |
Individui su 34 hanno un numero di scarpa dati effettivi numero di scarpe al massimo pari a 40 → 14 individui su 34 hanno un numero di scarpa almeno pari a 41 R = 143
ES: Distribuzione di frequenze "effettivamente osservata" del carattere = numero di scarpa
| j | 35 | 36 | 37 | 38 | 39 | 40 | 41 | 42 | 43 | 44 | 45 | 46 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| xj | 1 | 2 | 2 | 4 | 9 | 2 | 2 | 2 | 4 | 4 | 1 | 1 |
| nj | 34 |
- Frequenze specifiche: Si determinano in presenza dati raggruppati in classi hj
- La frequenza specifica è un rapporto di densità indicante la frequenza che spetta:
- - ad una modalità della classe (caso dei caratteri discreti)
- - ad un intervallo unitario della classe (caso caratteri continui)
- Essa misura l'addensamento delle frequenze + è utile per valutare come varia l'addensamento al variare delle classi.
- Non possibile confrontare addensamento classi con frequenze assolute, perché valore dipende da ampiezza classi (che è differente); ma uso frequenze specifiche perché fanno riferimento alla modalità/intervallo unitario.
- Frequenze specifiche relative: dj
ES: Altezza (cm) → Carattere quantitativo continuo
| Classi di altezza | nj | aj | hj |
|---|---|---|---|
| 150 |─ 160 | 4 | 10 | 0,4 |
| 160 |─ 165 | 5 | 5 | 1 |
| 165 |─ 170 | 9 | 5 | 1,8 |
| 170 |─ 180 | 10 | 10 | 1 |
| 180 e oltre | 6 | 15 | 0,4 |
Scegliere di rappresentare la classe in questo modo: 180 |─ 195 area rettangolo = rappresent
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.