Estratto del documento

Statistica

Statistica è una scienza/metodologia scientifica che studia i fenomeni collettivi. È una scienza descrittiva dello stato: disoccupazione, reddito, fenomeni migratori...

Fasi della statistica

  • Raccolta dei dati, che si divide in sperimentale (ipotesi di lavoro e possibilità di controllo) e osservazionale (non ho possibilità di controllo).
  • Organizzazione
  • Sintetizzazione
  • Analisi

Definizioni importanti

Popolazione è l'insieme di unità elementari oggetto di analisi.

  • Carattere: caratteristica di ogni unità appartenente alla popolazione.
  • Campione: sottoinsieme della popolazione. Il campionamento casuale è l'insieme di tecniche di formazione del campione la cui selezione delle unità è affidata a regole probabilistiche. Il campionamento causale semplice significa che i campioni della stessa dimensione estraibili da una popolazione hanno uguale probabilità di essere estratti; nel campionamento causale stratificato, la popolazione è suddivisa in un certo numero di strati sulla base di una o più variabili rilevanti. Da ogni strato poi viene estratto un campione causale.

Censimento: studio dell'intera popolazione.

Statistica descrittiva: fornisce gli strumenti per sintetizzare ed esplicitare il modo in cui è avvenuto il fenomeno nel collettivo osservato.

Inferenza statistica: misura e controlla l'attendibilità delle informazioni provenienti da un campione attraverso l'estrazione.

Fasi di un'indagine

  • Definizione di obiettivi
  • Individuazione della popolazione e unità elementari
  • Piano di campionamento
  • Raccolta dati
  • Registrazione dei dati
  • Elaborazione e analisi

Unità e caratteri statistici

Unità statistica: costituisce l'unità elementare su cui vengono osservati i caratteri oggetti di studio.

Caratteri statistici: definiscono le caratteristiche delle unità statistiche. Quando le modalità sono numeriche si definiscono caratteri quantitativi o variabili statistiche, mentre quando si tratta di attributi si definiscono qualitativi o mutabili statistiche. Le modalità devono essere esaurienti e non sovrapposte.

Tipi di caratteri

Quantitativi: numero di accessi, minuti...

Qualitativi: taglia di abito, nazionalità, sport praticato, titolo di studio, sesso, codice postale, genere, soddisfazione...

Caratteri sconnessi: donna, uomo...

Ordinati: dal più piccolo al più grande...

Rettilinei: punto di partenza o di arrivo.

Ciclici: situazione di ciclicità, mesi di nascita, settimana, vento...

Dati di conteggio/valori discreti: numeri senza virgola.

Valori continui/numeri reali: numeri con virgola.

Collettivi

Collettivo è l'insieme di unità statistiche o elementari (es. abitanti di un quartiere).

  • Di stato: fissi e precisi (lezione del 15/02)
  • Di movimento: in un determinato periodo di tempo
  • Empirico: osservabile
  • Teorico: non individuabile
  • Finito: numero preciso
  • Infinito: in continua evoluzione

Organizzazione dei dati

Il modo per organizzare i dati si definisce matrice, ovvero tabelle (anche chiamate protocolli elementari). La matrice è composta da righe (numero di unità statistiche) e colonne (caratteri). L'unità generica è indicata con il pedice "i" (che va da 1 a n), i caratteri si indicano con x,y,z... Esempio: x indica il carattere x riferito alla seconda persona che ha risposto.

Distribuzioni di frequenza

Per sintetizzare un protocollo elementare si utilizzano le distribuzioni di frequenza, costituite da una prima colonna con l'elenco delle modalità (sx) e una seconda (dx) che indica l'elenco delle frequenze assolute, cioè numero delle frequenze associate alle modalità. Le distribuzioni statistiche descrivono il modo in cui uno o più caratteri si manifestano in un dato collettivo. Può essere di singolo carattere, doppia e di più di 2 caratteri.

Frequenze

Frequenze assolute

x1 n1
x2 n2
... ...
xK nK
Totale n

Dove: K è il numero di modalità, nj va da 1 a k ed è il numero di unità statistiche associate alle modalità. Σnj = n1 + n2 + ... + nk = n

Frequenze relative

Frazione/quota di unità; si indica con fj e indica il rapporto tra frequenza assoluta nj e il totale delle unità statistiche n: fj = nj/n per j che va da 1 a k. pj = fj x 100

Frequenze percentuali

Esempio:

  • Frequenza relativa: 8/20=0,4 (f1) 12/20=0,6 (f2)
  • Sesso frequenza: 0,4+0,6=1
  • Frequenza percentuale: 0,4x100= 40% (p1) 0,6x100=60% (p2)
Maschi 8
Femmine 12
Totale 20

Importanti proprietà

  • La somma delle frequenze relative deve sempre essere = 1.
  • La somma delle frequenze percentuali deve sempre essere = 100%.

Frequenze cumulate

(Solo con caratteri ordinabili):

Sono associate alle relative e percentuali, si definiscono così perché derivano da operazioni di somma/accumulo. Nj = Σnh

  • Frequenza assoluta cumulata: somma di tutte le frequenze cumulate.
  • Frequenza relativa cumulata: Fj = Σfn
  • Frequenza percentuale cumulata: Pj = Σpn

Esempio: X rappresenta la soddisfazione

Basso 20 (n1)
Medio 50 (n2)
Alto 30 (n3)
Totale 100 (n)

Frequenza assoluta

  1. Nj (1) = 20 (coincide con la frequenza assoluta perché prima non c’è nulla)
  2. Nj (2) = 20 + 50 = 70 numero di unità statistiche che hanno dato un giudizio fino a Medio.
  3. Nj (3) = 20 + 50 + 30 = 100 numero di unità statistiche che hanno dato un giudizio fino ad Alto.

Frequenza relativa

  1. Calcolo le frequenze relative: 20/100=0,2 50/100=0,5 30/100=0,3 (somma è 1)
  2. Fj(n1)= 0,2 Fj(n2)= 0,2 + 0,5= 0,7 Fj(n3)=0,2+0,5+0,3 = 1

Frequenza percentuale

  • Pj (n1) = 0,2x100 = 20%
  • Pj (n2) = 0,7x100 = 70%
  • Pj (n3) = 1x100 = 100%

Distribuzione di frequenza

Per passare da una matrice di dati a una distribuzione di frequenza:

  1. Si individuano le modalità distinte del carattere.
  2. Si attribuiscono ad ogni modalità i casi che corrispondono alla stessa.

Classi: intervalli di modalità

Quando abbiamo molte modalità per carattere quantitativo (continuo) è opportuno utilizzare intervalli di valori (classi), sempre rispettando principi di esauritività e non sovrapponibilità.

Esempio:

  • 10 | - | 14 estremi compresi; la barra verticale indica se l’estremo è compreso.
  • 10 - | 14, 10 escluso e 14 compreso.
  • 10 | - 14, 10 compreso e 14 escluso.

Esempi di utilizzo delle modalità intervallari

Misura l’altezza (x) su un collettivo di n=10 bambini ottenendo i seguenti risultati: 120,110,105,132,109,120,113,121,132,127.

Altezza Freq. assoluta
100 - | 110 3
110- | 120 3
120 - | 130 2
130 2
Totale 10

3 bambini sono alti tra 100 (escluso) e 110 compreso; 3 bambini sono alti tra 110 escluso e 120 compreso; ecc.

Uso delle modalità intervallari

- Variabili continue: scelte di necessità.

- Variabili discrete: scelte di opportunità.

Esempio: ore studiate su 14 studenti

Ore studio Freq. assoluta
3 1
3-4 5
4 4
5-6 6
5 2
>6 3
6 4
Totale 14
7 2
8 1
Totale 14

Vi è una perdita di informazioni maggiormente usando l’intervallo aperto, perché non so di preciso quante ore studiano le 5 persone che studiano dalle 3 alle 4 ore (ecc).

Esempio: numero componenti famiglie

Componenti (x) Famiglie (n)
1 332
2 440
3 412
4 401
5 177
6 101
Totale 1863

Classiche domande d’esame

  1. Qual è il carattere rilevato? Numero di componenti (x)
  2. Che tipo di carattere si tratta? Carattere quantitativo discreto
  3. Qual è l'unità statistica? Il numero delle famiglie (n)
  4. Qual è il totale di unità statistiche? 1863
  5. Ho protocollo elementare o distribuzione di frequenza? Ho una distribuzione di frequenza perché a sx ho le modalità e a dx il numero per ogni modalità.
  6. Determinare le frequenze relative fj (n1): 332/1863 =0,178
  7. Determinare le frequenze cumulate Nj (n1): 332, (n2) 332 + 440, (n3) 332 + 440 + 412...
  8. Determinare le frequenze relative cumulate Fj (n1): 332/1863, (n2) 332+440/1863, (n3) 332+440+412/1863...
  9. Media aritmetica (deve essere un valore compreso tra 1 e 6): Σx = 1/1863 (332 + 880 + 1236 + 1604 + 885 + 606) = 5543/1863 = 2,975 componenti.

Esempio 2: Soddisfazione riguardo al social più utilizzato

Xj nj
Per nulla 1
Poco 2
Abbastanza 3
Molto 4
Moltissimo 5
Totale 90

Domande e calcoli

  1. Qual è la % di studenti molto soddisfatti? 55/90 = 0,61 → 0,61 x 100 = 61% (calcolo la frequenza relativa e poi la percentuale).
  2. Qual è la % di studenti fino a molto soddisfatti? 0+3+24+61 = 88% (al primo posto 0, al secondo 0+3, al terzo 3+24, al quarto 3+24+61=88).

Rappresentazioni grafiche

  • Diagramma circolare/Grafico a torta: rappresenta le frequenze percentuali; usato per caratteri qualitativi e quantitativi discreti con poche modalità (360°xnj/n = quota nj).
  • Diagramma a nastri: qualsiasi frequenza.
  • Diagramma a barre: qualsiasi frequenza. Usato per caratteri qualitativi ordinati e quantitativi discreti. Le barre sono staccate e ognuna corrisponde a diverse modalità.
  • Istogramma: caratteri quantitativi continui o discreti con intervalli. Le barre sono attaccate.
  • Serie storica: andamento del carattere nel tempo.

Valori medi

Valori medi sintetizzano l’intera distribuzione e rappresentano il valore tipico. Si tratta di misure di variabilità e concentrazione: misurano la diversità.

Le medie

  • Algebriche solo per caratteri quantitativi (aritmetica, geometrica).
  • Lasche o di posizione determinate in base alla frequenza o alla posizione occupata (moda, mediana, quantili).

Media aritmetica

Nel protocollo elementare: = μ = 1/n (x1+x2+...+xn) = 1/n Σxi = somma dei valori divise per le unità statistiche.

Esempio, numero di giovani: 60, calcolo età media: X = 1/60 (19+24+...) = 1341/60= 22,35 circa 22 anni

Il numeratore del termine x/60 (1341/60) rappresenta l’ammontare del carattere.

Nella distribuzione di frequenza (assoluta): = 1/n Σxj nj

Es. (xj) persone (nj)

20 1
30 2
40 1
Totale 4

X medio = ¼ Σj che va da 1 a 3 (20x1)+(30x2)+(40x1) = ¼ x 120 = 30

Il risultato deve essere un numero compreso tra i xj della tabella, quindi in questo caso tra 20 e 40.

Media aritmetica (deve essere un valore compreso tra 1 e 6): Σx = 1/1863 (332 + 880 + 1236 + 1604 + 885 + 606) = 5543/1863 = 2,975 componenti.

(Moltiplicare il carattere per il numero di volte che si è realizzato).

Nella distribuzione di frequenza relativa

Σ xj fj

X = Quote di unità statistica associate ad ogni carattere.

Esempio (tabella della famiglia): considero colonna xj e quella delle frequenze relative.

Fj = Frequenza assoluta/totale unità statistiche.

Media aritmetica = (1 x 0,178) + (2 x 0,236) + (3 x 0,221) ... = 2,975

Nella distribuzione in classi

Le modalità del carattere sono rappresentate da intervalli di valori. È in realtà un’approssimazione.

Esempio, partiamo da qua: raggruppo le diverse età in una tabella ad intervalli.

Valore centrale si calcola = (estremo inferiore + estremo superiore) /2 15+19 /2 = 17, 20+24/2 = 22, 25+29/2 = 27.

Ammontare del carattere è 1350.

Il valore 22,5 è approssimato ed è diverso rispetto alla foto precedente (22,35).

Proprietà della media aritmetica

  • La media aritmetica è interna, cioè non può mai essere maggiore del valore più grande o minore del valore più piccolo osservato (da 0 figli a 5, la media non può essere – di 0 e + di 5).
  • Identità di somma: se sommo tutti i valori osservati del carattere la somma è uguale a n per la media aritmetica. Tale proprietà è definitoria, infatti la media equipartisce l’ammontare complessivo del carattere tra le unità statistiche.
  • Nullità della somma algebrica degli scarti. Gli scarti (scarto= differenza con la media) si compensano, quindi la media si dice baricentrica rispetto ai dati.
  • Esempio: Guido, Sara e Luigi vanno a ristorante e spendono rispettivamente 20, 30, 40. Ammontare totale (n) = 90, media = 30. Tale proprietà dice che la somma dell’ammontare della somma del carattere è uguale alla somma aritmetica per n. Lo scarto è 20-30 (Guido), 30-30 (Sara), 40-30 (Luigi). Somma algebrica degli scarti è 0, cioè se ho un soggetto che ha speso di più si compensa con quello che ha speso di meno rispetto alla media aritmetica.

  • Minimo della somma dei quadrati degli scarti. È la quantità più piccola che si può ottenere rispetto alla somma dei quadrati degli scarti da qualsiasi altro valore.
  • Associatività. Se un collettivo di n unità statistiche viene suddiviso in sottoinsiemi L disgiunti in numerosità n1, n2 ... nL: con media rispettivamente pari a x1, x2, ..., xL, allora la media aritmetica sarà: ESEMPIO: Ho due insiemi disgiunti, femmine (7) e maschi (5), media femmine 87,6 e maschi 82,6. Media aritmetica totale viene calcolata.
  • Equivarianza rispetto a trasformazioni lineari.

Media aritmetica ponderata

Si usa quando si vuole dare un’importanza diversa alle osservazioni di un carattere.

La media geometrica è particolarmente utile quando il carattere X è misurato come rapporto tra due grandezze o come incremento della variabile osservata nel tempo.

Ogni valore elevato alla frequenza assoluta, cioè alla n1, alla n2, ecc.

Capitale a fine anno = 1,5 % di 100 = 1,50 + 100 = 101,50; 2% di 101,50 = 2,03 + 101,50 = 103,53; 3% di 103,53 = 3,11 + 103,53 = 106,64.

Medie lasche: moda, mediana e quantili

Hanno la proprietà di essere insensibili alla presenza di valore estremi anomali (al contrario della media aritmetica che è molto sensibile).

La moda

Valore più frequente che si determina per tutti i tipi di caratteri. Si definisce la modalità del carattere più frequente, quello che va di moda. Unico caso particolare: distribuzione di frequenza con caratteri quantitativi in classi, occorre correggere l’eventuale ampiezza delle classi.

ESEMPIO: In questo caso ci sono 2 mode: distribuzione bimodale (per per nulla soddisfatto e soddisfatto).

Qual è l’unità statistica? Cliente soddisfatto.

Quante sono le unità statistiche? 10

Protocollo elementare o no? Sì

Qual è la moda? Soddisfatto che appare 4 volte (più degli altri), che rappresenta un carattere La moda è Istituto Tecnico. La moda è 19.

Unico caso particolare: carattere quantitativo e distribuzione di frequenza con intervalli.

Nell’esempio 5 hanno tutte la stessa ampiezza (la differenza tra 3 e 5, e 5, 9 e 7 è sempre 2), quindi la classe modale è quella più elevata (32) associata a 7-9 anni.

Nell’esempio 6, invece, le ampiezze sono differenti. Devo calcolare la densità di frequenza:

La mediana

Ci permette di ottenere un valore di sintesi non sensibile alla presenza di valori anomali. Prevede un ordinamento (crescente). Si può calcolare per caratteri quantitativi per i quali è previsto un ordinamento. La mediana è rappresentata da Xe ed è il livello del carattere associato all’unità statistica che si trova nel posto centrale della successione ordinata (unità centrale cioè quella che divide il collettivo in due parti uguali).

Per calcolare la mediana occorre:

  1. Ordinare le unità in senso crescente.
  2. Individuare l’unità centrale o unità centrali (se n è dispari, esiste una sola unità centrale che occupa il posto (n+1)/2 della successione. Se n è pari, esistono due unità nelle posizioni n/2 e (N/2)+1.
  3. Osservare le modalità del carattere portata dall’unità centrale o dalle unità centrali.

Carattere qualitativo ordinato

Posso individuare la mediana ma non calcolarla.

  1. Ordino le risposte in maniera crescente: scarsa, scarsa, scarsa, abbastanza buona, buona, buona, buona, molto buona, molto buona.
  2. Individuo la posizione associata all’unità centrale: n è 9, quindi il posto sarà 9+1=10/2=5 unità centrale (prima ho 4 livelli e dopo ne ho 4).
  3. Individuo la modalità del carattere associata all’unità che occupa il posto medio: buona.

Altro esempio

Aggiungo una terza colonna:

105 = 74 + 31 famiglie che hanno fino a 1 figlio.

Per determinare la mediana n è pari, quindi ho due unità centrali.

Anteprima
Vedrai una selezione di 10 pagine su 184
Statistica Pag. 1 Statistica Pag. 2
Anteprima di 10 pagg. su 184.
Scarica il documento per vederlo tutto.
Statistica Pag. 6
Anteprima di 10 pagg. su 184.
Scarica il documento per vederlo tutto.
Statistica Pag. 11
Anteprima di 10 pagg. su 184.
Scarica il documento per vederlo tutto.
Statistica Pag. 16
Anteprima di 10 pagg. su 184.
Scarica il documento per vederlo tutto.
Statistica Pag. 21
Anteprima di 10 pagg. su 184.
Scarica il documento per vederlo tutto.
Statistica Pag. 26
Anteprima di 10 pagg. su 184.
Scarica il documento per vederlo tutto.
Statistica Pag. 31
Anteprima di 10 pagg. su 184.
Scarica il documento per vederlo tutto.
Statistica Pag. 36
Anteprima di 10 pagg. su 184.
Scarica il documento per vederlo tutto.
Statistica Pag. 41
1 su 184
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher fiorifede di informazioni apprese con la frequenza delle lezioni di Statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Bologna o del prof Greco Fedele Pasquale.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community