vuoi
o PayPal
tutte le volte che vuoi
• DENSITÀ DI FREQUENZA DELLA CLASSE:
frequenza della classe/ampiezza della classe. Es: 5/1=5. Il
calcolo della densità serve quando le classi non hanno la stessa ampiezza, e quindi si
fanno dei grafici areali. L’area è proporzionale alla frequenza. L’area del rettangolo
corrisponderà alla frequenza della classe; la base del rettangolo corrisponderà all’ampiezza
della classe e la denistà corrisponderà all’altezza del rettangolo del grafico. Nel caso invece
che le ampiezze delle classi fossero tutte uguali, le altezze dei rettangoli sarebbero
proporzionali alle frequenze.
• CLASSE MODALE: classe che ha la densità di frequenza maggiore.
Rappresentazione grafica
• Nel caso di distribuzioni di frequenze secondo un carattere quantitativo, la
rappresentazione grafica naturale è il diagramma cartesiano: più precisamente, il
diagramma ad aste quando il carattere è discreto e l’istogramma quando il carattere è
continuo e diviso in intervalli.
• Nel caso di distribuzioni di frequenze secondo un carattere qualitativo, bisogna fare una
distinzione tra serie sconnesse, storiche e territoriali. Per le prime sono consigliabili i grafici
a nastri o a settori circolari; per le seconde sono consigliabili diagrammi cartesiani e grafici
a nastri; per le terze la rappresentazione più indicata è il cartogramma.
Le medie
Le medie sono lo strumento con cui si sintetizzano i dati statistici. L’uso delle medie consente
all’individuo di rappresentarsi mentalmente l’ordine di grandezza di un fenomeno, di effettuare
comparazioni tra le manifestazioni di uno stesso fenomeno in tempi diversi.
medie per distribuzioni aggregate
1) MEDIA ARITMETICA: rapporto tra la somma delle modalità e il loro totale
2) MEDIA ARITMETICA PONDERATA: rapporto tra la somma delle modalità per la loro
frequenza e la somma delle frequenze.
3) MEDIA ARMONICA: è data dal rapporto tra N e la somma dei reciproci dei termini. I termini
devono essere tutti maggiori di 0.
4) MEDIA GEOMETRICA: è data dalla radice ennesima del prodotto dei termini. Tutti i termini
devono essere maggiori di 0.
5) MEDIA QUADRATICA: è data dalla radice quadrata della media aritmetica dei quadrati dei
termini della distribuzione.
Per le proprietà della media aritmetica vedi pagina 98 del libro.
medie per distribuzioni di frequenze Pagina 2 di 9
Appunti di statistica di Federico Vason
1) MEDIA ARITMETICA: è data dalla somma delle modalità per la loro frequenza fratto il
totale delle frequenze. =( x1pern1 + x2pern2 + xkpernk)/N
Nel caso di raggruppamento in classi, bisogna prendere come riferimento il valore centrale
di classe. Per ogni classe, si moltiplica il valore centrale per la frequenza della classe. Si
sommano tutti i valori centrali per la loro frequenza e si divide per il totale delle frequenze.
2) MEDIA ARMONICA: tot frequenza assoluta/tot frequenza relativa
3) MEDIA GEOMETRICA: 2
4) MEDIA QUADRATICA: radice d tot x per n/ frequenza assoluta
Moda
La moda di una distribuzione di frequenze è la modalità che presenta la frequenza più alta.
la mediana
È il centro della distribuzione. Si può calcolare per i caratteri qualitativi ordinati e per tutti i caratteri
quantitativi. Ha la proprietà di non dipendere dai valori estremi, che talora possono essere valori
anomali. Il suo calcolo richiede che sia formata la graduatoria dei termini della distribuzione.
Mediana con distribuzione aggregata
Per calcolarla bisogna ordinare i termini della distribuzione. Se il numero dei termini è dispari
bisogna fare (numero termini(N)+1)/2. Il risultato sarà la posizione del termine della graduatoria
corrispondente alla mediana. Es: se (numero termini + 1)/2 da come risultato 4, il termine in
posizione 4 della graduatoria sarà la mediana. Se i termini sono pari, bisogna prendere in
considerazione N/2 e N/2 +1. Si prendono i due risultati e si sommano tra loro dividendo per due.
Es: se N/2=4 e N/2+1=5, la mediana sarà data dal termine in posizione 4 + il termine in posizione 5
il tutto fratto due.
mediana con frequenze
Per calcolarla,bisogna mettere in ordine le modalità secondo la loro frequenza. Fatto questo, si
divide per due il totale delle frequenze e si prende in considerazione il primo numero che supera
quel valore, ovvero il rango. Infine, la mediana sarà la modalità corrispondente al rango trovato.
Quindi la mediana è il primo valore dopo la metà.
Accanto alla mediana, si possono introdurre altri valori medi, associati, come la mediana,a
particolari posizioni nella graduatoria dei termini della distribuzione. Si inizierà con i quartili, tra le
quantità che suddividono la graduatoria dei termini della distribuzione in quattro parti della stessa
numerosità.
quartili per distribuzione disagreggata ordinata
• Primo quartile: numero termini/4. Se il risultato è pari, prendo in considerazione il termine
della distribuzione corrispondente al risultato del calcolo precedente e il termine della
distribuzione corrispondente al risultato +1. Sommo tra loro i due termini della distribuzione
e divido per due. Es: 3,6,7,9,12,13,16,18. Primo quartile= 8/4=2. Risultato +1=3. Primo
quartile= (6+7)/2= 6,5. Se invece il risultato di numero termini/4 è dispari, prendo in
considerazione il numero intero successivo più vicino. Il termine in corrispondenza di quel
numero sarà il primo quartile.
• Secondo quartile: ½ per numero termini. Per risultato pari e dispari si usano le regole
descritte al punto precedente. Pagina 3 di 9
Appunti di statistica di Federico Vason
• Terzo quartile: ¾ per numero termini. . Per risultato pari e dispari si usano le regole
descritte al punto precedente.
quartili con distribuzioni di frequenze
• Primo quartile: ¼ per tot frequenze. Prendo in considerazione il primo numero intero dopo il
risultato. Es: tot frequenze: 315. Primo quartile= ¼ per 315=78.75. Prendo in
considerazione 79. Il primo quartile è il valore che occupa la posizione 79 della graduatoria
dei termini della distribuzione.
• Per secondo e terzo quartile utilizzo lo stesso ragionamento, facendo però ½ per numero
termini e ¾ per numero termini.
• I decili
Sono le quantità che suddividono la graduatoria dei termini della distribuzione in dieci parti della
stessa numerosità. Per Calcolarli: h=l/10 per N; con l=1,2,3,….9.
Come trovare il valore esatto dei quantili quando ci sono le distribuzioni in classi: estremo
inferiore+(amp classe/freq rel)*(alfa-freq cum rel precedente a quella di alfa)
La Variabilità
La variabilità è l’attitudine del fenomeno di assumere valori diversi. Non c’è nessuna misura di
variabilità che va sotto lo 0. Quando la variabilità è uguale a 0 significa che tutti i valori sono uguali.
Come calcolare la variabilità?
1. RANGE: si calcola se il carattere è quantitativo. Si fa la differenza tra il valore massimo e il
valore minimo. Il difetto del range è che si basa solo sugli estremi; è estremamente
sensibile ai dati estremi, ai dati anomali.
2. DIFFERENZA INTERQUANTILE: tolgo il 25% dei dati agli estremi; quindi faccio il range tra
il terzo quartile e il primo quartile.
Un grafico per visualizzare in modo efficace la variabilità e vedere se la distribuzione è simmetrica
o asimmetrica è il box plot.
Misure di variabilità che tengono conto di più dati
1. DIFFERENZA MEDIA: la differenza media è la media delle differenze. Devo confrontare i
valori a coppie e confrontare le differenze in valore assoluto. Es:
10 30 40
0 20 30
10 20 0 10
30 30 10 0
40 Pagina 4 di 9
Appunti di statistica di Federico Vason
Somma delle differenze= 120.
• Differenza media semplice: somma delle differenze/n°differenze>0. Es: 120/6=20
• Differenza media con ripetizione: somma delle differenze/tot valori tabella. Es: 120/9=13.3
2. SCARTO SEMPLICE MEDIO:
L’utilità dello scarto medio è vedere se i dati stanno vicini o lontani dal centro. Nel caso
dello scarto semplice medio, è utile utile utilizzarlo per calocare lo scarta dalla mediana.
2 2
3. VARIANZA (σ 1/n*∑xi -µx
2 ):
4. SCARTO QUADRATICO MEDIO (σ): 2
√ σ
Lo scarto quadratico medio è utile per calcolare lo scarto dalla media.
La variabilità relativa
• R/media
• Coefficiente di variazione (cv): scarto quadratico medio/media
• Differenza interquantile/mediana
Regressione lineare o perequazione
Il modello di regressione lineare consiste nell’assumere che la funzione matematica f(x), che
descrive la dipendenza di y da x, sia l’equazione della retta. Su questa base, la relazione statistica
diviene: y = mx+q, dove m e q sono i parametri della funzione. In particolare, m è il coefficiente
angolare della retta e q è l’intercetta. La retta di regressione passa per il baricentro della
distribuzione doppia, cioè per il punto di coordinate (µx;µy).
METODO DEI MINIMI QUADRATI: con questo metodo si assegnano all’intercetta e al coefficiente
angolare della retta i valori per cui è minima la somma delle differenze al quadrato tra le
osservazioni reali di Y e le previsioni che si desumono dalla retta. Per trovare i parametri
dell’equazione della retta di regressione devo risolvere il seguente sistema:
q+m*xmedio=ymedio
2
q*∑x+m*∑x =∑x*y
In alternativa al sistema posso utilizzare le seguenti formule:
1 xi∗ yi−µ x∗µ y
∗∑
N covarianza
m = =
1 varianza
xi2−µx2
∗∑
N
q = ymedio-m*xmedio Pagina 5 di 9
Appunti di statistica di Federico Vason
l’y teorico lo trovo facendo y=mx+q
Le differenze tra i valori effettivi e i valori teorici di y sono detti residui. La loro somma è uguale a 0.
L’equazione della retta traslata (asse x) la trovo facendo: y=mx+q’; con q’=µy
Traslando sia x che y invece ottengo: y=mx
Correlazione lineare:
Il termine è riferito alla relazione tra due caratteri quantitativi. Data una distribuzione in forma
disaggregata, si dice che tra i due caratteri X e Y vi è correlazione positiva o concordanza quando
essi tendono a crescere o decrescere insieme. Si ha correlazione negativa o discordanza quando
al crescere di un carattere l’altro tende a decrescere.
CO-DEVIANZA: σ xy ¿
CO-VARIANZA( = 1/n*∑xi*yi - µx*µy. La covarianza può anche essere ottenuta dividendo
la codevianza per n.
La covarianza rappresenta la media con segno delle aree dei rettangoli o