QUANTILI
Def: indici di posizione che dividono la distribuzione in parti uguali (più parti uguali = più quantili).
Si calcolano in modo equivalente alla mediana, ossia seguendo due passaggi:
1- calcolo della posizione quantilica;
2- verifica valore corrispondente alla posizione quantilica.
Nello specifico per le distribuzioni semplici:
(<)∗
1- (J=il quantile specifico; k=numero di parti nelle quali dividiamo la
=
distribuzione); )
2- formula dell’interpolazione lineare: . . +(. . −. . ∗ . .
Per le distribuzioni di frequenza:
(+<E)∗F
1- ;
= G
2- si guarda dove la POSmediana è contenuta nella Fi.
Per la distribuzione di frequenza in classi:
∗
1- ;
=
2- si osserva la classe quantilica dove la POSmediana è contenuta nella Fi;
(..,.....)∗...
3- formula dell’interpolazione: .
. . . . + ..
INDICI DI VARIABILITA’
Def: classe di indici che pongono in esistenza la dispersione dei dati all’interno della distribuzione rispetto ad
un indice di tendenza centrale, come media e mediana.
1. DIFFERENZA INTERQUARTILE
La IQR pone in evidenza il 50% dei dati della nostra distribuzione addensati attorno alla mediana,
nonché è la differenza tra il terzo e il primo quartile q -q .
à 3 1
Un interessante caratteristica dell’IQR è la possibilità di costruire la box plot, una rappresentazione
grafica che sottolinea cinque elementi fondamentali:
valore più basso = dove si taglia il baffo inferiore;
o primo quartile = lato inferiore della box;
o mediana;
o terzo quartile = lato superiore della box;
o valore più alto = dove si taglia il baffo superiore.
o
La box plot ha l’utilità di mostrare se la distribuzione è più o meno simmetrica, definendo così delle
distribuzioni che tendono a destra (in alto) o a sinistra (in basso).
Inoltre, esiste anche la condizione per cui entrambi i baffi non possono essere più lunghi di una volta
e mezza (1,5 o 3/2) della misura dell’IQR. Se il valore eccede questo limite, il valore eccedente è un
valore outlier e va indicato con un asterisco ad apice.
2. CAMPO DI VARIAZIONE O RANGE
Questo altro non è che la differenza tra il valore più grande e quello di piccolo della distribuzione.
= −
3. SCOSTAMENTO SEMPLICE MEDIO – VARIANZA – DEVIAZIONE STANDARD
Tali indici di variabilità pongono in evidenza la dispersione dei dati della distribuzione rispetto alla
media. ∑| |∗
,
(scostamento semplice medio o scarto medio assoluto).
=
o
∑( )
, ∗
(varianza).
=
o
∑( )
, ∗
Z
√ (deviazione standard o scarto quadratico medio o scarto
= =
o
tipo).
∑( (devianza)
= − ) ∗
o
NB: 2
varianza: S =s ;
o 2
deviazione standard: S=s;
o media:
o ]
campione= ;
§ µ
popolazione = .
§
4. COEFFICIENTE DI VARIABILITA’
Il coefficiente di variazione di un fenomeno X, indicato con CV (X), è un indice di variabilità relativa
dato dal rapporto tra lo scarto quadratico medio ed il valore assoluto della media aritmetica, ossia:
Q .
() = =
|R| |R /|
Poiché deviazione standard e media sono espressi nella stessa unità di misura, il coefficiente di
variazione non dipende più dall'unità di misura usata per il fenomeno studiato, ossia è un numero
puro. Per questa ragione il coefficiente di variazione si usa per confrontare la variabilità dello stesso
fenomeno in popolazioni diverse o la variabilità di fenomeni diversi.
DAI PUNTI Z AGLI INDICI DI FORMA
L’analisi e l’elaborazione dei risultati di un test o di una ricerca, al fine di poter essere correttamente
interpretati e confrontati con outcome di test/ricerche effettuate su diverse distribuzioni, hanno necessità
di essere standardizzati ossia trasformati in punteggi standard.
In tal senso possiamo affermare che il punteggio/risultato di un test/ricerca sarà identificato quale
“punteggio grezzo”; l’attributo grezzo sta ad indicare che con tali punteggi occorre compiere ulteriori
elaborazioni (procedure di standardizzazione) che permettono confronti con esiti conseguiti in altre prove
dagli stessi soggetti o da soggetti diversi.
La trasformazione dei punteggi rende quindi paragonabili dati appartenenti a distribuzioni diverse.
Nel nostro corso indicheremo due metodi di trasformazione:
i punti Z;
§ i punti T (trasformazione lineare dei punti Z… T = 50 + 10Z).
§
Il punto standard, detto anche punto Z, punteggio standardizzato o punteggio tipificato, definisce la posizione
di un soggetto all’interno della sua distribuzione in termini di “quanti scarti tipo sopra o sotto la media” il
soggetto si trova. In sostanza si confronta il dato in termini di performance. Viene calcolato con la formula:
R
,
=
Se Z è positivo il dato “grezzo” (non standardizzato) del soggetto è superiore alla media, viceversa per Z
negativo. Se Z è vicino allo zero, il dato “grezzo” del soggetto è vicino alla media della distribuzione. La media
della distribuzione di tutti i punti Z è pari a zero e lo scarto quadratico medio è pari a 1.
I punteggi Z, a differenza dei valori originari, permettono di confrontare la posizione di un qualunque soggetto
nella distribuzione di un carattere, con la posizione dello stesso soggetto nella distribuzione di un altro
carattere o la posizione di diversi soggetti in differenti distribuzioni.
Nel caso in cui si trasformano i punteggi osservati in punteggi Z si ottiene una particolare curva che ha media
uguale a 0 (μ = 0) e deviazione standard uguale a 1 (σ= 1) ed è chiamata distribuzione normale
standardizzata.
Vantaggi punteggi Z:
i punti Z al di sotto della media avranno segno negativo, quelli corrispondenti alla media saranno
§ pari a 0 e quelli superiori alla media avranno segno positivo;
l’unità di misura utilizzata è pari ad una deviazione standard;
§ punti Z altrimenti detti standard sono posizionati su una scala ad intervalli: è possibile quindi
§ eseguire operazioni matematiche su di essi.
Svantaggi punteggi Z:
non è possibile affidarsi completamente ai punti Z su comparazioni tra prove diverse se la
§ popolazione di riferimento degli studenti considerati non presenta uguali medie e dispersioni negli
obiettivi cognitivi considerati;
il segno negativo è una complicazione nei calcoli;
§ la deviazione standard è una unità di misura piuttosto ampia, se si considera che in una
§ distribuzione normale il 68 % dei punteggi (ossia dal 16 all’84 centile) è compreso tra -1σ e + 1σ
dalla media.
I punti T assegnano convenzionalmente valore 50 alla media e alla deviazione standard valore 10.
La denominazione “punti T” venne data da W.A. McCall nel 1922 in onore del suo professore E.L. Thorndike
(cfr. W.A. McCall, How to measure in Education NY, Macmilian, 1922).
R
, .
= +
La curva Normale o Gaussiana (caratteristiche e regola empirica)
La curva gaussiana, nota anche come distribuzione normale, prende il nome dal matematico tedesco Carl
Friedrich Gauss ed è diventata un pilastro essenziale dell’analisi statistica venendo utilizzata in diverse
discipline.
La curva gaussiana, o distribuzione normale, è una funzione matematica che descrive il modo in cui i dati
sono distribuiti in un insieme. È caratterizzata da una forma simmetrica e dal famoso aspetto a campana,
con la maggior parte dei dati concentrati intorno alla media, i quali si disperdono uniformemente verso i lati.
La funzione è definita da due parametri principali: la media, che rappresenta il centro della distribuzione e la
deviazione standard, che misura la dispersione dei dati.
Curva Normale standardizzata
La curva normale standardizzata, o distribuzione Z, è una distribuzione normale con media uguale a 0 e
deviazione standard pari a 1. Questa standardizzazione permette di confrontare facilmente dati provenienti
da diverse distribuzioni normali, rendendoli confrontabili perché la forma della curva rimane invariata,
cambia solo l'unità di misura.
Al fine di interpretare e correttamente significare i punteggi Z, faremo riferimento alla Tavola della Normale
standardizzata
Indici di forma
Indice di curtosi: pone in evidenza il peso delle code.
§ NB: più la distribuzione si appiattisce (platocurtica), più aumenta la dispersione dei dati rispetto
alla media.
Indice di asimmetria
§ Secondo la teoria delle probabilità, una distribuzione di probabilità è simmetrica quando la sua
funzione di probabilità P (nel caso discreto) o la sua funzione di densità di probabilità (nel caso
continuo) siano simmetriche rispetto ad un particolare valore.
Esempi di distribuzioni simmetriche sono le distribuzioni uniformi (discreta e distribuzione
continua uniforme) su insiemi simmetrici, la distribuzione normale e altre distribuzioni derivate da
distribuzioni simmetriche (la distribuzione t di Student) oppure definite in maniera simmetrica (la
distribuzione di Skellam con parametri uguali).
Un indice di asimmetria (in inglese skewness) di una distribuzione è un valore che cerca di fornire
una misura della sua mancanza di simmetria.
NB: in una distribuzione asimmetrica a destra, la media assume valori maggiori rispetto alla
mediana, contrariamente alla distribuzione asimmetrica a sinistra, nella quale la media assumerà
valori minori rispetto alla mediana.
ACCENNI ALL’INTERVALLO DI FIDUCIA O CONFIDENZA
In statistica, quando si stima un parametro, è spesso insufficiente individuare un singolo valore: è opportuno
allora accompagnare la stima con un intervallo di valori probabili per quel parametro, definito
-
Riassunto esame Statistica, prof. Mecatti, libro consigliato Statistica di base - Come, quando, perché, Fulvia Meca…
-
Riassunto esame Statistica, Docente Mecatti, libro consigliato Statistica di Base. Come, quando e perché, Mecatti
-
Riassunto esame Statistica, prof. Scricciolo, libro consigliato Statistica, Pearson
-
Riassunto esame Statistica, prof. Bove, libro consigliato Statistica per la ricerca sociale, Corbetta, Gasperoni, P…