Uso dei grafici
Grafici e tipi di dati
- Torta - Qualitativo nominale
- Barre - Qualitativo ordinale: es. scuola obbligo < diploma < laurea triennale < titolo post laurea
- Bastoncini - Quantitativo discreto
- Istogramma - Quantitativo continuo
- Scatter plot/grafici a dispersione - 2 fenomeni quantitativi (matrice)
- Grafico a bolle - 2 fenomeni quantitativi (tabella congiunta)
Scale di modalità
1) Qualitative
Si manifestano attraverso attributi o categorie.
- X: Genere
- Y: Squadra
- S: Titolo di studio
- Qualitativo ordinale: rilevabili con scala qualitativa ordinale. Es. scuola obbligo < diploma < laurea triennale < titolo post laurea.
- Qualitativo categoriale: rilevabile con scala qualitativa sconnessa. Es. Sì/No, Vero/Falso, Femmina/Maschio.
2) Quantitative
Si manifestano attraverso numeri o quantità.
- Numero accessi in un dato giorno
- Temperatura massima nel giorno x
- Quantitativo di rapporto: es. numero di accessi ad un sito: 0 (nessuno), 1, 2, 3
- Quantitativo di non rapporto: es. da 0° a 100° dove lo 0° non rappresenta l’assenza ma un valore (non consentono la divisione).
Sotto categorie
- Fenomeni continui: si rilevano mediante la misurazione.
- Fenomeni discreti: si rilevano mediante conteggio/enumerazione. Es. numero di esami registrati, numero furti motorini.
Frequenze e variabilità
La frequenza assoluta di ciascuna modalità osservata xi è il numero di unità statistiche che, fra le N osservate, manifesta quella modalità xi di X.
La variabile statistica è un insieme di k coppie del tipo “modalità frequenza”, le modalità possono avere natura varia mentre le corrispondenti frequenze sono numeri interi positivi o nulli, la cui somma riproduce la numerosità N di U. cΣvs= f ii=1
La frequenza relativa è il rapporto (divisione) fra la frequenza assoluta di xi e la numerosità N. p f ii= N F
Le frequenze cumulate sono la somma delle frequenze assolute o la somma delle frequenze relative iIl.
Il valore centrale si calcola nei fenomeni quantitativi continui quando la frequenza all’interno dell’intervallo è ignota. x x+l Lx =i 2
La densità di frequenza di un intervallo è la frequenza di un intervallo depurata dall’influenza dell’ampiezza. f iΦ =i x x+L l.
Moda, mediana e media aritmetica
La moda è la modalità a cui è associata la frequenza più elevata tra le frequenze relative p. La moda nei fenomeni continui quantitativi continui è sugli intervalli.
La mediana di X è la modalità che, nell’ordinamento, occupa la posizione centrale, divide l’ordinamento in due gruppi ugualmente numerosi.
La media aritmetica è il valore medio conosciuto c1 Σx x f = i iN i=1
Proprietà della media aritmetica:
- Proprietà di internalità: il valore della media aritmetica è sempre compreso tra la più piccola e la più grande delle modalità osservate di X.
- Proprietà di omogeneità: se X e Y sono due fenomeni diversi ma collegati fra loro dalla formula: Y=aX dove a è un qualsiasi numero diverso da 0, si dice che Y è una trasformazione di scala di X; la media aritmetica di Y si ottiene dalla media aritmetica di X con la stessa identica trasformazione cioè: y x =a x.
- Proprietà associativa: la media di X è sempre raggiungibile dai dati aggregati, basta calcolare la media delle medie delle sottopopolazioni. Si tratta di usare le medie parziali al posto delle modalità di e le numerosità parziali al posto delle frequenze. r1 Σx x N = Σ j jN j=1
- Proprietà di linearità: se X e Y sono due fenomeni diversi ma legati dalla formula Y=a+bX con a e b numeri reali qualunque b diverso da 0, si dice che Y è una trasformazione lineare di X. La media aritmetica di Y si ottiene dalla media aritmetica di X con la stessa identica trasformazione cioè: y x =a+b x.
- Proprietà di annullamento degli scarti: i valori sopra e sotto media si compensano, cioè se si sommano tutti i k scarti ponderati si ottiene sempre 0. Questa proprietà è valida solo per la media aritmetica. cΣ x x f( )= 0i ii=1
- Proprietà di mantenimento e di equidistribuzione del totale: la somma di tutti i valori di X su tutte le N unità osservate prende il nome di totale di X. cΣ x f di X su U=Totalei ii=1
Variabilità
Si considerano solo i fenomeni quantitativi. La variabilità o dispersione di X è l'attitudine di un fenomeno quantitativo a manifestarsi, sulle N unità di U, con modalità fra loro diverse e distanti.
Il range è una misura assoluta di variabilità, infatti:
- Vale 0 se la v.s. è degenere cioè quando X si manifesta con un'unica modalità, perciò x =xmax min x x
- Assume valori positivi quando X si manifesta con più modalità diverse e perciò . In max min x x questo caso il valore assunto dal range cresce all’aumentare della differenza fra e max min cioè all’aumentare della variabilità di X
Deviazione standard o scarto quadratico medio di X
Misura la variabilità di X considerando la dispersione dei suoi valori intorno al suo valor medio. σ è espresso nella stessa unità di misura con cui è rilevato X e in cui è espressa la media. Ci dice che X si manifesta su U con valori che in media distano da x medio per ±σ.
√ c1 Σσ x x ² f( )= - =¿i iN i=1 √ c1 Σ 2x f x ²-¿i iN i=1
La varianza è una misura di variabilità, vale 0 in caso di assenza di variabilità e assume valori positivi e crescenti all’aumentare della variabilità di X in U. Non è una buona misura di variabilità: l’ordine di grandezza e l’unità di misura sono alterati dal quadrato.
c1 Σ2σ x x ² f( )= - ¿i iN i =1 c1 Σ 2 2x f x-¿i iN i=1
La devianza è una misura di variabilità, vale 0 in assenza di variabilità e assume valori positivi e crescenti al crescere della variabilità. Non è una buona misura di variabilità perché è al quadrato. In più è un totale di quadrati anziché una media perché non essendo divisa per N non è mediata su tutta U.
cΣ2N σ x x ² f( )= - x i ii=1
Coefficiente di variazione
Il cv è un indice puro cioè senza unità di misura, è confrontabile fra fenomeni con diverso ordine di grandezza e diversa unità di misura oppure rilevati su popolazioni diverse. È inoltre valutabile come percentuale della media.
σcv= x x =40.625 σ =18.23 cv=0,449
L’età di X presenta variabilità su U che le età dei giurati sono disperse intorno all’età media 40,625 mediamente per ±18.23 anni. La variabilità di X su U è il 44,9% dell’età media. Il cv è risultato minore di 1, cioè non siamo in grado di stabilire se il criterio adottato dagli organizzatori per formare la giuria rispetta la regola “variabilità non inferiore al 50%”.
Tabella di massima variabilità
Per avere la percentuale di variazione di σ in se e non sulla media bisogna ottenere la deviazione max dalla tabella di massima variabilità:
N xi x( )- max f = xi - xi max min
Normalizzazione di σ
σ ← calcolato su tabella osservata σ ← calcolato su tabella teorica max
Frequenze congiunte e marginali
Le frequenze congiunte sono il risultato della somma all’incrocio della i-esima riga e la j-esima colonna e sono chiamate fij. rΣ f =¿ijj=1
cΣ ¿i =1 c rΣ Σ f =Niji=1 j=1
Le frequenze marginali sono la somma della riga o della colonna Frequenze marginali di X. f frequenze marginali di Y. .j f i.
Le frequenze marginali relative di X . Nf i. =¿ NcΣ ¿i=1 c1 1Σ f · N= =1i.
-
Riassunto esame Statistica, prof. Mecatti, libro consigliato Statistica di base - Come, quando, perché, Fulvia Meca…
-
Riassunto esame Statistica, Prof. Fago Carmine, libro consigliato Statistica di base. Come, quando, perché, Mecatti
-
Riassunto esame Statistica, prof. Scricciolo, libro consigliato Statistica, Pearson
-
Riassunto esame Statistica, prof. Bove, libro consigliato Statistica per la ricerca sociale, Corbetta, Gasperoni, P…