vuoi
o PayPal
tutte le volte che vuoi
VARIABILI NUMERICHE
GRAFICO PER SERIE STORICHE: viene usato per rappresentare i valori di una variabile nel tempo.
DISTRIBUZIONI DI FREQUENZE: tabelle contenenti classi di intervallo e le corrispondenti frequenze, ciascuna classe ha la stessa ampiezza, che si determina: valore max - valore min / numero di classi.
ISTOGRAMMA: è il grafico dei dati contenuti in una distribuzione di frequenze, nell'asse verticale viene rappresentata la frequenza (relativa o percentuale) nell'asse orizzontale sono rappresentati gli intervalli con eguale altezza.
OGIVA: rappresenta con una spezzata le frequenze cumulate, cioè la somma delle frequenze relative fino alla i-esima intensità (classi).
DIAGRAMMA RAMO-FOGLIA: Mostra la forma dei dati e identifica gli outlier. La struttura di questi diagrammi è così composta: il ramo è collocato nella parte sinistra e mostra il primo numero di ogni cifra. A destra è invece presente la foglia.
cui scopo principale è quello dimostrare i numeri rimanenti di ogni cifra.
IDENTIFICARE GLI INDICI:
INDICI DI POSIZIONE: misure di tendenza centrale
- MEDIA: MODA: MEDIANA
La misura di tendenza centrale è il valore che si presenta più frequentemente, può essere influenzata da valori esterni (outliers); utilizzata sia per dati categorici che per dati numerici. Non è influenzata da valori esterni, è un indice più robusto.
- QUANTILI: valori che bipartiscono la distribuzione delle intensità/modalità in due gruppi disgiunti.
- Q1 primo quartile: la funzione di ripartizione è 0,25, occupa la posizione 0,25 x n+1 nella successione ordinata delle intensità
- Q2 mediana: valore centrale, F= 0,5
- Q3 terzo quartile: la funzione di ripartizione è 0,75, occupa la
posizione 0,75 x n+1 nellasuccessione ordinata della intensità.
INDICI DI VARIABILITA’
La VARIABILITA’ è l’attitudine di un fenomeno ad assumere diverse intensità. Un indice di variabilitàè sempre maggiore o uguale a zero. Le misure di variabilità forniscono informazioni sulla dispersioneo variabilità dei valori.
CAMPO DI Detto anche range, è la più semplice misura di variabilità, ed è la differenza traVARIAZIONE il massimo e il minimo dei valori osservati. CV= X max – X min. sebbene misurila variabilità totale dei dati non ne misura in modo soddisfacente la dispersionein quanto è influenzata dagli outliers (valori anomali molto grandi o moltopiccoli).
DIFFERENZA Elimina il problema degli outlier, calcola il campo di variazione del 50% delleINTERQUARTILE osservazioni. IQR = Q3- Q1
VARIANZA calcola la variabilità e la dispersione delle osservazioni rispetto alla media,
è un indice al quadrato. tanto più piccola è la varianza tanto più i valori della variabile sono concentrati nella media.
S.Q.M è un indice di variabilità assoluta, rappresenta la radice quadrata della varianza ed è un modo per esprimere la dispersione dei dati intorno alla media. Ha la stessa unità di misura dei dati grezzi/originali; infatti, rappresenta una stima non distorta ed è per questo motivo che è preferibile alla varianza.
Se Y ha s.q.m maggiore di X, allora Y è più variabile di X.
COEFFICENTE DI Misura la variabilità relativa, può essere espresso anche in percentuale,
VARIAZIONE mostra la variabilità relativa rispetto alla media, può essere usato per confrontare due o più caratteri statistici con unità di misura diversa.
NB: Dato che la varianza è una quantità di secondo grado mentre Lo scarto quadratico medio (o deviazione standard) è la
la percentuale di dati che si trovano entro un certo numero di scarti quadratici medio dalla media. La disuguaglianza di Chebyshev afferma che almeno 1 - 1/k^2 dei dati si trova entro k scarti quadratici medio dalla media, dove k è un numero maggiore di 1. Questa disuguaglianza è utile per valutare la dispersione dei dati in modo generale, senza fare ipotesi sulla forma della distribuzione.approssimativamente la percentuale di osservazioni comprese attorno alla media. almeno(1 – 1/K^2) 100% dei valori cadranno entro K scarti quadratici medi della media (per K>1). esempio:K=1, almeno 0%; K=2, almeno 75%; K=3, almeno 89%; e così via...Quando abbiamo a che fare con popolazioni reali, molto numerose, che presentano distribuzioni approssimativamente simmetriche, con forma campanulare, seguiremo la regola empirica. la regola empirica fornisce una valutazione della percentuale approssimata di osservazioni il cui scostamento, in più o in meno dalla media, è pari al massimo a una, due o tre volte lo scarto quadratico medio: approssimativamente il 68% delle osservazioni sono nell'intervallo μ±1σ; approssimativamente il 95% delle osservazioni nell'intervallo μ±2σ; quasi tutte le osservazioni (99,73%) sono nell'intervallo μ±3σ. BOX PLOT, grafico a scatola➢Permette: di rappresentaregraficamente la forma di una distribuzione; di visualizzare informazioni sulla variabilità di una distribuzione; e di confrontare graficamente la forma di più distribuzioni. È costruito sulla base dei cinque numeri di sintesi. Il valore minimo, il primo quartile, la mediana, il terzo quartile e il valore massimo. Si tratta di un diagramma che contiene una scatola interna, con estremi Q1 e Q3, in cui l'ampiezza è uguale alla differenza interquartile. I baffi sono le linee che vanno dal valore minimo a Q1 e da Q3 fino al massimo. I baffi sono alfa e beta. I valori oltre alfa e beta, sono disegnati con dei puntini e costituiscono i valori anomali. INDICI DI MUTABILITÀ: - La MUTABILITÀ è l'attitudine di un fenomeno ad assumere diverse modalità. - DISTRIBUZIONE MASSIMAMENTE OMOGENEA: le n unità statistiche presentano tutte la stessa modalità. - DISTRIBUZIONE MASSIMAMENTE ETEROGENEA: nella distribuzione di frequenzeappaionotutte le k modalità, a ognuna di esse è associata la medesima frequenza.
INDICE DI ETEROGENEITÀ DI GINI INDICE DI ENTROPIA DI SHANNON: è compreso tra 0 e 1 e ci dice se una distribuzione è omogenea o eterogenea. Tramite la normalizzazione del risultato, sarà sempre un numero compreso tra 0 e 1.
INDICI DI FORMA:
- FORMA DELLA DISTRIBUZIONE: l'obbiettivo dello studio della forma della distribuzione è misurare se la distribuzione è simmetrica oppure di quanto essa si discosta dalla situazione di simmetria. Gli indici di forma forniscono informazioni sulla forma della distribuzione, se è simmetrica, asimmetrica positiva o negativa.
- INDICE DI ASSIMETRIA DI FISHER: calcola la forma della distribuzione, se forma simmetrica unimodale, mostra una curva più piatta o più appuntita rispetto a una normale.
- INDICE DI CURTOSI: serve per verificare se una distribuzione mostra una curva più piatta o più appuntita rispetto a una normale.
asimmetria negativa Se AKF= 0 distribuzione normale, simmetricaL'indice di Fisher è compreso tra meno infinito Se AKF > 0 distribuzione leptocurtica, più e più infinito. stretta e lungaSe AKF <0 distribuzione platicurtica, più bassa elarga.
STUDIARE LE RELAZIONI STATISTICHE TRA DUE O PIÙ CARATTERI
TABELLA A DOPPIA ENTRATA
È una tabella a due variabili, categoriche o ordinali, che permette il confronto tra esse. Una tabella a doppia entrata è costituita da un numero arbitrario di righe e di colonne, all'incrocio delle quali ci sono spazi chiamati celle, nel quale si possono inserire i dati. Permette di analizzare la distribuzione congiunta delle due variabili. A destra della tabella troviamo i totali dei valori delle righe mentre in basso il totale dei valori delle colonne, questi valori costituiscono distribuzioni marginali. La somma dei valori totale delle righe = la somma dei valori delle colonne e la somma si trova
nell'angolo inbasso a destra.
RELAZIONI STATISTICHE PER DISTRIBUZIONI DOPPIE:
- Le relazioni statistiche per distribuzioni doppie possono essere di tre tipi:
- DIPENDENZA O CONNESSIONE: ESISTE UNA RELAZIONE CAUSA EFFETTO TRA DUE CARATTERI.
- Due variabili X e Y si dicono connesse quando la modalità di un carattere influenzano il manifestarsi dell'altro carattere, ovvero la conoscenza della variabile X ci informa della presenza della variabile Y.
- Il Chi-quadrato è l'indice che fornisce una misura della dipendenza o indipendenza tra due variabili. Ci dice in altre parole se le modalità di un certo carattere X possono avere un'influenza sulle modalità di un altro carattere Y.
- Se chi-quadrato è uguale a zero: le variabili sono indipendenti. Se chi-quadrato è diverso da zero, non c'è indipendenza.
- Con l'indice di Phi quadro di Fischer calcoliamo connessione unilaterale di Y da X: per ogni modalità di X esiste solo
Una modalità di Y con frequenza diversa da 0 (righe > colonne) o se esiste una dipendenza bilaterale (n righe = al n delle colonne).
CORRELZIONE O INTERDIPENDENZA: ESISTE UNA RELAZIONE DI DIPENDENZA RECIPROCA ❖ TRA DUE CARATTERI QUANTITATIVI.
L'indice di correlazione (o coefficiente di correlazione lineare) misura la forza, il grado di relazione lineare tra due variabili (X e Y), ossia l'intensità e la direzione delle due variabili. Si calcola con il coefficiente di Bravis Pearson (p) che è un valore compreso tra -1 e +1.
Se p = 0, non c'è correlazione.
Se p = 1, c'è una perfetta correlazione diretta.
Se p = -1, c'è una perfetta correlazione inversa.
Se -1 < p < 0, c'è una correlazione inversa.
Se 0 < p < 1, c'è una correlazione diretta.
Il numeratore di p si denomina covarianza. Esso ci fornisce informazioni su come covariano simultaneamente le due variabili considerate. È un numero compreso tra meno infinito e più infinito.
Se cov = 0, non c'è covarianza.