Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
DIAGRAMMA DI PARETO
Variabili qualitative sconnesse.
LEGGE 80/20 (il 20% delle persone possiede 80% della ricchezza).
Un piccolo insieme di unità statistiche ha la maggioranza delle frequenze o intensità del fenomeno considerato. Non deve sempre necessariamente configurarsi in queste misure.
Poche categorie rappresentano la maggior parte dei casi.
Viene usato in fase esplorativa per mettere in evidenza i problemi più frequenti da affrontare in via prioritaria. Dove intervenire prima. Priorità.
Uso grafico a barre con categorie ordinate in modo decrescente per frequenza.
Es. Motivi di lamentela
Prima operazione da fare è riordinare le categorie in ordine decrescente sulla base delle frequenze.
Trovo subito il problema principale. Legge 80/20. In questo caso in una categoria dovrei avere l'80% delle frequenze. Meteo ha 75,3%, è comunque buono, posso fare lo stesso il diagramma di Pareto anche se la legge non è rispettata.
La spezzata nera è la...
La curva delle frequenze cumulate indica quanto velocemente si cumulano le frequenze. Mette in evidenza le categorie più ricorrenti e importanti, dando loro priorità d'intervento. Tuttavia, con questo modello non è possibile valutare la distribuzione. Questo elemento deve sempre essere lasciato per ultimo, anche se potrebbe non essere il più piccolo. È possibile utilizzarlo anche per un'analisi dei costi, associando i costi ai problemi e intervenendo su quelli che potrebbero portare costi maggiori.
È possibile utilizzare la curva delle frequenze cumulate anche per analisi temporali. Prima dell'intervento, si costruisce il diagramma per capire dove intervenire. Dopo l'intervento, si rifà il diagramma per valutare se l'intervento ha avuto gli effetti desiderati. In questo modo, il problema non dovrà più essere il primo.
La curva delle frequenze cumulate può essere utilizzata anche per fare approfondimenti e stratificazioni, analizzando le sottocategorie.
Prendo la categoria più ricorrente e spacchetto in sottocategorie che sono più utili per focalizzare l'attenzione nella risoluzione dei problemi. Nel nostro esempio prenderò il traffico perché purtroppo sul meteo non posso intervenire. I problemi sul traffico sono relativi a cosa? In partenza o arrivo, per gli impianti, per gli spostamenti. La sommatoria delle sottocategorie mi darà la frequenza assoluta della categoria spacchettata. Agendo sulle sottocategorie andrò a migliorare la categoria interessata. Prevalentemente si usa per analizzare i problemi, anche se, si può usare anche per altro (es. ambito bancario, poste). ISTOGRAMMA Grafico ideale per variabili quantitative continue e discrete. No variabili qualitative. Sarebbe meglio avere almeno 75 unità statistiche osservate, anche se son meno va bene comunque. La variabile è meglio se ordinata per classi di ampiezza diversa. Uso per esplorare o studiare la distribuzione dei.dati.Asse x: modalità (ampiezza classe)
Asse y: densità di frequenza e la calcolo facendo:
Frequenza tot della classe/ampiezza della classe
La frequenza sarà l'area del rettangolo ed è data da densità di frequenza * ampiezza classe. L'AREA sarà FREQUENZA
Trovo il punto centrale di ciascuna classe, lo collego con estremo superiore del rettangolo, congiungo i punti centrali e ottengo il poligono di frequenza, spezzata che suggerisce l'idea della distribuzione. L'area sotto il poligono o poligonale di frequenza mi darà la somma delle frequenze totali.
Mette in evidenza forma e simmetria della distribuzione e consente di avere un'idea della variabilità (o dispersione) che i dati presentano. Evidenzia la classe con maggiore densità di frequenza, chiamata classe modale.
Homework
- Come impostare le classi?
Numerosità campione (14) rdq(14)=3.7 → fatto 4 classi
Con questo modo posso trovare un
Calcolo la densità di frequenza delle classi• Che informazioni si possono trarre?
Si ottiene un’idea approssimativa della distribuzione, è abbastanza simmetrica. Sottola poligonale di frequenza l’area è uguale alla somma delle frequenze assolute 14.
L’area del primo rettangolo corrisponde alle frequenze associate a quella classe.
SERIE STORICHE
Grafico per studiare fenomeni che cambiano nel tempo. Ideale per variabili quantitativediscrete o continue. Variabili checambiano nel tempo.
Evidenzia l’andamento: trend, ciclo,stagionalità, variabilità, shock, outlier,confronti, …
Sistema di assi cartesiani:
Asse X: tempo, uso istanti temporaliequistanziati.
Asse Y: Intensità variabile X
Unendo le coordinate (t;x) trovo laspezzata, che mette in evidenza lavariabilità del fenomeno nel tempo.
La finalità del grafico è quello di poter
fare un'analisi delle relazioni tra le variabili.scoprire il reale legame tra le due variabili.
68Grafico:
- a) VARIABILI INCORRELATE
- b) CORRELAZIONE POSITIVA DEBOLE
- c) CORRELAZIONE POSITIVA MODERATAMENTE FORTE, RELAZIONE LINEARE
- d) RELAZIONE LINEARE POSITIVA FORTE
- e) CORRELAZIONE PERFETTA
- f) CORRELAZIONE ASSOLUTA DEBOLE NEGATIVA, NON è LINEARE
- g) CORRELAZIONE POSITIVA FORTE, NO LEGAME LINEARE
- h) CORRELAZIONE NEGATIVA, LEGAME LINEARE PERFETTO
- i) CORRELAZIONE FORTE NEGATIVA
BOX-PLOT
2 Versioni: verticale o orizzontale
Abbiamo solo un'asse quantitativo, l'ampiezza del boxplot è arbitraria.
Gli estremi del Box sono il primo e il terzo quartile. La linea in mezzo è il secondo quartile o mediana.
Alla sinistra di Q1 avremo il 25% degli altri dati, a destra il 75% dei restanti dati.
Il 50% delle osservazioni sono dentro la scatola.
69Prima di definire i quartili bisognerà ordinare i dati in ordine crescente per la variabile considerata. Una volta ordinati i dati potrà analizzarli, trovare quartili e costruire box
plot.I baffi sono Min e Max
Q3-Q1 = estensione della scatola IQR (distanza interquartilica)
La versione più comune dei baffi ha lunghezza pari a 1,5 volte la distanza interquartilica. Io però non prendo la versione teorica ma la taglio in presenza dei massimi e dei minimi delle osservazioni.
Gli Outliers vanno fuori dall’estremo dei baffi. Si possono evidenziare gli Outliers potenziali, i quali cadono all’interno dell’estensione dei baffi, vengono evidenziati con croci (*).
La mediana se fosse al centro della scatola evidenzierebbe una distribuzione di tipo simmetrico, questo difficilmente accade, e quindi la mediana non sarà in mezzo alla scatola ma spostata verso un lato e in questo caso avremo una distribuzione asimmetrica positiva (spostata verso il 3Q) o negativa (spostata verso 1Q).
(Q1+Q3)/2 = CS → Centro di simmetria
Posso usarlo solo per variabili quantitative discrete o continue. Guardando la dimensione della scatola, possiamo evidenziare la
Variabilità dei dati, più elevata è la dimensione e maggiore sarà la variabilità dei dati. Mette in evidenza Outlier fuori dai baffi o Outliers potenziali sui baffi. Ci dà un'idea della simmetria, media dei dati. Si possono fare comparazioni tra gruppi di unità statistiche, ottimo per confronti tra distribuzioni. Gli outliers è sempre meglio evidenziarli, dire quali sono e se sono positivi o negativi. Gli outliers hanno una probabilità di essere osservati dello 0,35%.
Per farlo in excel: Inserisci → Grafico → Scatola a Baffi
NORMAL PROBABILITY PLOT
Studiando la distribuzione di probabilità capisco se la distribuzione è normale. Fa parte della famiglia dei Q-Q plot, usati per confrontare due distribuzioni o una distribuzione con una distribuzione di riferimento (teorica).
SCOPO: confrontare una distribuzione empirica-osservata su un numero di unità statistiche con una distribuzione di tipo teorico
(normale). Posso costruirlo solo per variabili quantitative. La distribuzione dei dati è normale o no? Siamo in un sistema di assi cartesiani. Asse x: dati ordinati x (i) Asse y: quantili teorici di una distribuzione Z → distribuzione normale standardizzata (per ogni osservazione x faccio: (x-media/dev std)) Il grafico rientra nella famiglia dei grafici a dispersione o scatterplot. La linea di riferimento per capire se la distribuzione è normale, generalmente interpola o meglio congiunge il primo e il terzo quartile per entrambe le distribuzioni. La chiave di lettura è avere una buona sovrapposizione della nuvola dei punti sulla linea di riferimento. Se sono sovrapposti potremo concludere che siamo in presenza di una distribuzione normale. Giudicando la conformazione della nuvola dei punti potremo capire che tipo di distribuzione ho nei dati. 70 In questo caso ho su asse x i quantili teorici, mentre su asse y ho i dati ordinati. Distribuzione normale Andando da sinistra versoGRAFICI PER RAPPRESENTARE I DATI