Estratto del documento

Boxplot

Si tratta di una rappresentazione grafica che mostra tutte le caratteristiche della distribuzione. Vengono visualizzati il minimo, il primo quartile, la mediana, il terzo quartile e il massimo. Il primo e il terzo quartile e la mediana sono rappresentati da segmenti orizzontali e paralleli, aventi la stessa lunghezza, collocati verticalmente ad altezze pari al loro rispettivo valore. Le estremità laterali sono unite da due segmenti verticali a formare una scatola. Il lato inferiore è unito da un segmento di retta perpendicolare che va dal punto medio del lato in questione al punto minimo. Queste estensioni sono chiamate baffi. Nel diagramma a ramo foglia ho i caratteri separati da una retta e ho i valori che si leggono: 11, 12, 20, 25, ecc. I baffi possono non esserci se il minimo e il primo quartile sono uguali. Se i dati sono simmetrici, la mediana è al centro della scatola. Se, invece, i dati sono asimmetrici, la mediana sarà più vicina alla parte superiore o a quella inferiore.

La scatola rappresenta la variazione dei dati attesa e si estendono per 1,5 volte dall'IQR (scarto interquartile) dalla parte superiore e inferiore della scatola. Se i dati non arrivano fino alla fine dei baffi, significa che i baffi si estendono fino ai valori di dati minimi e massimi. Se, invece, i dati ricadono sopra o sotto la fine dei baffi, sono rappresentati come punti, denominati spesso outlier. Un outlier è più estremo della variazione attesa. Esiste una seconda versione del boxplot dove i baffi sono proporzionali alla scatola allo scopo di evidenziare gli eventuali dati anormali. Infine, la terza versione consiste nel tirare i baffi fino al 10° e 90° percentile per avere informazioni su tempo e variabilità, in particolare si aggiungono il 2,5°, 10°, 90° e 97,5°.

Disuguaglianza di Chebyshev: data una qualsiasi distribuzione statistica con media e deviazione standard μ e σ, sia I(δ) l'insieme dei termini della distribuzione che distano al massimo δ deviazioni standard dalla media. Allora, la probabilità che un termine scelto a caso appartenga a I(δ) è almeno 1 - 1/δ2.

distribuzione stessa definita come: I(δ) = {x: μ-δ<x<μ+δ} dove δ è una quantità positiva arbitraria e δ>σ. Allora la frequenza relativa dei termini che si trovano nell'insieme soddisfa (immagine). Il primo membro della disuguaglianza è la frazione totale dei termini della distribuzione che presentano una distanza dalla media inferiore a δ. Bisogna specificare che la disuguaglianza dà informazioni valide solo se δ>σ, ciò assicura che il secondo membro assuma un valore positivo, nel caso la distribuzione sia già nota è inutile usare tale disuguaglianza infatti possiamo calcolare le percentuali senza fare approssimazioni. Se aumenta il raggio l'intervallo è più lungo e la frequenza aumenta; se aumenta δ l'intervallo è meno lungo e il minimo aumenta. Esiste una seconda versione con intervallo in unità di σ. Data una

La distribuzione arbitraria X con media e deviazione standard rispettivamente μ e σ e dato un intervallo intorno alla media di raggio kσ si dimostra che. Si ottiene dalla versione 1 ponendo δ=kσ. Qualunque sia la forma della distribuzione una proporzione di almeno 1-1/k^2 dei valori sta entro k deviazioni standard dalla media k>=1. Se k=1 allora 1-1/1^2=0 quindi, nell'intervallo μ+-1σ ci sta almeno lo 0% delle osservazioni. Con k=2 allora 1-1/2^2=75%, prendo la media e sottraggo 2σ in questo intervallo ci stanno almeno il 75% delle osservazioni senza conoscere la forma della distribuzione. Con k=3 viene 89%. Se conosco solo media e deviazione posso fare affermazioni circa la distribuzione delle frequenze.

Regola empirica: nella distribuzione normale se vado a calcolare l'area compresa tra la media e 1,2,3σ noto che le aree saranno: 0,68 0,95 0,997 e per differenza i valori che distano dalla media più di tre volte dalla deviazione.

Sono l 0,003. Distribuzione normale è un modello teorico dato che tutti i dati sono discreti. Se l'istogramma ha una forma campanulare allora i dati hanno una distribuzione approssimativamente normale (gaussiana), in tal caso le frequenze viste poco sopra vengono dette regola empirica: se i dati hanno una forma campanulare e se conosco media e deviazione posso affermare che nell'intervallo μ±1σ trovo circa il 68% delle osservazioni e così anche per altri (con 2σ e 3σ). Si dice "circa" perché è qualcosa di teorico, i dati sono discreti non continui. Quasi tutti i valori stanno in un intervallo di lunghezza 6σ: tale strategia consiste nell'organizzare l'attività produttiva perseguendo l'obiettivo di livelli eccellenti di qualità per ridurre al minimo i prodotti difettosi, si tratta di controllare la variabilità del processo in modo che il numero di pezzi difettosi sia dell'ordine.

del 6,8 per milione di pezzi prodotti. Tale frazione è la frequenza relativa con cui si presenta un valore esterno a (μ-4,5σ; μ+4,5σ) nella curva gaussiana. Ecco le differenze tra Chebyshev e quella empirica la quale è più informativa ma si usa solo con distribuzioni campanulari.

Standardizzazione: è una speciale trasformazione dei dati tale che vedi figura. Dopo la standardizzazione la media è 0 e la deviazione 1, infatti prima si aggiunge –μ e poi si moltiplica per 1/σ in modo tale da avere media 0 e deviazione 1. Per la regola empirica i valori minori di -3 e maggiori di 3 sono anormali e la standardizzazione è utile per confrontare distribuzioni con diversa media e deviazione standard. Essa consente di confrontare valori con diverse unità di misura e distribuzioni con medie e deviazioni molto diverse.

Anteprima
Vedrai una selezione di 3 pagine su 6
Gli indici di forma Pag. 1 Gli indici di forma Pag. 2
Anteprima di 3 pagg. su 6.
Scarica il documento per vederlo tutto.
Gli indici di forma Pag. 6
1 su 6
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher cocco0 di informazioni apprese con la frequenza delle lezioni di Statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Firenze o del prof Grilli Leonardo.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community