Anteprima
Vedrai una selezione di 3 pagine su 6
Gli indici di forma Pag. 1 Gli indici di forma Pag. 2
Anteprima di 3 pagg. su 6.
Scarica il documento per vederlo tutto.
Gli indici di forma Pag. 6
1 su 6
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

Boxplot

Si tratta di una rappresentazione grafica che mostra tutte le caratteristiche della distribuzione. Vengono visualizzati il minimo, il primo quartile, la mediana, il terzo quartile e il massimo. Il primo e il terzo quartile e la mediana sono rappresentati da segmenti orizzontali e paralleli, aventi la stessa lunghezza, collocati verticalmente ad altezze pari al loro rispettivo valore. Le estremità laterali sono unite da due segmenti verticali a formare una scatola. Il lato inferiore è unito da un segmento di retta perpendicolare che va dal punto medio del lato in questione al punto minimo. Queste estensioni sono chiamate baffi. Nel diagramma a ramo foglia ho i caratteri separati da una retta e ho i valori che si leggono: 11, 12, 20, 25, ecc. I baffi possono non esserci se il minimo e il primo quartile sono uguali. Se i dati sono simmetrici, la mediana è al centro della scatola. Se, invece, i dati sono asimmetrici, la mediana sarà più vicina alla parte superiore o a quella inferiore.

La scatola rappresenta la variazione dei dati attesa e si estendono per 1,5 volte dall'IQR (scarto interquartile) dalla parte superiore e inferiore della scatola. Se i dati non arrivano fino alla fine dei baffi, significa che i baffi si estendono fino ai valori di dati minimi e massimi. Se, invece, i dati ricadono sopra o sotto la fine dei baffi, sono rappresentati come punti, denominati spesso outlier. Un outlier è più estremo della variazione attesa. Esiste una seconda versione del boxplot dove i baffi sono proporzionali alla scatola allo scopo di evidenziare gli eventuali dati anormali. Infine, la terza versione consiste nel tirare i baffi fino al 10° e 90° percentile per avere informazioni su tempo e variabilità, in particolare si aggiungono il 2,5°, 10°, 90° e 97,5°.

Disuguaglianza di Chebyshev: data una qualsiasi distribuzione statistica con media e deviazione standard μ e σ, sia I(δ) l'insieme dei termini della distribuzione che distano al massimo δ deviazioni standard dalla media. Allora, la probabilità che un termine scelto a caso appartenga a I(δ) è almeno 1 - 1/δ2.

distribuzione stessa definita come: I(δ) = {x: μ-δ<x<μ+δ} dove δ è una quantità positiva arbitraria e δ>σ. Allora la frequenza relativa dei termini che si trovano nell'insieme soddisfa (immagine). Il primo membro della disuguaglianza è la frazione totale dei termini della distribuzione che presentano una distanza dalla media inferiore a δ. Bisogna specificare che la disuguaglianza dà informazioni valide solo se δ>σ, ciò assicura che il secondo membro assuma un valore positivo, nel caso la distribuzione sia già nota è inutile usare tale disuguaglianza infatti possiamo calcolare le percentuali senza fare approssimazioni. Se aumenta il raggio l'intervallo è più lungo e la frequenza aumenta; se aumenta δ l'intervallo è meno lungo e il minimo aumenta. Esiste una seconda versione con intervallo in unità di σ. Data una

La distribuzione arbitraria X con media e deviazione standard rispettivamente μ e σ e dato un intervallo intorno alla media di raggio kσ si dimostra che. Si ottiene dalla versione 1 ponendo δ=kσ. Qualunque sia la forma della distribuzione una proporzione di almeno 1-1/k^2 dei valori sta entro k deviazioni standard dalla media k>=1. Se k=1 allora 1-1/1^2=0 quindi, nell'intervallo μ+-1σ ci sta almeno lo 0% delle osservazioni. Con k=2 allora 1-1/2^2=75%, prendo la media e sottraggo 2σ in questo intervallo ci stanno almeno il 75% delle osservazioni senza conoscere la forma della distribuzione. Con k=3 viene 89%. Se conosco solo media e deviazione posso fare affermazioni circa la distribuzione delle frequenze.

Regola empirica: nella distribuzione normale se vado a calcolare l'area compresa tra la media e 1,2,3σ noto che le aree saranno: 0,68 0,95 0,997 e per differenza i valori che distano dalla media più di tre volte dalla deviazione.

Sono l 0,003. Distribuzione normale è un modello teorico dato che tutti i dati sono discreti. Se l'istogramma ha una forma campanulare allora i dati hanno una distribuzione approssimativamente normale (gaussiana), in tal caso le frequenze viste poco sopra vengono dette regola empirica: se i dati hanno una forma campanulare e se conosco media e deviazione posso affermare che nell'intervallo μ±1σ trovo circa il 68% delle osservazioni e così anche per altri (con 2σ e 3σ). Si dice "circa" perché è qualcosa di teorico, i dati sono discreti non continui. Quasi tutti i valori stanno in un intervallo di lunghezza 6σ: tale strategia consiste nell'organizzare l'attività produttiva perseguendo l'obiettivo di livelli eccellenti di qualità per ridurre al minimo i prodotti difettosi, si tratta di controllare la variabilità del processo in modo che il numero di pezzi difettosi sia dell'ordine.

del 6,8 per milione di pezzi prodotti. Tale frazione è la frequenza relativa con cui si presenta un valore esterno a (μ-4,5σ; μ+4,5σ) nella curva gaussiana. Ecco le differenze tra Chebyshev e quella empirica la quale è più informativa ma si usa solo con distribuzioni campanulari.

Standardizzazione: è una speciale trasformazione dei dati tale che vedi figura. Dopo la standardizzazione la media è 0 e la deviazione 1, infatti prima si aggiunge –μ e poi si moltiplica per 1/σ in modo tale da avere media 0 e deviazione 1. Per la regola empirica i valori minori di -3 e maggiori di 3 sono anormali e la standardizzazione è utile per confrontare distribuzioni con diversa media e deviazione standard. Essa consente di confrontare valori con diverse unità di misura e distribuzioni con medie e deviazioni molto diverse.

Dettagli
Publisher
A.A. 2021-2022
6 pagine
SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher cocco0 di informazioni apprese con la frequenza delle lezioni di Statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Firenze o del prof Grilli Leonardo.