Estratto del documento

Introduzione

La statistica è quella scienza matematica che si occupa di leggere una distribuzione di dati in modo da effettuare previsioni e progetti. L'intero insieme dei dati si dice popolazione, mentre si dice campione un sottoinsieme di tale insieme. Affinché la previsione effettuata sia valida è necessario che il campione considerato rappresenti il comportamento di tutta la popolazione.

La statistica si può suddividere in due categorie:

  • Statistica descrittiva: Raccolta dei dati, sintesi e rappresentazione
  • Statistica inferenziale: Elaborazione dei dati in modo da effettuare previsioni affidabili

Statistica descrittiva

Il metodo statistico di raccolta dei dati si dice campionamento. Diamo le definizioni di popolazione e campione in modo più dettagliato e preciso:

Popolazione: Collezione di oggetti od eventi su cui si cercano informazioni. Può essere finita o infinita.

Campione: Sottoinsieme della popolazione che contiene oggetti od eventi osservati. Affinché il campione sia rappresentativo di tutta la popolazione è buona norma sceglierlo in modo casuale. Inoltre un campione deve rappresentare al massimo il 5% della popolazione, in modo tale che i suoi elementi siano indipendenti, cioè che il comportamento di uno non influenzi il comportamento di un altro. Il numero di elementi del campione si dice ampiezza.

Gli esperimenti statistici si dividono in tre tipi:

  • Esperimento a un campione: Viene analizzata una sola caratteristica di un solo campione.
  • Esperimento a più campioni: Viene analizzata una sola caratteristica in due campioni diversi, solitamente appartenenti a due popolazioni diverse, che vengono confrontate.
  • Esperimento a più fattori: Vengono analizzate più caratteristiche di un solo campione.

Tipologie di dati statistici

Si dice dato statistico l'osservazione di una variabile. Le variabili, in base ai valori che assumono, possono essere schematizzate in questo modo:

  • Variabili numeriche discrete
  • Variabili numeriche continue
  • Variabili categoriche

Un esempio di variabile numerica discreta è il numero di particelle cosmiche rilevate in 10 periodi della durata di un minuto. Un esempio di variabile numerica continua è il diametro di 20 rondelle d'acciaio. Un esempio di variabile categorica è la causa di malfunzionamento di un tornio.

I dati statistici vengono, per comodità, raggruppati in tabelle. Vediamo come si presenta una tabella di distribuzione delle frequenze della seguente distribuzione di dati: {0,4,3,8,3,3,2,1,5,2}. Questo è un campione di ampiezza = 10.

Per disegnare la tabella è necessario suddividere il campione in classi: dato che la variabile è numerica discreta e che l'ampiezza del campione non è elevata, posso considerare come classi i singoli valori assunti dalla variabile. Disegniamo la tabella delle frequenze.

Classe Frequenza assoluta Frequenza relativa Frequenza percentuale Frequenze cumulativa
0 1 0.1 10% 10%
1 1 0.1 10% 20%
2 2 0.2 20% 40%
3 3 0.3 30% 70%
4 1 0.1 10% 80%
5 1 0.1 10% 90%
8 1 0.1 10% 100%

Se la variabile fosse stata continua, la tabella delle frequenze sarebbe stata rappresentata analogamente, ma avremmo dovuto stabilire un minimo ed un massimo di intervallo per ogni classe, dove l'intervallo, cioè la differenza tra massimo e minimo, si dice "range". La tabella delle frequenze di una variabile continua perde l'informazione sui dati grezzi, ma dà un vantaggio nella lettura dei dati stessi. Per le variabili categoriche le classi sono date dalle stesse categorie osservate. In questo caso non ha senso parlare di frequenze cumulative.

Per rappresentare graficamente una tabella delle frequenze si possono usare diversi grafici: uno dei più comuni è l'istogramma. Vediamo come si presenta l'istogramma al variare della tipologia di dati.

Variabili numeriche continue

Si divide l'intervallo delle osservazioni in classi:

  • Classi della stessa ampiezza: Il grafico si compone di rettangoli adiacenti la cui base è rappresentata dall'ampiezza delle classi e la cui altezza è proporzionale alla frequenza relativa o assoluta di ciascuna classe. Ci sono tre regole empiriche per scegliere in quante classi suddividere il campione:
    • Numero classi ≈ √ampiezza del campione
    • Numero classi ≈ 1 + ln ampiezza del campione
    • Conviene usare la divisione in classi se 2 > 75
  • Classi con ampiezza diversa: Il grafico si compone di rettangoli adiacenti la cui base è proporzionale all'ampiezza delle classi e la cui area è uguale alla frequenza relativa di ciascuna classe. In questo caso l'asse delle ordinate ospiterà la densità, cioè il rapporto tra frequenza relativa e ampiezza della classe. La somma delle aree deve essere 1. Questo tipo di grafico è utile quando ci si trova di fronte a informazioni che si addensano attorno ad un valore, mentre altre informazioni sono molto lontane da questo valore.

Variabili numeriche discrete

Il grafico si compone di rettangoli adiacenti la cui base è costante ed è centrata sul valore a cui la classe corrisponde, mentre l'altezza è proporzionale alla frequenza relativa o assoluta della classe. In questo caso, al posto dei rettangoli, si possono utilizzare dei segmenti (diagramma a barre) il diagramma a barre o l'istogramma con i rettangoli.

Variabili categoriche

Anche in questo caso si utilizzano rettangoli a base centrata sulla categoria corrispondente alla classe. Per questo tipo di variabili spesso si utilizza il diagramma a torta, cioè un cerchio diviso in un numero di angoli adiacenti pari al numero delle classi, il cui angolo al centro è proporzionale alla frequenza relativa o assoluta della classe corrispondente.

Misure di sintesi

Indici di posizione:

Si dice media campionaria di osservazioni {x1, x2, ..., xn} il valore 1ni=1n xi che divide il campione in due parti uguali.

Si dice mediana il valore numerico tale che ½ delle osservazioni siano maggiori o uguali e ½ siano minori o uguali. In termini matematici, se n è dispari, la mediana è il valore centrale del campione ordinato; se n è pari, può essere qualsiasi valore tra i due valori centrali, ma spesso si prende la media aritmetica tra questi due.

Si dice moda il punto di massimo (assoluto o relativo) della distribuzione di frequenze. Si dice distribuzione unimodale una distribuzione avente un solo punto di massimo; si dice plurimodale una distribuzione avente più punti di massimo.

Indici di dispersione

Date due distribuzioni, ad esempio {28, 29, 30, 31, 32} e {10, 20, 30, 40, 50}, si ha che sia la media che la mediana di entrambe le distribuzioni è 30, ma come possiamo osservare, le due distribuzioni presentano una "dispersione" diversa.

Diciamo dispersione il modo in cui i dati si scostano dalla media.

Si dice varianza campionaria il valore ½ ∑i=1n (xi - x̄)2 / (n - 1), dove x̄ è la media campionaria. La deviazione standard è la radice quadrata della varianza.

Si dice percentile o quantile di ordine α (0 < α < 1) il numero tale che il α·100% delle osservazioni siano minori o uguali a quel numero.

Anteprima
Vedrai una selezione di 4 pagine su 13
Statistica - Riassunto completo + tabelle Pag. 1 Statistica - Riassunto completo + tabelle Pag. 2
Anteprima di 4 pagg. su 13.
Scarica il documento per vederlo tutto.
Statistica - Riassunto completo + tabelle Pag. 6
Anteprima di 4 pagg. su 13.
Scarica il documento per vederlo tutto.
Statistica - Riassunto completo + tabelle Pag. 11
1 su 13
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher FedericoSormani di informazioni apprese con la frequenza delle lezioni di Statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Perugia o del prof Saccomandi Giuseppe.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community