Estratto del documento

Statistica descrittiva (appunti)

Con il termine “statistica” si intendono tutte le info di tipo numeriche (percentuali, medie, frequenze…) che fanno riferimento a uno stesso gruppo di fenomeni collettivi (persone, aziende, situazioni), che vengono tradotte in un modello numerico che possa essere analizzato semplicemente. Questa trasformazione di dati si sviluppa grazie alle seguenti fasi dell’indagine statistica:

  • Formulazione del problema
  • Individuazione dei dati
  • Programmazione della rilevazione dei dati
  • Analisi dei dati
  • Interpretazione dei risultati

Tipologie di analisi statistiche

Esistono delle tipologie di analisi statistiche: la statistica descrittiva e la statistica inferenziale.

Statistica descrittiva

La statistica “descrittiva” si occupa di individuare tecniche per organizzare, riassumere e presentare i dati. Sono un esempio: il 3% di macchinette del caffè vendute nel negozio x sono difettate, il voto medio in una classe di economia è 25/30.

Statistica inferenziale

La statistica “inferenziale” si occupa di individuare quelle tecniche volte a fare delle previsioni di tipo probabilistico su situazioni future o comunque incerte, esaminando un piccolo campione estratto da una popolazione più grande. Esempi di analisi di statistica inferenziale: Se il voto medio della classe è 25/30, è possibile sostenere che questa media è quella che vale per tutti gli studenti dell’università? In caso di risposta affermativa, questa affermazione è valida al 100%?

Terminologia essenziale

Collettivo statistico o popolazione: è l’insieme di riferimento. (l’insieme da cui prendiamo i dati che vogliamo analizzare)

Unità statistica: è il caso individuale dell’insieme di riferimento.

Variabile statistica: è una caratteristica dell’oggetto di indagine.

Carattere: è ogni aspetto elementare oggetto di rilevazione nelle unità statistiche (il numero di addetti, il peso/altezza dell’oggetto considerato).

Modalità: le modalità del carattere sono i diversi modi con cui questo si presenta nelle unità statistiche del collettivo.

Tipologie di misurazioni delle variabili statistiche

Caratteri qualitativi

Misurare un carattere qualitativo significa osservare che i valori assunti dalle unità statistiche sono non numerici. (colore occhi, capelli, nazionalità, stato civile). Costruire una scala di riferimento di un carattere qualitativo consiste nel costruire un modello fatto di nomi o di espressioni lessicali; in particolare parliamo di scala nominale, quando vogliamo classificare le unità del collettivo statistico in tanti gruppi organizzati in categorie che non possono essere ordinati. (Per esempio tutte le domande fatte in schede, questionari… sono organizzate in categorie: Sesso (M,F), Nazionalità).

La scala ordinale invece consente di classificare le unità statistiche in gruppi omogenei. Per esempio una scala ordinale può essere “grado di soddisfazione del cliente” (Ottima, Buona, Sufficiente, non sufficiente). Ogni categoria esprime una posizione (Rango). Non è possibile effettuare operazioni tra i diversi ranghi, ma è possibile solo il confronto. La distanza tra i ranghi, invece, è quantificabile rispetto ad un intervallo preso come unità di misura.

Caratteri quantitativi

Sono variabili dove i valori assunti sono numeri. (statura, peso, n° stanze). Questa tipologia di caratteri inoltre può essere discreta, vale a dire che questi valori possono essere ordinati e confrontati tra loro attraverso la differenza o il rapporto. Per questo motivo si parla di scala proporzionale. Si parla anche di caratteri continui, dove le modalità sono confrontabili tra loro sempre attraverso differenze e non sempre attraverso rapporti (in particolare non è possibile utilizzare la scala proporzionale quando lo 0 è un valore convenzionale che non individua assenza del carattere). In questo caso si parla di scala intervallare. Esiste infine un’altra tipologia di scale che è quella definita come scala rapporto, dove lo zero non è arbitrario e corrisponde all’elemento d’intensità nulla (assenza di proprietà) rispetto all’unità misurata.

Calcoli statistici elementari

Alcuni calcoli statistici elementari che definiscono le differenze relative e rapporti statistici sono:

  • Differenza assoluta = b – a
  • Differenza relativa = (b – a) / a
  • Differenza relativa percentuale = [(b – a) / a] * 100

Rappresentazione dei dati

Abbiamo definito in linea generale cosa è la statistica, adesso come si rappresentano i dati che recuperiamo da una popolazione? Il modo più semplice per la rappresentazione dei dati è costituito dalle tabelle.

Colore occhi Persone
Verdi 5
Castani 6
Azzurri 4
Totale 15

Giallo: Carattere
Azzurro: Modalità
Verde: Frequenza Assoluta

La frequenza assoluta indica quante volte una determinata modalità di un carattere si ripete e viene indicata con il simbolo \( n_i \).

Quando il carattere si presenta in un numero elevato di modalità (per esempio nel caso di caratteri quantitativi continui) ed effettuiamo un numero elevato di osservazioni, può essere utile rappresentare la distribuzione di frequenze attraverso il raggruppamento in classi di modalità.

Peso (gr) n° neonati
1800-2200 10
2200-2600 15
2600-3000 20
3000-4000 3

Frequenza relativa

Un'altra tipologia di frequenza utilizzata è quella che prende il nome di frequenza relativa: la modalità è data dal rapporto tra frequenza assoluta ed il numero totale dei casi.

\( f_i = \frac{n_i}{n} \), dove i= 1, 2, 3, ..., k.

Le frequenze relative sono particolari rapporti di composizione e, come tali, ci permettono di dare una rapida valutazione del “peso”, della singola modalità nell’ambito della distribuzione di frequenza. Naturalmente vale l’identità \( f_1 + f_2 + f_3 + \ldots + f_k = 1 \).

Esempio di frequenze

n° Stanze n° Case Freq. rel. (f) Freq %
1 200 0,11 11%
2 100 0,05 5%
3 300 0,17 17%
4 400 0,23 23%
5 700 0,41 41%
Tot. 1700 1,00 100%

\( f_1 = \frac{200}{1700} = 0.11 \); \( f_2 = \frac{100}{1700} = 0.05 \); \( f_3 = \frac{300}{1700} = 0.17 \) …

Per avere il valore % basta moltiplicare per 100. Taglia = numero di unità statistiche esaminate (200+100+300+400+700=1700).

Distribuzione di frequenza

La distribuzione di frequenza è uno schema in cui vengono riportate in colonna le varie modalità di un carattere e in quelle successive le varie frequenze (assolute, relative, percentuali) associate a ciascuna modalità. Le distribuzioni di frequenza di un carattere qualitativo sconnesso e vengono chiamate serie sconnesse. Quando invece parliamo di serie rettilinee stiamo parlando di distribuzioni di frequenze per caratteri qualitativi a modalità ordinabili. (distribuzioni per caratteri quantitativi oppure seriazioni).

Quando le modalità sono ordinabili ha senso definire le frequenze cumulate e le frequenze relative cumulate. Per frequenze cumulate si intende la somma delle unità del collettivo il cui valore non è superiore alla taglia del collettivo.

Frequenze cumulate

n° Stanze n° Case Freq. Cum.
1 200 200
2 100 200+100=300
3 300 300+300=600
4 400 600+400=1000
5 700 1000+700=1700
Tot. 1700

Lo stesso discorso vale per le frequenze relative cumulate.

Frequenze relative cumulate

n° Stanze n° Case Freq. Cum. Freq.rel. (f) Freq. Rel. Cum.
1 200 200 0,11 0,11
2 100 200+100=300 0,05 0,11+0,05=0,16
3 300 300+300=600 0,17 0,16+0,17=0,33
4 400 600+400=1000 0,23 0,33+0,26=0,56
5 700 1000+700=1700 0,41 0,56+0,41=1
Tot. 1700 1

Funzione di ripartizione empirica

La funzione di ripartizione di X è la funzione che associa ad ogni \( x \) la frequenza relativa cumulata, tale che \( X \leq x \).

Esempio grafico

Prendendo come esempio la tabella soprastante graficamente avremo:

n° Stanze

6543210 0.11 0.16 0.33 0.56 1

Rappresentazione dei dati

I dati che recuperiamo dalle distribuzioni di frequenza (e quindi dalle tabelle) possono essere rappresentati attraverso dei grafici che offrono il vantaggio di descrivere visivamente il fenomeno.

Tipologie di grafici

  • Cartogramma: serve a rappresentare serie o seriazioni geografiche, ossia quegli elementi costitutivi della popolazione che rappresentano modalità geografiche.
  • Diagramma a barre (Istogramma): mette in relazione una serie di modalità del carattere a cui facciamo riferimento.
  • Diagrammi circolari: viene rappresentato con un cerchio (che rappresenta tutto il campione) diviso in spicchi. L’area di ogni spicchio rappresenta la frequenza relativa.
  • Ideogrammi: sono rappresentazioni mediante figure stilizzate che rappresentano il fenomeno studiato. (Es: stilizzazione di una macchina se il fenomeno studiato parla di macchine) Questo tipo di rappresentazione non è molto utilizzato.
  • Diagrammi cartesiani: sono i più utilizzati per quanto riguarda la rappresentazione di dati che ci parlano di serie temporali, ossia fenomeni che accadono nel tempo.
  • Diagrammi polari: sono utilizzati per particolari serie storiche che hanno carattere di ciclicità.

La rappresentazione grafica più appropriata per le distribuzioni di caratteri continui divisi in intervalli è l’istogramma. Questa rappresentazione si ottiene ponendo sull’asse delle ascisse gli estremi di classe e disegnando per ogni classe un rettangolo avente per base il segmento dell’asse delle ascisse degli estremi e come altezza la densità di frequenza.

Esempio di istogramma

Il preside Y chiede suoi studenti il numero di ore che passano a studiare (settimanalmente) la statistica: il risultato è la seguente tabella.

15.0; 16.2; 14.5; 18.0; 17.0; 16.5; 15.2; 14.0; 13.4; 10.1; 19.6; 20.8; 15.0; 13.6; 22.3; 24.6; 22.4; 19.6; 14.9; 18.0

Costruire un diagramma cartesiano questa distribuzione di dati non sarebbe significativo. Perciò si passa alla costruzione della classe di modalità:

  1. Il primo passaggio è determinare il campo di variazione dell’insieme dei dati:
    Campo variazione = massimo – minimo = 14.5
  2. Il secondo passaggio è determinare le classi di modalità:
    \( \sqrt{n} \approx 4.47 \)
    Ci sono delle regole empiriche:
    a) si arrotonda a 5 \( \sqrt{20} \approx 4.47 \)
    b) si arrotonda a 3 \( \sqrt{20} \approx 4.47 \)
    Con queste due operazioni abbiamo determinato numero (a) e ampiezza delle classi (b) di modalità. Useremo 5 classi di ampiezza 3.
  3. Il terzo passaggio è determinare gli estremi delle classi:
    Campo di variazione = 14.5
    N° classi * Amp classi = 5*3=15
    (15–14.5) = 0.25
    Troviamo il primo estremo facendo: Min-0.25= 10.1-0.25= 9.85~10
    10 è il primo estremo delle nostre 5 classi di modalità. Per trovare il secondo estremo faremo: 10+ 3 (ampiezza delle classi)=13, per il terzo 13+3, per il quarto 16+3… e così via. Alla fine avremo 5 classi di modalità di ampiezza 3 in questo modo: [10;13); [13;16); [16;19);[19;22);[22;25).

Ordinando i dati in modo crescente dobbiamo poi contare quanti elementi fanno parte per ogni classe di modalità:

[10;13) [13;16) [16;19) [19;22) [22;25)
1 8 5 3 3

Questa è la distribuzione di frequenza assoluta, da cui si può calcolare la distribuzione relativa:

[10;13) [13;16) [16;19) [19;22) [22;25)
1/20=0,05 8/20=0,4 5/20=0,25 3/20=0,15 3/20=0,15

Fissato il numero delle classi, la loro ampiezza e distribuiti i dati nelle apposite tabelle, bisogna calcolare la densità di frequenza. La densità di frequenza di una classe di modalità equivale a:

Freq ass Classi (n) Freq rel.(f) Amp clas. Densità freq
[10;13) 1 1/20=0,05 3 1/3=0,3
[13;16) 8 8/20=0,4 3 8/3=2,6
[16;19) 5 5/20=0,25 3 5/3=3,3
[19;22) 3 3/20=0,15 3 3/3=1,0
[22;25) 3 3/20=0,15 3 3/3=1,0

Graficamente abbiamo:

Frequenza assoluta

108 864 52 3 310 [10;13) [13;16) [16;19) [19;22) [22;25)

Stesso discorso lo si può fare per la frequenza relativa. La somma delle aree dei rettangoli risulta essere: 3 *(1+8+5+3+3) = 3*20= 120 (Dove 3 è l’ampiezza delle classi). L’istogramma delle densità delle densità è il rapporto tra la frequenza relativa e l’ampiezza della classe di modalità. L’utilità di questo grafico ci permette di confrontare insiemi di dati diversi.

Diagramma delle frequenze cumulate

Riprendendo l’esempio delle ore di studio: qual è la percentuale di studenti che trascorre meno di 15 ore a studiare? Un primo diagramma associa a ciascun elemento del campione la percentuale di dati che assume un valore uguale o inferiore ad esso. Le proprietà principali di questo diagramma sono: 1) È una funzione non decrescente e 2) assume valori tra 0 e 1. Come si calcola?

Calcolo delle frequenze cumulate

La prima cosa da fare è riordinare i dati in ordine crescente:

15.0; 16.2; 14.5; 18.0; 17.0; 16.5; 15.2; 14.0; 13.4; 10.1; 19.6; 20.8; 15.0; 13.6; 22.3; 24.6; 22.4; 19.6; 14.9; 18.0

Riordinati…

10.1; 13.4; 13.6; 14.0; 14.5; 14.9; 15.0; 15.0; 15.2; 16.2; 16.5; 17.0; 18.0; 18.0; 19.6; 19.6; 20.8; 22.3; 22.4; 24.6

Elemento Frequenza cumulata
10.1 0.05
13.4 0.1
13.6 0.15
14.0 0.2
14.5 0.25
14.9 0.3
15.0 0.4
15.2 0.45
16.2 0.5
16.5 0.55
17.0 0.6
18.0 0.7
19.6 0.8
20.8 0.85
22.3 0.9
22.4 0.95
24.6 1

Ad ogni elemento è associata la posizione. 1/30=0.05, 02/30=0.1, 3/30=0.15, 4/30= 0.2 e così via, graficamente abbiamo:

1.210.80.60.40.20 0 5 10 15 20 25 30

Per rispondere alla nostra domanda iniziale, si traccia una linea in prossimità delle ore 15 (nel nostro caso) fino a toccare la linea blu, dopo di che si traccia una linea orizzontale parallela all’asse x fino a toccare il punto dell’asse y.

Box-Plot

Altra tipologia di grafico che si può utilizzare per l’analisi dei dati è il Box-Plot: È un grafico a scatola che fornisce informazioni sul 50% dei dati che si collocano al centro del campione, e vedremo la sua costruzione più avanti.

Le misure numeriche

Le medie sono uno strumento che la statistica utilizza per riassumere i dati statistici. Fra tutte le medie la più conosciuta è la media aritmetica. Oltre a questo tipo di media ne esistono anche altre (armonica, geometrica, quadratica, ponderata) ed in base ai dati che abbiamo a disposizione capiremo quando utilizzare una tipologia e quando utilizzare un’altra. Le medie si applicano ai caratteri quantitativi, sia intervallari sia razionali. Esse sono misure sintetiche in quanto ci permettono di passare da una pluralità di informazioni ad una singola modalità.

Fra tutti i tipi si distinguono le medie...

Anteprima
Vedrai una selezione di 9 pagine su 40
Appunti di Statistica Descrittiva Pag. 1 Appunti di Statistica Descrittiva Pag. 2
Anteprima di 9 pagg. su 40.
Scarica il documento per vederlo tutto.
Appunti di Statistica Descrittiva Pag. 6
Anteprima di 9 pagg. su 40.
Scarica il documento per vederlo tutto.
Appunti di Statistica Descrittiva Pag. 11
Anteprima di 9 pagg. su 40.
Scarica il documento per vederlo tutto.
Appunti di Statistica Descrittiva Pag. 16
Anteprima di 9 pagg. su 40.
Scarica il documento per vederlo tutto.
Appunti di Statistica Descrittiva Pag. 21
Anteprima di 9 pagg. su 40.
Scarica il documento per vederlo tutto.
Appunti di Statistica Descrittiva Pag. 26
Anteprima di 9 pagg. su 40.
Scarica il documento per vederlo tutto.
Appunti di Statistica Descrittiva Pag. 31
Anteprima di 9 pagg. su 40.
Scarica il documento per vederlo tutto.
Appunti di Statistica Descrittiva Pag. 36
1 su 40
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher AntoMusic di informazioni apprese con la frequenza delle lezioni di Economia e statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli studi della Basilicata o del prof Cicchitelli Giuseppe.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community