Estratto del documento

Statisticacapitolo i - Perché studiare la statistica?

I concetti base della statistica sono quelli di popolazione e campione. Con popolazione si intende l'insieme completo di tutte le unità oggetto di studio; la sua dimensione, N, può essere molto grande o anche infinita. Il campione invece è il sottoinsieme delle unità osservata nella popolazione e la sua dimensione viene indicata con n.

Obiettivo principale è quello di giungere a delle affermazioni basate sui dati campionari, che abbiano una certa attendibilità anche sulla popolazione. Attraverso il campionamento casuale semplice viene selezionato un campione di n oggetti da una popolazione, in modo tale che ciascuna unità della popolazione sia scelta rigorosamente a caso e abbia la stessa opportunità di essere scelta. Il campione ottenuto con questo metodo è noto come campione casuale.

Quindi, lo studio della statistica è necessario per trarre delle informazioni sulla popolazione, studiando un insieme di campioni. Proprio perché lo studio è basato su dati campionari, la caratteristica del campione è chiamata statistica; se invece fossimo in grado di calcolare le caratteristiche specifiche della popolazione, allora parleremmo di parametro. Dopo aver raccolto i dati, si procede con la loro trasformazione in conoscenza, attraverso due diversi tipi di statistica:

  • Statistica descrittiva, la quale comprende metodi grafici e numerici, usati per sintetizzare ed elaborare i dati in modo da trasformarli in informazioni;
  • Statistica inferenziale, la quale fornisce le basi per le previsioni e per le stime che consentono di trasformare le informazioni in conoscenza. Questo processo può comprendere stime, verifiche di ipotesi, analisi di relazioni e previsioni.

Si può: voler stimare un parametro; verificare un'ipotesi riguardante un parametro; analizzare le relazioni tra due o più variabili; voler fare delle previsioni attendibili.

Capitolo ii - Descrizione grafica dei dati

Classificazione delle variabili

Le variabili possono essere classificate in diversi modi, in particolar modo se ne elencano due tipi:

  • Variabili categoriche, esse generano risposte che appartengono a gruppi o a categorie, limitano quindi le risposte a si/no;
  • Variabili numeriche, si dividono in: discrete, in questo caso la variabile può avere un numero finito di valori e il tipo più comune di questo tipo proviene da un processo di conteggio; continue, qui invece la variabile può assumere un qualunque valore all'interno di un determinato intervallo di numeri reali e, di solito, è originata da un processo di misurazione.

I dati possono comunque essere classificati anche come qualitativi o quantitativi. Con i dati qualitativi non si può attribuire alcun significato misurabile alla differenza tra coppie di numeri; mentre con i dati quantitativi, c'è un significato misurabile nella differenza numerica.

Livelli di misurazione

Come livelli di misurazione, i dati qualitativi utilizzano la scala nominale e la scala ordinale:

  • Con la prima, i valori assunti sono etichette che descrivono le categorie o le classi di risposta, alle quali viene associato un valore numerico, che ha l'unico significato di classificazione;
  • Con la seconda scala invece, si indicano i dati ordinali, i quali indicano un ordine gerarchico degli elementi ed inoltre i loro valori assunti sono etichette che descrivono le risposte.

Come livelli di misurazione, invece, i dati quantitativi utilizzano la scala ad intervallo e la scala di rapporto. La prima indica l'ordine e la distanza da un'origine arbitraria misurata con una determinata unità di misura: i valori sono quindi ottenuti in relazione a un punto di riferimento prefissato; con la seconda scala invece, si indicano sia un ordine sia la distanza da un'origine assoluta (lo zero) e il rapporto tra due misure assume un significato numerico preciso.

Descrizioni grafiche

Le variabili categoriche possono essere descritte attraverso le distribuzioni di frequenza, ovvero tabelle per organizzare i dati; la colonna di destra (contenente le modalità) comprende tutte le possibili risposte relative alla variabile oggetto di studio, la colonna di sinistra invece, contiene l’elenco delle frequenze (numero di osservazioni) per ogni classe.

Per descrivere i dati categorici sono comunemente usati i diagrammi a barre e i diagrammi a torta: con i primi, si vuol evidenziare la frequenza di ogni categoria; con i secondi invece, l’obiettivo è quello di sottolineare la proporzione di ciascuna categoria, in questo modo il cerchio rappresenta il totale e i settori circolari rappresentano le parti del totale.

Il grafico per serie storiche invece, rappresenta una serie di dati relativi in istanti di tempo diversi. L’asse orizzontale può essere considerata come asse temporale, mentre su quella verticale possono essere poste le quantità numeriche oggetto della misurazione; in questo modo si otterrà, per ogni osservazione, un punto sul piano cartesiano: il grafico sarà allora la risultante della congiunzione dei diversi punti ottenuti.

Ricapitolando, una distribuzione di frequenze è una tabella che racchiude, nella colonna di sinistra, il numero di osservazioni, e nella colonna di destra, il numero di classi. Dunque, per costruire una distribuzione di frequenza si deve:

  • Determinare k, ovvero il numero delle classi di intervallo, il quale viene scelto in modo arbitrario (data set più grandi permettono di determinare più classi di intervallo, contrariamente a quelli più piccoli; se poi si selezionano poche classi, determiniamo una perdita di informazioni sulle caratteristiche della distribuzione);
  • Scegliere l’ampiezza W delle classi di intervallo, la quale può essere la stessa per tutte le classi di intervallo, e si determina nel modo seguente: W = (valore massimo – valore minimo) / numero di classi (W può essere arrotondato per eccesso);
  • Le classi di intervallo devono essere collettivamente esaustive e mutualmente esclusive (cioè senza sovrapposizioni): ciascuna osservazione deve appartenere a una ed una sola classe.

Distribuzioni di frequenza particolari sono: la distribuzione delle frequenze relative, che è ottenuta dividendo ciascuna frequenza per il numero complessivo di osservazioni (moltiplicando la proporzione risultante per 100% si ottiene la distribuzione delle frequenze percentuali); la distribuzione delle frequenze cumulate, la quale si ottiene sommando alla frequenza della classe corrente le frequenze di tutte le classi precedenti; e la distribuzione delle frequenze relative cumulate, che si ottiene cumulando le frequenze relative.

Avendo ottenuto la distribuzione delle frequenze, è possibile rappresentarla graficamente, tramite due grafici in particolare: l’istogramma, che è composto da rettangoli verticali adiacenti, costruiti su una linea orizzontale sulla quale sono delimitate le stesse classi di intervallo individuate nelle distribuzioni di frequenze. L’area del rettangolo è proporzionale al numero di osservazioni della classe corrispondente; l’ogiva, invece, è una spezzata che rappresenta la distribuzione delle frequenze percentuali cumulate, infatti essa unisce i punti che rappresentano le percentuali cumulate di osservazioni con valori minori del limite superiore di ciascuna classe.

Possiamo poi dire che, la forma di un istogramma è detta simmetrica, se le osservazioni sono bilanciate o distribuite in modo approssimativamente regolare, intorno al centro dell’istogramma. La distribuzione è invece asimmetrica (o obliqua) se le osservazioni non sono distribuite in modo simmetrico rispetto al valore centrale della distribuzione.

Nel diagramma ramo-foglia, invece, i dati sono raggruppati secondo le loro cifre più significative (rami), mentre le cifre meno significative di ogni osservazione (foglie) sono elencate a destra di ogni ramo, separatamente e in ordine decrescente.

Attraverso il diagramma di dispersione, su di un piano cartesiano, si determinano punti che sono associati a coppie di valori, che costituiscono un’osservazione congiunta delle due variabili. Questo tipo di diagramma evidenzia:

  • I possibili valori di ogni variabile;
  • La distribuzione dei dati all’interno dei valori possibili;
  • L’eventuale relazione tra le due variabili;
  • La presenza di eventuali valori anomali.

Attraverso una tabella a doppia entrata, è possibile descrivere le relazioni tra dati categorici e ordinali; essa elenca la frequenza delle osservazioni per ogni combinazione di classi di misura di due variabili. Il numero di celle è determinato dalla combinazione di tutte le possibili classi per ognuna delle due variabili. Una tabella con r righe e c colonne viene indicata come tabella r x c. Quando le due variabili sono entrambe qualitative si parla di tabella di contingenza, la quale è illustrata con diagrammi a barre.

Capitolo iii – Descrizione numerica dei dati

Misure di tendenza centrale

Le misure di tendenza centrale forniscono informazioni quantitative sull’osservazione tipica nei dati. Analizziamo tre tipi di tendenze centrali:

  • Media aritmetica, è la somma dei valori di tutte le osservazioni divisa per il numero di osservazioni. Se i dati si riferiscono all’intera popolazione, la media della popolazione, μ, è uguale a: μ = Σx/N = i(x’ + x’’ + … + x )/N, dove N è la dimensione della popolazione. Se i dati provengono da un campione, allora la media del campione, x, è data da: x = Σx/n = (x’ + x’’ + … + x )/n;
  • Mediana, è l’osservazione centrale di un insieme di osservazioni ordinate in modo non decrescente. Se n è un numero dispari, la mediana è l’osservazione centrale, se n è un numero pari, essa si ottiene dalla media delle due osservazioni centrali. La mediana si trova nella posizione 0.50(n + 1);
  • Moda, dato un insieme di osservazioni, essa è la modalità che si presenta il maggior numero di volte.

Nel caso di una distribuzione simmetrica, la media e la mediana sono uguali, mentre se la media è minore della mediana, allora la distribuzione è obliqua a sinistra, se invece la media è maggiore della mediana, la distribuzione è obliqua a destra. Una possibile causa dell’asimmetria è la presenza di outlier, ovvero valori o estremamente grandi o estremamente piccoli.

Misure di dispersione

Oltre però alle misure di tendenza centrale, sono necessari altri parametri per fornire una descrizione completa dei dati. Questi parametri sono:

  • Campo di variazione, è la differenza tra il massimo e il minimo dei valori osservati. Esso però non è una soddisfacente misura di dispersione, in quanto è influenzato dagli outlier;
  • Differenza interquartile (IQR), misura la variabilità del 50% centrale dei dati, essa è la differenza tra l’osservazione Q3, terzo quartile, e l’osservazione Q1, primo quartile. Q1 si trova nella posizione 0.25(n + 1), mentre Q3 nella posizione 0.75(n + 1);
  • I cinque numeri di sintesi, si riferiscono a cinque misure descrittive: il minimo, il primo quartile, la mediana, il terzo quartile e il massimo (m < Q1 < mediana < Q3 < M). Una rappresentazione grafica dei cinque numeri di sintesi è possibile tramite il diagramma a scatola e baffi;
  • Varianza della popolazione σ2, è la somma delle differenze, al quadrato, tra ciascuna osservazione e la media della popolazione, divisa per la dimensione della popolazione: σ2 = [Σ(x – μ)2]/N. La varianza campionaria s2, invece, è la somma delle differenze, al quadrato, tra ciascuna osservazione e la media del campione, divisa per la dimensione del campione meno 1: s2 = [Σ(x – x)2]/(n – 1);
  • Scarto quadratico medio della popolazione σ, corrisponde alla radice quadrata della varianza della popolazione: σ = rad(σ2). Analogamente, lo scarto quadratico medio campionario s, è: s = rad(s2).

Osservati questi criteri, possiamo dire che, per ogni osservazione con media μ, scarto quadratico medio σ e k > 1, la percentuale di osservazioni, chiamata disuguaglianza di Chebychev, che appartengono all’intervallo (μ – kσ; μ + kσ) è: almeno 100(1 – (1/k2))%, dove k rappresenta il fattore moltiplicativo dello scarto quadratico medio.

Per le popolazioni di grandi dimensioni però, questo metodo risulta inefficace, per questo motivo se ne utilizza un altro. Dunque, la regola empirica, per le popolazioni di grandi dimensioni, fornisce una valutazione della percentuale approssimata di osservazioni il cui scostamento, in più o in meno della media, è pari al massimo a una, due o tre volte lo scarto quadratico medio:

  • Approssimativamente il 68% delle osservazioni sono nell’intervallo μ +/- 1σ;
  • Approssimativamente il 95% delle osservazioni sono nell’intervallo μ +/- 2σ;
  • Quasi tutte le osservazioni, 99,73%, sono nell’intervallo μ +/- 3σ.

Misure di sintesi ponderate

Quando i dati sono raggruppati, si usano misure di sintesi ponderate, come:

  • Media ponderata, essa equivale a: x = Σwixi/Σwi, dove wi è il peso dell’i-esima osservazione;
  • Media e varianza approssimate per dati raggruppati, i dati sono raggruppati in K classi, con frequenze f1, f2 … fk. Indicando con m1, m2 … mk i valori centrali di ogni classe, e con una popolazione di N osservazioni, dove N = Σfi, abbiamo che la media è uguale a: μ = Σfimi/N, mentre la varianza è: σ2 = [Σfi(mi – μ)2]/N. Invece, con un campione di n osservazioni, con n = Σfi, abbiamo che la media è uguale a: x = Σfimi/n, e la varianza è: s2 = [Σfi(mi – X)2]/(n – 1).

Covarianza e correlazione lineare

La covarianza (Cov) è una misura della relazione lineare tra due variabili. Un valore positivo indica una relazione diretta o positiva e un valore negativo indica una relazione inversa o negativa. La covarianza della popolazione, è: Cov(X,Y) = σxy = [Σ(xi – μx)(yi – μy)]/N. La covarianza campionaria, invece, è uguale a: Cov(X,Y) = sxy = [Σ(xi – x)(yi – y)]/(n – 1).

Indice numerico più opportuno della covarianza per misurare l’intensità della relazione lineare tra due variabili, è il coefficiente di correlazione lineare, il quale fornisce sia la direzione sia l’intensità della relazione. Esso si calcola dividendo la covarianza per il prodotto degli scarti quadratici medi delle due variabili. Il coefficiente di correlazione lineare della popolazione è: p = Cov(X,Y)/σxσy; il coefficiente di correlazione lineare campionario, invece, è uguale a: r = Cov(X,Y)/sxsy.

Il valore di questo coefficiente varia tra -1 e +1: quanto più r è vicino a +1, tanto più i punti che rappresentano le osservazioni sono vicini a una retta crescente, che indica una relazione lineare positiva; quanto più r è vicino a -1, tanto più i punti sono vicini a una retta decrescente, indicante una relazione lineare negativa. Quando r è uguale a zero, non c’è relazione lineare tra x e y, ma ciò non significa che non ci sia nessun tipo di relazione tra di essi.

Capitolo iv – Probabilità

Un esperimento aleatorio (o casuale) è un processo che porta a due o più risultati senza che si possa prevedere quale di questi si realizzerà (es. lancio di una moneta). Dell’esperimento, si possono specificare tutti i possibili risultati, definiti eventi elementari (es. esce testa). L’insieme di questi eventi elementari è definito spazio campionario, S. Si definisce, invece, evento un qualsiasi sottoinsieme di eventi elementari di uno spazio campionario. L’evento può essere: impossibile, O, e in questo caso rappresenta l’assenza di elementi elementari; certo, ed è rappresentato da tutti gli eventi elementari ed è lo stesso S. Chiamando A e B due eventi dello spazio campionario S, la loro intersezione, è l’insieme di tutti gli eventi elementari di S che appartengono sia ad A sia a B. Ovviamente, l’intersezione si verifica solo se si verificano sia A che B. Con il termine probabilità congiunta di A e B si indica la probabilità dell’intersezione di A e B.

Anteprima
Vedrai una selezione di 4 pagine su 14
Statistica Pag. 1 Statistica Pag. 2
Anteprima di 4 pagg. su 14.
Scarica il documento per vederlo tutto.
Statistica Pag. 6
Anteprima di 4 pagg. su 14.
Scarica il documento per vederlo tutto.
Statistica Pag. 11
1 su 14
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher alessandro.dimattia di informazioni apprese con la frequenza delle lezioni di Statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Firenze o del prof Grassini Laura.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community