STATISTICA
Capitolo 1: PERCHE’ STUDIARE LA STATISTICA?
1.2 Il campionamento
La popolazione è l’insieme completo di tutte le unità oggetto di studio. La dimensione della popolazione, N, può essere molto
grande, o addirittura infinita.
Il campione è il sottoinsieme delle unità osservate nella popolazione; la sua dimensione è indicata con
n.
Il campionamento casuale semplice è il procedimento usato per selezionare un campione n oggetti da una popolazione, in modo
tale che ciascuna unità della popolazione sia scelta rigorosamente a caso e abbia la stessa opportunità di essere scelta. Ogni possibile
campione di dimensione assegnata n deve avere la stessa possibilità di essere selezionato. Il campione ottenuto con questo metodo è
noto come campione casuale.
Lo studio della statistica è necessario per trarre conclusioni sull’intera popolazione, quando le informazioni sono state ottenute da un
campione, con un ovvio margine di incertezza.
Il parametro è una caratteristica specifica della popolazione; la
statistica è una caratteristica specifica del campione.
1.3 Statistica descrittiva e statistica inferenziale
La statistica descrittiva comprende metodi grafici e numerici che sono usati per sintetizzare ed elaborare i dati in modo da
trasformarli in informazioni. La statistica inferenziale fornisce le basi per le previsioni e per le stime che consentono di
trasformare le informazioni in conoscenza.
La statistica inferenziale è un processo, non un semplice risultato numerico: si può voler stimare un parametro, verificare un’ipotesi
riguardante un parametro, analizzare le relazioni tra due o più variabile o voler fare
previsioni attendibili.
Capitolo 2: DESCRIZIONE GRAFICA DEI DATI
2.1 Classificazione delle variabili
Le variabili categoriche generano risposte che appartengono a gruppi o a categorie.
Ex: “Hai un cellulare?”-‐“Sei single?” “sì/no”.
à
Le variabili numeriche comprendono sia le variabili discrete sia quelle continue.
-‐ Variabile numerica discreta: può (ma non necessariamente) avere un numero finito di valori; il tipo più comune proviene da
un conteggio. Ex: il n° di studenti di una classe, il n° di crediti ottenuto da uno studente nel semestre.
-‐ Variabile numerica continua: può assumere qualsiasi valore all’interno di un determinato intervallo di numeri reali e, di solito,
è originata da un processo di misurazione (non da un conteggio!). Ex: altezza, peso, tempo, distanza, temperatura. Il valore può
scostarsi di una certa quantità da quello ottenuto, a seconda della precisione dello strumento di misurazione utilizzato.
I dati possono anche essere classificati come qualitativi o quantitativi.
-‐ Dati qualitativi: non si può attribuire nessun significato misurabile alla “differenza” tra coppie di numeri (Ex: non è detto che
un giocatore di basket con maglia 20 sia il doppio più bravo del giocatore numero 10). Includono la scala nominale e la scala
ordinale.
-‐ Dati quantitativi: c’è un significato misurabile nella differenza numerica (Ex: uno studente con punteggio di 90 in un test è il
doppio più bravo di uno studente con punteggio 45). Includono la scala ad intervallo e la scala di rapporto.
Inoltre ci sono dati nominali, considerati un livello inferiore di misurazione dei dati poiché la codifica numerica è scelta per pura
convenienza. Assumono valori sotto forma di etichette che descrivono le categorie/classi di risposta.
Ex: i valori della variabile “sesso” sono “maschio” e “femmina”. I valori delle risposte “Sei single?” sono “sì” e “no”; ad ogni
risposta viene assegnato arbitrariamente un codice numerico con puro significato di classificazione (1=Maschio e 2=Femmina;
1=sì e 2=no).
I dati ordinali indicano un ordine gerarchico degli elementi e, allo stesso modo dei dati nominali, i valori assunti sono delle etichette che
descrivono le risposte.
Una scala ad intervallo indica l’ordine e la distanza da un’origine arbitraria misurata con una determinata unità di misura: i valori sono
ottenuti in relazione a un punto di riferimento prefissato.
Con la scala di rapporto si indicano sia un ordine sia la distanza da un’origine assoluta (lo zero), e il rapporto tra due misure assume un
significato numerico ben preciso. Ex: una persona che pesa 100 kg pesa il doppio di una di 50 kg.
La classificazione usata per raccogliere i dati è molto importante perché determina una diversa scelta della rappresentazione grafica.
2.2 Rappresentazioni grafiche per descrivere le variabili categoriche
Una distribuzione di frequenze è una tabella per organizzare i dati. La colonna a sinistra (che contiene le modalità o classi di
misura) comprende tutte le possibili risposte relative alla variabile oggetto di studio; la colonna di destra contiene l’elenco delle
frequenze (n° di osservazioni) per ogni classe.
Per descrivere i dati categorici sono comunemente usati i diagrammi a barre e a torta.
-‐ Diagramma a barre: se il nostro scopo è quello di attirare l’attenzione sulla frequenza di ogni categoria. L’altezza di ogni
rettangolo rappresenta la frequenza;
-‐ Diagramma a torta: se il nostro scopo è quello di sottolineare la proporzione di ciascuna categoria.
Entrambi i grafici permettono un confronto visivo tra i totali e le singolo componenti. Se vogliamo focalizzare l’attenzione sulla
proporzione delle frequenze in ogni categoria è consigliabile un diagramma a torta: questo è costruito in modo che l’area di ciascun
settore circolare sia proporzionale alla frequenza corrispondente.
Il diagramma di Pareto è un diagramma a barre che rappresenta la frequenza delle cause di difettosità. La barra più a sinistra
indica la causa più frequente e le barre più a destra indicano le cause con frequenze decrescenti. Il diagramma di Pareto è usato per
separare “poche cause rilevanti” dalle “numerose cause insignificanti”.
2.3 Rappresentazioni grafiche per descrivere le serie storiche
Il grafico per serie storiche rappresenta una serie di dati rilevanti in istanti di tempo diversi. Se si considera l’asse orizzontale
come asse temporale e si pongono sull’asse verticale le quantità numeriche oggetto della misurazione, si otterrà per ogni
osservazione un punto sul piano cartesiano. Il grafico si ottiene congiungendo i vari punti con una spezzata.
2.4 Rappresentazioni grafiche per descrivere le variabili numeriche
Distribuzione di frequenza per dati quantitativi.
Una distribuzione di frequenza è una tabella che riassume i dati elencando le classi di intervallo nella colonna di sinistra e il numero di
osservazioni in ogni classe nella colonna di destra.
Le regole generali per preparare distribuzioni di frequenze che rendano più semplici queste decisioni, la sintesi dei dati e la
comunicazione dei risultati sono:
1. Numero di classi. Il numero delle classi di intervallo usate si decide in modo # osservazioni # classi
arbitrario. Se selezioniamo troppe poche classi, determiniamo una perdita di
informazioni sulle caratteristiche della distribuzione; se selezioniamo troppe Meno di 50 5-‐7
classi, potremmo scoprire che alcune non contengono osservazioni o hanno Da 50 a 100 7-‐8
frequenza molto bassa, disperdendo così i valori e alterando la vera forma della Da 101 a 500 8-‐10
distribuzione.
2. Ampiezza delle classi. L’ampiezza è spesso arrotondata per eccesso, preferibilmente all’intero successivo.
−
= =
#
3. Classi collettivamente esaustive e mutuamente esclusive. Non devono esserci quindi sovrapposizioni: ciascuna osservazione
deve appartenere a una e una sola classe. I limiti (=estremi) di ciascuna classe devono essere definiti e chiari.
La distribuzione delle frequenze relative è ottenuta dividendo ciascuna frequenza per il numero complessivo di osservazioni;
moltiplicando la proporzione risultante per 100% si ottiene la distribuzione delle frequenze percentuali.
La distribuzione delle frequenze cumulate contiene il numero totale di osservazioni con valori minori del limite superiore di
ciascuna classe; si ottiene sommando alla frequenza della classe corrente la frequenza di tutte
-
Riassunto esame di Statistica sociale, prof. Parroco, libro consigliato Statistica. L'arte e la scienza di imparare…
-
Riassunto esame Statistica, Prof. Emanuela Dreassi, libro consigliato Statistica Pearson, nona edizione, Paul Newbo…
-
Riassunto esame Statistica, Prof. Emanuela Dreassi, libro consigliato P. Newbold, W.L. Carlson, B. Thorne. Statisti…
-
Riassunto esame Statistica economica, Prof. Grassini Laura, libro consigliato Biggeri L., Bini M., Coli A., Grassin…