vuoi
o PayPal
tutte le volte che vuoi
STATISTICA
Capitolo 1: PERCHE’ STUDIARE LA STATISTICA?
1.2 Il campionamento
La popolazione è l’insieme completo di tutte le unità oggetto di studio. La dimensione della popolazione, N, può essere molto
grande, o addirittura infinita.
Il campione è il sottoinsieme delle unità osservate nella popolazione; la sua dimensione è indicata con
n.
Il campionamento casuale semplice è il procedimento usato per selezionare un campione n oggetti da una popolazione, in modo
tale che ciascuna unità della popolazione sia scelta rigorosamente a caso e abbia la stessa opportunità di essere scelta. Ogni possibile
campione di dimensione assegnata n deve avere la stessa possibilità di essere selezionato. Il campione ottenuto con questo metodo è
noto come campione casuale.
Lo studio della statistica è necessario per trarre conclusioni sull’intera popolazione, quando le informazioni sono state ottenute da un
campione, con un ovvio margine di incertezza.
Il parametro è una caratteristica specifica della popolazione; la
statistica è una caratteristica specifica del campione.
1.3 Statistica descrittiva e statistica inferenziale
La statistica descrittiva comprende metodi grafici e numerici che sono usati per sintetizzare ed elaborare i dati in modo da
trasformarli in informazioni. La statistica inferenziale fornisce le basi per le previsioni e per le stime che consentono di
trasformare le informazioni in conoscenza.
La statistica inferenziale è un processo, non un semplice risultato numerico: si può voler stimare un parametro, verificare un’ipotesi
riguardante un parametro, analizzare le relazioni tra due o più variabile o voler fare
previsioni attendibili.
Capitolo 2: DESCRIZIONE GRAFICA DEI DATI
2.1 Classificazione delle variabili
Le variabili categoriche generano risposte che appartengono a gruppi o a categorie.
Ex: “Hai un cellulare?”-‐“Sei single?” “sì/no”.
à
Le variabili numeriche comprendono sia le variabili discrete sia quelle continue.
-‐ Variabile numerica discreta: può (ma non necessariamente) avere un numero finito di valori; il tipo più comune proviene da
un conteggio. Ex: il n° di studenti di una classe, il n° di crediti ottenuto da uno studente nel semestre.
-‐ Variabile numerica continua: può assumere qualsiasi valore all’interno di un determinato intervallo di numeri reali e, di solito,
è originata da un processo di misurazione (non da un conteggio!). Ex: altezza, peso, tempo, distanza, temperatura. Il valore può
scostarsi di una certa quantità da quello ottenuto, a seconda della precisione dello strumento di misurazione utilizzato.
I dati possono anche essere classificati come qualitativi o quantitativi.
-‐ Dati qualitativi: non si può attribuire nessun significato misurabile alla “differenza” tra coppie di numeri (Ex: non è detto che
un giocatore di basket con maglia 20 sia il doppio più bravo del giocatore numero 10). Includono la scala nominale e la scala
ordinale.
-‐ Dati quantitativi: c’è un significato misurabile nella differenza numerica (Ex: uno studente con punteggio di 90 in un test è il
doppio più bravo di uno studente con punteggio 45). Includono la scala ad intervallo e la scala di rapporto.
Inoltre ci sono dati nominali, considerati un livello inferiore di misurazione dei dati poiché la codifica numerica è scelta per pura
convenienza. Assumono valori sotto forma di etichette che descrivono le categorie/classi di risposta.
Ex: i valori della variabile “sesso” sono “maschio” e “femmina”. I valori delle risposte “Sei single?” sono “sì” e “no”; ad ogni
risposta viene assegnato arbitrariamente un codice numerico con puro significato di classificazione (1=Maschio e 2=Femmina;
1=sì e 2=no).
I dati ordinali indicano un ordine gerarchico degli elementi e, allo stesso modo dei dati nominali, i valori assunti sono delle etichette che
descrivono le risposte.
Una scala ad intervallo indica l’ordine e la distanza da un’origine arbitraria misurata con una determinata unità di misura: i valori sono
ottenuti in relazione a un punto di riferimento prefissato.
Con la scala di rapporto si indicano sia un ordine sia la distanza da un’origine assoluta (lo zero), e il rapporto tra due misure assume un
significato numerico ben preciso. Ex: una persona che pesa 100 kg pesa il doppio di una di 50 kg.
La classificazione usata per raccogliere i dati è molto importante perché determina una diversa scelta della rappresentazione grafica.
2.2 Rappresentazioni grafiche per descrivere le variabili categoriche
Una distribuzione di frequenze è una tabella per organizzare i dati. La colonna a sinistra (che contiene le modalità o classi di
misura) comprende tutte le possibili risposte relative alla variabile oggetto di studio; la colonna di destra contiene l’elenco delle
frequenze (n° di osservazioni) per ogni classe.
Per descrivere &nbs