Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
STATISTICA DESCRITTIVA
INTRODUZIONE
Ogni decisione è presa in condizioni di incertezza dovute ad informazioni incomplete.
L’analisi statistica è composta da diversi passi:
Obiettivo/problema Raccolta dati Informazione Conoscenza Decisione
à à à à
La statistica serve per arrivare ad una decisione partendo da un obiettivo mediante la raccolta di dati grezzi e la loro
conversione in informazioni.
Le informazioni sono raccolte tramite l’analisi di dati prodotti da rilevazioni fatte sulla POPOLAZIONE.
Popolazione (N) = insieme completo di tutte le unità statistiche oggetto di studio, può essere molto grande o
addirittura infinita.
Al fine di rendere più accessibile l’operazione, soprattutto in termini di costi e raggiungibilità, la popolazione viene
ridotta ad un CAMPIONE.
Campione (n) = sottoinsieme delle unità osservate nella popolazione.
Affinché la ricerca sia valida è necessario che il campione osservato si rappresentativo della popolazione (ovvero deve
presentare caratteristiche rappresentative della popolazione), per questo motivo bisogna procedere attraverso un
processo di campionamento, ovvero ridurre la popolazione ad un suo sottoinsieme.
Il processo di campionamento più semplice è detto campionamento casuale semplice: questo procedimento fa in
modo che ciascuna unità della popolazione sia scelta a caso e abbia la stessa opportunità di essere scelta.
L’obiettivo della statistica è quindi ricavare informazioni sull’intera popolazione attraverso lo studio di un campione,
naturalmente tutto rimarrà con un certo margine d’incertezza.
Una caratteristica specifica del campione si chiama statistica (intesa come misura e non come disciplina) mentre una
caratteristica specifica della popolazione è detta parametro.
Quello che interessa agli statistici è riuscire a passare da una statistica ad un parametro.
La scienza statistica si divide in 2 branche:
1) Statistica descrittiva fornisce metodi grafici e numerici tali da poter trasformare dati grezzi in
à
informazioni. Raccoglie, sintetizza e presenta i dati.
2) Statistica inferenziale fornisce le basi per le previsioni utili a trasformare le informazioni in conoscenze.
à
Formula delle ipotesi e successivamente le verifica.
CLASSIFICAZIONE DELLE VARIABILI
Variabile = insieme di caratteristiche rilevate su delle unità statistiche
Modalità = uno dei possibili valori di un dato carattere (es. carattere: colore degli occhi, modalità: azzurro, verde etc..)
Le variabili possono essere classificate in diversi modi, si distinguono le variabile categoriche e quelle numeriche (se ci
si basa sulla quantità di informazioni contenute nei dati) oppure le variabili qualitative e quantitativa (se ci si basa sui
livelli di misurazione).
Quantità di informazioni:
• Variabili categoriche sono variabili generate da domande come “Sei mai stato ad Oslo?” oppure domande
à
sullo stato civile etc… che presuppongono come risposta un testo.
• Variabili numeriche si dividono in:
à
Numeriche discrete sono il risultato di un processo di conteggio (es. numero di amici su FB)e sono
à
o infinite numerabili;
Numeriche continue sono il risultato di un processo di misurazione (es. altezza) e sono infinite non
à
o numerabili;
N.B dal punto di vista statistico TUTTE le variabili riguardanti un prezzo o un costo sono da
considerarsi numeriche continue.
Livelli di misurazione:
• Dati qualitativi non posso fare dei calcoli
à
Nominali sono dati ottenuti da domande di tipo categorico, ossia che presuppongono una risposta
à
o testuale o un codice numerico che identifica unificamente una classificazione
Ordinali indicano un ordine gerarchico degli elementi e i valori assunti sono delle “etichette” che
à
o descrivono le risposte (es. titolo di studio). Nei dati qualitativi ordinari NON esiste un significato
misurabile nella differenza di intensità, ad esempio non posso dire che a 40° fa il doppio del caldo che a
20° poiché lo zero di questa scala è deciso in modo arbitrario.
Dati quantitativi ho più informazioni che con un dato qualitativo
à
• Scala ad intervallo scala contraddistinta con uno zero deciso in maniera arbitraria
à
o Scala di rapporto scala con uno zero deciso in modo oggettivo (es. l’età), per questo motivo
à
o posso mettere in rapporto due misure (chi ha 40 anni ha il doppio degli anni di chi ne ha 20).
La classificazione dei dati è fondamentale soprattutto perché ad essa è vincolata la scelta della rappresentazione
grafica.
ANALISI UNIVARIATA
L’analisi grafica è volta a sintetizzare i dati grezzi e a presentarli in maniera utile.
Prima di analizzare graficamente i dati bisogna:
1) Capire la tipologia di variabile
2) Verificare il numero di variabili analizzate congiuntamente
Dopo questa verifica si decide che grafico usare.
Dati qualitativi la stessa qualità si presenta più volte, analizzo una variabile per volta (analisi univariata)
à
Per i dati nominali uso:
• 1) Distribuzione di frequenze (T)
2) Grafico a torta (G) si utilizza quando si vuole sottolineare la porzione di ciascuna categoria
à
3) Grafico a barre (G) si usa quando si vogliono sottolineare le frequenze assolute di ogni categoria
à
Per i dati ordinari uso:
• 1) Distribuzione di frequenze (T)
2) Grafico a barre (G)
N.B per i dati ordinari NON uso il grafico a torta perché non esprime l’ordinamento necessario.
Tabella di distribuzione delle frequenze
È una tabella che serve per organizzare i dati grezzi. Soprattutto nei casi di dati qualitativi o quantitativa discreti,
poiché i dati grezzi possono ripetersi uguali più volte, risulta necessario sintetizzarli. Ciò è possibile associando a
ciascuna categoria il un numero detto frequenza assoluta che rispecchia il numero di volte che ciascuna categoria
compare nei dati.
Distribuzione di frequenze = tabella che associa a ciascuna delle k modalità distinte la frequenza con cui essa appare
nei dati.
Altro dato presente nella tabella di distribuzione delle frequenze è la frequenza relativa (o frequenza percentuale se
viene espressa in percentuale) la frequenza con cui si indentifica quanto è presente una certa modalità rispetto al
totale.
Diagrammi a torta e a barre
A seconda che il nostro scopo sia quello di porre attenzione sulla frequenza relativa oppure sulla frequenza assoluta
useremo il diagramma a torta nel primo caso e il diagramma a barre nel secondo.
N.B il grafico a barre è DIVERSO dall’istogramma.
Escluso il fatto che non si usa un grafico a torta, l’unica differenza fra dati qualitativi nominali e ordinari è che
tassativamente le modalità di dati ordinari vanno messe in ordine, ad esempio se compio uno studio sulle fasce di
prezzo dei ristoranti vicino all’università la tabella di distribuzione di frequenze e il grafico a barre saranno cosi:
Diagramma di Pareto
È un diagramma a barre che rappresenta le frequenze assolute/relative insieme a le frequenze cumulate (identificate
da una spezzata).
Per fare in modo di comporre un diagramma di Pareto bisogna prima ordinare la tabella di distribuzione di frequenze
in base alle frequenze assolute (è possibile farlo anche nel caso di dati qualitativi nominali).
Le frequenze cumulate si calcolano sommando in ordine le frequenze relative in modo da vedere quali modalità
pesano di più sulla totalità.
Successivamente si disegna un grafico a due assi nel quale sono rappresentate si le frequenze relative sia le frequenze
cumulate:
Dati quantitativi
Si distinguono due tipologie di dati quantitativi:
1) Quantitativi discreti con POCHI valori distinti (ovvero la variabile oggetto di studio avrà poche modalità)
es. n° di cellulari per persona, le modalità potranno essere 1,2, 3 ma difficilmente (o comunque
trascurabilmente) più di 3.
Questi dati si analizzano attraverso:
a. Distribuzione di frequenza (T)
b. Diagramma ad aste (G)
c. Diagramma scalini (G)
Prima di procedere con un esempio è giusto dare una definizione precisa di FUNZIONE DI RIPARTIZIONE:
Data una variabile X la funzione di ripartizione è definita dall’insieme di coppie di valori x e F(x). Dove:
x = valore qualsiasi assunto dalla variabile X
F(x) = frequenza relativa con cui osserviamo valori della variabile X x
≤
F(x) = F {X x}
≤
r
2) Quantitativi discreti oppure continui con TANTI valori distinti
es. n° di persone che entrano in 100 aeroporti oggetti di studio.
Questi dati si analizzano attraverso:
a. Distribuzione di frequenza (T)
b. Istogramma (G)
c. Ogiva (G)
Prima di rappresentare i dati tramite un grafico bisogna raggrupparli in CLASSI, in questo caso ho 2 opzioni:
a) Classi di uguale ampiezza
b) Classi di diversa ampiezza
CASO 1: classi di uguale ampiezza
Es. Il giorno di Natale 2014 raccolgo il numero di messaggi inviati da 20 diverse persone:
76,78,12,48,108,54…60
1) Ordino i dati:
12,28,34…,108
2) Divido i dati i n classi, quante lo decido arbitrariamente (in questo caso è conveniente dividere in 5 classi)
3) Trovo il CAMPO DI VARIAZIONE DEI DATI ovvero la differenza tra il numero minimo e il numero massimo:
Range = 108 – 12 = 96
4) Trovo l’ampiezza di ogni classe dividendo il range per il numero di classi scelto:
96 5 = 19,2 poiché una classe deve contenere un numero intero di elementi il risultato viene sempre
à
÷
approssimato per eccesso.
5) Determino le classi, ossia decido da che punto partire (meglio se i numeri sono “normali”, ossia 10 è meglio di
17 per iniziare una classe ad esempio):
[10;30) ; [30;50) ; [50;70) ; [70;90) ; [90;110)
Le classi scelte devono avere 2 caratteristiche fondamentali:
a. Mutua esclusività un dato non appartiene a più di una classe
à
b. Esaustività tutti i valori rientrano nelle classi
à
6) Costruisco il grafico/tabella scelto
Questi dati necessitano di due misure aggiuntive esplicitate nella tabella:
1) Ampiezza classe (soprattutto nel caso le classi siano di ampiezza diversa) w
à i
2) Densità di frequenza ossia la % di osservazioni per unità di intervallo, c = p / w
à i i i
Istogramma (diverso dal grafico a barre!) ci permette invece di capire la simmetria della distribuzione.
L’ogiva è una rappresentazione della funzione cumulativa delle frequenze di dati quantitativi raggruppati in classi (è
una spezzata e sono delle linee, e non degli scalini, pe