Appunti COMPLETI - Statistica descrittiva e Inferenza Statistica

Name: Appunti COMPLETI - Statistica descrittiva e Inferenza Statistica
Brand: Skuola.net
Rating: 4 (2 reviews)

Aggiornato il 06/12/2020

di NiccoloMP

Publisher

Vota 4,0/5 (2)

Contenuto originale e autentico, validato dal Team di Esperti di Skuola.net

Appunti COMPLETI sulla statistica descrittiva e inferenza statistica per preparare al meglio l'esame di statistica presso l'Università Bocconi. Gli appunti sono comprensivi di esempi e …

Esame Matematica e statistica per l'economia

Facoltà Economia

Dal corso del Prof. Tonini Giovanni

Università Università Commerciale Luigi Bocconi di Milano

A.A. 2015-2016

26 pagine

4 download

Appunto

Scarica

Estratto del documento

STATISTICA DESCRITTIVA

INTRODUZIONE

Ogni decisione è presa in condizioni di incertezza dovute ad informazioni incomplete.

L’analisi statistica è composta da diversi passi:

Obiettivo/problema Raccolta dati Informazione Conoscenza Decisione

à à à à

La statistica serve per arrivare ad una decisione partendo da un obiettivo mediante la raccolta di dati grezzi e la loro

conversione in informazioni.

Le informazioni sono raccolte tramite l’analisi di dati prodotti da rilevazioni fatte sulla POPOLAZIONE.

Popolazione (N) = insieme completo di tutte le unità statistiche oggetto di studio, può essere molto grande o

addirittura infinita.

Al fine di rendere più accessibile l’operazione, soprattutto in termini di costi e raggiungibilità, la popolazione viene

ridotta ad un CAMPIONE.

Campione (n) = sottoinsieme delle unità osservate nella popolazione.

Affinché la ricerca sia valida è necessario che il campione osservato si rappresentativo della popolazione (ovvero deve

presentare caratteristiche rappresentative della popolazione), per questo motivo bisogna procedere attraverso un

processo di campionamento, ovvero ridurre la popolazione ad un suo sottoinsieme.

Il processo di campionamento più semplice è detto campionamento casuale semplice: questo procedimento fa in

modo che ciascuna unità della popolazione sia scelta a caso e abbia la stessa opportunità di essere scelta.

L’obiettivo della statistica è quindi ricavare informazioni sull’intera popolazione attraverso lo studio di un campione,

naturalmente tutto rimarrà con un certo margine d’incertezza.

Una caratteristica specifica del campione si chiama statistica (intesa come misura e non come disciplina) mentre una

caratteristica specifica della popolazione è detta parametro.

Quello che interessa agli statistici è riuscire a passare da una statistica ad un parametro.

La scienza statistica si divide in 2 branche:

1) Statistica descrittiva fornisce metodi grafici e numerici tali da poter trasformare dati grezzi in

informazioni. Raccoglie, sintetizza e presenta i dati.

2) Statistica inferenziale fornisce le basi per le previsioni utili a trasformare le informazioni in conoscenze.

Formula delle ipotesi e successivamente le verifica.

CLASSIFICAZIONE DELLE VARIABILI

Variabile = insieme di caratteristiche rilevate su delle unità statistiche

Modalità = uno dei possibili valori di un dato carattere (es. carattere: colore degli occhi, modalità: azzurro, verde etc..)

Le variabili possono essere classificate in diversi modi, si distinguono le variabile categoriche e quelle numeriche (se ci

si basa sulla quantità di informazioni contenute nei dati) oppure le variabili qualitative e quantitativa (se ci si basa sui

livelli di misurazione).

Quantità di informazioni:

• Variabili categoriche sono variabili generate da domande come “Sei mai stato ad Oslo?” oppure domande

sullo stato civile etc… che presuppongono come risposta un testo.

• Variabili numeriche si dividono in:

Numeriche discrete sono il risultato di un processo di conteggio (es. numero di amici su FB)e sono

o infinite numerabili;

Numeriche continue sono il risultato di un processo di misurazione (es. altezza) e sono infinite non

o numerabili;

N.B dal punto di vista statistico TUTTE le variabili riguardanti un prezzo o un costo sono da

considerarsi numeriche continue.

Livelli di misurazione:

• Dati qualitativi non posso fare dei calcoli

Nominali sono dati ottenuti da domande di tipo categorico, ossia che presuppongono una risposta

o testuale o un codice numerico che identifica unificamente una classificazione

Ordinali indicano un ordine gerarchico degli elementi e i valori assunti sono delle “etichette” che

o descrivono le risposte (es. titolo di studio). Nei dati qualitativi ordinari NON esiste un significato

misurabile nella differenza di intensità, ad esempio non posso dire che a 40° fa il doppio del caldo che a

20° poiché lo zero di questa scala è deciso in modo arbitrario.

Dati quantitativi ho più informazioni che con un dato qualitativo

• Scala ad intervallo scala contraddistinta con uno zero deciso in maniera arbitraria

o Scala di rapporto scala con uno zero deciso in modo oggettivo (es. l’età), per questo motivo

o posso mettere in rapporto due misure (chi ha 40 anni ha il doppio degli anni di chi ne ha 20).

La classificazione dei dati è fondamentale soprattutto perché ad essa è vincolata la scelta della rappresentazione

grafica.

ANALISI UNIVARIATA

L’analisi grafica è volta a sintetizzare i dati grezzi e a presentarli in maniera utile.

Prima di analizzare graficamente i dati bisogna:

1) Capire la tipologia di variabile

2) Verificare il numero di variabili analizzate congiuntamente

Dopo questa verifica si decide che grafico usare.

Dati qualitativi la stessa qualità si presenta più volte, analizzo una variabile per volta (analisi univariata)

Per i dati nominali uso:

• 1) Distribuzione di frequenze (T)

2) Grafico a torta (G) si utilizza quando si vuole sottolineare la porzione di ciascuna categoria

3) Grafico a barre (G) si usa quando si vogliono sottolineare le frequenze assolute di ogni categoria

Per i dati ordinari uso:

• 1) Distribuzione di frequenze (T)

2) Grafico a barre (G)

N.B per i dati ordinari NON uso il grafico a torta perché non esprime l’ordinamento necessario.

Tabella di distribuzione delle frequenze

È una tabella che serve per organizzare i dati grezzi. Soprattutto nei casi di dati qualitativi o quantitativa discreti,

poiché i dati grezzi possono ripetersi uguali più volte, risulta necessario sintetizzarli. Ciò è possibile associando a

ciascuna categoria il un numero detto frequenza assoluta che rispecchia il numero di volte che ciascuna categoria

compare nei dati.

Distribuzione di frequenze = tabella che associa a ciascuna delle k modalità distinte la frequenza con cui essa appare

nei dati.

Altro dato presente nella tabella di distribuzione delle frequenze è la frequenza relativa (o frequenza percentuale se

viene espressa in percentuale) la frequenza con cui si indentifica quanto è presente una certa modalità rispetto al

totale.

Diagrammi a torta e a barre

A seconda che il nostro scopo sia quello di porre attenzione sulla frequenza relativa oppure sulla frequenza assoluta

useremo il diagramma a torta nel primo caso e il diagramma a barre nel secondo.

N.B il grafico a barre è DIVERSO dall’istogramma.

Escluso il fatto che non si usa un grafico a torta, l’unica differenza fra dati qualitativi nominali e ordinari è che

tassativamente le modalità di dati ordinari vanno messe in ordine, ad esempio se compio uno studio sulle fasce di

prezzo dei ristoranti vicino all’università la tabella di distribuzione di frequenze e il grafico a barre saranno cosi:

Diagramma di Pareto

È un diagramma a barre che rappresenta le frequenze assolute/relative insieme a le frequenze cumulate (identificate

da una spezzata).

Per fare in modo di comporre un diagramma di Pareto bisogna prima ordinare la tabella di distribuzione di frequenze

in base alle frequenze assolute (è possibile farlo anche nel caso di dati qualitativi nominali).

Le frequenze cumulate si calcolano sommando in ordine le frequenze relative in modo da vedere quali modalità

pesano di più sulla totalità.

Successivamente si disegna un grafico a due assi nel quale sono rappresentate si le frequenze relative sia le frequenze

cumulate:

Dati quantitativi

Si distinguono due tipologie di dati quantitativi:

1) Quantitativi discreti con POCHI valori distinti (ovvero la variabile oggetto di studio avrà poche modalità)

es. n° di cellulari per persona, le modalità potranno essere 1,2, 3 ma difficilmente (o comunque

trascurabilmente) più di 3.

Questi dati si analizzano attraverso:

a. Distribuzione di frequenza (T)

b. Diagramma ad aste (G)

c. Diagramma scalini (G)

Prima di procedere con un esempio è giusto dare una definizione precisa di FUNZIONE DI RIPARTIZIONE:

Data una variabile X la funzione di ripartizione è definita dall’insieme di coppie di valori x e F(x). Dove:

x = valore qualsiasi assunto dalla variabile X

F(x) = frequenza relativa con cui osserviamo valori della variabile X x

≤

F(x) = F {X x}

≤

2) Quantitativi discreti oppure continui con TANTI valori distinti

es. n° di persone che entrano in 100 aeroporti oggetti di studio.

Questi dati si analizzano attraverso:

a. Distribuzione di frequenza (T)

b. Istogramma (G)

c. Ogiva (G)

Prima di rappresentare i dati tramite un grafico bisogna raggrupparli in CLASSI, in questo caso ho 2 opzioni:

a) Classi di uguale ampiezza

b) Classi di diversa ampiezza

CASO 1: classi di uguale ampiezza

Es. Il giorno di Natale 2014 raccolgo il numero di messaggi inviati da 20 diverse persone:

76,78,12,48,108,54…60

1) Ordino i dati:

12,28,34…,108

2) Divido i dati i n classi, quante lo decido arbitrariamente (in questo caso è conveniente dividere in 5 classi)

3) Trovo il CAMPO DI VARIAZIONE DEI DATI ovvero la differenza tra il numero minimo e il numero massimo:

Range = 108 – 12 = 96

4) Trovo l’ampiezza di ogni classe dividendo il range per il numero di classi scelto:

96 5 = 19,2 poiché una classe deve contenere un numero intero di elementi il risultato viene sempre

approssimato per eccesso.

5) Determino le classi, ossia decido da che punto partire (meglio se i numeri sono “normali”, ossia 10 è meglio di

17 per iniziare una classe ad esempio):

[10;30) ; [30;50) ; [50;70) ; [70;90) ; [90;110)

Le classi scelte devono avere 2 caratteristiche fondamentali:

a. Mutua esclusività un dato non appartiene a più di una classe

b. Esaustività tutti i valori rientrano nelle classi

6) Costruisco il grafico/tabella scelto

Questi dati necessitano di due misure aggiuntive esplicitate nella tabella:

1) Ampiezza classe (soprattutto nel caso le classi siano di ampiezza diversa) w

à i

2) Densità di frequenza ossia la % di osservazioni per unità di intervallo, c = p / w

à i i i

Istogramma (diverso dal grafico a barre!) ci permette invece di capire la simmetria della distribuzione.

L’ogiva è una rappresentazione della funzione cumulativa delle frequenze di dati quantitativi raggruppati in classi (è

una spezzata e sono delle linee, e non degli scalini, pe

Anteprima

Vedrai una selezione di 7 pagine su 26