Che materia stai cercando?

Statistica 1 - primo parziale Appunti scolastici Premium

Appunti di statistica descrittiva sul primo parziale fatti molto bene basati su appunti personali del publisher presi alle lezioni della prof.ssa Anderlucci dell’università degli Studi di Bologna - Unibo, Facoltà di Economia, Corso di laurea magistrale in economia e commercio. Scarica il file in formato PDF!

Esame di Statistica descrittiva docente Prof. L. Anderlucci

Anteprima

ESTRATTO DOCUMENTO

E’ opportuno definire le classi in modo tale che esse presentino determinate caratteristiche:

il numero di classi sia adeguato al problema, ovvero sufficientemente piccole per fornire

• un’adeguata sintesi e sufficientemente grandi per mantenere un livello accettabile di

informazione di dettaglio.

! siano mutuamente esclusive, in modo tale che un’unità statistica appartenga ad una sola classe e

• non a due classi contemporaneamente. Ne conviene che è opportuno utilizzare una coerente

assegnazione degli intervalli, aperti a destra o a sinistra, in modo tale da non creare classi

sovrapposte tra loro ( da 1 - 10, da 11 - 20, … e NON da 1 - 10, da 10 - 20, …).

! siano esaustive, ovvero comprendano tutte le possibili modalità del carattere.

!

Tipi di rilevazione

!

Tra le situazioni di rilevazione, in cui lo statistico opera per l’acquisizione dei dati, si distinguono le

rilevazioni sperimentali e gli studi di osservazione.

Le rilevazioni sperimentali riguardano gli esperimenti effettuati, di norma, nel campo della fisica,

chimica, in laboratori, ecc. Esse si caratterizzano per una possibilità di controllare sia le condizioni

in cui si svolge il rilevamento sia le caratteristiche delle unità statistiche. Tali variabili, definite

fattori, possono essere sperimentali e di stratificazione. I primi riguardano quelle variabili su cui

l’esperimento è fondato, mentre i fattori di stratificazione riguardano altre unità sperimentali.

!

Esempio.

Supponiamo di voler studiare la crescita dei cavalli in base a tre diversi tipi di dieta sapendo che

essa è fortemente legata al sesso. In questo caso il fattore sperimentale è la dieta, mentre il fattore

di stratificazione è il sesso.

!

Il controllo diretto dei fattori sperimentali e di stratificazione avviene attraverso un disegno

sperimentale, mediante il quale si specifica la metodologia da impiegare per avere un controllo

diretto su uno o più fattori che incidono sul fenomeno di interesse.

Tuttavia è possibile che altri fattori, in primo luogo non considerati, possano influenzare i risultati

dell’esperimento. Per tale motivo si opera un controllo indiretto attraverso una particolare

procedura di selezione delle unità statistiche detta randomizzazione, che consiste nell’allocare le

unità in modo casuale in modo da minimizzare l’influenza di fattori irrilevanti.

!

Per quanto riguarda gli studi di osservazione assume particolare interesse l’indagine statica. La

principale differenza con la rilevazione sperimentale è che non è possibile avere un controllo e

l’osservatore è posto in un ruolo passivo. Per sopperire a tale problema, l’indagine statica, richiede

la progettazione di un piano di studio in cui vengono definite diverse fasi.

In primis occorre definire gli obbiettivi primari e secondari dell’indagine poiché una cattiva

definizione potrebbe comprometterne i risultati finali. Dunque occorre esplicitare le finalità

conoscitive in modo da rendere individuabile la popolazione alla quale ci si riferisce, le unità

statistiche che si devono prendere in considerazione e il periodo di riferimento dell’indagine che, in

alcuni casi, può essere antecedente (rilevazioni retrospettive).

Occorre poi individuare la popolazione oggetto dell’indagine e le unità appartenenti a tale target

tramite una lista, che rappresenta un elenco delle entità statistiche.

Predisposta la lista e definito un piano di campionamento occorre raccogliere i dati inerenti

all’indagine.

Questa fase prevede diversi metodi, tra cui l’intervista, gli strumenti automatici di registrazione e

l’analisi di dati consuntivi.

Gli strumenti automatici di registrazione ricorrono a collezioni di dati, già pronti per essere

analizzati, predisposti da fonti attendibili come ISTAT e SISTAN (coordina dati provenienti da

diversi enti), fonti amministrative e banche di dati internazionali (ONU, OCSE, …).

Per quanto riguarda l’intervista consiste nel rivolgere alcune domande alle unità statistiche che

compongono la popolazione e nel registrare le risposte a tali domande. Vi sono diverse tecniche di

intervista che si differenziano in base al modo in cui viene somministrato il questionario:

diretta, dove l’osservatore interagisce direttamente con l’unità osservata consentendo, qualora

• sia ben addestrato, di ottenere informazioni più precise.

indiretta, in cui non vi è più un rapporto one to one fra osservatore e intervistato. Tale

• metodologia risulta essere più economica a scapito, però, di una qualità di informazioni minore

rispetto a quella diretta. Le modalità in cui viene inviato il questionario possono essere diverse

fra cui la posta elettronica e tramite Web, CAWI.

telefonica, che usufruisce dei telefoni fissi, e per tale motivo, poco utilizzata quest’oggi.

• CATI - CAPI, in cui un’operatore interagisce tramite un personal computer con l’unità al fine di

• accompagnarlo nella compilazione del questionario.

exit poll, molto popolare in questi ultimi anni, ha lo scopo di fornire stime dei risultati delle

• elezioni prima dello spoglio delle schede elettorali.

!

Una volta raccolti i dati si procederà alla registrazione e ad un controllo preliminare della loro

qualità, per analizzare la compatibilità delle informazioni ottenute (un bambino di 5 anni non può

essere coniugato, ecc). Dopo aver corretto i dati si passerà alla fase di elaborazione e analisi statica.

!

Rilevazione totale e campionaria

!

Le indagini statistiche possono essere totali (o censuarie) oppure campionarie.

Nelle indagini censuarie vi è una rilevazione accurata ed esaustiva che permette di evitare l’errore

di campionamento, dovuto al fatto che si osserva un campione della popolazione che potrebbe non

essere rappresentativo del resto. Nonostante questi vantaggi, tale rilevazione, ha dei costi molto

elevati in termini economici e temporali, sia per la raccolta che per l’elaborazione dei dati.

!

Per quanto concerne la rilevazione campionaria, anche se le informazioni sono state ottenute con

attenzione, costituiscono un’approssimazione di tutta la popolazione e dunque, potrebbero essere

oggetto di errori di campionamento. Il motivo per cui, nonostante questo aspetto critico, è sempre

più impiegata dagli statistici è dovuta al fatto che, a differenza delle indagini totali, il numero

limitato di unità da esaminare consente di ottenere informazioni in tempi rapidi e a costi molto più

contenuti in quanto dipendono dal numero di unità da rilevare. Inoltre permette di effettuare

un’indagine ricorrente, cioè ripetuta a intervalli regolari nel tempo, essenziale nello studio di molti

fenomeni. Infine, un altro aspetto fondamentale, riguarda la qualità delle osservazioni ottenute

dall’indagine. Infatti i risultati potrebbero essere affetti anche da errori non campionari, che non

dipendono dal carattere aleatorio dell’operazione di campionamento (errori di trascrizione o di

compilazione). Viene da se che minore è il numero di unità minore sarà la presenza di tali errori.

Per procedere alla rilevazione campionaria occorre però stabilire la modalità con cui viene

estrapolato un campione e si usa, in generale, il campionamento casuale, che può essere:

semplice, qualora i campioni hanno tutti la stessa probabilità di essere estratti.

• stratificato, quando la popolazione viene suddivisa in strati per ognuno dei quali vengono

• estratte, tramite un campionamento semplice, le unità statistiche.

Il questionario

!

Il questionario è lo strumento di rilevazione dei dati più utilizzato nelle indagini statistiche. E’ un

modello costituito da un’insieme di domande sottoposte a un collettivo di unità statistiche.

Per un’efficiente indagine occorre che esso venga progettato con attenzione in modo adeguato.

Il primo passo per la progettazione di un questionario è la concettualizzazione, in cui si

individuano le entità che interessano e si descrivono le relazione esistenti fra le entità. Occorre poi

individuare aree e sotto aree, decidere la formulazione delle domande, ovvero il linguaggio da

utilizzare in funzione del tipo di popolazione e, infine, definire la sequenza logica delle domande.

Quest’ultimo aspetto risulta essere di particolare rilevanza poiché le risposte possono variare a

seconda del modo in cui sono sottoposte. Si possono distinguere:

successioni a imbuto, in cui si formulano inizialmente domande generiche per poi giungere a

• domande sempre più specifiche.

successioni a imbuto capovolto, in cui vengono proposte inizialmente domande molto

• specifiche per poi pervenire a domande più generali al fine di richiedere giudizi più ponderati sui

temi generali.

!

Le domande poste in un questionario si possono differenziare sia per il modo in cui sono sottoposte

che per il tipo di risposte previste. In base a questi due aspetti possiamo distinguere:

domande dirette, quando si chiama in causa direttamente l’intervistato;

• domande indirette, quando ci si riferisce a una generica terza persona;

• domande aperte, quando all’intervistato viene lasciata piena libertà di rispondere al quesito;

• domande chiuse, quando l’intervistato considera un insieme chiuso di risposte alternative

• predefinite durante la fase di progettazione del questionario, momento molto delicato poiché non

sempre si è a conoscenza di tutte le modalità che corrispondono al fenomeno;

domanda a risposta semplice, quando ammettono solamente una risposta fra quelle possibili;

• domande a risposta multipla, quando consentono di poter scegliere più di una risposta.

!

! Distribuzione di un carattere e sua rappresentazione

!

Dopo le fasi di acquisizione e di registrazione dei dati, il primo passo per l’elaborazione statistica è

quello di passare dal protocollo elementare, ovvero l’insieme dei valori assunti da un carattere

oggetto dell’indagine nelle unità statistiche collettive (contenuto della tabella), alla distribuzione di

frequenza, che contiene la numerosità con cui le informazioni di un carattere si presentano. In altri

termini vengono riassunte tutte le informazioni, raggruppando in classi le n unità statistiche secondo

le k modalità del carattere osservato.

Il numero di unità statistiche si chiama frequenza assoluta e si determina tramite un conteggio di

tutte le unità statistiche che presentano la medesima modalità di un carattere.

Dunque la distribuzione di frequenza non è altro che l’attribuzione, a ciascuna modalità che può

assumere il carattere, delle rispettive frequenze assolute.

!

A seconda di quanto caratteri vengono considerati si possono distinguere:

distribuzioni semplici, se si considerano i caratteri in modo indipendente e separato, dunque

• uno alla volta;

distribuzioni doppie, se si considerano congiuntamente le modalità di due caratteri;

• distribuzioni multiple, se si considerano più di due caratteri congiuntamente allo stesso tempo.

!

In generale i caratteri, aventi K modalità, vengono indicati con una lettera maiuscola dell’alfabeto,

iniziale per i caratteri qualitativi (A, B) e finale per quelli quantitativi (X, Y).

Le K modalità che il carattere assume vengono indicate, invece, con la lettera minuscola (x).

L’insieme delle modalità che il carattere assume viene espresso tramite una successione,

X: (x , x ,…, x ,…, x ), dove la i-esima modalità del carattere indica il generico modo di essere.

1 2 i k

Le unità statistiche vengono indicati con n e sono, rispettivamente, n , n ,…, n ,…, n , le

1 2 j k

frequenze associate alle K modalità, dove la j-esima unità statistica indica la generica unità.

!

! modalità del carattere = > < = frequenza assoluta

X n i

!

! x n

1 1

! x n

2 2

!

! … …

! x n

j j

!

! … …

! x n

k k

!

! totale osservato

!

Dunque nel protocollo elementare abbiamo n righe che corrispondono alle unità statistiche mentre

nella distribuzione di frequenza abbiamo k righe, ovvero le modalità del carattere.

!

Esempio.

! Unità Sesso Età Colore degli occhi Titolo di studio Gradimento studi (assolutamente

no/ più no che si/ più si che no/

assolutamente si

1 Maschio 22 azzurro Diploma più si che no

2 Femmina 18 nero Licenza media più si che no

3 Femmina 34 marrone Laurea assolutamente si

4 Femmina 42 nero Dottorato assolutamente si

5 Maschio 23 nero Diploma più si che no

6 Femmina 30 marrone Laurea più si che no

7 Femmina 40 azzurro Licenza media più si che no

8 Femmina 29 azzurro Laurea assolutamente si

!

!

! Titolo di studio n

Sesso n i

i

! Licenza media 2

Maschio 2

! Diploma 2

Femmina 6

!

! Laurea 3

8

! Dottorato 1

8

Può anche accadere che per alcune modalità la frequenza corrispondente sia nulla. In questo caso è

comunque utile e informativo inserirle nella distribuzione di frequenza poiché, il fatto che sia nulla,

può rappresentare anch’essa un’informazione.

!

! Gradimento studi n i

! Assolutamente no 0

!

! Più no che si 0

! Più si che no 5

! Assolutamente si 3

!

! 8

!

Quando il carattere è quantitativo continuo nella costruzione di una distribuzione di frequenza è

prevista la possibilità di creare intervalli (classi) al fine di avere un’idea più chiara della realtà,

nonostante comporti una perdita di informazioni. Ovviamente le successioni degli intervalli devono

essere esaustive e disgiunte.

Il punto critico nella costruzione degli intervalli è rappresentato dalla determinazione degli estremi,

che possono essere chiusi, ovvero estremi compresi, o aperti, ovvero estremi esclusi.

Per indicare gli estremi di un intervallo si usa la seguente simbologia:

X X , intervallo chiuso a sinistra e aperto a destra, X compreso nell’intervallo e X escluso

• |—

i-1 i i-1 i

! X X , intervallo chiuso a destra e aperto a sinistra, X compreso nell’intervallo e X escluso

• —|

i-1 i i i-1

! X X , intervallo chiuso da entrambi i lati, sia X che X sono compresi.

• |—|

i-1 i i-1 i

!

L’ampiezza del singolo intervallo si indica con W (width) e si ottiene come differenza algebrica fra

i due estremi X + X mentre, il valore centrale della classe i-esima, si ottiene dalla semi somma

i i-1

degli estremi: ˆ X + X

i-1 i

X =

i 2

!

! Età n

! i

! 0 —| 20 1

! 20 —| 30 4

!

! 30 —| 40 2

! > 40 1

! 8

!

!

!

!

!

!

!

!

Frequenze relative e percentuali

!

Dalle distribuzioni di frequenze assolute si può passare alle distribuzioni di frequenze relative e

percentuali.

La frequenza relativa è il rapporto, fra la frequenza assoluta e il numero di unità, che misura la

proporzione di una certa numerosità del carattere in funzione delle unità statistiche totali, ovvero il

peso delle classi sul complesso delle osservazioni.

n i

ƒ =

i n

!

La frequenza percentuale è, invece, pari alla frequenza relativa moltiplicata per 100.

! p = ƒ 100

*

i i

!

La somma di tutte le frequenze relative deve essere uguale a 1, mentre la somma delle frequenze

percentuali deve essere pari a 100.

Il passaggio dalla distribuzione assoluta a quella relativa o percentuale assume significato qualora si

necessita di confrontare due o più collettivi rispetto a un carattere. Dalle frequenze assolute,

contenendo maggiori informazioni, è sempre possibile ricavare quelle relative o quelle percentuali,

mentre per il procedimento inverso occorre conoscere il numero totale di unità statistiche n.

!

!

! Sesso n ƒ p

! i i i

! Maschio 2 0,25 25

! Femmina 6 0,75 75

! 8 1 100

!

!

Frequenze cumulate

!

Nel caso in cui il carattere in esame sia ordinabile (quantitativo o qualitativo) è possibile costruire,

partendo da qualsiasi tipo di distribuzione di frequenza (assoluta, relativa e percentuale) la

distribuzione delle frequenze cumulate.

Essa si ottiene raggruppando in classi le unità che presentano un livello del carattere al più uguale

ad una soglia che varia a seconda delle modalità del carattere stesso.

In altri termini, data una generica modalità, la frequenza cumulata si ottiene sommando le frequenze

fino ad una determinata classe i.

!

Simbolicamente si indica con N = n + n +…+ n la frequenza assoluta cumulativa,

i 1 2 i

con F = f + f +…+ f la frequenza relativa cumulativa e con P = p + p +…+ p la frequenza

i 1 2 i i 1 2 i

percentuale cumulativa.

La frequenza assoluta cumulativa corrispondente alla prima modalità è uguale alla frequenza

assoluta, ovvero: N = n ,

1 1

mentre la frequenza assoluta cumulativa corrispondente all’ultima modalità K è uguale al totale

delle osservazioni n, ovvero: N = n.

k

!

Analogamente, si ha che: F = ƒ e F = 1

1 1 k

P = p e P = 100

1 1 k

!

Per passare dalla distribuzione cumulativa alla distribuzione di frequenza si ha, in modo analogo per

tutte le tipologie, con differimento per la simbologia:

n = N - N

! i i i-1

! Frequenza Frequenza Frequenza

! assoluta relativa percentuale

X

! cumulativa cumulativa cumulativa

! x N F P

1 1 1 1

!

! x N F P

2 2 2 2

! … … … …

!

! x N F = 1 P = 100

k k k k

!

!

!

Serie storica e serie territoriale

!

Quando si misura uno stesso fenomeno nel tempo, registrandolo in determinati istanti, la

successione dei valori misurati da origine a una rappresentazione tabellare denominata serie storica

o temporale.

Ne sono esempi la popolazione residente in un Paese ai censimenti oppure il consumo trimestrale di

elettricità di una città.

!

Quando invece si misura un fenomeno di carattere geografico, le cui modalità rappresentano

nazioni, regioni, città, ecc., la distribuzione viene detta serie territoriale o spaziale.

!

!

! Serie temporale o storica

Anno Occupati

! 2001 21.965

! 2002 22.240

! Serie territoriale o spaziale

2003 22.289

!

! 2004 22.404 Area geografica Occupati

! 2005 22.563 Nord 11925

! 2006 22.988 Centro 4826

!

! 2007 23.222 Mezzogiorno 6216

!

!

!

!

!

Rappresentazione grafica

!

Per rendere più evidenti e di facile lettura le caratteristiche della distribuzione della variabile sul

collettivo preso in esimente vengono utilizzate delle immagine grafiche, rappresentazioni, che

possono variare a seconda dei tipi di dati a disposizione.

!

Grafici a barre o a nastri

!

Per le rappresentazioni grafiche delle distribuzioni di frequenze sono solitamente utilizzati i grafici

a barre (verticali) o a nastri (orizzontali). Essi sono costituiti da una successione di rettangoli che

hanno la stessa base (o altezza) e l’altezza (o la base) proporzionale alla frequenza. Se il carattere è

qualitativo ordinato o quantitativo, è preferibile utilizzare il grafico a barre poiché consente una

migliore visualizzazione dell’ordinamento delle modalità.

!

! 100

! aprile

! 75

maggio

! 50

!

giugno

! 25

! luglio

! 0 aprile maggio giugno luglio

! 0 25 50 75 100

!

Grafici a torta

!

I grafici a torta vengono utilizzati per rappresentare la composizioni di un certo carattere in base

alle modalità. La torta viene ripartita in K settori, a seconda della K modalità, proporzionali alle

frequenze relative.

!

! aprile giugno settembre

!

!

! 13%

!

!

!

! 20%

!

! 66%

!

!

!

!

!

!

!

!

Istogrammi

!

Gli istogrammi sono costituiti da barre non distanziate simili ai grafici a barre ma con la base dei

rettangoli proporzionale all’ampiezza (b = w ) e l’altezza proporzionale alla densità di frequenza

i

(h = n / w ), dunque con un area corrispondente alla frequenza (A = b*h = > n ).

i i i i

!

! 70

!

! 52,5

!

! 35

!

! 17,5

!

! 0

! aprile maggio giugno luglio

Cartogrammi

!

I cartogrammi servono per rappresentare le serie territoriali. In questi grafici la base è una mappa e

l’intensità del colore è proporzionale alla frequenza

!

!

!

!

!

!

!

!

!

!

!

!

Diagrammi cartesiani

!

I diagrammi cartesiani vengono utilizzati per rappresentare le serie storiche. Tali grafici si

presentano come successioni di punti che forniscono l’idea temporale dell’andamento del

fenomeno. Nell’asse delle x viene indicato lo scorrere del tempo mentre, nell’asse delle y, il valore

osservato.

!

!

!

!

!

!

!

!

!

!


PAGINE

21

PESO

360.78 KB

AUTORE

cate5

PUBBLICATO

+1 anno fa


DETTAGLI
Corso di laurea: Corso di laurea magistrale in economia e commercio
SSD:
Università: Bologna - Unibo
A.A.: 2017-2018

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher cate5 di informazioni apprese con la frequenza delle lezioni di Statistica descrittiva e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Bologna - Unibo o del prof Anderlucci Laura.

Acquista con carta o conto PayPal

Scarica il file tutte le volte che vuoi

Paga con un conto PayPal per usufruire della garanzia Soddisfatto o rimborsato

Recensioni
Ti è piaciuto questo appunto? Valutalo!