STATISTICA
STATISTICA DESCRITTIVA DI BASE (LEZ. II – XVIII)
STATISTICA = Scienza che studia con metodi matematici fenomeni collettivi.
L’aspetto cruciale della statistica è di essere rivolto alla conoscenza dei fenomeni
collettivi e non ai casi individuali specifici. Tecnica che ha per scopo la conoscenza
quantitativa dei fenomeni collettivi.
Attraverso gli strumenti analitici statistici è possibile:
- Sintetizzare le informazioni con indici, tabelle e grafici;
- Validare un modello teorico attraverso osservazione di dati reali;
- Quantificare l’incertezza;
- Mettere in relazione diversi fenomeni e individuare nessi di casualità.
TIPOLOGIE DI STATISTICA
- STATISTICA DESCRITTIVA: quella che si limita a descrivere i fenomeni
attraverso indici e grafici.
Si occupa di descrivere e sintetizzare (con tabelle, grafici, indici sintetici, ecc..)
le informazioni (qualitative e quantitative) relative ad un certo gruppo di
“soggetti” al fine di far emergere caratteristiche, andamenti ed
eventuali relazioni che si verificano all’interno del fenomeno
analizzato.
Gli strumenti della statistica descrittiva permettono di sintetizzare e
rappresentare i dati osservati.
la costruzione delle tabelle e dei grafici
o il calcolo delle medie
o l’analisi della variabilità
o le tabelle doppie di contingenza
o la retta di regressione
o
- STATISTICA INFERENZIALE: quella che, anche avvalendosi di metodi
probabilistici, permette di trarre conclusioni generali a partire
dall'esame di un campione.
Utilizza le informazioni raccolte da un’indagine campionaria e le “manipola”
(grazie all’utilizzo di opportuni “modelli”) in modo da poter generalizzare le
indicazioni tratte dal gruppo (analisi parziale) investigato a tutta la popolazione
dalla quale tale gruppo è stato estratto.
L’inferenza statistica è un processo induttivo che permette di passare dal
particolare (l’indagine campionaria) al generale (la popolazione da cui è stato
estratto il campione).
Il passaggio dal campione alla popolazione avviene in condizioni di incertezza,
ed è per questo che l’inferenza usa strumenti probabilistici per estendere le
informazioni campionarie alla popolazione.
il calcolo delle probabilità
o le variabili casuali
o il teorema del limite centrale
o gli stimatori
o la stima per intervallo
o i test
o
DEFINIZIONI
FENOMENO STATISTICO = fenomeni collettivi che possono essere osservati
tramite i metodi statistici in particolari condizioni omogeneità. I fenomeni
statistici sono oggetto di studio e di misurazione tramite la statistica, l’Oggetto della
nostra analisi. Per un corretto studio del fenomeno statistico è innanzi tutto
necessario definire e specificare correttamente l’obiettivo conoscitivo. Esso deve
essere individuato senza ambiguità, altrimenti tutta l’analisi che ne consegue risulta
non valida.
INDIVIDUI/ UNITA’ STATISTICHE = individuo su cui si osserva la caratteristica di
interesse. Unità elementare su cui andiamo ad osservare e rilevare la
caratteristica che in ambito di analisi avevamo definito. Su tali unità statistiche
saranno rilevate (osservate) le caratteristiche definite nell’obiettivo dell’analisi.
UNITA’ DI RILEVAZIONE= è il tipo di individuo rispetto al quale vengono raccolte le
informazioni
CLASSIFICAZIONE DELLE RILEVAZIONI STATISTICHE A SECONDA
DELL’ESTENSIONE
- RILEVAZIONE STATISTICA SULLA POPOLAZIONE
POPOLAZIONE = l’insieme degli individui (unità statistiche)
o portatori della caratteristica di interesse (non necessariamente
esseri umani, possono essere macchinari, aziende, immobili, etc).
CENSIMENTI = Indagini sulla popolazione
o
- RILEVAZIONE STATISTICA SU CAMPIONE
CAMPIONE = è solo una parte della popolazione (un sottoinsieme),
o quindi si prende in esame solo una parte delle unità statistiche portatrici
della stessa caratteristica d’interesse.
TEORIA DEI CAMPIONI = è una branca della Statistica che definisce i
o criteri per la selezione delle unità nella popolazione al fine della
formazione del campione.
INDAGINE CAMPIONARIA = indagine basata su campioni
o VANTAGGI SVANTAGGI TIPOLOGIA
DI
INDAGINE
POPOLAZI Esaustività Costi elevati Censimento
ONE Ricchezza Lunghi tempi elaborazione
informazioni Difficoltà a raggiungere tutti
Maggior dettaglio Qualità informazioni (?)
(copertura)
CAMPIONE Errore campionario (c’è e ci Indagine
- Economicità sarà sempre proprio perché Campionaria
- Possibilità prendiamo in analisi una parte
ripetizione ridotta della popolazione. Con
le tecniche di campionamento
indagine possiamo ridurre il margine di
- Indagini mirate errore, ma non eliminarlo)
- Tempestività Minor livello di copertura
- Può essere Selezione campione (se non
sufficiente una viene fatto nel modo corretto e
conoscenza appropriato può dare
approssimata indicazioni totalmente errate)
del fenomeno
di interesse
- Non
accessibilità
della
popolazione
(universo)
IL CAMPIONAMENTO
Se da una popolazione di N elementi si estrae un campione di n elementi, è possibile
definire le seguenti grandezze:
FRAZIONE DI CAMPIONAMENTO INTERVALLO DI CAMPIONAMENTO
(n/N) * 100% N/n
(ci dà un’idea della relazione
(proporzionalità) tra le due dimensioni).
TIPOLOGIE DI CAMPIONAMENTO
- CAMPIONAMENTO CASUALE SEMPLICE: equivale ad associare ad ogni unità
della popolazione una pallina numerata e ad estrarre a caso da un’urna, una per
volta e senza riporla, tante palline quante sono le unità che si vogliono
campionare.
Affinché si possa applicare tale metodo è necessario disporre di una lista che
elenchi tutte le unità statistiche della popolazione.
VANTAGGI SVANTAGGI
- -
Semplicità Costi di rilevazione elevati
- -
La distribuzione di frequenza ci Stime meno precise, a parità di
dice "come si distribuiscono le numero di osservazioni (poca
frequenze tra le modalità efficienza)
osservate"; - Poco utilizzato nelle indagini di
- Richiede una minima grandi dimensioni;
conoscenza a priori delle - In generale non vengono
caratteristiche della utilizzate tutte le informazioni
popolazione; che si posseggono sulla
- È vantaggioso quando la popolazione
popolazione non è molto
grande
- Garantisce una scelta obiettiva
delle unità da rilevare e tale da
escludere qualunque
distorsione nei risultati.
- CAMPIONAMENTO CASUALE STRATIFICATO: consiste nel suddividere la
popolazione di partenza in k gruppi, ciascuno con elementi il più possibile
omogenei fra di loro, ed estraendo quindi un campione casuale di opportune
dimensioni da ciascuna classe.
- I gruppi o le classi in cui si suddivide la popolazione si chiamano strati ed il
procedimento di ripartizione in gruppi si chiama stratificazione. (utilizzo la
formula di frazione di campionamento)
VANTAGGI SVANTAGGI
- -
consente di aumentare la Se non si hanno sufficienti
precisione delle stime a parità informazioni a priori, la
di dimensione campionaria costruzione degli strati può
(rispetto al campionamento risultare alquanto costosa;
casuale semplice). - Se la stratificazione è errata si
- La stratificazione è molto possono ottenere risultati
conveniente quando la fuorvianti.
distribuzione statistica della
variabile da rilevare è
fortemente asimmetrica.
- CAMPIONAMENTO SISTEMATICO: (campionamento razionale) nella presente
tecnica si individuano le unità in maniera sistematica, Infatti, dopo aver ordinato
e numerato a partire da 1 le unità della popolazione si sceglie una unità
campionaria ogni k unità della popolazione. Generalmente la prima unità viene
scelta a caso fra 1 ed il numero più vicino all’intervallo di campionamento
k=N/n. Così se la prima unità scelta è h, le unità campionarie sono quelle
contrassegnate dai numeri h, h + k, h + 2k..
VANTAGGI SVANTAGGI
- -
Le operazioni di estrazione, Se la popolazione ordinata
rilevazione e controllo del varia con tendenza lineare, il
campione sono, in generale, campionamento sistematico è
più facili e rapide rispetto a più efficiente del
quelle dei campionamenti campionamento casuale ma
casuale semplice e di quello meno del campionamento
stratificato. stratificato.
- -
Questo schema di Se la popolazione ordinata ha
campionamento casuale risulta un andamento periodico,
molto efficiente da realizzare l'efficienza di un campione
quando si disponga della lista sistematico dipende dal valore
delle unità statistiche della k e dalla relazione fra k ed il
popolazione sotto forma di file periodo dell'oscillazione.
elaborabile al computer - Quando N non è un multiplo
intero di k, le stime, a rigore, si
considerano corrette soltanto
per campioni di dimensione
maggiore di 50.
- CAMPIONAMENTO A GRAPPOLO: Il campionamento a grappoli consiste nella
formazione di convenienti gruppi di unità statistiche (grappoli) e nell'estrarre un
campione di grappoli secondo un determinato schema di campionamento
probabilistico (cioè dopo aver proceduto alla formazione di una lista di grappoli).
La differenza rispetto al campionamento stratificato è nel fatto che, una volta
estratto il grappolo, al suo interno vengono prese tutte le unità. Inoltre la
popolazione non deve essere divisa in strati rappresentativi, ma semplicemente
deve essere ripartita tra gruppi.
VANTAGGI SVANTAGGI
- -
Non richiede l'elenco di tutte le Ogni unità della popolazione
unità della popolazione, ma deve essere assegnata ad uno
soltanto di quelle che ed uno solo grappolo altrimenti
appartengono ai grappoli scelti. si verifica la molteplicità o
l'esclusione di alcune unità.
- Quando i grappoli sono definiti -
geograficamente, le unità da Si rileva una perdita di
rilevare risultano meno efficacia quando le unità di un
disperse nel territorio grappolo sono molto simili.
- CAMPIONAMENTO A DUE O PIU’ STADI: Allo scopo di ridurre i costi di
un'indagine campionaria, si ricorre in molte occasioni ad uno schema che
comporta l'individuazione di unità primarie di rilevazione e di unità secondarie o
di ordine superiore. La situazione è analoga a quella del campionamento a
grappoli, ma in questo caso ciascun grappolo non viene esplorato
esaustivamente, ma mediante successivo campionamento.
VANTAGGI SVANTAGGI
- -
La lista per il campionamento è Come per il campionamento a
costruita per rappresentare grappoli, si rileva una perdita
bene le unità del primo stadio di efficacia quando le unità
(unità primarie); - La lista per il primarie sono molto simili.
campionamento per le unità - I campionamenti a più stadi
secondarie può essere costruita possono dar luogo ad una
durante l'analisi delle unità grande varietà di casi
primarie scelte; potendosi combinare negli
- Se le unità di primo stadio, ad stadi successivi
esempio, sono definite campionamenti casuali
geograficamente, i costi semplici con campionamenti
dell'indagine vengono ridotti. stratificati oppure sistematici.
TIPOLOGIE DI CARATTERI (CARATTERISTICA OGGETTO DI STUDIO)
CARATTERE= è la caratteristica, oggetto di studio, rilevata e/o misurata sulle unità
statistiche. QUALITATIVO: Il carattere osservato sull’unità statistica si può esprimere
o attraverso un ATTRIBUTO (NOMINALE)
CARATTERI QUALITATIVI SCONNESSI: (non ordinabili, ad
esempio: sesso, stato civile, squadra di calcio per cui si tifa)
(minore capacità informativa)
CARATTERI QUALITATIVI ORDINABILI: (ad esempio:
livello nella professione, grado militare).
QUANTITATIVO: Il carattere osservato sull’unità statistica si può
o esprimere attraverso un NUMERO (ORDINALE)
CARATTERI QUANTITATIVI DISCRETI: assumono soltanto
numeri interi come valori osservabili (o in generale un
insieme numerabile),cioè in grado di assumere solo un
numero discreto (finito o infinito) di modalità (ad esempio:
numero di figli di una coppia, voto esame universitario)
CARATTERI QUANTITATIVI CONTINUI: fissato un
intervallo, possono esprimersi potenzialmente attraverso
tutti i valori all’interno di tale intervallo, cioè in grado di
assumere qualunque valore all’interno di un intervallo
definito (ad esempio: peso, reddito).
MODALITA’= modo in cui il carattere si manifesta sulla singola unità statistica
(qualitative/quantitative – non ordinabili/ordinabili – discrete/fisse). Variazioni del
carattere principale.
OPERAZIONI SULLE MODALITA’- TIPOLOGIE DI FENOMENI
CARATTERE QUALITATIVO
- CARATTERE QUALITATIVO NON ORDINABILE: si può esprimere soltanto un
parere di uguaglianza-disuguaglianza
- CARATTERE QUALITATIVO ORDINABILE: si può esprimere un confronto
“maggiore - minore” oltre che uguaglianza/disuguaglianza
CARATTERE QUANTITATIVO
- CARATTERE QUANTITATIVO DISCRETO: il confronto si può esplicitare
attraverso la misurazione della differenza o del rapporto tra modalità, solo con
numeri finiti, non decimali. (CONTEGGIO) (maggiore/minore/uguale e +/- inteso
come differenza tra 2 o più unità) posso non solo dire se i due dati sono
uguali/diversi, maggiori/minori, ma anche di quanto sono differenti.
- CARATTERE QUANTITATIVO CONTINUO: il confronto si può esplicitare
attraverso la misurazione della differenza o del rapporto tra modalità, con
numeri decimali all’interno di un intervallo. (MISURAZIONE)
(maggiore/minore/uguale e +/- inteso come differenza tra 2 o più unità). posso
non solo dire se i due dati sono uguali/diversi, maggiori/minori, ma anche di
quanto sono differenti.
TIPOLOGIE DI SCALE APPLICABILI A FENOMENI DI CARATTERE QUANTITATIVO
- SCALE DI INTERVALLI: determinate da uguale/diverso, maggiore/minore e di
quanto maggiore/minore (differenza)
- SCALE DI RAPPORTI: determinate da uguale/diverso, maggiore/minore, di
quanto maggiore/minore (differenza numerica), doppio/triplo/metà ecc. (che
rapporto c’è tra un dato e l’altro)
DISTRIBUZIONI DI FREQUENZA
DISTRIBUZIONE DI FREQUENZA= La distribuzione di frequenza ci dice "come si
distribuiscono le frequenze tra le modalità osservate" sotto forma di tabella.
L’obiettivo della costruzione della tabella di frequenze è quello di avere una
percezione più immediata di come si distribuisce il carattere. Inoltre tale tabella è un
modo più sintetico di rappresentare i dati osservati, soprattutto se questi sono di
elevata numerosità.
TIPOLOGIE DI DISTRIBUZIONI DI FREQUENZA
- FREQUENZE SEMPLICI= rappresentano il numero di volte in cui una
determinata modalità del carattere si presenta sul totale delle unità
osservate (es. SESSO = caratteristica, MODALITA’ = Maschio/Femmina).
Quante volte si ha la modalità Maschio e quante volte si ha la modalità
Femmina. Le frequenze semplici si ricavano attraverso il CONTEGGIO delle
MODALITA’, ovvero quante volte le modalità si sono ripetute all’interno
delle nostre unità statistiche (ovvero nei soggetti presi in analisi).
La somma della frequenza delle modalità statistiche deve essere
uguale al numero delle unità statistiche. (es. Unità statistiche = 10,
Modalità Maschio = 5, Modalità Femmina = 5. 5+5 = 10).
Sono indicate in generale con ni, dove i esprime la i-esima modalità (ovvero la
numerosità associata alla modalità – es. n1 = 5 (frequenza associata alla
modalità Maschi)).
n1 = 5 (frequenza associata alla modalità Maschi)
n2= 5 (frequenza associata alla modalità Femmine)
N = n1+n2 = 5+5= 10 (numerosità delle unità statistiche)
k (numero delle modalità. Es. Maschio/Femmina -> 2)
N = n1 n2 ... nk
i=1 (da dove parte la sommatoria es. n1 o n2 o n3 ecc.)
LEGENDA
N = numero delle unità statistiche
=
simbolo della somma (sigma
k = numero delle modalità, dove finiscono le sommatorie
i=1 = da dove partono le sommatorie (modalità n1)
Es.
X = determina il carattere
X1, x2, x3…xk = determinano le modalità del carattere
Ni = determina le frequenze totali (uguali al numero di unità statistiche)
N1,n2,n3…nk = determina quante volte la modalità corrispondente è frequente)
SESSO (CARATTERE) Xi FREQUENZE Ni
MASCHIO (MODALITA’) X1 5 n1
FEMMINA (MODALITA’) X2 5 n2
TOT. 10
ETA’ (CARATTERE) Xi FREQUENZE ni
27 (MODALITA’) X1 3 n1
24 (MODALITA’)X2 2 n2
21 (MODALITA’)X3 5 n3
TOT. 10
Se il carattere di osservazione è:
QUALITATIVO SCONNESSO: si ordinano i dati in modo casuale
o QUANTITATIVO CONTINUO: si ordinano i dati in range (intervalli)
o
- FREQUENZE RELATIVE (fi)= il rapporto tra ciascuna frequenza assoluta e la
somma di tutte le frequenze assolute. Quando la frequenza viene rapportata al
totale (frequenza/numero delle unità statistiche totali). Permettono di cogliere
meglio il modo di distribuirsi del carattere.
Fi = ni/N
N.B. perdono una informazione fondamentale: la numerosità delle osservazioni
(la robustezza del risultato è condizionato dalla numerosità delle osservazioni).
Es.
N = 350 (numero di unità statistiche su cui si compie rilevazione e analisi con
carattere SESSO)
n1= 25 (numero di unità con MODALITA’ FEMMINE)
Fr
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.