Fondamenti di statistica
Raccolta delle informazioni
Primi passi verso la statistica
Definizione di statistica
La statistica è la scienza che permette di raccogliere, organizzare, sintetizzare e analizzare le informazioni al fine di pervenire a una o più conclusioni. In altri termini, la statistica fornisce risposta a specifiche domande di ricerca. La statistica fornisce inoltre una misura di probabilità associata a ogni conclusione raggiunta.
Il processo statistico parte dalla raccolta dell’informazione. Per informazione si intende “fatti o proposizioni utilizzati per trarre una conclusione o prendere una decisione”. L’informazione opportunamente codificata e organizzata fornisce dati o modalità. I dati possono essere numerici (es: altezza) o non numerici (es: genere), e descrivono le caratteristiche di un individuo. I dati sono importanti in statistica poiché rappresentano il punto di partenza per attivare un processo decisionale.
I dati possono essere usati per sfatare alcuni luoghi comuni (affermazioni aneddotiche). Gli aneddoti si basano sull’osservazione casuale, non sulla ricerca scientifica. L’uso scorretto dei dati può essere pericoloso. Questa situazione si presenta quando i dati sono ottenuti o analizzati in maniera inappropriata (es: quando il gruppo preso in esame non può considerarsi rappresentativo della popolazione). Ogniqualvolta osserviamo i dati, dovremmo conoscere da dove essi provengono e come sono stati selezionati.
Anche quando i dati sembrano affermare che esiste una certa relazione, è comunque necessario procedere a un’analisi approfondita. Infatti, possono esistere delle variabili dette nascoste, che devono essere considerate con attenzione poiché capita spesso che due variabili siano influenzate da una terza. Un aspetto caratterizzante dei dati è che essi sono soggetti a variabilità e a causa di quest’ultima i risultati ottenuti usando i dati possono variare a loro volta.
La statistica può fornire una chiave di lettura della realtà che ci circonda poiché, individuando le cause della variabilità che caratterizza i dati, ci aiuta a spiegarla.
Spiegare il processo della statistica
L’intero gruppo di individui studiato è chiamato popolazione. Un individuo è una persona o un oggetto che è membro della popolazione studiata. Un campione è un sottoinsieme della popolazione che sta per essere studiato.
Una statistica è un descrittore del campione. Un parametro è un descrittore della popolazione. La statistica descrittiva consiste nell’organizzare e riassumere i dati; si procede a descrivere i risultati del campione senza fare nessuna conclusione generale sulla popolazione. Essa descrive i dati attraverso la sintesi numerica, le tabelle e i grafici.
L’inferenza statistica si concentra sui risultati ottenuti da un campione e li estende all’intera popolazione misurandone l’affidabilità. Quando si passa da un campione alla popolazione c’è sempre un grado di incertezza connesso all’accuratezza dei risultati. È infatti ovvio che osservando un campione non si può avere una piena conoscenza della popolazione. Infatti, molti studi non scientifici sono basati su campioni non probabilistici, come le interviste tramite Internet o le votazioni telefoniche: i risultati di tali studi non sono affidabili. Pertanto, facendo inferenza statistica, noi riportiamo una misura che quantifica quanto confidiamo nel nostro risultato.
Un obiettivo dell’inferenza statistica è l’utilizzo della statistica per stimare i parametri. Il processo statistico si suddivide nelle seguenti fasi:
- Identificare l’obiettivo della ricerca. Un ricercatore deve definire le domande di ricerca a cui intende fornire una risposta. Le domande devono essere formulate in modo dettagliato al fine di identificare la popolazione da esaminare.
- Raccogliere i dati necessari per fornire una risposta alle domande del punto (1). Quando viene condotta una ricerca, generalmente dobbiamo osservare un campione specifico. La fase legata alla raccolta dati è di vitale importanza in un processo statistico, poiché se i dati non sono raccolti correttamente, le conclusioni che si traggono sono prive di significato.
- Descrivere i dati. Le statistiche descrittive permettono al ricercatore di ottenere una panoramica generale dei dati e suggeriscono i metodi statistici che il ricercatore potrebbe utilizzare.
- Fare inferenza. Applicare le tecniche appropriate per estendere i risultati ottenuti dal campione alla popolazione e riportare un livello di affidabilità dei risultati medesimi.
Distinguere tra variabili qualitative e quantitative
Dopo aver definito l’obiettivo della ricerca, dobbiamo individuare l’insieme degli individui o unità statistiche che detengono le informazioni necessarie. Le caratteristiche di un individuo appartenente alla popolazione si indicano variabili. Ogni variabile si può presentare in più dati o modalità.
Esempio: Vengono presi in esame delle piante di pomodori, che rappresentano le nostre unità statistiche. La variabile presa in esame è il loro peso, che cambia da un pomodoro all’altro: i diversi pesi sono i nostri dati o modalità.
Le variabili possono essere classificate in due gruppi: qualitative o quantitative.
Le variabili qualitative, o categorie, sono quelle che consentono la classificazione delle unità statistiche sulla base di alcuni attributi, caratteristiche o qualità. Le variabili quantitative sono quelle che forniscono una caratteristica numerica delle unità statistiche. Le singole caratteristiche delle variabili (qualitative o quantitative) si chiamano modalità (dati). Sulle modalità delle variabili qualitative non si può eseguire alcuna operazione matematica. Sulle modalità delle variabili quantitative si possono eseguire operazioni aritmetiche come l’addizione o la sottrazione, ottenendo risultati importanti alla comprensione della realtà circostante. Tuttavia, una variabile può essere qualitativa pur assumendo valori numerici (es: codice di avviamento postale, è una variabile qualitativa poiché classifica il luogo di destinazione della posta).
Il metodo rappresenta un possibile suggerimento per la risoluzione del problema, ma non è l’unico modo per risolvere il problema. Generalmente, disponiamo di più approcci o metodi ugualmente corretti per risolvere un medesimo problema.
Distinguere tra variabili discrete e continue
Possiamo classificare le variabili quantitative in due tipi: discrete o continue.
Una variabile discreta è una variabile quantitativa le cui modalità assumono un numero finito o un’infinità numerabile di valori. Il termine numerabile significa che i valori risultano da un conteggio. Sono rappresentate da tutto ciò che è finito e può essere misurato senza la virgola.
Una variabile continua è una variabile quantitativa le cui modalità assumono un numero infinito di possibili valori che non sono numerabili. Una variabile è continua se il suo valore è misurato. Sono rappresentate da tutto ciò che può essere misurato adottando un sistema decimale (numeri non interi). Le variabili continue sono spesso oggetto di arrotondamento. Il tipo di variabile determina i metodi che possono essere utilizzati per analizzare i dati.
L’elenco dei valori osservati di una particolare variabile rappresentano i dati (modalità). I dati qualitativi sono osservazioni corrispondenti a variabili qualitative. I dati quantitativi sono osservazioni corrispondenti a variabili quantitative. I dati discreti sono osservazioni corrispondenti a variabili discrete, e i dati continui sono osservazioni corrispondenti a variabili continue.
Le variabili qualitative, a loro volta, si distinguono in:
- Cicliche: tutte quelle manifestazioni di fenomeni che rappresentano un cerchio. Es: giorni della settimana.
- Sconnesse: tutte le modalità che non hanno un ciclo. Es: colore dei maglioni, livello di istruzione.
Determinare la scala di misurazione di una variabile
Possiamo associare ogni variabile a una scala di misura. Per le variabili qualitative useremo la scala nominale e la scala ordinale.
Una variabile è rilevata su scala nominale se le sue modalità sono nomi, etichette o categorie. Inoltre, tra le modalità stesse non è possibile istituire nessun tipo di ordinamento. Esempio: Genere → Maschio, Femmina.
Una variabile è rilevata su scala ordinale se presenta le proprietà della scala nominale e fra le modalità del carattere (variabile) è possibile istituire uno specifico ordine. Esempio: Livello di istruzione → Analfabeta, Alfabeta, Elementare, Medie, Superiori, Università, Dottorato.
Per le variabili quantitative useremo la scala a intervalli o la scala di rapporti.
Una variabile è rilevata su scala a intervalli se gode delle stesse proprietà della scala ordinale e le differenze delle sue modalità hanno un significato. Un valore pari a zero nella scala di misura a intervalli non significa assenza di quantità. Le operazioni aritmetiche come l’addizione o la sottrazione possono essere effettuate sulle modalità della variabile. In parole povere, si utilizza quando le modalità iniziano con valori negativi. Esempio: Temperatura.
Una variabile rilevata su scala di rapporti ha le stesse proprietà della scala a intervalli e i rapporti dei suoi valori significativi hanno un significato logico. Un valore pari a zero sulla scala di rapporti significa assenza della quantità. Operazioni aritmetiche come la moltiplicazione e la divisione possono essere effettuate sulle modalità della variabile. In parole povere, si utilizza quando le modalità iniziano con zero, e quindi non possono assumere valori negativi.
Campionamento casuale semplice
Campionamento
Gli studi basati sull’osservazione degli individui possono essere condotti attraverso un’indagine. In questi casi, il ricercatore deve anzitutto identificare la popolazione oggetto di studio, identificando tipicamente un campione casuale.
Il campionamento casuale è il processo che utilizza il caso per selezionare gli individui da una popolazione da includere in un campione. I risultati di un’indagine sono affidabili quando le caratteristiche degli individui nel campione rappresentano le caratteristiche degli individui nella popolazione, in questo caso si parla di campione rappresentativo. Un campione è rappresentativo di una popolazione se e solo se la scelta degli individui da campionare si basa sulla casualità piuttosto che sulla comodità. Se si usa la “comodità” per formare un campione, i risultati dell’indagine saranno senza senso.
Di seguito descriveremo quattro tecniche base di campionamento: il campionamento casuale semplice, il campionamento stratificato, il campionamento sistematico e il campionamento a grappolo. Questi metodi di campionamento sono stati costruiti in modo da eliminare gli errori (consapevoli e non) che l’intervistatore introduce durante il processo di selezione. In altre parole, l’intervistatore non sceglie gli individui da inserire nello studio, ma effettua una scelta in base ai criteri che derivano dal metodo di campionamento scelto.
Ottenere un campione casuale semplice
Un campione di grandezza n è ottenuto attraverso il campionamento casuale semplice da una popolazione di grandezza N se ogni possibile campione di grandezza n ha una medesima probabilità di essere selezionato. Tale campione è detto campione casuale semplice. Essendo il campione un sottoinsieme della popolazione, il numero di individui inseriti nel campione sarà sempre inferiore al numero di individui della popolazione.
Da una stessa popolazione posso estrarre, sempre guidato dal caso, diversi tipi di campione. I modi di estrarre un campione sono diversi. Le diverse combinazioni di campione si possono trovare con tale formula:
N! / (n! (N−n)!)
Tipicamente, si assegna a ogni individuo della popolazione un unico numero compreso tra 1 e N, dove N è l’ampiezza della popolazione. Successivamente, n numeri casuali sono selezionati da questo elenco, dove n rappresenta l’ampiezza del campione. Dovendo enumerare gli individui nella popolazione, avremo necessità di possedere un elenco di tutti gli individui appartenenti alla popolazione medesima, che chiameremo lista di campionamento (frame). Una lista di campionamento è un elenco di tutti gli individui della popolazione.
Quando campioniamo senza reinserimento l’individuo selezionato viene rimosso dalla popolazione e non può essere più scelto. Contrariamente, nel campionamento con reinserimento gli individui selezionati vengono reinseriti nella popolazione in modo da poter essere scelti una seconda volta.
Può essere usata una tabella di numeri casuali per selezionare gli individui da inserire nel campione. Selezioneremo in modo casuale un punto di partenza nella tabella, che prende il nome di seme (seed), e andremo a selezionare i numeri con una cifra, due cifre, tre cifre e così via a seconda che i nostri dati abbiano rispettivamente una cifra, due cifre, tre cifre e così via. Selezioneremo solo i numeri maggiori o uguali a 01 e minori o uguali a N. Ogni volta che incontreremo 00, un numero maggiore di 30, o un numero già selezionato, lo si salta e si sceglie il numero successivo.
Si può anche utilizzare un generatore di numeri casuali, un esempio è Excel. Il procedimento per generare i numeri casuali con Excel è il seguente:
- Step 1: Attivare il pacchetto degli Strumenti di analisi. Per farlo, aprite il menu Strumenti e scegliete Componenti aggiuntivi. Selezionate la casella accanto a Strumenti di analisi e fate clic su OK.
- Step 2: Aprite il menu Strumenti e selezionate Analisi dati. Selezionate Generazione di un numero casuale e fate clic su OK.
- Step 3: Riempite i campi della finestra. Se doveste ottenere dei numeri doppioni, aumentate il Numero di numeri casuali e scartate il numero doppione. Fate clic su OK; i numeri casuali appariranno nella colonna 1 del foglio di Excel. Ignorate le cifre decimali.
Altri metodi di campionamento
Ottenere un campione stratificato
Un campione stratificato è ottenuto separando la popolazione in gruppi non sovrapposti chiamati strati e ottenendo in seguito un campione casuale semplice da ogni strato. Gli individui all’interno di ogni strato dovrebbero essere omogenei rispetto a certe caratteristiche.
Il principale criterio nell’effettuare un campione stratificato consiste nel garantire che ogni gruppo (strato) abbia un attributo comune, di modo che individui all’interno di ogni strato presentino caratteristiche simili. Un vantaggio del campionamento stratificato rispetto a quello casuale semplice consiste nella possibilità di ottenere le stesse informazioni, o addirittura informazioni maggiori, facendo un sondaggio su un numero inferiore di persone. Inoltre, un campione stratificato garantisce che ogni strato sia rappresentato nel campione.
Ottenere un campione sistematico
Nel campionamento casuale semplice e in quello stratificato è necessario fare una lista degli individui oggetto di studio nella popolazione. Una tecnica di campionamento che non richiede un frame è il campionamento sistematico, che può essere considerato un metodo alternativo quando non è possibile reperire un elenco degli individui appartenenti alla popolazione da studiare.
Si ottiene un campionamento sistematico selezionando ogni k-esimo individuo dalla popolazione. Il primo individuo selezionato corrisponde a un numero casuale compreso tra 1 e k.
Le fasi del campionamento sistematico sono le seguenti:
- Approssimare l’ampiezza della popolazione, se possibile.
- Determinare l’ampiezza desiderata del campione, n.
- Calcolare N/n e arrotondare all’interno più vicino. Questo è il valore di k, che prende il nome di passo di campionamento o frazione di campionamento sistematico.
- Selezionare a caso un numero compreso tra 1 e k. Chiamare questo numero p.
- Il campione sarà composto da...
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.