Le fasi di una indagine statistica
Definizione degli obiettivi della ricerca
Definire se interessa descrivere un fenomeno nella sua componente statica o in quella dinamica; specificare se interessa confrontare i risultati con informazioni relative ad altre attività territoriali o nel tempo; specificare se interessa confrontare i risultati con informazioni relative ad altre realtà; specificare eventuali ipotesi da sottoporre a verifica.
Definizione della tipologia di studio
La tipologia dello studio può differenziarsi in particolare con riferimento: al collettivo da esaminare; alle modalità temporali di rilevazione; alla periodicità dello studio; alle modalità di intervento del ricercatore; alla finalità della ricerca.
Definizione della popolazione di interesse
Si definisce unità statistica l’elemento sul quale viene effettuata la rilevazione. Si definisce popolazione l’insieme delle unità statistiche interessate dal problema in studio.
Definizione delle variabili di interesse e delle scale di misura
Si definisce variabile una caratteristica rilevata o misurata sulle unità statistiche. Le variabili assumono differenti modalità nelle varie unità statistiche e possono essere: variabili quantitative (numeri), variabili qualitative o categoriali (le modalità sono attributi non numerici).
Variabili quantitative possono essere: variabili discrete, variabili continue. Variabili qualitative: variabili non ordinabili o sconnesse (le modalità non sono ordinabili), ordinabili (le modalità sono ordinabili).
Si definisce scala di misura il tipo di misurazione o l’insieme delle modalità adottato per l’osservazione di una variabile. Alla scelta della scala di misura contribuiscono: gli obiettivi dell’indagine, la tipologia della variabile.
Definizione delle fonti dei dati
Le informazioni sulle variabili di interesse per il problema in studio possono derivare da fonti primarie e fonti secondarie.
Definizione della tecnica di indagine
(Costruzione dello strumento e delle modalità di raccolta dati) Quando la fonte dei dati è primaria è necessario definire la tecnica di indagine. Quando la fonte dei dati è secondaria è necessario conoscere la tecnica di indagine che si intende la procedura di contatto delle unità statistiche.
Selezione del campione
(Per indagini campionarie) Quando l’indagine è campionaria è necessario definire la strategia di campionamento e procedere quindi alla selezione del campione. Il campione rappresenta un insieme di unità statistiche tratte dalla popolazione di interesse.
Rilevazione dei dati e organizzazione dei dati raccolti
Prima dell’analisi statistica dei dati, sulle informazioni raccolte possono essere effettuate procedure di: revisione e codifica.
Analisi statistica e presentazione dei risultati
Statistica descrittiva: sintesi e descrizione dei dati. Statistica inferenziale: trarre conclusioni su intere popolazioni a partire da informazioni che si ottengono da campioni.
Interpretazione e utilizzazione dei risultati della ricerca
I risultati di un'indagine statistica consentono di: presentare in maniera appropriata dati e informazioni, trarre conclusioni su intere popolazioni a partire dalle informazioni che si ottengono da campioni, ottenere previsioni affidabili sulle tendenze di fenomeni di interesse, migliorare i processi in studio.
Valore target: baricentro popolazione, valore attrazione attorno al quale deve comportarsi il nostro impianto nel caso in esempio. Range di specifica: intervallo all’interno del quale i valori sono accettabili, guardiamo a tutta la distribuzione, più vicino e più è stabile.
Tendono ad essere non centrati: sono i valori quando vanno fuori dal range di specifica; Ci possono essere dei valori identici, questi si possono togliere. Media campionaria: media dei campioni presi, con questa si può osservare quanto il nostro valore si avvicina al nostro valore target, questa non può coincidere con la media della popolazione (perché la popolazione non è osservabile).
Analisi descrittiva dei dati mediante distribuzioni di frequenza
Distribuzioni unitarie
Si definisce distribuzione unitaria di una data variabile l’elenco di tutti i valori osservati unità per unità.
Distribuzioni di frequenza
Una prima forma di sintesi è data dal calcolo delle distribuzioni di frequenza. La distribuzione di frequenza descrive in modo in cui una o più variabili (caratteristiche) si manifestano (distribuiscono) in un dato collettivo (campione o popolazione).
- Una singola variabile → distribuzioni semplici
- Due variabili → distribuzioni doppie
- Più di due variabili → distribuzioni multiple
Le distribuzioni di frequenza (semplice) è una organizzazione dei dati in forma tabellare tale che ad ogni modalità di una certa variabile (qualitativa o quantitativa) si fa corrispondere la frequenza assoluta ovvero il numero di volte che la modalità si presenta nel collettivo in esame. Si può associare ad ogni modalità di una certa variabile (qualitativa o quantitativa) anche la frequenza relativa, calcolata dividendo la frequenza assoluta per la numerosità totale del collettivo. Moltiplicando le frequenze relative (semplici) x100 otteniamo le frequenze relative percentuali. Le frequenze consentono di derivare alcune prime informazioni di sintesi su come si manifesta la variabile, evidenziando la modalità più frequente, quella meno frequente, se le modalità si presentano con peso tendenzialmente uguale (distribuzione tendenzialmente uniforme) o se hanno pesi diversi tra loro.
Nel calcolare una distribuzione di frequenza è necessario considerare la natura della variabile. Se la variabile è qualitativa o quantitativa discreta è possibile elencare tutte le modalità assunte dalla variabile e associare le frequenze corrispondenti. Se la variabile è quantitativa continua occorrerà classificare le modalità in intervalli di valori reali (classi) e calcolare le frequenze delle unità statistiche che presentano valori compresi in tali intervalli. È utile ricorrere al raggruppamento dei valori in classi anche per variabili quantitative discrete che assumono molti valori.
Nella creazione delle classi è necessario prestare attenzione a scegliere un numero adeguato di classi, determinando un’opportuna ampiezza per tali classi e definendo gli estremi di ogni classe facendo attenzione a includere tutti i valori osservati e a non creare sovrapposizioni tra classi.
La scelta dell’ampiezza e del numero delle classi dipende da:
- La dispersione dei valori osservati (variabilità);
- La numerosità totale dell’insieme delle osservazioni;
- Le finalità conoscitive.
In generale si preferiscono:
- Intervalli di uguale ampiezza: quando l’attenzione è orientata allo studio della distribuzione della variabile;
- Intervalli di ampiezza variabile: quando ogni classe identifica e qualifica una “tipologia”.
Elementi di soggettività nel calcolo della frequenza
Una diversa definizione del numero e/o degli estremi e/o dell’ampiezza delle classi genera una differente espressione della frequenza, che può essere anche sensibile se la numerosità dei dati è ridotta.
Classi di uguale ampiezza
Per classi di uguale ampiezza, possiamo orientarci nella definizione di ciascun intervallo, dividendo il range dei valori osservati (cioè l’intervallo definito dal più piccolo e dal più grande valore osservato) per il numero delle classi considerato.
Distribuzioni di frequenza di variabili qualitative
Per variabili qualitative ordinabili o quantitative possiamo associare ad ogni modalità o classe di modalità della variabile anche la frequenza cumulata assoluta o relativa, calcolata cumulando progressivamente le frequenze assolute o relative. Le frequenze cumulate danno informazioni sul numero o peso relativo di unità statistiche che hanno un valore della variabile inferiore o uguale ad una certa soglia di interesse.
Analogamente, possiamo associare ad ogni modalità o classe di modalità della variabile anche la frequenza retrocumulata assoluta o relativa, calcolata retro cumulando progressivamente le frequenze assolute o relative. Le frequenze retro cumulate danno informazioni sul numero o peso relativo di unità statistiche che hanno un valore della variabile superiore o uguale ad una certa soglia di interesse.
Distribuzioni di frequenza di variabili quantitative
Per distribuzioni di frequenza di variabili quantitative (discrete o continue) classificate in classi di diversa ampiezza, è utile calcolare per ciascuna classe la densità di frequenza, ottenuta rapportando la frequenza di ciascuna classe alla propria ampiezza. Le densità di frequenza consentono di confrontare il peso relativo tra classi.
Rappresentazione grafica delle distribuzioni di frequenza
È possibile affiancare alle distribuzioni riportate in forma tabellare, grafici che per immediatezza visiva riescono a evidenziare con più efficacia le informazioni raccolte.
La scelta del metodo grafico dipende da:
- Le finalità conoscitive;
- Il tipo di variabile da rappresentare.
Le tipologie di grafici più comuni sono:
- Diagramma a barre;
- Diagramma a torta;
- Diagramma di Pareto;
- Istogramma;
- Poligono;
- Poligono cumulativo.
I primi tre sono particolarmente indicati per variabili qualitative o quantitative discrete o per variabili misurate con scala nominale o ordinale. Gli altri sono indicati per variabili qualitative continue.
Diagramma a barre
Il diagramma a barre è un grafico costituito da una serie di barre (orizzontali o verticali). Ciascuna barra rappresenta una modalità della variabile, e la lunghezza della barra è proporzionale alla frequenza assoluta, relativa semplice o percentuale della modalità considerata. Il diagramma a barre permette di confrontare il peso delle diverse modalità.
Diagramma a torta
Il diagramma a torta è un grafico costituito da un’area circolare suddivisa in sezioni. Ciascuna sezione rappresenta una modalità della variabile, e l’ampiezza della sezione è proporzionale alla frequenza relativa semplice o percentuale della modalità considerata. Il diagramma a torta permette di confrontare il peso relativo delle diverse modalità e di avere una visione immediata di come il collettivo totale si compone rispetto alle modalità della variabile.
Diagramma di Pareto
Il diagramma di Pareto è un grafico costituito da una serie di barre verticali disposte in ordine decrescente di frequenza. Ciascuna barra rappresenta una modalità della variabile, e la lunghezza della barra è proporzionale alla frequenza assoluta, relativa semplice o percentuale della modalità considerata. Nello stesso diagramma è rappresentata una linea spezzata che ne rappresenta le frequenze cumulate. Il diagramma di Pareto diventa particolarmente utile quando le modalità della variabile di interesse sono molte. Infatti, il vantaggio di questo grafico consiste nella sua capacità di separare le poche modalità cui è associata una frequenza più alta da quelle meno rappresentate nei dati permettendo al lettore di concentrarsi sulle modalità più importanti.
Istogramma
È un grafico di variabili continue suddivise in classi, costituito da una serie di rettangoli affiancati, la cui base rappresenta l’ampiezza delle classi e l’altezza rappresenta la frequenza assoluta, relativa semplice o percentuale corrispondente alle varie classi.
Poligono
Il poligono è un grafico per variabili continue suddivise in classi costituito da una linea spezzata che unisce i punti con ascissa pari al punto medio di ciascuna classe e ordinata pari alla frequenza assoluta, relativa semplice o percentuale corrispondente alle varie classi.
Diagramma a barre o poligono per il confronto tra gruppi
Quando si confrontano le distribuzioni di frequenza tra due o più gruppi di unità statistiche è consigliabile considerare le frequenze relative semplici o percentuali per eliminare la possibile distorsione dovuta all’eventuale diversa numerosità dei gruppi a confronto. Per la rappresentazione grafica è consigliabile utilizzare un confronto. diagramma a barre affiancate o i poligoni.
Media aritmetica e altre misure di tendenza centrale
Media aritmetica
Qualcosa che sta al centro in una serie di valori e si posizionerà nel punto in cui ci saranno più valori, si può pensare come un punto di equilibrio. La media aritmetica è influenzata dalla presenza di valori estremi (outlier: valore anomalo non sbagliato), quindi bisogna porre attenzione a certi casi infatti questo è un punto di debolezza della media aritmetica. La media viene trascinata nella direzione dell’outlier. L’outlier si presenta soprattutto se si ha una numerosità bassa.
Mediana
È il valore centrale in un insieme di dati ordinati dal più piccolo al più grande. La distribuzione ordinata dei valori osservati in modo tale che metà delle osservazioni ha valore inferiore alla mediana e metà ha valore superiore. La mediana può essere calcolata per variabili quantitative e variabili qualitative purché misurate su scala ordinale. La mediana è meno influenzata dalla presenza di valori estremi (outlier) rispetto alla media aritmetica.
- Valore che sta a metà nella lista ordinata dei nostri valori
- Si ordinano i valori → identifico la posizione del valore a metà della lista → identificare tale valore
- Se la numerosità totale dei valori è pari, ci sono due valori centri in corrispondenza delle posizioni n/2, n+1/2
Quantili
Sono misure di posizione non centrale, definiamo quantili quei valori che dividono la distribuzione ordinaria di una variabile quantitativa o qualitativa misurata su scala ordinale di un certo numero di parti di uguale numerosità:
Terzili: 2 valori (T1, T2) che dividono la distribuzione ordinata in 3 parti.
Quartili: 3 valori (q1, q2, q3), che dividono la distribuzione ordinata in 4 parti.
Quartili
I quantili più comunemente utilizzati sono i quartili. I quartili dividono la distribuzione ordinata in quattro parti: il primo quartile Q1, è il valore tale per cui il 25% delle osservazioni è inferiore a Q1 e il 75% superiore; il secondo quartile Q2 (che coincide con la mediana) è quel valore tale per cui il 50% delle osservazioni è inferiore a Q2 e il 50% superiore, il terzo quartile Q3 è quel valore tale per cui il 75% delle osservazioni è inferiore a Q3 e il 25% superiore.
Per una lista di n valori individuali (distribuzione unitaria ordinati dal più piccolo al più grande), il calcolo dei quartili prevede inizialmente...
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.