Introduzione alla statistica
La statistica è una metodologia strumentale per l'analisi della realtà (fisica, biologica, ecc.). Essa cerca di arrivare a leggi generali a partire dalla conoscenza aggregata di tanti casi accomunati da regole e definizioni. La statistica offre strumenti per organizzare, riassumere e analizzare i dati ottenuti attraverso le nostre misurazioni e si divide in due grandi aree:
- Descrittiva: Organizza, riassume e si usa per la descrizione e la presentazione dei dati utili per capire quanto sono forti le relazioni osservate.
- Inferenziale: Fa previsioni e testa ipotesi. L'inferenza ha lo scopo di dedurre (inferire) le caratteristiche dell'intera popolazione a partire da dati raccolti, utili per capire se le relazioni sono dovute al caso o no.
La popolazione è l'universo di elementi che forma l'oggetto di uno studio statistico (es. popolazione delle stelle della Via Lattea). I vantaggi sono rappresentati dalla ricerca accurata. Gli svantaggi dai tempi lunghi, costo e non sempre possibile (alcune volte la popolazione è infinita, es. i potenziali malati di una certa malattia o inaccessibile). Il campione è un sottoinsieme della popolazione composto da n partecipanti, tutti con la stessa caratteristica oggetto della ricerca e deve essere rappresentativo della popolazione, quindi riflettere le caratteristiche dell'intera popolazione.
Metodi per ottenere un campione rappresentativo
- Ottenere un campione abbastanza ampio (elevata numerosità) per avere dei risultati generalizzabili che permettano delle ragionevoli assunzioni sulla popolazione.
- Utilizzare la selezione casuale: tutti i substrati della popolazione devono avere la stessa probabilità di essere selezionati per far parte del campione; la selezione di un elemento non deve influenzare la selezione dell'altro, ovvero ci deve essere indipendenza tra le estrazioni.
Principali metodi di campionamento
- Stratificato: Si divide la popolazione in sottogruppi omogenei e da ciascuno si estrae un campione casuale (es. studenti in base all'età ed estraggo un campione da ogni fascia d'età considerata).
- A blocchi o cluster: Si raggruppa la popolazione in blocchi e si fa un campionamento dei blocchi (es. si divide città in settori e si campionano casualmente i settori).
- Sistematico: Si seleziona un elemento ogni k elementi successivi (es. intervistare un soggetto ogni 30 che escono).
La statistica permette di ragionare facendo deduzioni ed induzioni dal particolare al generale.
Indagine statistica
Le fasi di un'indagine statistica sono:
- Definizione degli obiettivi di ricerca
- Rilevazione dei dati
- Elaborazione metodologica
- Presentazione ed interpretazione dei risultati
- Utilizzazione dei risultati della ricerca
L'indagine statistica può essere:
- Sull'intera popolazione (censuaria, es. censimento sulle famiglie italiane) ed è descrittiva
- Su un campione della popolazione statistica (campionaria) ed è induttiva perché trae indicazioni dal campione che siano valide per l'intera popolazione, quindi fa inferenza.
La rilevazione statistica è il complesso di operazioni rivolte ad acquisire una o più informazioni su un insieme di elementi oggetto di studio, con riferimento al collettivo da analizzare. Esse si distinguono in: globali (rilevazioni censuarie o censimenti) e parziali (campionarie). L'unità statistica è l'elemento base della popolazione sul quale viene effettuata la rilevazione (es. la famiglia). Il carattere è il fenomeno oggetto di studio. La modalità è il numero o l'attributo (per caratteri qualitativi) che l'unità statistica manifesta.
Tipi di caratteri
Un carattere quantitativo si definisce variabile se assume per modalità dei numeri reali, mentre un carattere qualitativo si definisce mutabile se assume attributi non numerici. La variabile statistica è la caratteristica che varia tra i partecipanti alla ricerca e assume tra i partecipanti valori diversi: es. essere iscritti ad uno dei tre corsi di laurea all'interno della facoltà, essere maschi o femmine, aver preso un voto diverso tra 18 e 30.
L'interesse del ricercatore è quello di prendere in esame queste proprietà che variano e la statistica è lo strumento che consente di trarre delle informazioni a partire da queste variabilità. Le variabili continue (es. temperatura, altezza) sono quelle capaci di assumere qualsiasi valore contenuto in un intervallo reale predefinito, al contrario delle variabili discrete (es. lanci di dado).
Variabili indipendenti e dipendenti
La variabile indipendente (causa): è ciò che viene manipolato dallo sperimentatore, dalla natura, dagli eventi o propria del campione. Si parla anche di predittore, intendendo il fattore che predice una determinata variazione (es. considerata la relazione y=f(x) dove x è rappresentato dall'inflazione e y sono i tassi di interesse in Europa, x è la variabile indipendente).
La variabile dipendente (effetto): ciò che risulta dall'impatto della variabile indipendente. Misurata sul campione, la sua variazione è legata al variare della variabile indipendente (ad esempio l'altezza e il peso, dove è l'altezza che influenza il peso).
Frequenze
La frequenza è il numero di volte che una data modalità si presenta nel collettivo di riferimento. Quando la frequenza è un numero intero si parla di frequenza assoluta, se è rapportata al totale della popolazione si parla di frequenza relativa. La sommatoria di tutte le frequenze relative di una tabella di frequenza è pari a 1.
La statistica: introduzione e approfondimenti
La statistica è una disciplina scientifica che trae i suoi risultati dalla raccolta, elaborazione e analisi dei dati. È quella branca della matematica che si occupa di studiare scientificamente come gli individui di una popolazione sono orientati rispetto a una certa proposta. Più in generale, si occupa dello studio di fenomeni collettivi osservabili nella realtà sociale, in natura o laboratorio. Sono statistiche: l'ammontare della popolazione e la sua distribuzione per sesso, il numero degli alunni iscritti a un corso, il reddito pro-capite.
Tipologie di statistica
- Statistica descrittiva o deduttiva: Cerca di descrivere e analizzare un dato gruppo senza trarre conclusioni circa un gruppo più grande.
- Statistica induttiva o inferenziale: Se un campione è rappresentativo di una popolazione, si possono inferire dall'analisi del campione conclusioni circa la popolazione.
Fasi dell'indagine statistica
La rilevazione statistica è la raccolta delle informazioni riguardo il fenomeno che si vuole analizzare e si articola in 5 fasi:
- Piano della rilevazione: riguarda il problema da analizzare
- Rilevazione dei dati: il piano per la raccolta dei dati
- Spoglio e classificazione: attraverso tabelle, grafici e disegni
- Elaborazione dei dati: mediante operazioni matematiche per sintetizzare i dati
- Interpretazione dei risultati: analisi sui risultati e giudizio su essi
Unità statistica
È l'unità elementare oggetto di osservazione e studio:
- Unità semplici: persone singole, lancio di una moneta, prezzo di un determinato bene
- Composte: aggregati di unità semplici es. famiglie, aziende
- Multiple: costituite da insieme di unità semplici diverse legate da un vincolo es. marito e moglie, altezza e peso
Popolazione e campione
Un insieme di statistiche omogenee rispetto a uno o più caratteri costituisce un collettivo statistico o popolazione. La popolazione può essere:
- Finita: quando determinabile il numero di unità che la formano, es. numero di iscritti a facoltà di economia
- Finita ma non numerabile: se risulta composta da un numero talmente grande da non poter effettuare la numerazione, es. le stelle di una galassia
- Infinita: quando la successione delle unità non ha fine, es. lancio di una moneta
Per ridurre i costi e tempi di realizzazione di un'indagine o per difficoltà di analizzare tutte le unità, si rileva un campione di dimensione n della popolazione mediante una scelta (teoria del campionamento in base all'inferenza statistica). Un campione è rappresentativo se presenta le stesse caratteristiche della popolazione d'origine.
Caratteri
Sono aspetti delle unità statistiche. Per ogni carattere si distinguono le modalità (es. per una moneta le modalità sono testa o croce, per il sesso maschio o femmina). Possono essere:
- Quantitativi/variabili: misure espresse in grandezze misurabili e numerabili e si dividono in:
- Carattere discreto: ha per modalità numeri reali (es. 1, 2, 3 figli)
- Carattere continuo: valori compresi in un certo intervallo (es. altezza, peso, età)
- Carattere trasferibile: caratteri che si possono cedere tutti o in parte di un'unità statistica ad un'altra (es. il reddito)
- Carattere non trasferibile: propri dell'unità e non si possono cedere ad un'altra (es. età, peso)
- Qualitativi/mutabili: mediante espressioni verbali o attributi e si dividono in:
- Carattere sconnesso: modalità senza ordine naturale o logico di successione (sesso, professioni)
- Carattere rettilineo: ordine sequenziale con modalità iniziale e finale (grado di soddisfazione, tenore di vita, titolo di studio)
- Carattere ciclico: con ordine naturale di successione (es. giorni della settimana)
Scala di misura
È necessaria una classificazione precisa dei caratteri da rilevare mediante misurazione che consiste in un insieme di operazioni che assegnano dei numeri a concetti e variabili su una prefissata scala ed esistono 4 scale:
- Nominale: In cui le modalità sono un aggettivo o un nome individuale e non esiste la possibilità di ordinare le modalità (es. sesso, professione).
- Ordinale: Sono ordinabili e la distanza tra le modalità non ha significato (es. titolo di studio).
- Ad intervalli: Le modalità costituiscono un insieme numerico ordinato e ha senso effettuare confronti per differenza tra modalità (sono quelle che assumono uno zero arbitrario che rappresenta una convenzione e non l'assoluta assenza del fenomeno) (es. la temperatura che avviene con la scala Celsius o Fahrenheit).
- Di rapporti: Esiste uno zero assoluto e ha senso, si possono definire sia i rapporti che i prodotti (ha senso dire "abbiamo avuto il doppio degli ordini rispetto all'ultimo mese"). Le scale di rapporto sono quelle che assumono uno zero assoluto che indica l'assoluta assenza del fenomeno.
Frequenza e distribuzioni statistiche
I dati grezzi sono i dati raccolti su popolazione o campioni e i valori ottenuti su questi sono allo statistico come insieme di dati disordinati, non organizzati, sintetizzati o elaborati. La frequenza è il numero delle unità di un carattere che presentano le stesse modalità:
- Frequenza assoluta: È il numero di volte ni in cui la modalità xi è stata osservata.
- Frequenza relativa: È il rapporto tra la frequenza assoluta ni ed il totale delle n frequenze ed è uguale a ni/n; in distribuzione statistica la somma delle frequenze relative è sempre uguale a 1.
Le frequenze cumulate corrispondenti al valore di xi è la somma delle frequenze assolute o relative dalla prima modalità fino a comprendere quella xi.
Le distribuzioni statistiche
La classificazione delle unità statistiche (le unità elementari oggetto di osservazione e di studio) secondo la modalità di uno o più caratteri e la conseguente tabellazione dei risultati dell'indagine oggetto di studio dà luogo alle distribuzioni statistiche:
- Distribuzioni di unità: Elencazione degli attributi con la quale ciascun carattere si presenta.
- Distribuzioni di quantità: Se esprime l'intensità di un carattere.
- Distribuzioni di frequenza: Se esprimono il numero di volte in cui una modalità di un carattere si presenta.
(I caratteri o variabili sono gli aspetti delle unità statistiche oggetto di studio. I caratteri quantitativi sono modalità espresse attraverso una grandezza misurabile. I caratteri qualitativi modalità espresse mediante attributi).
Distribuzione in classi
Se la variabile statistica presenta numerose modalità è conveniente un accorpamento delle stesse. Quindi quando i dati sono numerosi conviene procedere ad una suddivisione in classi del carattere. Se il carattere quantitativo è discreto (ha per modalità numeri naturali es. 0,1,2... es. numero di figli) tale operazione risponde ad necessità pratica mentre se è continuo (valori compresi in un intervallo es. altezza) è un'operazione indispensabile in quanto i valori della variabile sono infiniti ed è impossibile elencarli tutti.
Distribuzioni doppie
In una tabella doppia se entrambe le variabili sono qualitative si parla di tabella di contingenza. Se entrambe le variabili sono quantitative si parla di tabella di correlazione. Se x è quantitativa e y è qualitativa o viceversa la tabella è mista.
Rappresentazioni grafiche
Hanno lo scopo di visualizzare le caratteristiche distributive, dinamiche e strutturali delle distribuzioni e rendere più intuitive le differenze tra le modalità. Si dividono in:
- Dati qualitativi (ortogramma, diagramma circolare)
- Dati quantitativi (istogramma, box plot)
Dati qualitativi
L'ortogramma può essere di due tipi:
- A nastri: Su una retta orizzontale si fissano l'origine e l'unità di misura che dipende dal fenomeno che si va a rappresentare, sull'asse verticale si pongono tanti rettangoli, detti nastri, equidistanti e sovrapposti quante sono le modalità del carattere oggetto di studio.
- A colonne: Si invertono gli assi.
Per i diagrammi circolari si utilizza una circonferenza suddivisa in tanti spicchi, 'settori circolari' con angoli al centro uguali o proporzionali:
- Alle frequenze assolute o relative
- Alle quantità
Associate alle diverse modalità. Per ottenere l'ampiezza in gradi 'ci' dell'angolo al centro di ogni settore circolare, bisogna impostare le seguenti proporzioni:
360° : N = ci : ni
ci = (ni/N) * 360
ni sono le frequenze assolute (o intensità)
N il totale delle frequenze assolute (o intensità)
Dati quantitativi
- Istogramma: Sono rappresentazioni grafiche di distribuzioni di frequenze le cui modalità sono suddivise in classi. Costituite da una serie di rettangoli contigui posti lungo l'asse delle ascisse. Si dividono in due casi:
- Le classi hanno la stessa ampiezza: preso un sistema di assi cartesiani, sull'asse delle ascisse si riportano tanti intervalli di ampiezza uguale e contigui quante sono le classi di distribuzione. Sull'asse delle ordinate si riportano le relative frequenze. Si ottengono così tanti rettangoli aventi la stessa base, uguale all'ampiezza dell'intervallo e proporzionale alle relative frequenze. L'area dei rettangoli è: Ai = hi * ni oppure Ai = hi * fi.
- Le classi non hanno la stessa ampiezza: in tal caso si avranno tanti rettangoli contigui aventi diversa base, uguale all'ampiezza della classe e altezza uguale alla densità di frequenza: Di = ni : hi.
- Box plot: Fornisce informazioni su scala di misura di variabile statistica, sulla variabilità, simmetria/asimmetria, lunghezza delle code della distribuzione, valori anomali e si utilizzano i seguenti valori caratteristici: Xmin , qi , Med , q3 , Xmax. Si utilizzano:
- Un rettangolo o scatola le cui basi sono parallele ad una scala di misura e uguali a q3 - q1 e all'interno del rettangolo sono contenute il 50% delle osservazioni.
- Una linea posta all'interno del rettangolo che indica la posizione della mediana.
- Due segmenti che partono dai quartili e i cui estremi sono dati dai valori estremi della distribuzione Xmin e Xmax purché non ci siano valori anomali.
Le relazioni statistiche
Lo studio delle relazioni esistenti tra due variabili parte dal concetto di indipendenza diviso in 3:
- Indipendenza assoluta
- In media
- Correlativa
Si ha indipendenza se le distribuzioni relative condizionate della variabile Y sono invarianti al variare delle modalità della variabile X. Si ha indipendenza se le distribuzioni relative condizionate della variabile X sono invarianti al variare delle modalità della variabile Y. (Il totale è sempre 1).
- Si ha indipendenza assoluta tra due variabili statistiche solo se si verifica la seguente relazione:
Frequenze osservate = frequenze teoriche
Nij = ni * nj : n
Se c'è dipendenza le variabili si dicono connesse.
- Si dirà che la variabile Y sia connessa a X nel caso in cui la distribuzione relativa della Y varia al variare delle modalità della X oppure:
Nij diverso ni * nj : n
- Se non esiste connessione tra x e y si indica:
Nij = ni * nj : n (frequenze teoriche)
e si costruisce una tabella di indipendenza. Si chiamano contingenze la differenza tra le frequenze osservate e quelle teoriche:
Cij = nij - n*ij
(vedi esempio finale, la terza tabella)
La somma delle contingenze di ciascuna riga e di ciascuna colonna sono nulle.
Un indice assoluto di connessione è il chi-quadro di Pearson detto indice quadratico di contingenza: esso si annulla nel caso di connessione nulla, ossia quando le variabili sono perfettamente indipendenti. Tale indice rappresenta l’allontanamento dei dati dall’ipotesi di indipendenza, ma non può...
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.