Statistica base
Nozioni di statistica generale
Non sono comprese le tavole:
- Distribuzione t
- Distribuzione chi-quadro
- Probabilità sottese alla cosa della distribuzione normale
Parte 1
La statistica è l'insieme di metodologie utilizzate per la raccolta di dati necessari all'elaborazione di teorie e modelli. Le metodologie utilizzate permettono di:
- Progettare ovvero pianificare come devono essere raccolti i dati necessari per le ricerche.
- Descrivere ovvero sintetizzare i dati raccolti.
- Inferire ovvero formulare previsioni sui dati.
Fare un'analisi:
- Con la statistica si può:
- Descrittiva dove descrivo un fenomeno.
- Inferenziale dove, attraverso i dati, posso fare previsioni.
La statistica descrittiva serve per sintetizzare le informazioni raccolte. La statistica inferenziale serve per fare previsioni su una popolazione, utilizzando i dati di un campione.
La statistica utilizza i soggetti di studio, che sono le entità osservate e vengono estrapolati dalla popolazione. La popolazione è il totale dei soggetti di studio appartenenti all'interesse della ricerca. Quando si considera un sottoinsieme della popolazione, si parla di campione.
La popolazione può essere: concettuale quando esiste solamente come ipotesi, reale quando esiste nella realtà.
Un parametro è una sintesi numerica delle caratteristiche della popolazione. Una statistica è una sintesi numerica dei dati campionari.
Parte 2
Nella fase di raccolta dei dati, bisogna scegliere quali soggetti includere nel campione.
Variabile: è una qualunque caratteristica di un soggetto. Scala di misura: i valori della variabile formano una scala di misura. Tipi di variabili:
- Quantitativa quando è un numero.
- Qualitativa quando è una caratteristica di un soggetto. (es. colore dei capelli)
- Categoriale quando è una categoria di una qualità (es. tipo di musica preferita: folk, rock, ecc.).
- Discreta quando i suoi valori assumono un insieme di numeri distinti (es. un conteggio).
- Continua quando assume come valore un qualsiasi numero reale che va da 0 a infinito.
La variabile categoriale può formare una scala di intervalli. Ci sono due tipi di scale di intervalli, cioè:
- Scala nominale è formata dalle categorie. (es. colore degli occhi: blu, verdi, marroni, ecc.).
- Scala ordinale è formata da una scala di categorie ordinate secondo la natura dei suoi valori. (es. altezza: basso, medio e alto).
Le variabili categoriali possono distinguersi in:
- Nominali quando non sono ordinate.
- Ordinali quando sono ordinate.
In entrambi i casi sono anche variabili discrete. Quando una variabile nominale presenta due qualità, viene chiamata variabile dicotomica (es. sì-no).
La casualizzazione è un meccanismo per compiere una ricerca con un campione. Di solito, si utilizza un campione casuale semplice. Il campione casuale semplice è un campione che quando viene estratto da una popolazione, aveva le stesse possibilità di essere estratto di qualsiasi altro campione della stessa popolazione. Per selezionare questo campione bisogna disporre una lista di campionamento (detta sampling list).
La casualità si riferisce alla probabilità che ogni numero ha di uscire. I dati di una ricerca si possono raccogliere tramite:
- Un'indagine campionaria
- Esperimento
- Studio di osservazione
Indifferentemente dal tipo di studio bisogna tener conto dell'errore campionario. L'errore campionario si ha quando viene utilizzata una statistica campionaria per prevedere il valore di un parametro della popolazione.
Ci sono diversi tipi di campionamento:
- Campionamento probabilistico. Indica che la probabilità di selezionare un particolare campione è già nota ancora prima di selezionarlo.
- Campionamento non probabilistico. Indica che la probabilità di selezionare un determinato campione non è nota. L'interferenza di questo tipo di campioni comporta che i risultati subiscono una distorsione campionaria.
- Campionamento volontario. Indica che i soggetti decidono volontariamente di far parte del campione, quindi non si ha una casualità. Il campione di questo tipo non è rappresentativo, perché non viene estratto a caso.
La distorsione campionaria si riferisce all'imprecisione delle variabili, che possono essere distorte anche dall'errore campionario. Quando nei campionamenti casuali, i gruppi presenti nella popolazione non rappresentano il campione, si ha una distorsione campionaria. Ci sono principalmente tre tipi:
- Distorsione campionaria. Quando si estraggono campioni non probabilistici.
- Distorsione dovuta alle risposte. I soggetti danno risposte non corrette ai quesiti.
- Distorsione dovuta alle non risposte. I soggetti si rifiutano di rispondere o partecipare al campionario.
Ci sono altri tipi di campione:
- Campione sistematico. Viene costruito selezionando un certo soggetto, che si trova in prossimità dell'inizio della lista di campionamento, e dopo aver saltato un certo numero di soggetti, ne viene selezionato un altro. Il numero di soggetti saltati costituisce il passo di estrazione.
- Campione stratificato. La popolazione viene suddivisa in gruppi distinti chiamati strati e da ogni strato viene selezionato un campione.
- Campione a grappolo. La popolazione viene divisa in tanti grappoli e si estrae un campione casuale da ogni grappolo.
- Campione a più stadi. È un insieme di tutti gli altri tipi di campionamento.
Parte 3
Per i dati categoriali la rappresentazione tabellare prevede un elenco delle categorie della variabile e accanto la sua frequenza. La frequenza è il numero di osservazioni di una variabile. Ci sono diversi tipi di frequenza, ovvero:
- Frequenza relativa è la proporzione, o percentuale, di osservazioni che ricade in una determinata categoria.
- Frequenza percentuale è la proporzione moltiplicata per 100.
| Tipi di famiglia | Numerosità | Proporzione | Percentuale |
|---|---|---|---|
| Coppie sposate | 24.1 | 0.22 | 22 |
| Coppie non sposate | 31.1 | 0.28 | 28 |
| Sposati con figli | 19.1 | 0.17 | 17 |
| Non sposati con figli | 30.1 | 0.27 | 27 |
| Monogenitoriali | 6.7 | 0.06 | 6 |
| Altre tipologie | 111.1 | 1.00 | 100 |
Una distribuzione di frequenza è una lista di tutti i possibili valori di una variabile, ciascuno dei quali è associato a un numero che rappresenta quante volte quel valore è stato osservato. La proporzione si calcola come il numero di osservazioni totali di una categoria diviso il numero totale di osservazioni.
Una distribuzione di frequenza relativa considera il valore della variabile con la rispettiva proporzione o percentuale. Quando si rappresenta una distribuzione di frequenza per una variabile quantitativa, si utilizza un istogramma. Un istogramma utilizza delle barre per rappresentare ogni intervallo, l'area di ogni barra rappresenta il numero di osservazioni di un intervallo.
Tasso del crimine
- 5
- 4
- 3
- 2
- 1
- 0
Anni 0-11, Anni 12-23, Anni 24-35, Anni 36-47. Frequ. Rel.
C'è anche una rappresentazione alternativa, che è il diagramma ramo-e-foglie. I grafici servono anche per confrontare vari gruppi con valori diversi. La forma della distribuzione dipende dalla frequenza:
- Se assume valori elevati si ha una distribuzione a "U".
- Se assume valori più centrali si ha una distribuzione campanulare.
A seconda di dove pende la distribuzione, se a destra o a sinistra, si ottiene una distribuzione simmetrica o asimmetrica. Le statistiche evidenziano la tipicità della distribuzione individuando il centro di una distribuzione con frequenze di variabili quantitative. Queste statistiche sono dette misure di tendenza centrale, ovvero gli indici. Gli indici sono:
- Media aritmetica. È la somma dei valori assunti dalle osservazioni divisa per il totale delle osservazioni. Esempio:
Numero delle osservazioni= 4 ; 8 ; 24 ; 48
Somma delle osservazioni= 84
Totale delle osservazioni= 4
Media= 84 : 4 = 21
Media = 21
∑&Ytilde; = Formula della media: dove Y è la somma delle variabili osservate (Y alla i casi) diviso n che è il totale delle osservazioni.
Nel calcolare la media bisogna considerare che a volte ci sono valori molto al di sopra o al di sotto della maggioranza delle altre osservazioni, questi valori si chiamano outlier.
Oltre alla media c.d. aritmetica, c'è anche la media ponderata, che si calcola come la somma delle osservazioni diviso l'ampiezza delle osservazioni. Esempio media ponderata:
Voto Crediti
30 6
21 9
24 6
Le osservazioni (Y) sono: 30, 21 e 24; mentre i crediti (che rappresentano l'ampiezza delle osservazioni) sono: 6, 9 e 6. Pertanto, peso ogni voto per il suo credito; quindi peso ogni osservazione per la sua ampiezza. Ottengo:
30(6)+21(9)+24(6)=180+189+144=513
Siccome il denominatore è la somma totale dei crediti allora si ha: 6+9+6=21.
Al numeratore ho 513, mentre al denominatore 21. La media è 513 : 21 = 24,42.
- Mediana. La mediana divide in due parti il campione ordinato in maniera crescente, ciascuna delle parti deve avere un identico numero di osservazioni.
Caso 1: ho un numero PARI di osservazioni, quindi: 4 8 6 24 12 16. Innanzitutto, le ordino in modo crescente: 4 6 8 12 16 24. Totale delle osservazioni=6.
N/2 -> 6 : 2 = 3 quindi cerco il valore della terza posizione (ovvero il numero 8).
N/2+1 -> 6 : 2+1 = 2 quindi cerco la posizione del valore che si trova alla seconda posizione (ovvero il 6).
Calcolo la mediana: 8 + 6 = 14 -> 14:2* = 7. La mediana è uguale a 7.
*considero 8 e 6 come per calcolare la media.
Caso 2: ho un numero DISPARI di osservazioni, quindi: 4 6 8 12 16. Totale=5.
N+1/2 -> 5+1:2 = 3. La mediana si trova dove c'è il valore nella terza posizione, quindi 8.
NB. Nelle distribuzioni simmetriche, la mediana e la media coincidono.
- Moda. La moda è il valore osservato nella distribuzione, con maggiore frequenza. Esempio: 1 1 2 2 2 3 4 4 5, la moda è il 2 perché lo si osserva per 3 volte.
Una misura numerica fornisce informazioni su un valore tipico della distribuzione, non dà però informazioni sulla dispersione delle osservazioni intorno a questo valore. Per calcolare la dispersione, si utilizza il campo di variazione o range, che si misura come differenza tra il valore più alto e il valore più basso della distribuzione. Esempio: 2 3 5 8 9, il range -> 9 2 = 7.
Ci sono anche altre misure:
- Deviazione standard. Misura un'osservazione Yi dalla media campionaria è la differenza tra i due valori.
Formula: −1 ∑(−&Ytilde;) √
L'espressione ∑( &Ytilde;) − è la somma dei quadrati di ciascuna deviazione. La deviazione standard misura la distanza delle osservazioni dalla media. Proprietà della deviazione standard:
- S > 0
- S = 0 solo quando tutte le osservazioni hanno lo stesso valore.
- Più S è un numero grande e maggiore è la variabilità intorno alla media.
- Se sui dati si effettua una trasformazione di scala, anche le deviazioni standard vengono trasformate.
Misure di posizione. Le misure di posizione sono: primo quartile (0,25), mediana (0,50) e terzo quartile (0,75) e si raffigurano con i boxplots. Il primo rappresenta il valore più basso, la mediana quello in mezzo e il terzo quartile, il valore più alto. La differenza tra terzo e primo quartile è chiamata scarto interquartile.
Il percentile è il valore nella distribuzione al di sotto del quale ricade il p% delle osservazioni e al di sopra del quale ricade il (100 p)% delle osservazioni.
Un'osservazione che ricade a più di 1.5 IQR al di sopra del terzo quartile, oppure a più di 1.5 IQR al di sotto del primo quartile, è detta outlier. Con il boxplot è più facile individuare l'outlier.
Statistiche descrittive bivariate
Un'analisi dell'associazione tra due variabili è chiamata analisi bivariata. In questo tipo di analisi una delle due variabili è considerata variabile risposta, perché i valori che assume vengono confrontati per i valori assunti da un'altra variabile. Quest'ultima è chiamata variabile esplicativa.
Tra due variabili ci può essere un rapporto:
- Di associazione. L'associazione si verifica quando al variare del valore di una variabile, si modifica il valore dell'altra.
- Di indipendenza. L'indipendenza si verifica quando tra due variabili non c'è alcun tipo di relazione.
Attraverso una tabella di contingenza è possibile verificare come i valori di una variabile risposta siano contingenti alle categorie della variabile esplicativa.
| Sempre | A volte | Mai | |
|---|---|---|---|
| Abbigliamento formale | 4 | 6 | 2 |
| Abbigliamento informale | 7 | 9 | 3 |
| Costume/divisa | 2 | 3 | 6 |
La tabella propone una classificazione tra il tipo di abbigliamento e la frequenza con cui viene indossato. In questo caso ci sono 9 possibili esiti, ad esempio Spesso Formale, Mai costume, A volte informale.
Quando si considerano due variabili quantitative, si può utilizzare, per rappresentarle, il grafico a nuvola. Questo tipo di grafico è un diagramma di dispersione.
3.5 3.5 2.5 3 2 2.5 1.5 1.5 1 1 0.5 0.5 0 0 0 1 2 3 0 1 2 3 Nel primo grafico a sinistra vengono poste due variabili X sull'asse x, e Y sull'asse y. Per ogni osservazione bisogna segnare un "puntino" che assume il valore X e Y. Quando vengono inseriti, nel grafico, tutti i "puntini", si procede collegandoli. La figura che ne consegue, grafico a destra, permette di vedere un andamento del rapporto tra le due variabili.
Parte 4
Per un campione casuale, la probabilità di un'osservazione è la proporzione di volte in cui essa dovrebbe verificarsi in una lunghissima sequenza di osservazioni. Essendo la probabilità una proporzione, allora essa è un numero compreso tra 0 e 1. La probabilità può essere espressa anche in termini percentuali, ovvero da 0% a 100%. La branca della statistica che, più, utilizza la probabilità è la statistica bayesiana.
Sulla probabilità vertono quattro leggi fondamentali:
- P(non A) = 1 - P(A). Secondo questa legge se la probabilità che un evento si verifichi è pari a 1, allora la probabilità che non si verifichi è pari a 1 meno quella probabilità. Esempio, se la P(A) = 0,8; allora P(non A) = 1 - 0,8 = 0,2.
- Se A e B sono due possibili risultati, allora P(A o B) = P(A) + P(B).
- Se A e B sono possibili risultati, allora P(A o B) = P(A) x P(B dato A).
- Se A e B sono indipendenti, allora P(A e B) = P(A) x P(B).
Schema riassuntivo leggi probabilità:
- P(non A) = 1 - P(A)
- P(A o B) = P(A) + P(B)
- P(A o B) = P(A) x P(B dato A)
- P(A o B) = P(A) x P(B)
In un campione casuale, ciascun possibile risultato, ha una probabilità di verificarsi. Tale probabilità è una variabile casuale. Una variabile è discreta se i possibili risultati appartengono a un insieme di valori distinti, la variabile è continua se i valori appartengono a un insieme di valori infinito. La distribuzione di probabilità per variabili discrete assegna una probabilità a ciascun possibile valore della variabile. Ciascuna probabilità è un numero compreso tra 0 e 1.
Le distribuzioni di probabilità di variabili continue assegnano probabilità a intervalli di numeri. La probabilità che un valore di una variabile cada in ciascun particolare intervallo è compresa tra 0 e 1. La probabilità che un intervallo contenga tutti i possibili valori è pari a 1. La media di una distribuzione di probabilità per una variabile discreta è la somma calcolata su tutti i possibili valori della variabile. Questo parametro è anche chiamato il valore atteso ed è indicato con E(y).
La deviazione standard permette di calcolare la dispersione della distribuzione, maggiore è il suo valore e più alta sarà la dispersione. La deviazione standard è la radice quadrata della varianza di una distribuzione di probabilità. La distribuzione di probabilità normale è simmetrica, campanulare e caratterizzata da una media e una deviazione standard.
La distribuzione normale è specificata da due parametri, che sono la media (µ) e la deviazione standard (z). Per ciascun valore reale della media e della deviazione standard, esiste una distribuzione normale avente quella media e quella deviazione standard. L'intera distribuzione è compresa tra µ - 3 e µ + 3.
In una distribuzione normale per ciascun valore della deviazione standard, la probabilità che un'osservazione ricada intorno alla media più o meno volte la deviazione standard. Per calcolare le probabilità sottese alla coda, si utilizzano delle tabelle. Lo z-score per un valore di y di una variabile è il numero di deviazioni standard tra y e µ. È indicato come − dove y è l
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.