Statistica e metodologia della ricerca
Lezione 1
Statistica descrittiva
Si ha a che fare con enormi quantità di dati e la statistica descrittiva serve per sintetizzare le informazioni contenute in un’indagine.
Statistica inferenziale
I dati che noi abbiamo sono frutto di indagini campionarie, quindi le analisi statistiche che vengono fatte sono eseguite su una parte della popolazione, una sola parte. È raro riuscire a fare una statistica sull’intero mondo. Ma la statistica inferenziale ci permette di adattare i dati parziali a tutto il mondo.
Con la statistica descrittiva impariamo a estrapolare le informazioni dalle nostre ricerche su una parte della popolazione. Ma per poi adattarla all’intero mondo come si fa? Per poter fare il salto da un campione all’intera popolazione ci avvaliamo della statistica inferenziale.
Teoria dei campioni
Viene utilizzata per raccogliere i dati; una volta raccolti il nostro compito è capire come impiegarli.
Terminologia precisa
- Popolazione: totale dei soggetti (o oggetti) di interesse in uno studio.
- Campione: sottoinsieme della popolazione oggetto di studio.
- Unità statistica: i singoli elementi della popolazione oggetti della mia ricerca. La popolazione viene rappresentata con un’urna in cui i singoli elementi dell’urna sono le nostre unità statistiche.
- Variabili: ciò che vado a rilevare sulla singola unità statistica, dipende dal tipo di indagine che sto facendo e dalle informazioni che voglio cogliere.
- Modalità: i valori assunti dalle variabili misurate in corrispondenza delle diverse unità statistiche (numeri, maschio/femmina, si/no).
Tipi di variabili
Le variabili si distinguono in:
- Variabili quantitative: modalità espresse numericamente.
- Variabili discrete: modalità esprimibili da numeri interi con conteggi (figli, voti, pezzi).
- Variabili continue: numeri che quantificano delle misurazioni (lunghezze, larghezze, peso, reddito, età).
- Variabili qualitative o categoriali: modalità usate per descrivere il fenomeno analizzato con aggettivi o altre espressioni verbali.
- Variabili nominali: o sconnesse, non esiste nessun ordinamento tra le due (o è si o è no, o è maschio o è femmina).
- Variabili ordinali: possono essere ordinate naturalmente (per esempio la valutazione scolastica). Nelle variabili qualitative ordinali possono esserci anche dei numeri di cui però non posso fare la media matematica, mentre nelle variabili quantitative posso fare una media tra i numeri.
Esempio
Tutti i negozi: è la popolazione. 30 negozi analizzati: campione, parte della popolazione presa in esame. Ogni singolo negozio: è l’unità statistica. Clienti, vendite e categoria merceologica: sono variabili. NB: N per dimensione popolazione, n delle osservazioni nel campione.
Lezione 2
La popolazione è composta da N elementi, un’unità statistica è l’i-esima osservazione, in cui i=1,2,3,4…N. Le variabili osservate sono indicate con X,Y.
Distribuzione di frequenza
X è la variabile di interesse: siano x1, x2, ..., xk le modalità che può assumere la variabile X. N è la frequenza. La frequenza assoluta di una modalità è pari al numero di volte che questa viene osservata nel collettivo.
La distribuzione di frequenza è un’organizzazione di dati in forma tabulare che associa ad ogni modalità di una certa variabile x le corrispondenti frequenze assolute.
Frequenza relativa = frequenza assoluta / numero di osservazioni. Dividendo le frequenze assolute per il numero totale delle osservazioni si ottiene la frequenza relativa.
Per le variabili qualitative nominali/sconnesse si usano i grafici a barre in cui l’unica cosa che conta è l’altezza delle varie barre.
Esempi di comandi statistici
- Premere sempre command invio quando si va a capo.
- Per sapere dove sta lavorando il programma digitare
getwd(). - File – Nuovo documento.
- Tutte le cose precedute da cancelletto non vengono interpretate come comandi ma come appunti.
- Per aprire un file:
read.table("nome file")e premere mela invio. - Sulla console riscrivere il nome del file.
- Comando per fare una distribuzione di frequenza:
table(nome file)mela invio. - Per fare il diagramma a barre:
barplot(table(nome file)). - Per cambiare colore:
barplot(table(nome file),col=c('brown','red','yellow','white','green')). - Per calcolare il numero delle osservazioni:
n=dim(nome file)e poi sulla console premere n. - Per trovare la frequenza relativa:
table(nome file)/dim(nome file)[1]. - Per fare il diagramma a torta:
pie(table(nome file)). - Per istogramma:
hist(nomefile). - Frequenza:
hist(nomefile, freq=FALSE). - Media:
mean(nomefile). - Creare una lista di osservazioni:
d=c(...,...,...). - Per calcolare gli indici di posizione:
summary(d). - Per grafico boxplot:
boxplot(d). - Per ordinare i dati:
sort(c).
Lezione 3
Suddivisione in classi
Può accadere che la variabile x presenti moltissime modalità distinte. Si possono avere difficoltà nella comprensione dei dati. Quindi appare ragionevole suddividere l’intervallo dei valori che x può assumere in classi di modalità, riferendo la distribuzione di frequenza agli elementi che appartengono a ciascuna classe così considerata.
La suddivisione in classi si crea considerando l’intervallo che contiene i valori osservati, suddividendo l’intervallo. L’ampiezza delle classi può variare all’interno della stessa ricerca. La suddivisione in classi è utile ma non obbligatorio, l’unico caso in cui è obbligatorio è per le variabili continue, in cui si usano le parentesi.
La parentesi tonda indica che l’estremo è escluso mentre la parentesi quadra indica che l’estremo è incluso. Es: (160,165] da 160 escluso a 165 incluso.
Nella frequenza relativa, facciamo gli arrotondamenti che meglio preferiamo basta che alla fine la somma di tutte le frequenze relative sia uguale a 1.
Per le variabili continue si usa l’istogramma. Importante è sia la base che l’altezza: la base rappresenta l’ampiezza (a) della classe mentre l’altezza rappresenta la frequenza (f) o la densità (h) della classe.
Con frequenza o densità, i grafici non cambiano. È obbligatoria la densità nel momento in cui le ampiezze delle classi sono diverse e quindi usando la frequenza verrebbe un grafico sbagliato, bisogna usare la densità. È sempre meglio usare la densità.
Densità
Densità: frequenza relativa/ampiezza.
Frequenze cumulate
Rappresenta il numero di unità statistiche che hanno modalità uguale o quella o più piccola. Dato un carattere quantitativo Z con k come modalità xi, x2, ..., xk, si indica la frequenza assoluta cumulata come Nj=n1+n2+n2+nj.
Indicatori sintetici delle variabili statistiche
Di 3 tipologie. Sono misure di sintesi che riassumono importanti aspetti delle variabili.
- Variabilità: mutevolezza dei dati nella posizione.
- Forma: aspetto complessivo della distribuzione di frequenza.
- Posizione: mi dà un’idea dell’ordine di grandezza della variabile. Tra gli indici di posizione troviamo la media, la moda, la mediana e i quantili.
La media aritmetica di un insieme di n valori è la somma dei valori osservati diviso per il numero di os