Comandi R
STATISTICA
Dati-> Osservazioni come misure, genere, risposte a un questionario che vengono
raccolte opporunamente.
Popolazione-> Raccolta completa di tutti gli elementi che devono essere studiati ed
include tutti i possibili soggetti da studiare.
Ogni membro della popolazione è detto unità statistica.
Un campione (estratto dalla popolazione) è una sotto collezione, ovvero un sotto
insieme di elementi scelti come parte di una popolazione.
Gli elementi di un campione devono essere selezionati in modo opportuno:
- Ad esempio, tramite un campionamento casuale semplice-> Ogni gruppo di
n° elementi deve aere la stessa probabilità di essere estratto per costituire un
campione di taglia n.
Se i dati campionari non vengono ottenuti in modo appropriato, possono
risultare inutili e l’analisi condotta non attendibile.
Campionamento
I campionamenti possono essere di due tipi:
- Campionamento casuale-> ad ogni unità di popolazione compete ina
probabilità nota e non nulla di essere selezionata.
- Campionamento non casuale-> Tale tecnica non fornisce a ciascuna unità della
popolazione la stessa occasione di essere scelta a far parte del campione, ma
alcuni gruppi o individui avranno una maggiore probabilità di essere scelti. Il
campionamento non probabilistico è da considerarsi un cattivo metodo di
campionamento (BIAS)
Campionamento casuale semplice-> Tutti gli individui hanno medesima probabilità
di essere inseriti nel campione pari a 1/N con N dimensione della popolazione. E’
necessaria una lista completa della popolazione e sorteggiare da essa, tramite una
tavola dei numeri casuali o un programma statistico, il campione.(utilizzato più
spesso)
Campionamento sistematico-> Data la lista completa della popolazione, i soggetti
sono selezionati mediante un “passo” k, cioè prendo un soggetto ogni tot soggetti
della lista.
Campionamento opportunistico-> Campione formato da volontari. Vi è un rischio
di distorsione da selezione, poiché non vi è la certezza che rispecchino la popolazione.
Campionamento probabilistico-> I soggetti non hanno la medesima probabilità di
essere estratti, ma tale probabilità è nota.
Permette di “aggiustare” le distorsioni dovute al campionamento opportunistico.
Campionamento stratificato-> È un campionamento utile quando si vuole
mantenere fissa la percentuale legata ad una determinata variabile. Si suddivide la
popolazione rispetto alla variabile di interesse e si decide a priori quanti soggetti
vanno estratti per ciascun valore della variabile di interesse.
(A questo punto si procede al campionamento nei sottogruppi)
Campionamento a cluster/ a grappoli-> È un campionamento in cui le unità di
campionamento non sono più i soggetti, ma dei gruppi i cui i soggetti sono suddivisi.
Può essere di due tipi:
- Campione a 1 stadio, quando includo tutti i soggetti del cluster.
- Campione a 2 stadi, quando campiono ulteriormente all’interno del cluster.
Calcolo delle probabilità
Studia la regolarità di fenomeni casuali. E’ uno strumento che consente di utilizzare
precise proprietà matematiche.
Parametro-> Misura che descrive una caratteristica specifica della popolazione. Più
precisa possibile.
Statistica-> Misura che descrive una caratteristica specifica del campione e si ottiene
tramite dati campionari.
Alcuni insieme di dati sono considerati numerici, come l’altezza e il peso; altri invece
sono non numerici, come il colore degli occhi o le preferenze soggettive.
Si usano i termini dati quantitativi o dati qualitativi (o categoriali) per distinguere
tra i due tipi.
Dati:
- Numerici: Sono discreti, normalmente ottenuti con numeri interi, tipicamente
dei conteggi. il numero di possibili valori è finito o numerabile.
Sono continui, quando si ha un’infinità di valori, corrispondenti a
una scala continua e sono in numeri decimali.
- Categorici o qualitativi: Sono quelli che assumono valori che non sono
numeri, ma livelli o categorie.
Livello nominale di misura-> I dati sono nomi, qualità o categorie e non
possono essere messi in scala(es. sì/no/forse/i colori)
Livello ordinale di misura-> I dati possono essere ordinati, ma non è possibile
ottenere delle differenze tra valori(es. poco,molto,moltissimo), ad esempio lo
stadio 4 non vale il doppio dello stadio 2, ma è semplicemente un ordine.
Tipologia delle variabili:
- Nominale-> Solo categorie. I dati non possono essere disposti in alcun ordine
- Ordinale-> Le categorie sono ordinate, ma le differenze tra esse non possono
essere calcolate o sono prive di significato.
- Intervallare-> Le differenze sono significative, ma non c’è uno zero di
riferimento e i rapporti sono privi di senso.
- Rapportabile-> C’è uno zero di riferimento e i rapporti sono significativi.
Analisi descrittiva dei dati
Centro-> Valore rappresentativo o medio che fornisce un’indicazione della posizione
del centro dei dati. (media, moda, mediana)
Variazione-> Una misura dell’ordine di grandezza della variabilità nei valori dei dati.
(deviazione standard, varianza, CV-coefficiente di variazione)
Distribuzione-> La natura o forma della distribuzione dei dati (p.es. a campana,
piatta, asimmetrica)
Outliers-> Valori che si discostano molto dalla maggior parte degli altri dati. Che
escono dalla zona di distribuzione dei dati tenuti maggiormente in considerazione.
Tempo-> Il fattore che esprime il variare dei dati secondo lo sviluppo temporale.
Distribuzione di frequenza assoluta-> Consiste nell’elenco dei valori che
assumono i dati, uno o più intervalli, con le rispettive frequenze o conteggi.
Per costruire una distribuzione di frequenza si fissano:
- I limiti inferiori di classe->i valori più piccoli che possono appartenere a una
classe.
- I limiti superiori di classe ->i valori più grandi che possono appartenere a
ogni classe
- I delimitatori delle classi-> i valori utilizzati per delimitare le classi, ma senza
gli eventuali gaps creati dai limiti di classe
- I punti centrali delle classi->ottenuti sommando il limite inferiore col limite
superiore e dividendo per 2
- Le ampiezze di classe-> Le differenze tra i limiti inferiori di classe di classi
consecutive.
La distribuzione di frequenza relativa include le stesse classi della distribuzione di
frequenza assoluta, ma utilizza le frequenze relative, definite come:
frequenza relativa della classe=frequenza assoluta della classe/taglia del campione
La frequenza cumulativa di una classe-> Somma delle frequenze assolute della
classe in esame e di tutte le classi precedenti (quindi la frequenza cumulata
dell’ultima classe è la taglia del campione)
La frequenza cumulativa relativa di una classe-> Somma delle frequenze relative
della classe in esame e di tutte le classi precedenti.
Le tabelle di frequenza possono consentire di ricavare informazioni sulla modalità di
raccolta dei dati descrivendone alcune caratteristiche.
Lezione 2 Analisi descrittiva dei dati
Statistica descrittiva con R
La statistica descrittiva permette di descrivere i dati, oltre che per mezzo di grafici e
tabelle, con indici numerici.
I valori caratteristici di una distribuzione sono:
- Misure di tendenza centrale o di posizione
- Misure di dispersione
Si parla di variabili quantitative.
I due operatori più comunemente usati per fornire un valore numerico che si trova al
centro dell’insieme delle osservazioni sono:
- Mediana
- Media
La moda è utile quando i dati sono suddivisi in classi ed invece di considerare un
dato alla volta, si considerano dei dati distribuiti in intervalli.
MODA
E’ l’unica che si usa per i dati sia quantitativi che qualitativi. La moda è la modalità,
livello o qualità che ha la frequenza più alta.
La moda è il carattere(livello del carattere qualitativo che ha la media più alta) e
può essere assente nel caso in cui i livelli abbiano tutti la stessa frequenza,
Vi possono essere casi in cui la distribuzione è “bimodale” o “plurimodale”, quando
due o più livelli hanno la stessa frequenza massima.
MEDIANA
Per variabili quantitative, è una modalità di una variabile a cui appartiene il caso
che divide a metà la distribuzione. Prima si ordinano i dati dal più piccolo al più
grande, in caso in cui i dati fossero dispari, la mediana sarebbe il valore centrale
che divide a metà la sequenza. Nel caso però i dati fossero di numero pari, la
mediana è la media aritmetica dei due centrali (somma dei due dati centrali/2).
MEDIA
Per variabili quantitative. Abbiamo una variabile quantitativa che ha dei valori
misurati e la media si calcola sommando tutte le misure e dividendo per il numero
di misure, la classica media aritmetica.
In base al tipo di variabile gli operatori in gioco possono variare:
Variabile appartenente alla categoria nominale-> Operatore moda
Variabile appartenente alla categoria ordinale-> Operatori moda e
mediana
Variabile numerica->Operatori moda, mediana e media
La media non è sempre il valore più affidabile per calcolare l’indice di tendenza
centrale
Calcolo della media in R
Mean(x)-> Comando per calcolare la media aritmetica su R
Sarebbe sempre opportuno, quando si importano dataset, includere nelle funzioni
che calcolano gli indici statistici, il comando na.rm=T in modo da eliminare i valori
mancanti NA, poiché quest’ultimi impediscono di calcolare gli indici.
LA MEDIA E’ MAGGIORMENTE INFLUENZATA DAI VALORI ESTREMI, per tale motivo in
caso di presenza di outliners è più opportuno utilizzare la mediana.
Calcolo della mediana in R
Median(x)-> Comando per calcolare la mediana su R (in caso di valori mancanti è
opportuno utilizzare il solito comando na,rm=T)
La media, la moda e la mediana coincidono quando la distribuzione è simmetrica,
la distribuzione è la rappresentazione empirica e campionaria di quella che
dovrebbe essere la densità della distribuzione, come la campana gaussiana.
Dovrebbero coincidere nella popolazione, mentre negli intervalli quasi coincidere.
Nel caso in cui la distribuzione non fosse simmetrica, nemmeno i tre operatori
coinciderebbero.
Installazione pacchetto UsinR
Library(“UsingR”)->Comando per rendere utilizzabile un pacchetto dati R installato
Kid.weights-> Pacchetto di dati installato con il pacchetto UsinR, digitandolo su R,
apparirà il dataframe che contiene 250 casi. La prima colonna ha le età, la seconda il
peso, il terzo l’altezza e l’ultima colonna il sesso.
Per poterlo utilizzare come dataframe, bisogna assegnare il comado: dati seguito dal
nome del pacchetto che ci interessa utilizzare come data. Ciccando sopra al file dati, si
aprirà accanto al foglio di lavoro la tabella che ci serve.
In questo caso specifico non ci sono NA.
Vi sono tre comandi applicabili alla sezione Dati.
Comando per visualizzare il tipo di variabili nel dataframe, la sua
struttura(quanti variabili e di che tipo=: str(dati)-> Nel caso del pacchetto kid weight
vi sono 250 oggetti di 4 variabili: età, peso, altezza e sesso. Segnando anche a quale
tipologia di variabile appartengono, num=numeriche di numeri interi, Factor=variabili
qualitative come in questo caso il sesso, il programma sottolinea anche quanti livelli di
tale variabile esistano, qui F e M per indicare il sesso.
Comando per conoscere il numero di righe e di colonne di cui è composto il
data frame: dim(dati)
Comando per rendere disponibili all’analisi le singole variabili del dataframe:
attach(dati), perché il dataframe è come una matrice, un blocco unico ed è quindi
impossibile analizzare i dati in questo modo e quindi bisogna scomporli per poterci
lavorare.
Operato questo comando è ora possibile lavorare con altri comandi sui dati del
pacchetto.
La media dagli scarti (differenze) dalla media è nulla:
Per calcolare gli scarti della media, sottraiamo il valore della media, ai dati che stiamo
osservando, in questo caso age. Facciamo poi la media del nuovo vettore. Scm=age-m
-> mean(scm)
Notazione scientifica-> Scrivere numeri molto grandi o molto piccoli utilizzando le
potenze di 10, in R ad esempio, invece di -1.164846*10^(-15) visulizzeremo
-1.164846e-15 che è la stessa cosa.
Media per dati aggregati
La variabile quantitativa non è fornita singolarmente in un dataframe ma è fornita
sottoforma di tabella e di classi, ne è un esempio la tabella sottostante nel quale la
frequenza è stata
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
-
Appunti Analisi statistica multivariata - 2 modulo
-
Modulo Statistica economica II
-
Modulo filosofi
-
Letteratura italiana modulo B