Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
INTRODUZIONE
- OGGETTO DI STUDIO
- Studia i fenomeni reali in relazione ai quali si dispone di una pluralità di misurazioni.
- OBIETTIVI
- Descrivere e, efficacemente, interpretare il cui si dispone di elaborare le misurazioni associate, informazioni più generali, riferite a collettivi più ampi di quelli osservati.
- Questo procedimento logico si chiama induzione/integrazione.
- DEF + DATI sono l’insieme delle misurazioni che sono disponibili per un'analisi (ex: opinione persone intervistate).
- FASI / PROCEDURA
- Analisi dei dati
- Statistica descrittiva → Statistica inferenziale → Regressione (secondo abilità)
- Riassumere i dati per tesser e ritrovamenti info utili
- ENTRAMBI: sintesi delle informazioni
- Consente di
- Derivare sintesi e caratterizzazioni della popolazione
- Verificare le ipotesi sui caratteristici
- Fare ipotesi sui stati o caratteristici
- CONTENUTI
- Procedura inferenziale: il grado di incertezza sulle conclusioni fatte che stimano questi, il grado.
- Interezza non presente nella fase descrittiva dei dati
- Il calcolo delle probabilità si occupa di analizzare e formalizzare questa incertezza.
DEFINIZIONI
- POPOLAZIONE → insieme, di tutte le unità oggetto di studio si indica con n la dimensione della popolazione.
- CAMPIONE → il sottoinsieme della popolazione individuato dalle unità che vengono effettivamente osservate o misurate.
- CAMPIONAMENTO CASUALE → procedimento per selezionare un campione di n oggetti della popolazione, dando ogni unità, la stessa possibilità di essere selezione.
- PARAMETRO → una specifica caratteristica della popolazione e si esprimere con...
- STATISTICA → una specifica caratteristica del campione.
- ESEMPIO
- Analisi della media età degli iscritti a economia
- Popolazione: tutti gli iscritti a economia in Italia
- Campione = 1000 studenti intervistati
- Parametro: Media di tutti studenti
- Statistica: media dei 1000 studenti
- Statistica descrittiva → riassume e sintetizzi i dati dei 1000 studenti
- Statistica inferenziale → ottengo info sugli interezza sistemi della popolazione
Rappresentazioni Grafiche
Classificazione delle Variabili
Individuato un fenomeno di interesse, un'unità d'osservazione è determinata da:
- Unità statistiche: le singole entità che compongono la popolazione su cui il fenomeno è osservato, misurato (ex: gli iscritti a economia)
- Variabile statistica: qualità o quantità mediante cui viene osservato il fenomeno (ex: reddito o età)
- Moda/La: l'insieme di tutti i valori potenzialmente osservabili per una variabile
Le variabili si distinguono in:
- Variabili Categoriche: se assumono valori che appartengono a gruppi o categorie espresse in termini di attributi.
- Variabili Numeriche: se assumono valori espressi in termini numerici
- Variabili discrete: se assumono al più una infinita numerabile di valori potenziali.
- Variabili continue: se i valori possibili hanno la forma di un intervallo.
Esempi:
- V. categoriche: nazionalità di uno studente, voto in una scala preferenziale tipo "primo", "secondario", "terziario".
- V. numerica discreta: numero di impiegati, valori {4, 2, ..., n}.
- V. numerica continua: reddito degli italiani, valori [0, ∞).
Scale di misurazione di una variabile
- Scala Nominale: non è previsto alcun ordinamento, si usano i nomi degli attributi oppure codici numerici arbitrari (ex: 1 = a, 2 = b).
- Scala Ordinale: se è previsto un ordinamento naturale, ma la distanza tra i valori non ha significato (ex: indicazioni di soddisfazione — 1 = cattivo, 2 = medio, 3 = buono "descrittiva").
- Scala ad intervallo: la distanza tra i valori ha significato ma non il loro rapporto (ex: temperatura).
- Scala di rapporto: ha senso parlare di rapporto tra misurazioni perché esiste uno zero assoluto (ex: 1000€ = 2 * 500€).
Schema
- Variabili categoriche
- Scala nominale
- Scala ordinale
- Variabili numeriche
- Scala ad intervallo
- Scala di rapporto
Distribuzione di Frequenze
Per descrivere un grafico, è necessario determinare la distribuzione di frequenze della variabile.
Def Frequenza assoluta di una modalità è il numero di volte in cui tale modalità è presente nei dati. ni = frequenza assoluta della moda/modalità i-esima
Distribuzione di frequenze assolute è una tabella che riporta le modalità e le frequenze assolute associate.
Esempio
- Classi
- Freq.
- 0,1
- 2
- 4
- n.c.
- 30
- 5
- 20
- 4
- 15
- 3
- 4
- 2
- 2
- 1
Osservazioni: la classe con frequenza più alta non è necessariamente la classe più alta.
Altri tipi di grafici
Grafico per serie storica
Definire: Quando le misurazioni che producono i dati sono effettuate nello stesso momento (cioè associate allo stesso stato del fenomeno) i dati risultanti si dicono cross-section.
Definire: Una serie storica, o serie temporale, è un insieme di dati raccolti in istanti di tempo successivo. Il grafico è una spezzata.
Esempio: Variazione percentuale del PIL
- Anno
- Variaz. PIL
- 2010
- 0,1
- 2011
- 0,4
- 2012
- -2,5
- 2013
- -2,4
- 2014
- 0,1
- 2015
- 0,7
- 2016
- 0,9
Curvatura andamento
Distribuzione simmetrica
Diciamo che una distribuzione rappresentata mediante un istogramma è simmetrica se le osservazioni sono bilanciate o distribuite in modo approssimativamente simmetrico intorno al centro dell'istogramma.
La simmetria implica che osservazioni molto grandi e molto piccole relativamente al centro hanno le stesse frequenze. Le code hanno forma simile.
Coda = zona di distribuzione lontana dal centro.
Distribuzione asimmetrica
Quando le frequenze decrescono più rapidamente da un lato.
Asimmetria positiva
Coda destra molto pronunciata (coda pesante). Coda sinistra leggera (poche osservazioni). Esempio: dati con un limite inferiore.
Asimmetria negativa
Coda sinistra pronunciata. Esempio: dati con un limite superiore.
DATI ANOMALI E ROBUSTEZZA
Quesiti e percentili
- Osservazioni anomale: sono molto distanti dal resto degli altri dati o outliers cioè un criterio arbitrario e ragionevole per definire un dato anomalo. L’osservazione anomale si classifica ad adesione, caratteristica misurabile.
- Un buon indice di posizione può significare o distorcere i dati. Misura e robusto quando è poco influenzato da valori anomali.
Esempio
Xi, Fi, Fi'
X1 = 1:
X̄ =
XU Fi = 2.3
X =
Med. = 2
La mediana è più robusta della media.
Def: Dato un campione di n osservazioni si definisce percentile di ordine k l'osservazione di posizione (K/100) (n+1) con n intero nei dati ordinati in modo non descendente
cioè la valore che lascia alla sua sinistra una proporzione di dati ordinati almeno quella di k.
Casi particolari
- 50: (n+1) : 0.5 (n+1) + il 50o percentile è la mediana
- il 2o e il 75o percentile sono dei quartili Q4 e Q3 dividono l’ante-rata
Regola di calcolo analoga a quella della mediana esempio
Xi, fi, Fi
13 0.3 0.4
14 0.1 0.6
15 0.2 0.7
16 0.25 0.85
23 0.4 1
30 F
Se Fi ≥ 1 e Fi
Q2 = √
Se Fi = j Fi 2 percentuale
Xi + Xi+1
2
Q3 = 23
MISURE DI VARIABILITÀ
Gli indici di posizione devono essere accompagnati degli indici di variabilità. L'indice di posizione è rappresentativo tanto minore è la variabilità, il caso limite è quando Xn-xn assume variabilità = X-xn
Esempio
Xi = 130, 120, 130, 150,150,150,150,150,170,170,170,170
X = 150 Med = 150 Moda = 150
Yi = 130, 120,130,150,150,150,150,150,170,170,170,170
Y = 150 Med = 150 Moda = 150
Esteri hanno cfn simmetrici centrali Y è più concentrato di X ma con non ci viene indicato dagli indici di posizione.