Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
Formattazione del testo
(B). Se i valori sono nominali, si ordinano per frequenza (prima valori con frequenza minore a maggiore), o in ordine alfabetico --> diagramma di Pareto Curva che parte dal primo elemento, sono le frequenze cumulate, ma avevamo detto che per i nominali non si calcolano…? Nel Pareto si calcola cumulata rispetto all'ordinamento stabilito nel far e il (B)grafico. (A)(C) Gli aerogrammi frequenza rappresentate come aree, frequenze che sono relative (valori percentuali). Usato per caratteri nominali e se sono pochi. Si deve evidenziare quali sono frequenze rappresentate. (D) Gli istogrammi rappresentano bene frequenze per caratteri scalari. Tanti rettangoli adiacenti chiamati BINS, le cui aree sono proporzionali alle frequenze che vogliamo rappresentare. Se l’ampiezza della base è uguale per tutti i rettangoli, allora l’altezza dei rettangoli è proporzionale alla frequenza. Se distribuzione ha coda di bassa frequenza, ho pochi valori.all'estremità,Posso usare intervalli di ampiezza diversa, lettura meno immediata. NON usa per caratteri nominali ma scalari. Può rivelare presenza di outliers (evidenziano le code), e asimmetrie nell'insieme di dati.
(E)Il grafico della tabella delle frequenze cumulate (non decrescente), la funzione cumulativa empirica sempre rappresentate dascalini, con tratti costanti rappresentati valori che non sono osservati. (E) (C) (D)Indici di posizione centrale media solo per dati numerici con ordinamento (somma valori/n° tot valori). È indice sensibile agli estremi (variazione di valori estremi, la fa alzare o abbassare). Adatta se indici sono distribuiti in modo abbastanza simmetrico. Possiamo se ci sono valori troppo fuori, togliere quei valori di bassa o alta frequenza e calcolare un trimmed mean (anche nel caso di dati simmetrici lo posso fare, per vedere la tendenza dei dati centrali). La mediana, valore centrale di un insieme ordine crescente di dati.(divide insieme dati a metà). È operatore robusto, non sensibile ai valori estremi. floor(a) è il più grande intero <= a. floor(4.5) = 4; floor(3) = 3. ceiling(a) è il più piccolo intero >= a. ceiling(4.5) = 5; ceiling(3) = 3. La moda è il valore osservato con frequenza massima (maggiore rispetto a tutti). Utilizzabile per i nominali. A partire dalla tabella delle frequenze relative, la moda è il dato con la frequenza maggiore. In caso di distribuzioni con asimmetria a sinistra, la mediana è sempre minore della media, se asimmetria a dx, mediana > media. Se abbiamo una distribuzione simmetrica, la media coincide con la mediana. Utilizzare l'una o l'altra come indice di centralità è più o meno la stessa cosa. Nelle asimmetriche maggiore è l'asimmetria, maggiore è la differenza tra moda e mediana. Nei
molto maggiore in questo caso; se prendo deviazione std e la rapporto con reddito medio, invece, posso confrontarli; ottengo nel primo caso rapporto = 0.05 e nel secondo = 0.25. Concentrazione reddito A rispetto al reddito medio è maggiore in A che B.
Indice dispersione rispetto alla mediana range interquartile (quanto ampio intervallo che contiene il 50% dei dati centrali, q3 - q1).
Indici di eterogeneità finora tutti indici calcolabili solo per variabili numeriche. Mi piacerebbe dare una valutazione numerica anche ai caratteri nominali. Serve un indice che assuma il valore 0 in caso di eterogeneità minima, 1 nel caso di eterogeneità massima. Deve essere un indice che cresce tra 0 e 1, (crescente), al crescere dell'eterogeneità.
L'indice di Gini. E l'entropia.
Il box and whiskers plot rettangolo, in orizzontale abbiamo asse reale (da primo quartile a terzo quartile del carattere considerato), con base pari all'intervallo interquartile.
Linea verticali in corrispondenza della mediana, nell'esempio vediamo asimmetria dei dai (dati molto più concentrati alla sinistra della mediana). Ci sono poi due punti che definiscono il Tukey's fences intervallo che va da q1 - 1.5 *IQR (una volta e mezza la scatola) a q3 +1.5 *IQR; intervallo all'interno del quale i valori NON sono considerati outliers (posti all'esterno, ognuno segnalato con un punto). I baffi corrispondono all'osservazione effettiva, a sinistra rappresenta l'osservazione più piccola all'interno del fence e a destra la più grande del fence. Se ci allontaniamo dal bordo della scatola di altre due volte abbiamo q1 - 3 * IQR e q3 + 3 * IQR, i cui valori esterni sono considerati estremi e segnalati con asterisco.
Linguaggi trattamento dati Pagina 22
Trattamento dati 21/3 martedì 21 marzo 2023 09:41
dato l'insieme di valori { 1, 5, 3, 1, 1, 15, 4, 2, 3, 1}, calcolarne:
Esercizio:
- mediana
- i quattro quartili
- il quantile 0.7 - il novantesimo percentile.
- Ordino valori 1,1,1,1,2,3,3,4,5,15. Mediana tra 2 e 3, è il valor medio, 2.5.
- Il primo quartile è il terzo 1, il terzo quartile è 4.
1,1,1,1,2 | 3,3,4,5,15
- Per freq cumulata, abbiamo: 1 2 3 4 5 15
Frequenza cumulata: 4/10 5/10 7/10 8/10 9/10 10/10. Facciamo il grafico, che sarà a scalini, con F su y e i casi su x.
Il quantile 0.7? Guardiamo grafico dividiamo y in 10 parti e prendiamo la settima, più o meno cade su 3 (lo posso leggere anche dalla tabella frequenze, 3 = 7/10).
- Novantesimo percentile è quantile 0.9, corrisponde a 5 = 9/10.
Se volessi 95° percentile, so che capita tra 5 e 15, sarà la media tra i due.
Si nota che il valore ottenuto per la mediana (che vale anche per gli altri quantili), usando la regola data per il calcolo della mediana o usando la definizione di quantile di ordine 0.5, è diverso.
Motivo della discrepanza: stima del valore per una popolazione
La distribuzione delle variabili è simmetrica e unimodale, rappresentata da variabili gaussiane. Il valore massimo è rappresentato dalla media. Il 68% delle osservazioni si trova tra (media - stdv) e (media + stdv). Se la distribuzione empirica dei dati osservati è unimodale e simmetrica, possiamo dire che nell'intervallo di semi-ampiezza sigma si trova il 68% delle osservazioni. Per descrivere dati con caratteristiche simmetriche e unimodali, possiamo utilizzare la media e la sigma (stdv).
Nei linguaggi di trattamento dati, è possibile vedere se c'è una relazione tra due variabili o confrontarle tra loro attraverso l'analisi bivariata. I tipi di tabelle utilizzate sono le tabelle di frequenze congiunte (o di contingenza o crosstabs), che possono essere relative o assolute. Si possono calcolare le frequenze marginali e condizionate.
Esercizio: calcolare la frequenza congiunta tra autore e tecnica? Ho calcolato la frequenza partendo dalle congiunte, utilizzando il metodo listwise.
calcolandola usando tutti i valori (come prime lezioni), pairwise. Tipi di grafici: grafici di frequenza congiunta (quasi mai usati, data coppia di valori x y, nella terza dimensione rappresento un parallelepipedo che corrisponde alla frequenza congiunta dei due), il Q-Q plot (vedere se due caratteri hanno la stessa distribuzione), i grafici di dispersione (scatter plot, per controllare se due caratteri numerici hanno una relazione). Linguaggi trattamento dati Pagina 24 Trattamento dati 30/3 giovedì 30 marzo 2023 10:34 Statistica inferenziale (anova) studio di una variabile relativizzata a valore di un altro carattere. E studiare come è andato il compitino 2 tra studenti che sono stati in Cina e quelli che non ci sono stati e fare dei confronti, grafici delle distribuzioni delle variabili e dare valore numerico al confronto con analisi della varianza. Abbiamo G gruppi ciascuno di cardinalità n1, ng. Prendiamo casi (a1, an) e li reindicizziamo rispetto ai gruppi. Calcoliamo dispersione totale (SSQ,somma dei quadrati) = somma scarti quadratici a interno dei gruppi + somma dei scarti quadratici delle medie rispetto a media complessiva. (se divido questo per n ottengo a varianza, da info su quanto distano tutti valori dal valore medio). Fissato certo gruppo, calcolo media osservazione delle x in quel gruppo, e poi la somma degli scarti quadratici del gruppo rispetto alla propria media; sommo poi su tutti i gruppi. Trasformazioni a volte si vuole trasformare un carattere x in x' che è funzione di x. Perché utile? Confrontarli con altri dati, elaborarli con tecniche che prevedono di lavorare su valori in un intervallo predefinito, renderli più facilmente leggibili. Trasformazioni più utilizzare, sono di tipo lineare, g(x) = mx + q, vado leggere suoi valori con retta; o trasformazione logaritmica, prendo logaritmo del carattere x, con base a piacere. Leggere qualcosa di molto grande su grafico che me lo fa leggere meglio (me li "restringe"). InQueste trasformazioni riguardano le frequenze. Le frequenze si restringono, ma il grafico rimane uguale perché la funzione f(x) non cambia. Il punto vecchio corrisponde alla f(x) del punto trasformato, anche se il range è diverso, l'altezza del punto rimane la stessa. Non si perde nulla dei dati.