Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
Quartili
I quartili dividono la sequenza ordinata dei dati in 4 segmenti contenenti lo stesso numero di valori.
1° quartile = 1/4
2° quartile = 2/4, cioè la mediana
3° quartile = 3/4
4° quartile = 4/4, cioè 100%
Come si divide in quartili:
- Ordino i dati
- Trovo la posizione (es. Q1 = (n+1) x 0,25; Q2 = (n+1) x 0,50)
- Individuo il valore
Differenza interquartile: si usa per eliminare il problema degli outliers, elimina i valori osservati più alti e più bassi e calcola il campo di variazione del 50% centrale dei dati.
Differenza interquartile = 3° quartile - 1° quartile
Diagramma a scatola e baffi -> per variabili quantitative.
Differenza interquartile = scatola (da Q1 a Q3) e da Xmin e Q1 è il baffo.
Varianza della popolazione = è il quadrato dello scarto quadratico medio (o deviazione standard). Misura la variabilità rispetto al centro della distribuzione. Media degli scarti (x - media) al...
quadrato.Varianza campionaria = somma degli scarti al quadrato ma diviso per n-1. (es.slide 31 su qua)
Deviazione standard o scarto quadratico medio = misura la variabilità rispetto alla media. È molto sensibile ai valori anomali
Interpretazione delle devianze standard: Se i dati sono distanti tra loro come nel caso C, la deviazione standard (S) aumenta rispetto al caso B. (ESAME)
Coeff. di variazione = si usa se voglio confrontare la variabilità di due distribuzioni relative a fenomeni di diversa grandezza. Misura la variabilità relativa rispetto alla media. NON È IL COEFF DI REGRESSIONE. (es. elefanti e formiche su qua)
Si usa per confrontare la variabilità del fatturato di aziende di piccole e grandi dimensioni.
Approssimazione per classi: si crea una tabella con i valori centrali delle classi e le loro frequenze assolute, poi si fa una media ponderata delle classi, la deviazione standard (S) si fa con la radice del (valore centrale x fr. assoluta -
standard. La standardizzazione dei dati permette di calcolare lo z-score, che indica di quanti scarti standard un dato è lontano dalla media. Esempio di standardizzazione: dati un insieme di dati con media mu e deviazione standard sigma, il dato x viene standardizzato come segue: z = (x - mu) / sigma Dove z è lo z-score del dato x. La standardizzazione dei dati è utile per confrontare distribuzioni con diverse medie e deviazioni standard, in quanto permette di valutare la posizione relativa di un dato rispetto alla distribuzione.standard.A tutti i dati si toglie la media, quindi dopo la standardizzazione la media è 0 e la deviazione è 1. Prima si aggiunge -mu e poi si moltiplica per la costante 1/sigma.Per la regola empirica i dati stanno tra -3 e +3 se è campanulare.1. trovare la media di x2. deviazione standard di x3. Z = (36 - 40.20)/5.38 = -0.784. media di z = 05. deviazione di z = 1Covarianza = si considerano 2 variabili quantitative rilevate sulle stesse unità statistiche. Ci serve per vedere se c'è relazione tra le variabili. Misura per verificare se le due variabili si muovono nello stesso modo, ovvero se hanno una relazione lineare.C'è relazione tra spesa e rendimento? Ci interessa sapere se esiste una relazione lineare tra le due. Se cresce la spesa, cresce anche il rendimento.Spiegazione su quaPrima si calcola la media e la deviazione standard di entrambe le variabili. Ha senso se le due variabili sono calcolate sulle stesse unità. 16/03/2023Il punto di incontro tra i due assi x e y è chiamato baricentro, dove si incontra la media delle due variabili.
+ + unità statistiche che hanno dei valori entrambi sopra la media (valori concordanti)
- - unità statistiche che hanno dei valori entrambi sotto la media (valori concordanti)
+ - il valore di x è minore della media e il valore di y è maggiore della media (valori discordanti)
- + il valore di x è maggiore della media e il valore di y è minore della media (valori discordanti)
Per ottenere un indice di associazione basta sommare i prodotti degli scarti:
- indice positivo -> valori concordanti (cresce x quindi cresce y)
- indice negativo -> valori discordanti (cresce x quindi decresce y)
- se nulla -> nessuna tendenza, non c'è legame lineare (solitamente nelle parabole), il legame c'è ma non lineare.
Esempio:
1.353 -> somma media di X
51.533 -> somma media di Y
prodotto = prodotto tra le medie (1.466 =-0.103 x)
-14.233) Covarianza = somma dei prodotti / n-1
2° dato sta nel - - (concordanti)
3° dato sta nel - - (concordanti)
4° dato sta nel + - (discordanti)
Dalla covarianza si passa al coefficiente di correlazione, cioè covarianza / prodotto degli scarti quadratici medi (Sx e Sy dati dal testo) e sta sempre tra -1 e 1.
La correlazione è pari a 0 se la covarianza è 0, quindi se non ho un legame lineare tra le variabili. Quindi il segno della correlazione seguirà il segno della covarianza:
- correlazione > 0 allora la retta è crescente
- correlazione < 0 allora la retta è decrescente
- se r = -1 e 1 la retta passa sopra i punti
- se r = 0 al variare di x, la y varia come vuole
- se r = 0 non c'è relazione al variare di x
Una correlazione forte non determina la causalità, es. l'analisi tra le nascite e le cicogne nell'unità statistica degli stati del sud america, non vuol dire
Che sono le cicogne aportare i bambini ma l'unità statistica che lega le due variabili è la ruralità.
Esempio di relazione lineare crescente
Spiegazione su qua- y varia al variare di x costante.
Regressione lineare semplice
Se voglio osservare un punto preciso vicino la retta di regressione (esempio su qua)
Errore = epsilon
Regressione con il metodo dei minimiquadrati = cerca la retta blu che deve passare dal baricentro e gli da un'angolazione che stia nel mezzo il più possibile, cioè cerca di minimizzare la somma delle distanze tra i punti e la retta (scarti). S = covarianza
S^2 = varianza
r = coefficiente di correlazione lineare = covarianza / prodotto degli scarti quadratici medi
Es. 3.37 pag. 94 su qua
Es. 7 esame su qua 23/03/2023
Probabilità - Cap. 4
Definizioni:
Esperimento aleatorio = un processo che porta ad un risultato incerto (es. lancio moneta o lancio del dado)
- giochi di sorte (lancio moneta)
- esperimenti di laboratorio (test di durata di
- Evento elementare = un possibile risultato di un esperimento aleatorio (es. testa dellamoneta o faccia 1 del dado). Se lanciassi 2 monete, come l'esempio sotto, avrei E =[testa, testa], [croce, croce], [testa, croce], [croce, testa].
- Spazio campionario = l'insieme di tutti i possibili risultati (esaustivi e mutuamenteesclusivi) di un esperimento aleatorio (es. testa e croce della moneta o tutte le facce deldado). Se lanciassi 2 monete, lo spazio campionario è dato dal prodotto cartesiano (es.S = [testa, croce] x [testa, croce], (se lanciato due volte).
- Evento = qualsiasi sottoinsieme dieventi elementari di uno spaziocampionario (es. faccia 2, 4, 6; eventonumero pari). Possono verificarsicome non possono verificarsi.
- eventi disgiunti o incompatibili o mutuamente esclusivi -> quando la realizzazionedi uno, esclude la realizzazione