Anteprima
Vedrai una selezione di 5 pagine su 20
Corso completo di Statistica Pag. 1 Corso completo di Statistica Pag. 2
Anteprima di 5 pagg. su 20.
Scarica il documento per vederlo tutto.
Corso completo di Statistica Pag. 6
Anteprima di 5 pagg. su 20.
Scarica il documento per vederlo tutto.
Corso completo di Statistica Pag. 11
Anteprima di 5 pagg. su 20.
Scarica il documento per vederlo tutto.
Corso completo di Statistica Pag. 16
1 su 20
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

Varianza di una trasformazione lineare

Y = a + bx

μ = b²σ²

σ² = nσ²

y = x + yb²σ²

σ = |b|σ

x = y xScarto Quadratico Medio: radice quadrata della varianza.

σ = √(σ²)

Standardizzazione di X: Y = (x - μ) / σ

(a volte può essere indicata Z ex xnon Y) dove μ / σ = a e 1/ σ = b.

In questa formula μ sarà sempre 0 ex x x yσ sarà sempre pari ad 1.

Tutte queste sono misure di dispersione assolute, una misura di dispersionerelativa invece rapporta la variabilità con ogni unità media di frequenza, unesempio è il Coefficiente di Variazione: rapporto tra scarto quadratico medio sul valoreassoluto della media. È una percentuale. CV = σ/|μ| (espresso in percentuale),esso è uguale a zero se σ = 0, quindi se x₁ = x₂ = x = μ (quindi se siamo inn“distribuzione degenere”).

presenza di

Una disuguaglianza di Chebyshev: supponiamo di conoscere solo μ e σ di una distribuzione di frequenze. Quali informazioni congiunte danno su di essa?

6 Freq. rel. (osserv. Con mod. μ – kσ < xᵢ < μ + kσ) ≥ 1 – 1/k²

Regola Empirica (legge dei 3σ): la maggior parte delle osservazioni cade nell’intervallo (μ-3σ, μ+3σ) se la distribuzione ha una forma simmetrica campanulare. Quindi per:

  • K = 1, F (xᵢ: μ-σ < xᵢ < μ+σ) ≈ 0,68;
  • K = 2, F (xᵢ: μ-2σ < xᵢ < μ+2σ) ≈ 0,95;
  • K = 3, F (xᵢ: μ-3σ < xᵢ < μ+3σ) ≈ 0,9973.

Forma di una Distribuzione

Una distribuzione si dice simmetrica rispetto alla mediana se ha modalità equidistanti da essa e con uguale frequenza. Nel caso di più classi d’intervallo, la densità di frequenza deve essere uguale. Se invece c’è asimmetria, può essere

positiva e allora viene chiamata "obliqua a destra" (coda nella direzione dei valori positivi) o negativa/"obliqua a sinistra" (viceversa).

Relazione μ-Me: se la distribuzione è simmetrica ed unimodale Me = μ – Moma non si può dire viceversa che se la mediana è uguale alla media meno la moda allora la distribuzione è simmetrica ed unimodale poiché potrebbe anche essere ad esempio bimodale o addirittura asimmetrica.

- Se la distribuzione è obliqua a destra (ad esempio nel caso della distribuzione dei redditi), Me < μ e viceversa.

Indici di Asimmetria: devono essere pari a zero nel caso ci sia simmetria, però possono essere uguali a zero anche se c’è asimmetria in alcuni rari casi.

1) α₂ = μ’ /σ³ ("momento centrale", è il primo momento di ordine dispari diverso da zero) = 1/N*Σᶰᵢ₌₁(xᵢ - μ)ʳ = 1/N*Σᶰᵢ₌₁[(xᵢ -

μ)/σ]³ (scarti dalla media standardizzati), ad esempio μ’₂ è la varianza. Se la distribuzione è simmetrica, μ’ è uguale a zero se r è dispari;r2) [(Q – Me) – (Me – Q )]/( Q - Q ) è > 0 se la distribuzione è obliqua a destra, < 0 se è obliqua a sinistra ed = 0 se è simmetrica.

Curtosi: allontanamento dalla distribuzione di una normale (distribuzione campanulare). Se la distribuzione è più “allungata” della normale si dice leptocurtica, platicurtica. Se è più “piatta” L’indice di curtosi si calcola con la formula γ = μ’ /σ⁴ - 345 Numeri di Sintesi: la loro rappresentazione grafica si chiama “box-plot” (+schema). Si definisce “outlier” un valore estremo/anomalo che si distanzia dal resto della distribuzione: Q + 1,5IQR < xᵢ < Q – 1,5IQR

Studio delle Relazioni

tra Due Variabili Avendo x,y caratteri quantitativi su un collettivo n, si possono rappresentare su un diagramma di dispersione le coppie di modalità per studiarne l'andamento. - Si cerca di calcolare l'intensità del legame lineare per capire quale tendenza hanno i punti a seguire la linea indicata. Covarianza: Distribuzione doppia,
  1. Cov(x,y) = σ = 1/N*Σᶰᵢ₌₁[(xᵢ - μ )(yᵢ - μ )] (caso xy x y popolazione), è una media fatta sui prodotti degli scarti delle rispettive medie; sCov(x,y) = = 1/(n – 1)*Σᶰᵢ₌₁[(xᵢ - x’)(yᵢ - y’)] (caso campione).
- Se dominano i punti che rispetto al nuovo sistema di assi cartesiani sono nel 1°/3° quadrante, il legame lineare è diretto σ > 0 e viceversa. Se invece i punti nei quadranti si equilibrano, non c'è legame lineare σ = 0. Disuguaglianza di Cauchy-Schwartz (la covarianza è un indice non relativo e non normalizzato,cioè non è individuabile in un intervallo preciso che valga per tutti i punti).- (σ σ ) ≤ σ ≤ σ σxy x y- Formule ridotte: la covarianza segue la regola della varianza, cioè "media dei prodotti meno prodotto delle medie" σ = 1/N*Σᶰᵢ₌₁[(xᵢ yᵢ)-(μ μ )]xy x y2) Per il calcolo della covarianza per una distribuzione doppia di frequenza si usa una tabella a doppia entrata e la formula è σ = 1/N*Σʳᵢ₌₁Σ ᵢ₌₁[(xᵢ - μ )xy x(y - μ )*n ].J y iJCoefficiente di Correlazione Lineare: -1 ≤ r = σ /σ σ ≤ 1 (l'intervallo vale perxy xy x yqualsiasi carattere).- r = 1 se c'è un perfetto legame lineare diretto tra x e y (più si avvicinaxyad 1 e più è intenso);c a,b ∈ R, y = a + bx;c d,e ∈ R, x = e + dx;- r = -1 se c'è un perfetto legame lineare inverso tra x e y (viceversa);xy //- se r = 0 la relazione tra i

punti non è lineare ma può comunque esistere di altro tipo. Scritta per esteso la formula del coefficiente diventa:

r = [1/N*Σᶰᵢ₌₁(xᵢ - μ )(y - μ )]/[√1/N*Σᶰᵢ₌₁(xᵢ - μ )²*1/N*Σᶰᵢ₌₁(yᵢ - μ )²]xy x ᵢ y x y

al numeratore troviamo la formula della codevianza, al denominatore il prodotto sotto radice della devianza di x con la devianza di y.

Variazione di una Combinazione Lineare di 2 Variabili: σ² = a²σ² - b²σ² +z x y2abσ (con σ = Ϩ σ σ ).xy xy xy x y 9

Metodo dei Minimi Quadrati

Nella realtà, essendo i dati complessi e le variabili in gioco moltissime, non si ha mai una relazione lineare perfetta. Per trovare quindi la miglior "interpolante lineare", bisogna stimare i coefficienti dell'equazione:

y = b + b x0 1

Si ottengono minimizzando le somme dei quadrati dei residui (valori stimati della Y in corrispondenza di

un punto x ’) tra i valori osservati e quelli stimati. (+1grafico) L’obiettivo è quindi trovare la Σᶰᵢ₌₁lᵢ² minima, attraverso la formula:min Σᶰᵢ₌₁(yᵢ - b –b xᵢ)²0 1 10- da essa si ricava la formula per la determinazione di b = μ – b μ che si0 y 1 xutilizza per studiare l’equazione y^ (“y cappuccio”) = b + b x, a scopo0 1predittivo.

Esperimento Aleatorio

Evento Elementare: ogni possibile esito dell’esperimento (ω₁, ω , …), se li2metto tutti insieme formo lo spazio campionario.

S = Ω = {ω₁, ω , …}, possono essere chiamati anche “e”2- Se considero un sottoinsieme E c Ω, quello che ottengo è un evento.

Intersezione di eventi: insieme degli eventi elementari comuni ad A, B c Ω

A∩B 11- Dire che un evento si verifica significa che almeno uno dei suoi eventielementari è stato l’esito del mio esperimento,

si chiama allora eventocerto. L'evento impossibile invece è formato dall'insieme vuoto (φ). Unione tra eventi: vengono considerati tutti gli eventi elementari di A e di B. A u B → - La copertura è un insieme di eventi che se uniti formano ("coprono") lo spazio campionario (E₁ u E u… = Ω). 2- Lo stesso vale per la partizione che però considera solo eventi incompatibili a due a due (E₁ u E u… = Ω). 3 Probabilità (assiomi di Kolmogorov): è data dalla F dei casi favorevoli frattorquelli possibili (n/N). Dato Ω, (sigma-algebra) su di esso, la probabilità è una funzione d'insieme A definita su a valori reali (i.e, P: R) tale che: → A A 1) P(Ω) = 1; 2) Per ogni A є , P(A) ≥ 0; A 3) Per ogni {Aᵢ} є t.c. per ogni i ≠ j, Aᵢ ∩ A ≠ φ P(UᵢAᵢ) = ΣᵢP(Aᵢ) con → A j eventi incompatibili a due a due. La terna (Ω, P) si chiama spazio di

probabilità.A,Conseguenze Assiomi:

  • P(A’) = 1 – P(A) per ogni A;
  • P(φ) = 0;
  • P(A) ≤ 1, per ogni A є A;
  • P(A U A ) = P(A ) + P(A ) – P(A ∩ A ), per ogni A , A є A;1 2 1 2 1 2 1 2
  • A,B є A, A ≤ B, P(A) ≤ P(B).

Probabilità Condizionata: sapere che l’evento A si è verificato influisce sul verificarsi dell’evento B?

Quest’informazione ci permette di restringere lo spazio campionario solo ad alcuni eventi di A in comune con B, che se si verificassero darebbero luogo anche a B.

P(B|A) = P(A∩B)/P(A)

Legge del Prodotto: se A, P(A) > 0 P(A∩B) = P(B|A)*P(A), se B, P(B) > 0

P(A∩B) = P(A|B)*P(B).

Legge della Probabilità Totale: consideriamo A c Ω, k eventi a due a due incompatibili tali che Uᵏᵢ₌₁Eᵢ = Ω, allora

P(A) = Σᵏᵢ₌₁P(A|Eᵢ)*P(Eᵢ)“probabilità a priori/iniziale”.

Dove P(Eᵢ) viene definita La

La probabilità dell'intersezione P(A∩B) = P(A|B)*P(B) è la frequenza relativa congiunta che si verifichino simultaneamente xᵢ ed yᵢ n₁₁/n = freq.sub.(x=x₁|→y=y₁)*n₁/n.

Teorema di Bayes: siano E₁,..., E c ⊆ Ω e allo stesso tempo ε (a 2 a 2Akincompatibili), essendo A ⊆ Ω e allo stesso tempo ε A ⊆ ⋃ᵏᵢ₌₁Eᵢ, si ha → AP(Eᵢ|A) = [P(A|Eᵢ)*P(Eᵢ)] / [∑ᵏ ₌₁P(A|Eⱼ)*P(Eⱼ)]

Con A = ⋃ᵏ ₌₁(A∩Eⱼ) dove (A∩Eⱼ)∩(A∩Eⱼ), a due a due incompatibili, = φ.

Dettagli
Publisher
A.A. 2021-2022
20 pagine
1 download
SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher DamiTheHero di informazioni apprese con la frequenza delle lezioni di Statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Verona o del prof Scricciolo Catia.