Appunti di "Analisi dei Dati"

Appunti contenenti tutto il programma del corso, esattamente come fatto a lezione, con tutta la teoria e gli esempi da sapere per superare l'esame.Indice:- Introduzione alla statistica …

Esame Analisi dei dati

Facoltà Ingegneria

Dal corso del Prof. Dalla Zuanna Gianpiero

Università Università degli Studi di Padova

Publisher SARLANGA

A.A. 2010-2011

14 pagine

Appunto

Vota

Scarica

Estratto del documento

Introduzione alla statistica descrittiva

La popolazione di riferimento è l'insieme di individui che ci interessa studiare. Gli elementi che la costituiscono si chiamano unità statistiche. La loro numerosità è il numero N che li quantifica.
Le variabili statistiche sono le caratteristiche X rilevate sulle unità tecniche. Esse si dividono in:
1. Variabili quantitative: sono espresse da numeri e possono essere:
  - Discrete: sono esprimibili con numeri interi o naturali.
  - Continue: sono esprimibili con numeri reali.
2. Variabili qualitative: sono definite da aggettivi o espressioni e possono essere:
  1. Nominali: non esiste nessun ordinamento naturale.
  2. Ordinali: invece possono essere ordinate.
La modalità è il valore distinto assunto da una variabile.
La classe di rappresentare è un insieme di un certo numero di modalità delle variabili che sono consecutive nella linea ordinata. È costituita da un'ampiezza a_i e da diviso d di delle classi legate dalle formule: f_i = a_i * d_i (aree dell'istogramma).
La frequenza assoluta è il numero di unità statistiche che soddisfa la stessa variabile statistica.
La frequenza relativa è il rapporto tra le frequenze assolute e le numerosità: f_i = F_i / N.
La funzione di ripartizione empirica applicata ad un punto x è data dalle frequenze di tutti i dati minori di x divise per le numerosità: F_n(x) = ∑F_i / N per x_i ≤ x.
La frequenza cumulata è data delle somme delle frequenze delle modalità inferiori o uguali ad un certo valore delle variabile. Può essere relativa e assoluta:
- Un diagramma a bastoncini è tipico delle variabili discrete.
- Un istogramma permette di avere una regione di insieme sulle le distribuzione di frequenze e si applica anche a classi continue.

Indicatori di posizione (o centralità)

Per sintetizzare dati forniti da un solo parametro che ci indichi dove le distribuzioni si posizionano, ci serviamo degli indici di centralità:

Le medie per le modalità qualitative sommarie e le mode
Le mediane per le quantitative

La media aritmetica

La media è il rapporto tra la somma di valori di tutte le unità statistiche per il numero: ⁿ∑_i=1 x_i / n = x_i ⁿ∑_i=1 x_if_i / n

Nei dati raggruppati in classi si usa l’approssimazione: m(x) = ^m∑_i=1 (a_i + a_i-1) / 2 ^m∑_i=1 f_i / ^m∑_i=1 f_i

Se tutti i dati sono uguali, allora anche le medie avranno quel valore.

Dim.

Siano x₁, x₂, ..., x_n dati riordinati: x₁ = x₂ = ... = x_n = k Allora

m(x) = ^m∑_i=1 x_i/ n = ^m∑_i=1 k / n = mk / n = k (v.d.)

La media è compresa tra il più piccolo e il più grande dei valori osservati.

Dim.

Voglio dire che m(x) ≤ max(x_i) min(x_i) ≤ m(x) ≤ min(x_i) ∀ i = 1, ..., m, sebbene 0 ≤ ∑_i=1 n(x_i) ⇒ min(x_i) ≤ m(x)

Voglio dire che ∑_i=1 m = max(x_i) ∀ i = 1, ..., m ∑_i=1 m > max(x_i) ⇒ max(x_i) ≥ m ∑_i=1 n(x_i) ⇒ max(x_i) ≥ m m(x) ≤ max(x_i) (c.v.d.)

Conclusione

min(x_i) ≤ m(x) ≤ max(x_i)

La media di una trasformazione lineare di dati è la stessa trasformazione applicata alla media dei dati:

z_i = ax_i + b m(z) = a·m(x) + b

Dim.

Siano z_i = ax_i + b, a ∈ ℝ, b ∈ ℝ, ∀ i = 1, m

m(z) = ^{∑ x_i (ax_i + b)} / n = ^{a·∑ x_i + n·b} / n = ^{a·∑ x_i / m} + mb / n = a·m(x) + b (c.v.d.)

La media delle differenze dei dati dalle medie (valore degli scarti) è nulla.

Dim.

Siano x₁, x₂, x_n dati:

Voglio dim. che ^{∑ x_i - x̄} / n = 0

In generale i con:

f_ij è le generica frequenza congiunta;
f_i è la frequenza totale della distribuzione di Y condizionata a X = x_j (è la riga della c.d. distrib. marginale);
f_j è la frequenza totale della distribuzione di X condizionata a Y = y_i (è la colonna delle f_j, per i = 1,... r, è la distribuzione marginale di X);

Raccomumenti indipendenti di X se per qualunque i = 1,... r, vèl che:

f_i = f_i f_j / f
f_j = f_i / f_iN

Le frequenze attese f'ij sono quello che ci aspettiamo nel caso di indipendenza completa

f'ij = (f_i + f_j) / N

Il χ² di Pearson e la V di Kremer

Per misurare le dipendenze tre due variabili sono usualmente il χ² di Pearson die a fare è:

χ² = Σ Σ (f_ij - f'ij)² / f'ij = N (Σ Σ (f_ij/N - f'ij/N)² / f'ij) = N Σ Σ ((f_ij/N - p_ij)² / p_ij - _i[ Σ Σ (f_ij/N - f_ij/N)² / N]

Se c'è indiapindenza stocastica esso vale 0; altrimenti più crescene sono meno una.

Un indice normalizzato della dipendendenza è la V di Kremer, definite come:

V = N : min (r-4, c-4)

V &E(one; (E0; 1))

Per une tabella 2x2: vale χ² = N(ad-bc)²/r₂c₁c₂

Inálit:

χ² = N Σ (f_jf'ij - f'ij)² / f'ij

= N Σ (Σ (f_ij - f'ij)² /(f_j + f'ij)= ≠ N (a² / f₁ + b² / f_e + c² / f_c

Modello di Regressione Non Lineare Semplice

Un modello non lineare presenta parametri in funzioni non lineari; se ammette si piega le variabili riportate con un'unica variabile esplicativa.

Per risolverlo ci sono leggi da parametri per quali volatore per "i residui" si fanno dei cambi di variabile per ottenere equazioni lineari nei parametri, e si applica, come per il modello dei minimi quadrati.

_{Y_i = Xⁱε = Log Y = logʸ + a log x = α (ε = log y, log x = α, y = z, log x = w)}

^∑ⁿ (Yⁱ) ∑ Log X + β X i + ε

Oss: L'veata della varianza dei residui (ver(ε)) = (∑X_i) e' del coefficiente Rʹ (μ = Σⁱ) / n

non forniscono risultati confrontabili con altri modelli lineari, inveca si deve usare questo:

AR₍₇₎ = ∑(Y_i - Ȳ_i)/(n-1) ed Rʹ = Rʺ/VER_(Y)

Oss: Per un modello lineare, l'invarianza si a sempre nei seguenti ipotesi:

i) la media delle medie degli errori ε_i in Y_i + ΒX_i + ε_i
ii) un inchiostiscotati degli verreri errore le varievarie costante (av_Σ E_i) = 0

α(t=βZ) Y_i = f^m(mor)-r = α tonu + uno componente erattica ε_i (e^s)

Oss: i residui Y_i = Y_i = Y_i - Y̆_i = Y_i - Σⁱ#B coef - a

la compamento erattica

Modello di Regressione Lineare Multipla

Un modello di regressione multipla espiega una varietà risposta y e partire de più variabili esplicative X₁, X₂, ..., X_k.

Ȳ_i = β₁X₁ + β₂X₂ + ... + β_kX_i + Ε_i

I coefficienti (β₁, β₂, ..., β_k) cha si vogliono trovare come detti di regressione nerervi; le compannosi è robeliche i (μ) (βX₂X₁X_{2_{1₂ⁱ) +
^{@igh(t)= s}}}

in forma maricale X sia le matrici del dissimj (X)

Y₂ = β₁X₁ + β₃X₁ + X₂ + ... + ... + Y₂t_{s_i_m}

→ Y = X · (β) + ε = y(μ - ε)

Si vuole sora dei parametri β₁, β₂ ..., β_k minimizzino le summe delle quessatoi degli occarti tra verdi ossanctao q e shelo y'ero

min ottennedo ... reessiom ... tommel't

Anteprima

Vedrai una selezione di 4 pagine su 14

Anteprima di 4 pagg. su 14.
Scarica il documento per vederlo tutto.

Scarica

Anteprima di 4 pagg. su 14.
Scarica il documento per vederlo tutto.

Scarica

Acquista con carta o PayPal

Scarica i documenti tutte le volte che vuoi

Dettagli

SSD

Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher SARLANGA di informazioni apprese con la frequenza delle lezioni di Analisi dei dati e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Padova o del prof Dalla Zuanna Gianpiero.

Appunti correlati

Invia appunti e guadagna

Recensioni

Ti è piaciuto questo appunto?

Appunti di "Analisi dei Dati"

Introduzione alla statistica descrittiva