Anteprima
Vedrai una selezione di 18 pagine su 85
Appunti statistica Pag. 1 Appunti statistica Pag. 2
Anteprima di 18 pagg. su 85.
Scarica il documento per vederlo tutto.
Appunti statistica Pag. 6
Anteprima di 18 pagg. su 85.
Scarica il documento per vederlo tutto.
Appunti statistica Pag. 11
Anteprima di 18 pagg. su 85.
Scarica il documento per vederlo tutto.
Appunti statistica Pag. 16
Anteprima di 18 pagg. su 85.
Scarica il documento per vederlo tutto.
Appunti statistica Pag. 21
Anteprima di 18 pagg. su 85.
Scarica il documento per vederlo tutto.
Appunti statistica Pag. 26
Anteprima di 18 pagg. su 85.
Scarica il documento per vederlo tutto.
Appunti statistica Pag. 31
Anteprima di 18 pagg. su 85.
Scarica il documento per vederlo tutto.
Appunti statistica Pag. 36
Anteprima di 18 pagg. su 85.
Scarica il documento per vederlo tutto.
Appunti statistica Pag. 41
Anteprima di 18 pagg. su 85.
Scarica il documento per vederlo tutto.
Appunti statistica Pag. 46
Anteprima di 18 pagg. su 85.
Scarica il documento per vederlo tutto.
Appunti statistica Pag. 51
Anteprima di 18 pagg. su 85.
Scarica il documento per vederlo tutto.
Appunti statistica Pag. 56
Anteprima di 18 pagg. su 85.
Scarica il documento per vederlo tutto.
Appunti statistica Pag. 61
Anteprima di 18 pagg. su 85.
Scarica il documento per vederlo tutto.
Appunti statistica Pag. 66
Anteprima di 18 pagg. su 85.
Scarica il documento per vederlo tutto.
Appunti statistica Pag. 71
Anteprima di 18 pagg. su 85.
Scarica il documento per vederlo tutto.
Appunti statistica Pag. 76
Anteprima di 18 pagg. su 85.
Scarica il documento per vederlo tutto.
Appunti statistica Pag. 81
1 su 85
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

Il rapporto di correlazione e la spezzata di regressione

Il rapporto di correlazione vale 0 quando le medie parziali sono tutte uguali e 1 quando la varianza nei gruppi è nulla. Se entrambi i caratteri sono quantitativi si possono calcolare due rapporti di correlazione.

La spezzata di regressione è un grafico che rappresenta la dipendenza delle medie di un carattere dai valori dell'altro: nel caso della dipendenza in media di Y da X, nel piano cartesiano si uniscono con segmenti diretti i punti di coordinate (X,Y); nel caso della dipendenza in media di X da Y, nel piano cartesiano si uniscono con segmenti di retta i punti di coordinate (Y,X).

I punti non hanno lo stesso peso perché ogni media è la sintesi di un diverso numero di osservazioni. La spezzata rappresenta una tendenza statistica.

La serie doppia semplice è la tabella che riporta i dati elementari riferiti a due caratteri quantitativi X e Y rilevati congiuntamente su ognuna delle N unità della popolazione.

La serie doppia ponderata è la tabella...

nella quale, ad ogni coppia (xi;yi) è associata la corrispondente frequenza ni. Gli indici di concordanza permettono di valutare la relazione tra due caratteri quantitativi: l'indice deve assumere segno – se i valori più grandi di un carattere tendono ad associarsi con quelli più piccoli dell'altro e segno + se i valori più grandi di un carattere tendono ad associarsi con quelli più grandi dell'altro. Il grafico di dispersione rappresenta in un piano cartesiano gli N punti individuati dalle coppie di valori (xi;yi) di una serie doppia, ottenendo una nuvola di punti. Si tracciano quindi due rette, parallele agli assi, passanti per le medie dei due caratteri in modo da individuare 4 quadranti. Per mantenere l'informazione sulla concordanza o discordanza degli scarti si può utilizzare il prodotto che viene detto covarianza. Ognuno degli N prodotti assume segno – se il punto è nel II o IV quadrante e segno + se il punto è nel I o III quadrante.

punto è nel I o III quadrante.

Si ottiene un indice di concordanza sintetizzando le N covariazioni con la loro media aritmetica, detta Covarianza.

Cov(X,Y)>0 significa che i due caratteri tendono ad assumere valori concordanti e Cov(X,Y)<0 significa che i due caratteri tendono ad assumere valori discordanti.

Se i due caratteri X e Y subiscono le trasformazioni con a, b, c e d costanti allora . La dimostrazione si ottiene sostituendo agli scarti in Z e W le loro corrispondenti espressioni X e Y.

Si può dimostrare la disuguaglianza di Cauchy-Schwarz s.s.s. tutti i punti giacciono su una retta.

Cov(X,Y) è la misura del legame lineare tra i due caratteri. Se tra X e Y c'è indipendenza distributiva allora la covarianza è uguale a zero (non vale il viceversa). Se almeno un carattere è indipendente in media dall'altro allora la covarianza è uguale a zero (non vale il viceversa).

Il segno della covarianza indica il verso del legame lineare tra

Due caratteri. Per valutarne l'intensità, conviene fare in modo che l'indice assuma valori in un prefissato intervallo. Dalla disuguaglianza di Cauchy-Schwartz si ricava il coefficiente di correlazione lineare di Pearson. r(X,Y) assume valori in [-1; +1]; in particolare -1 se i punti giacciono tutti su una retta discendente e +1 se i punti giacciono tutti su una retta ascendente. Se i due caratteri X e Y subiscono le trasformazioni con a, b, c ed costanti allora r(X,Y) = a * r(X,Y). Se tra X e Y c'è indipendenza distributiva allora il coefficiente di correlazione lineare di Pearson è pari a zero (non vale il viceversa). Se almeno un carattere è indipendente in media dall'altro allora il coefficiente di correlazione lineare di Pearson è pari a zero (non vale il viceversa). Se Y è la variabile dipendente e X la variabile indipendente, la relazione lineare tra i due caratteri può essere così formalizzata. Il criterio di

interpolazione più utilizzato è il metodo (o condizione) dei minimi quadrati: i valori da attribuire a p0 e p1 sono quelli che rendono minima la somma dei quadrati dei residui U. Per garantire il minimo è necessario che le due derivate parziali (rispetto a p0 e p1) siano nulle.

Proprietà delle medie: le medie dei valori osservati e interpolati sono uguali; la retta passa per il punto con coordinate le medie.

Retta interpolante

Scambiando i ruoli delle variabili si può considerare anche il modello di regressione. La condizione dei minimi quadrati è

Il coefficiente di correlazione lineare è la media geometrica dei coefficienti angolari delle due rette di regressione.

A volte il diagramma di dispersione evidenzia una tendenza che non può essere adeguatamente rappresentata con la retta interpolante. In questi casi, opportune trasformazioni di una o di entrambe le variabili permettono di linearizzare la relazione. Si può quindi utilizzare

ancora il metodo dei minimi quadrati con le variabili trasformate. Dopo aver determinato la retta interpolante, è necessario controllare se questa è idonea a rappresentare la relazione tra le due variabili. La verifica della bontà di adattamento del modello scelto si basa sull'analisi grafica e numerica dei residui di interpolazione. Il sistema normale si può riscrivere come I residui dei minimi quadrati hanno media nulla e non sono correlati con la variabile indipendente (U e X sono incorrelati). I residui presentano segni sia positivi sia negativi e non dipendono linearmente dalla variabile indipendente. Indice di determinazione è un rapporto di composizione ed assume valori nell'intervallo [0;1]. L'indice di determinazione vale 0 quando, ovvero, la retta di regressione non "spiega" la variabilità di Y; in tal caso i punti (xi ; yi) non evidenziano un legame lineare; vale 1 quando, ovvero, la retta di regressione

“spiega” tutta la variabilità di Y; in tal caso tutti i punti(xi ; yi) giacciono sull'interpolante.

Quando si dispone di una serie doppia ponderata, il problema dei minimiquadrati assume la seguente forma:

L’interpolazione ponderata si impiega anche quando le informazionisono riportate in una tabella a doppia entrata. Nel casodell’interpolazione delle medie parziali di Y|X si ha la condizione deiminimi quadrati.

Si può dimostrare che tale soluzione coincide con quella che si ottienedalla condizione:

L’interpolazione per la serie doppia ponderata equivaleall’interpolazione per la tabella bivariata. In questo caso sitratta quindi di interpolare con una retta i punti della spezzata diregressione.

Si possono calcolare due indici di adattamento: ‘indice di determinazionedella varianza totale e indice dideterminazione della varianza fra medie.

Ogni singola esecuzione di un esperimento è detto prova.

Un esperimento può essere deterministico.

se la conoscenza delle cause o leggi da cui dipende permette di prevedere con certezza il risultato, o aleatorio, se la conoscenza delle cause o leggi da cui dipende non permette di prevederne con certezza il risultato. Di solito si richiede che un esperimento aleatorio sia ripetibile nelle stesse condizioni e tutti i possibili esiti siano definibili in anticipo. Si distingue tra evento elementare (E), il singolo risultato di una prova, e evento composto (A, B, ...), l'insieme di eventi elementari. Utilizzando le regole dell'algebra degli insiemi si possono definire altri tipi di eventi: Il diagramma di Venn è utile per rappresentare le relazioni tra insiemi. Si distingue anche tra evento impossibile, evento che non si verifica mai, evento aleatorio (probabile, possibile, casuale), evento che si verifica a volte, e evento certo, evento che si verifica sempre. Lo spazio di tutti i possibili eventi elementari di un esperimento viene detto spazio campionario (Ω). A e B sono detti

eventi incompatibili se A∩B=∅. La definizione classica di probabilità presuppone che, dato un esperimento con N possibili risultati equiprobabili, la probabilità di un evento A è il rapporto fra il numero dei risultati favorevoli al suo verificarsi e il numero N dei risultati possibili.

La definizione frequentista di probabilità presuppone che, dato un esperimento ripetibile nelle stesse condizioni, la frequenza relativa con cui si presenta un evento A all'aumentare delle prove tende alla sua probabilità.

La definizione soggettivista di probabilità presuppone che la probabilità di un evento A è la misura del grado di fiducia che un individuo coerente attribuisce all'avverarsi di A. Data la quota p che un individuo ritiene equo scommettere con un altro che punta q se si verifica A, si ha.

L'impostazione assiomatica associa ad ogni esperimento un insieme Ω detto spazio campionario (probabilistico, degli eventi).

Cui elementi sono tutti i suoi possibili risultati semplici. Di solito interessa valutare la probabilità di risultati complessi dell'esperimento. La probabilità è una funzione che ad ogni A∈Ω associa un numero reale in modo da soddisfare i seguenti assiomi:

Sulla base dei precedenti postulati si dimostra che:

Impiegando il diagramma di Venn si ricavano facilmente altre importanti proprietà.

La probabilità dell'evento condizionato (A|B) viene detta probabilità condizionata di A dato B. Dipende stocasticamente da B.

Si può pure calcolare la probabilità condizionata di B dato A, per P(A) > 0. B dipende stocasticamente da A.

A è stocasticamente indipendente da B se P(A|B) = P(A). B è stocasticamente indipendente da A se P(B|A) = P(B).

L'indipendenza stocastica è una relazione simmetrica. Infatti, poiché P(A∩B) = P(A|B)*P(B) = P(B|A)*P(A), da entrambe le definizioni si ricava che P(A∩B) = P(A)*P(B).

In generale, dati n eventi indipendenti Ai, si dice partizione dello spazio campionario ogni insieme di eventi, a due a due incompatibili, la cui unione è uguale a Ω. Gli eventi Ai, i=1,2,...,k, sono quindi una partizione di Ω. Gli eventi A e Ā sono una partizione di Ω. L'utilizzo dei numeri per rappresentare gli eventi favorisce l'elaborazione e l'analisi dei possibili risultati dell'esperimento. Si dice variabile casuale (aleatoria, stocastica) ogni funzione che associa un solo numero reale ad ogni evento appartenente ad una partizione di Ω. Si distingue tra variabile casuale discreta, che assume un numero finito o un'infinità numerabile di valori, e variabile casuale continua, che assume tutti i valori di un intervallo limitato o illimitato. Le
Dettagli
Publisher
A.A. 2020-2021
85 pagine
SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher m.lorenzo di informazioni apprese con la frequenza delle lezioni di Statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Brescia o del prof Di Maionese Luigi.