Formulario per svolgimento esame di Statistica

Tale documento riporta brevemente tutte le formule relative agli argomenti trattati durante il corso di Statistica.In particolare si considerano gli argomenti di probabilità per poi …

Esame Applicazioni tecnologiche in chirurgia e patologie

Facoltà Ingegneria

Dal corso del Prof. Varriale Roberta

Università Università degli Studi di Roma La Sapienza

Publisher benedettaboninsegni

A.A. 2023-2024

49 pagine

Schemi e mappe concettuali

Vota

Scarica

Estratto del documento

L’ipotesi nulla Ho richiede che tutte le costanti aj,bj, ij, siano nulle.

Se ciò é vero, é possibile affermare che T/O (variabilità statistica campionaria fratto quella della popolazione)

si distribuisce come una chi-quadro con (k h m-1) g.d.l.

Come prima si può affermare che , secondo il teorema di Cochran, anche le seguenti variabili indipendenti

hanno distribuzione Chi-quadro.

Per valutare l’importanza degli attributi si usa una Fisher:

Nel caso in cui andassi a considerare m=1 non si può determinare

il fattore di interazione tra attributi per cui si avrà solo:

Abbiamo denotato le medie degli scambi giornalieri del titolo i-esimo

sull’insieme dei mercati

La media degli scambi giornalieri dell’ insieme di titoli nel mercato j-esimo

La media degli scambi giornalieri di titoli sull’insieme dei mercati ,

rispettivamente.

Discutiamo i punti che devono verificarsi affinché l’F-test dia risultati attendibili:

1) ciascun gruppo dell’insieme deve essere un campione di dati casuale, e i dati relativi a gruppi

differenti devono essere indipendenti

2) i gruppi devono avere grosso modo lo stesso numero di dati

3) la scala di variazione dei dati deve essere comparabile tra i diversi gruppi

4) la distribuzione dei dati deve essere gaussiana

5) la varianza deve essere costante

Nel caso in cui i dati risultano non parametrici : non si distribuiscono come una normale ,

differiscono dalla gaussiana normale.

Si una un test alternativo all’ANOVA ad 1 via che é il test di kruskal- Wallis : si usa tutte le volte

in cui la distribuzione si differenzia da una gaussiana , mantenendo comunque la stessa per tutta la

popolazione …: vale l’omoschedasticità ( stessa varianza ).

Quindi riassumenti si usa l’algoritmo di Kruskal-wallis nel caso in cui :

• dati non gaussiani : i dati sono gaussiani nel momento in cui i valori tendono a concentrarsi

intorno al valor medio —> si può vedere dal grafo

• dati omogenei : significa che i valori dei residui hanno stessa varianza ( omoschedastici)

Per verificare l’omogeneita di valori di utilizza il TEST DI LEVENE che fa uso del Test di Kruskal-wells non

parametrico .

Nel caso in cui , invece, i dati sono gaussiani ma non omogenei

Nel caso in cui i dati non siano omogenei, quindi con diversa variabilità , se i campioni di dati non vengono

stratificati opportunamente, ne consegue una stima con Grande Variabilità

Si cerca di pianificare l’esperimento in modo tale da far cadere omogeneamente i dati nelle diverse classi ,

cosicché si distribuiscano in modo opportuno.

—> tecnica di stratificazione

• N elementi suddivisi in:

• K strati ognuno con :

• ni unità

Considerando ni elementi per ogni strato, e stimiamo ui con la media campionaria

La stima della media di popolazione é data da:

Se riteniamo che il campione preso da uno strato é indipendente da quello preso in altri strati, la

varianza di é data da:

La varianza della stima dipende dagli ni elementi , per cui una corretta scelta

di essi rende più accurata la stima .

Analizziamo come é possibile determinare i valori degli “ni elementi”.

1) Attribuzione proporzionale: si sceglie ni= wi n (approssimato ad un intero) e per la varianza della

stima si ottiene

Risulta minore rispetto a quella

ottenibile estraendo un campione

casuale di dimensione N dall’intera

popolazione.

—> é un campione estratto da uno

strato della popolazione.

2) Attribuzione ottimale : si ricercano i valori ottimi di ni* per determinare il valore MINIMO

della varianza. della stima :

Nel caso in cui si ha la necessità di prevedere la domanda in una situazione in cui é necessario prevedere il

rifornimento di merci, si prendono in considerazione dati training ovvero non usati precedentemente che

permettono di svolgere una previsione in un determinato orizzonte temporale.

In questo caso vogliamo verificare 2 tipi di proprietà.

1) ACCURATEZZA DELLA PREDIZIONE : si studia l’errore stimato ovvero un test d’ipotesi

semplice sulla media d’errore.

2) PRECISIONE: tramite tale proprietà voglio vedere quali valori sono più addensati

rispetto alla media .

—> svolgo un’analisi di varianza in cui confronto gli Lsma ( errori di una variabile

aleatoria) con le vendite effettive (sales).

Per verificare la precisione , il rapporto tra le due varianze deve essere minore di 0,02.

Coefficiente di variazione indicato con é un indice di dispersione che permette di

confrontare misure di fenomeni riferite a unità di misura differenti.

Definizione: Sia La media aritmetica di un carattere quantità X di una popolazione e

la deviazione standard.

Se ≠0 , allora il coefficiente di variazione é :

Per una popolazione con un numero finito “N” di esemplari normalizzati a xi* = xi/ | | ,

con i= 1, ….n, il coefficiente di variazione é dato da :

Fin’ora abbiamo considerato la parte della statistica descrittiva e induttiva

Da qui iniziamo a vedere la parte di stima parametrica, regressione lineare, stime temporali in

cui si vuole ricercare la causa (X) che ha generato l’effetto Y per mezzo di un parametro di

“disturbo” d. REGRESSIONE

Sensibilità della variabile osservata rispetto alle variazioni della h- esima

variabile indipendente Xh.

Una volta aver individuato la famiglia di modelli, si devono determinare le variabili esplicative “m”

migliori in modo tale da ridurre rischio di problema malcondizionato (diverse dimensioni)

Criterio per scegliere i valori opportuni per i parametri O0,O1,O2…Om

• bisogna evitare di scegliere variabili esplicative che siano troppo

correlate le une alle altre

• Devono essere il più correlate possibile con la Y.

Se aumento il numero di dati analizzati

• E [ Olse ] = O° —> voglio sapere se le stime si addensano intorno alla media

• ROlse = E [ (Olse - O ) ( Olse- O) ] —> do per scontato che le stime non siano distorte

( stessa varianza)

• lim Olse = O —> voglio che all’aumentare dell’informazione utilizzata , la stima tendesse al

valore “vero”.

Una volta assegnati i valori delle variabili di regressione , nell’ipotesi di gaussianità dei dati {yi} , il

set-critico dell’i-esimo test di significatività di livello é il seguente.

Gli elementi della diagonale della matrice forniscono uno ad uno le varianze che

servono nel test di significatività dei parametri.

Se nel test k-esimo si accetta l’ipotesi nulla, vuol dire che il parametro é zero , per cui

la variabile Xk corrispondente deve essere esclusa poiché ha un contenuto informativo già contenuto

nella m-1 variabili esplicative.

Le variabili vengono analizzate a due a due e questo riduce il rischio di avere un problema

malcondizionato ma non lo elimina del tutto.

Validazione modello :

Terminato il problema di identificazione , abbiamo delle stime affidabili dei parametri incogniti , e

quindi un modello di regressione stimato bene .

Si deve valutare la prestazione del modello stimato nel rappresentare i valori sperimentali Yn della

variabile di risposta.

Il modello fornisce la seguente stima dei valori Yn:

É possibile che delle volte si scelgano troppe variabili per cui si ha un modello di

regressione che fitta bene ma che comunque ha prestazioni insoddisfacenti—>

pericolo di overfitting

Per determinare se il modello ha una buona prestazione , bisogna spiegare il

fatto che la varianza deve spiegare almeno l’80% di dati :

Permette di stabilire quando la complessità del modello é troppo elevata , in relazione ad un set di

dati training.

• funzione della complessità del modello —> “m”

• dimensione del set di dati training —> N

All’aumentare di “m” il primo fattore aumenta mentre il secondo diminuisce .

Un maggior numero di parametri il fitting del modello migliora e quindi la varianza diminuisce .

Cross validation:

Processo che consiste nell’applicare il modello appena identificato , rappresentato dal set di

parametri , ai nuovi valori delle variabili esplicative contenuti nel test e calcolare il valore

corrispondente della variabile di risposta

Residui del modello sui valori effettivi della variabile di risposta presenti nel test

set

Per eseguire entrambi i test abbiamo bisogno di un’ipotesi statistica dei dati. Si dve scegliere un test di

gaussianita dei dati.

Casi particolari del modello di regressione:

Intervallo di confidenza della retta dei minimi quadrati: si ottiene andando ad individuare ,

tramite il modello identificato, il valore della Y per un valore x1 della variabile esplicativa differente

da quelli di training.

In questo caso , rispetto al valor medio della risposta : O0 + O1 X1

si hanno due errori:

• uno che dipende dal residuo del modello di regressione

• Uno dato dalla variazione delle stime O0,O1 quando varia X1.

Nell’ipotesi di gaussianita si può scrivere il valore dell’intervallo di confidenza del valore Y | X1

della variabile di risposta quando X1 = x1.

MINIMI QUADRATI PESATI: caso in cui la varianza non é costante

STIMA PARAMETRICA

Modello:

Si tratta di una distribuzione congiunta che vuole identificare la

relazione tra i valori della Y e delle variabili Xi.

Mi permette di scegliere il valore di O che identifica il modello migliore.

Per trovare tale valore di O che sia il più verosimile possibile si ricorre al metodo di

fattorizzazione tramite Teorema di Bayes.

Sto ipotizzando che l’errore di modello abbia distribuzine gaussiana : test di gaussianita sui residui

STIMA BAYESIANA

É un metodo di stima che viene usato quando il valore dell’incognita O non é parametro

deterministico , ma una grandezza aleatoria con distribuzione p (O) .

Quindi in questo caso il modello é costituito dalla densità congiunta dei dati e dell’incognita p( Y, O)

—> la stima si trova , come sempre, massimizzando il valore della funzione p(Y,O).

Inoltre dobbiamo trovare un valore per tale parametro che deve essere compreso in un intervallo di

valori ammissibili : non può assumere qualsiasi valore in R , come nel caso precedente.

Nel caso bayesiana i valori di R non sono equiprobabili ma sono assunti con probabilità determinata

dalla distribuzione p(O).

Tramite Teorema di Bayes é possibile esprimere ciò, fattorizzando la distribuzione congiunta p(Y,O).

Quindi , i valori che pensiamo non vanno tutti bene, c’è ne sarà uno che é il “migliore” ed é

definito il valore nominale per cui si analizzano gli alt

Anteprima

Vedrai una selezione di 11 pagine su 49