Appunti del corso Modellistica e identificazione, prof. De Santis
Anteprima
ESTRATTO DOCUMENTO
CSZ sett 7
Esercizio d’esame 14/04/2012 n1
Tipi di auto
C’è differenza tra tipi di carburante?
k=3
h=4
Riduciamo = 2
Analisi anova a due vie con repliche
Analisi anova a due vie senza repliche
8/11
Dati non gaussiani omoschedastici
Anova Kruskal Wallis (ad una via) 4
CSZ sett 7
Due scelte possibili da fare:
Attribuzione proporzionale
n è noto
w = N / N i = 1…k sono noti
i i
n = nw = n(N /N). Dove w è l’importanza dello strato
i i i i 5
CSZ sett 7
Caso di studio (vedi dispense per approfondimenti)
N=10.000 dipendenti
X=“consumo giornaliero di pane” 6
CSZ sett 7
9/11
Esercizio 16/02/2010 n.1
Inquinamento NOx PM10 benzene CO
Tipi di strade: autostrade, SS, SP
Viene misurato l’inquinamento di diversi tipi, il grado di inquinamento è caratterizzato dalle grandezze che lo
contraddistinguono, viene misurato su 3 tipologie di strade.
Calcolare se c’è sostanziale differenza del grado di inquinamento tra le diverse strade.
Chiede se la tipologia delle strade influenza il grado di inquinamento.
Due fattori, in ogni gruppo sono 3 valori
Se il 1° attributo è l’inquinamento k=4 e se le strade sono il 2° attributi h=3
Abbiamo numero di ripetute diverse, quindi il test
anova che abbiamo fatto finora va un po’ modificato.
Ad un certo punto dovremo fare la media di tutti i dati,
se li guardiamo attentamente questo non ha senso
perché la grandezza misurata non è la stessa nelle
diverse colonne. Sono dati che non si possono mischiare
tra loro. Il grado di inquinamento è misurato per
variabili differenti. Non è un’anova a due vie ma 4 anova
ad una via, ogni colonna va trattata separatamente,
perché sono misure di natura differente.
Per poter fare l’anova a due vie con ripetizione dobbiamo fare le considerazioni:
Campioni indipendenti, non evince dal testo del problema, però se sono fatte in punti differenti diciamo che
sono indipendenti
Gruppi bilanciati, qui già notiamo che i gruppi non sono bilanciati. Le misure sulle autostrade sono solo 2,
non bastano, se uno vuole fare un’anova a due vie il primo gruppo non lo può considerare
I dati devono variare più o meno tutti sulla stessa scala, guardando i dati sono ordini differenti, non hanno la
stessa scala all’interno di ciascuna colonna. Le misure sulle autostrade sono 10 volte più grandi che sulle
altre strade, quindi anche per questo le autostrade vanno escluse dal test
Le autostrade sicuramente non possono essere incluse nell’anova a due vie per i due motivi sopra.
Ora possiamo fare l’anova a due vie perché i gruppi sono bilanciati, ancora c’è però un fattore di scala
presente nei dati, la misura di benzene è 10 volte più piccola degli altri tipi di inquinamento, non serve
l’anova per dire che ha media più bassa, togliamo il benzene dall’analisi ma anche PM10
È rimasta un’anova a due vie, due tipi di strade e 2 tipi di inquinamento, questa sarebbe stata la soluzione da 8 punti
all’esame. 7
CSZ sett 7
Se rifiuto H0 per la sinergia posso fare affermazioni del tipo si ha maggiore inquinamento di monossido di carbonio
sulle strade statali. Restano quindi 4 gruppi, si fa esattamente la situazione a cui si deve arrivare per decidere qual è
il gruppo migliore.
Il metodo migliore erano 4 anova ad una via escludendo le autostrade, così sarebbe stato da 10 punti.
Esercizio 25/01/17:
Nuovo prodotto Apple Juice
Packaging, quality, Price
Pubblicità su TV e giornali
Ogni gruppo aveva 10 ripetute, gruppi bilanciati
I gruppi si possono ritenere tra loro indipendenti,
casuali
I valori delle grandezze stanno nella stessa scala
di variazione, tutte sulle centinaia
Quindi i dati vanno bene. La domanda era: il direttore del
marketing vorrebbe sapere su quale dei 3 aspetti del
primo fattore deve puntare per attrarre i clienti e quale
mezzo di informazione convenga usare. Discutere la
risposta da dare al direttore (Se ci scrive solo questo
dobbiamo fare un bel discorso all’esame). Discutere la
risposta in base ai dati, allora dobbiamo fare anova a due vie con ripetute.
Ci servono le ipotesi statistiche (test di Pearson)
Dati gaussiani
Dati omoschedastici
Allora iniziamo l’anova:
1° fattore sulle colonne k=3
2° fattore sulle righe h=2
m=10 8
CSZ sett 7 Da aggiungere alla risposta finale:
Se siamo nel set critico abbiamo una colonna
con la media più alta, quindi presumibilmente
l’attributo migliore supponiamo sia il prezzo,
per certificare questo dovrei proseguire l‘anova raggruppando gli altri due gruppi, ripeto l’anova a due vie, se sono
ancora nel set critico allora il prezzo è quello migliore. Se F è nel set critico si sceglie subito uno dei due. Se F è nel
2 I
set critico possiamo dire che c’è sinergia tra i due fattori, potrebbe essere conveniente un gruppo, bisogna di nuovo
accorpare le colonne, lasciamo la più grande da sola, mettiamo insieme le altre due, se siamo ancora nel set critico
dopo aver ripetuto l’anova allora le caselle sono distinguibili.
9
CSZ sett 7
10/11
Identificazione dei modelli
Finora ci siamo interessati alle grandezze indicate dai dati e abbiamo cercato di capire se era verificata o meno una
certa condizione. Abbiamo cercato dai dati le proprietà di tutta la popolazione. Tipicamente quando si osserva una
certa presenza si rileva anche la presenza di determinati fattori che
la influenzano, questa influenza l’abbiamo tradotta come
stratificazione dell’insieme osservato, i fattori stratificano l’insieme
dei valori osservati.
Le tecniche di machine learning prendono le variabili e con opportune tecniche (ad esempio basate sull’uso di reti
neurali) si riesce ad avere una rappresentazione del modello, una formula matematica che assegnati i valori delle X
calcola in maniera abbastanza soddisfacente i valori della Y. Il più delle volte il legame
non è così complicato,
possiamo accontentarci di
modelli più semplici che
permettono di prendere
delle decisioni. Noi affrontiamo il punto di partenza che poi arriva al machine learning, PROBLEMI DI REGRESSIONE
LINEARE.
Regressione lineare
La regressione lineare definisce una forma di quel modello particolare che è fatta così:
Y=θ + θ x + ….+θ x
0 1 1 n m
Combinazione lineare delle variabili esplicative (modello di prima approssimazione), è una trasformazione affine.
Modello lineare perché i parametri compaiono in maniera lineare nel legame.
Potremmo fare anche polinomi del secondo ordine, ma sarebbe complicato, vediamo un esempio in due variabili:
12 22
Y= θ + θ x + θ x + θ x + θ x + θ x x
0 1 1 2 2 3 4 5 1 2
Passare dal primo al secondo ordine aumenta la complessità, la complessità è data dai parametri, nel primo caso ne
avevamo 3 nel secondo caso 6. Si sceglie la forma polinomiale per via del teorema di Weiestrass che rende sempre
possibile rappresentare una relazione con un polinomio di ordine opportuno.
Le tecniche di machine learning servono quando abbiamo una elevata complessità, a parità di complessità con le
tecniche di machine learning si ha un minor numero di parametri.
Potrei usare anche questo modello:
Y= θ + θ x + θ x + θ x x
0 1 1 2 2 3 1 2
Dice che Y dipende da X da X e dalla loro interazione
1 2
Abbiamo un modello che conosciamo e dobbiamo trovare la regressione, ovvero i parametri che lo definiscono.
{y }. {x ,…..x }
i 1i mi
Dobbiamo capire:
1. Quanto vale m
a. Determinare quante variabili esplicative mi servono per descrivere bene l’andamento di Y.
b. Alcune volte è determinato (se ho un detergente fatto di due sostanze allora m=2), altre no
(problemi di demografia), devo determinare l’insieme di variabili esplicative
2. I valori dei parametri θ che definiscono il modello
i
Una volta deciso quanto vale m, fissato il modello ci sono m+1 incognite, basta che mi procuro m+1 misure, allora
I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher CSY di informazioni apprese con la frequenza delle lezioni di Modellistica e identificazione e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università La Sapienza - Uniroma1 o del prof De Santis Alberto.
Acquista con carta o conto PayPal
Scarica il file tutte le volte che vuoi
Paga con un conto PayPal per usufruire della garanzia Soddisfatto o rimborsato