Che materia stai cercando?

Anteprima

ESTRATTO DOCUMENTO

CSZ sett 7

Esercizio d’esame 14/04/2012 n1

Tipi di auto

C’è differenza tra tipi di carburante?

k=3

h=4

Riduciamo = 2

 Analisi anova a due vie con repliche

 Analisi anova a due vie senza repliche

8/11

 Dati non gaussiani omoschedastici

 Anova Kruskal Wallis (ad una via) 4

CSZ sett 7

Due scelte possibili da fare:

Attribuzione proporzionale

 n è noto

 w = N / N i = 1…k sono noti

i i

 n = nw = n(N /N). Dove w è l’importanza dello strato

i i i i 5

CSZ sett 7

Caso di studio (vedi dispense per approfondimenti)

 N=10.000 dipendenti

 X=“consumo giornaliero di pane” 6

CSZ sett 7

9/11

Esercizio 16/02/2010 n.1

Inquinamento NOx PM10 benzene CO

Tipi di strade: autostrade, SS, SP

Viene misurato l’inquinamento di diversi tipi, il grado di inquinamento è caratterizzato dalle grandezze che lo

contraddistinguono, viene misurato su 3 tipologie di strade.

Calcolare se c’è sostanziale differenza del grado di inquinamento tra le diverse strade.

Chiede se la tipologia delle strade influenza il grado di inquinamento.

Due fattori, in ogni gruppo sono 3 valori

Se il 1° attributo è l’inquinamento k=4 e se le strade sono il 2° attributi h=3

Abbiamo numero di ripetute diverse, quindi il test

anova che abbiamo fatto finora va un po’ modificato.

Ad un certo punto dovremo fare la media di tutti i dati,

se li guardiamo attentamente questo non ha senso

perché la grandezza misurata non è la stessa nelle

diverse colonne. Sono dati che non si possono mischiare

tra loro. Il grado di inquinamento è misurato per

variabili differenti. Non è un’anova a due vie ma 4 anova

ad una via, ogni colonna va trattata separatamente,

perché sono misure di natura differente.

Per poter fare l’anova a due vie con ripetizione dobbiamo fare le considerazioni:

 Campioni indipendenti, non evince dal testo del problema, però se sono fatte in punti differenti diciamo che

sono indipendenti

 Gruppi bilanciati, qui già notiamo che i gruppi non sono bilanciati. Le misure sulle autostrade sono solo 2,

non bastano, se uno vuole fare un’anova a due vie il primo gruppo non lo può considerare

 I dati devono variare più o meno tutti sulla stessa scala, guardando i dati sono ordini differenti, non hanno la

stessa scala all’interno di ciascuna colonna. Le misure sulle autostrade sono 10 volte più grandi che sulle

altre strade, quindi anche per questo le autostrade vanno escluse dal test

 Le autostrade sicuramente non possono essere incluse nell’anova a due vie per i due motivi sopra.

 Ora possiamo fare l’anova a due vie perché i gruppi sono bilanciati, ancora c’è però un fattore di scala

presente nei dati, la misura di benzene è 10 volte più piccola degli altri tipi di inquinamento, non serve

l’anova per dire che ha media più bassa, togliamo il benzene dall’analisi ma anche PM10

È rimasta un’anova a due vie, due tipi di strade e 2 tipi di inquinamento, questa sarebbe stata la soluzione da 8 punti

all’esame. 7

CSZ sett 7

Se rifiuto H0 per la sinergia posso fare affermazioni del tipo si ha maggiore inquinamento di monossido di carbonio

sulle strade statali. Restano quindi 4 gruppi, si fa esattamente la situazione a cui si deve arrivare per decidere qual è

il gruppo migliore.

Il metodo migliore erano 4 anova ad una via escludendo le autostrade, così sarebbe stato da 10 punti.

Esercizio 25/01/17:

Nuovo prodotto Apple Juice

Packaging, quality, Price

Pubblicità su TV e giornali

 Ogni gruppo aveva 10 ripetute, gruppi bilanciati

 I gruppi si possono ritenere tra loro indipendenti,

casuali

 I valori delle grandezze stanno nella stessa scala

di variazione, tutte sulle centinaia

Quindi i dati vanno bene. La domanda era: il direttore del

marketing vorrebbe sapere su quale dei 3 aspetti del

primo fattore deve puntare per attrarre i clienti e quale

mezzo di informazione convenga usare. Discutere la

risposta da dare al direttore (Se ci scrive solo questo

dobbiamo fare un bel discorso all’esame). Discutere la

risposta in base ai dati, allora dobbiamo fare anova a due vie con ripetute.

Ci servono le ipotesi statistiche (test di Pearson)

 Dati gaussiani

 Dati omoschedastici

Allora iniziamo l’anova:

 1° fattore sulle colonne k=3

 2° fattore sulle righe h=2

 m=10 8

CSZ sett 7 Da aggiungere alla risposta finale:

Se siamo nel set critico abbiamo una colonna

con la media più alta, quindi presumibilmente

l’attributo migliore supponiamo sia il prezzo,

per certificare questo dovrei proseguire l‘anova raggruppando gli altri due gruppi, ripeto l’anova a due vie, se sono

ancora nel set critico allora il prezzo è quello migliore. Se F è nel set critico si sceglie subito uno dei due. Se F è nel

2 I

set critico possiamo dire che c’è sinergia tra i due fattori, potrebbe essere conveniente un gruppo, bisogna di nuovo

accorpare le colonne, lasciamo la più grande da sola, mettiamo insieme le altre due, se siamo ancora nel set critico

dopo aver ripetuto l’anova allora le caselle sono distinguibili.

9

CSZ sett 7

10/11

Identificazione dei modelli

Finora ci siamo interessati alle grandezze indicate dai dati e abbiamo cercato di capire se era verificata o meno una

certa condizione. Abbiamo cercato dai dati le proprietà di tutta la popolazione. Tipicamente quando si osserva una

certa presenza si rileva anche la presenza di determinati fattori che

la influenzano, questa influenza l’abbiamo tradotta come

stratificazione dell’insieme osservato, i fattori stratificano l’insieme

dei valori osservati.

Le tecniche di machine learning prendono le variabili e con opportune tecniche (ad esempio basate sull’uso di reti

neurali) si riesce ad avere una rappresentazione del modello, una formula matematica che assegnati i valori delle X

calcola in maniera abbastanza soddisfacente i valori della Y. Il più delle volte il legame

non è così complicato,

possiamo accontentarci di

modelli più semplici che

permettono di prendere

delle decisioni. Noi affrontiamo il punto di partenza che poi arriva al machine learning, PROBLEMI DI REGRESSIONE

LINEARE.

Regressione lineare

La regressione lineare definisce una forma di quel modello particolare che è fatta così:

Y=θ + θ x + ….+θ x

0 1 1 n m

Combinazione lineare delle variabili esplicative (modello di prima approssimazione), è una trasformazione affine.

Modello lineare perché i parametri compaiono in maniera lineare nel legame.

Potremmo fare anche polinomi del secondo ordine, ma sarebbe complicato, vediamo un esempio in due variabili:

12 22

Y= θ + θ x + θ x + θ x + θ x + θ x x

0 1 1 2 2 3 4 5 1 2

Passare dal primo al secondo ordine aumenta la complessità, la complessità è data dai parametri, nel primo caso ne

avevamo 3 nel secondo caso 6. Si sceglie la forma polinomiale per via del teorema di Weiestrass che rende sempre

possibile rappresentare una relazione con un polinomio di ordine opportuno.

Le tecniche di machine learning servono quando abbiamo una elevata complessità, a parità di complessità con le

tecniche di machine learning si ha un minor numero di parametri.

Potrei usare anche questo modello:

Y= θ + θ x + θ x + θ x x

0 1 1 2 2 3 1 2

Dice che Y dipende da X da X e dalla loro interazione

1 2

Abbiamo un modello che conosciamo e dobbiamo trovare la regressione, ovvero i parametri che lo definiscono.

{y }. {x ,…..x }

i 1i mi

Dobbiamo capire:

1. Quanto vale m

a. Determinare quante variabili esplicative mi servono per descrivere bene l’andamento di Y.

b. Alcune volte è determinato (se ho un detergente fatto di due sostanze allora m=2), altre no

(problemi di demografia), devo determinare l’insieme di variabili esplicative

2. I valori dei parametri θ che definiscono il modello

i

Una volta deciso quanto vale m, fissato il modello ci sono m+1 incognite, basta che mi procuro m+1 misure, allora


ACQUISTATO

3 volte

PAGINE

123

PESO

33.90 MB

AUTORE

CSY

PUBBLICATO

8 mesi fa


DETTAGLI
Corso di laurea: Corso di laurea in ingegneria gestionale
SSD:
A.A.: 2018-2019

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher CSY di informazioni apprese con la frequenza delle lezioni di Modellistica e identificazione e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università La Sapienza - Uniroma1 o del prof De Santis Alberto.

Acquista con carta o conto PayPal

Scarica il file tutte le volte che vuoi

Paga con un conto PayPal per usufruire della garanzia Soddisfatto o rimborsato

Recensioni
Ti è piaciuto questo appunto? Valutalo!

Altri appunti di Modellistica e identificazione

Soluzioni esami modellistica e identificazione De Santis
Appunto
Esami modellistica ed identificazione
Esercitazione
Teoria - modellistica e identificazione De santis
Appunto
Modellistica ed identificazioni appunti
Appunto