Modellistica ed identificazione
Corso diviso in tre parti
- Statistica descrittiva (medie, varianze, asimmetrie, percentili, curtosi, test statistici di ipotesi)
- Statistica inferenziale (analisi di un campione di dati)
- Modelli di regressione e analisi di serie temporali
Statistica descrittiva
Produzione di supporti in ferro. X è il carico di rottura [kg/cm2]. Un supporto in ferro ha delle dimensioni geometriche ed andrebbe collocato anche il funzionamento meccanico. Vogliamo sapere se gli oggetti soddisfano le specifiche assegnate. Nel caso proposto si prende un campione di 100 unità e si esegue l’esperimento di portarle a rottura, n=100. Da queste si vorrebbe capire se c’è una forma di continuità, si dà una specifica nominale con una tolleranza del 10%.
Il dato uscito fuori è inutilizzabile, in questo modo si è dato peso a tutte le misurazioni, quindi il carico di rottura potrebbe avere un valore qualsiasi tra il minimo e il massimo. Bisogna far emergere le proprietà degli insiemi di valori non delle singole misure. Prendo l’insieme di dati e comincio a decidere la granularità dell’informazione che mi serve. L’articolo diceva che si potevano considerare delle classi significative ogni 10. La granularità dipende sempre dall’applicazione che ci serve. Nel campione analizzato si contano quante unità cadono in ciascuna classe.
Proprietà di localizzazione
100 unità, valore di rottura compreso tra 60 e 90, nell’intervallo ammissibile si ammucchiano intorno al valore di riferimento che è la classe centrale. La distribuzione si localizza nell’intorno del carico di rottura 75 kg/cm2.
Proprietà di simmetria
Si ha lo stesso numero di supporti in ferro a destra e a sinistra della classe centrale, cioè con la stessa frequenza capitano i valori a destra e a sinistra. Se i valori del carico di rottura si distribuiscono in maniera simmetrica intorno alla classe di riferimento vuol dire che veramente il valore del carico di rottura (la sua variabilità) è una variabile aleatoria. Sappiamo che ha un valore compreso in quell’intervallo, ma il carico di rottura non possiamo dire con certezza assoluta quanto sarà, sappiamo dirlo solo con probabilità. Le cause che determinano la variabilità sono di natura statistica.
Se non ci fosse simmetria da una parte e dall’altra (a destra più alto che a sinistra o viceversa) vedremmo che si localizza comunque intorno al valore centrale, solo che magari diventano molto più frequenti nella produzione attuale i supporti in ferro con carico di rottura inferiore a quello della classe centrale. Questa è una causa sistematica. L’asimmetria è sinonimo di motivo sistematico. Nel primo caso invece è una situazione assolutamente statistica.
Proprietà di dispersione
Quanto è disperso il valore intorno a quello centrale, pattern simmetrico e poco disperso sarebbe l’ideale.
Istogramma della distribuzione dei valori
Un istogramma è una approssimazione campionaria, rappresenta la densità di probabilità della x: P(x). Probabilità che il carico di rottura stia nella classe centrale è l’integrale tra 70 e 80 della p(X) in dx.
Test di ipotesi e analisi statistica
Esiste un test di ipotesi per stabilire se l’istogramma conferma o meno che la distribuzione della X sia di un certo tipo. La curtosi misura quanto una distribuzione è difforme da una gaussiana. La gaussiana è la distribuzione di riferimento per via della centralità. Si può dire quanto una distribuzione sia difforme dalla gaussiana. Le classi sono eventi semplici legati alla variabile aleatoria, un evento è il verificarsi di una certa qualità del risultato. La probabilità di un evento (che preso un supporto in ferro a caso il suo carico di rottura sia in una classe) la probabilità sarebbe l’integrale.
P è il rapporto di frequenza della classe i-esima, quante volte ho un risultato che appartiene a quella classe. Se l’esperimento è molto grande il rapporto di frequenza tende al valore vero della probabilità, ovvero limite di π per n che tende all’infinito è uguale a pi. Il limite esiste sicuramente, tranne un numero finito di volte.
All’esame quando usiamo un metodo dobbiamo scrivere le formule ma anche il perché, accertandoci che le ipotesi siano tutte verificate, per cui il risultato sia attendibile. Per poter costruire un istogramma dobbiamo essere sicuri che gli eventi siano tutti indipendenti tra di loro. L’approssimazione sulla probabilità è tanto migliore quanto le classi sono fitte.
Test di Pearson o del t quadro. Nel test di Pearson devo necessariamente avere tantissimi dati (lui ha detto un migliaio), quindi non è sempre fattibile. Fa un confronto sulla densità di probabilità.
Concetto di valor medio o media
Valore atteso teorico. Average è la media dei dati, expected value è il valore atteso (Media campionaria). In questo esempio la sommatoria viene 75.6 kg/cm2.
- Localizzazione
- Average (media dei valori) Σ(i-1 a 7) (x πi) = 75,6. La media viene indicata con μi x
- Mediana (non considerare la formula sulle dispense), ci possono essere dei dati outliers, dati inaffidabili, rappresentano degli eventi strani dovuti a cause accidentali, quindi non è nella variabilità tipica del processo. La formula dell’average risente dei valori strani, misura di localizzazione debole rispetto agli outliers. Si usa allora la mediana. La mediana è il valore di quelli osservati che divide l’insieme in due classi, ognuna con il 50% dei dati. È esattamente il punto che divide l’insieme nelle due metà dei dati. È uno dei valori misurati, a differenza dell’average. Si prendono i dati e si ordinano a valore crescente, quando troviamo il dato centrale è quello. È più robusta perché non dipende dal valore del dato ma dalla posizione, il rango del dato, cioè l’ordine che occupa nella sequenza di valori. Due sottoinsiemi ognuno di probabilità un mezzo.
- Modo, moda della distribuzione, massimo locale. Se l’istogramma fosse stato così avrei notato che produciamo diversi tipi di supporti in ferro, due punti di localizzazione. Ho due punti di massimo locale, allora descrivo i due punti, è inutile parlare di media. Bimodale (due punti), unimodale quello precedente. Due modi, cioè i due punti di massimo, due sottopopolazioni significative.
Gli outliers una volta riconosciuti si possono togliere dai dati.
- Dispersione, altra qualità dell’istogramma. Una volta che ho riconosciuto il punto di localizzazione gli altri dati rispetto a questo punto di riferimento stanno sparpagliati tanto intorno a questo valore o poco? Ovvero stanno tutti vicino al punto o lontani?
Processo più preciso
Significa che è più probabile che il risultato stia vicino al punto di localizzazione. A è molto più disperso di B, B è più concentrato. La varianza misura lo scarto, se la varianza è piccola allora sono nel caso B, se è grande sono nel caso A. Unità di misura della varianza in questo caso (kg/cm2)2. Quando misuro la dispersione misuro praticamente la larghezza della gaussiana.
Scarto tipico o deviazione standard: i valori estremamente probabili sono quelli che stanno grossomodo intorno al valore medio ± 2σ. In A σ è molto grande, non conta il valore assoluto ma gli scarti tipici che entrano nell’intervallo considerato.
C’è un modo univoco per confrontare due distribuzioni. Il confronto qui è fatto per due distribuzioni che hanno la stessa media. Non basta usare solo la deviazione standard se le medie sono differenti, bisogna usare il coefficiente di variazione.
Facciamo l’esempio di due distribuzioni con lo stesso scarto tipico ma intorno a medie differenti: di solito le distribuzioni poco disperse sono quelle con c.v.<0.2. È un numero di riferimento, distribuzione molto dispersa quando il c.v. è molto distante da 0.2 (valore di riferimento).
- Dissimmetria, quando non vi è simmetria da una parte e dall’altra della media, quindi viene una gaussiana schiacciata da una parte. La distribuzione di probabilità è diversa negli intervalli a destra e a sinistra della media, questo indica che vi è una causa sistematica nella produzione. La dissimmetria è una funzione di terzo grado.
- Curtosi, si misura come la dissimmetria solo che invece di mettere alla terza si mette alla quarta, senza radice. Per una gaussiana il valore della curtosi viene sempre 3.
Trasformazione affine di una v.a.
X, μx, σ2x. Y= aX + b. (Equazione della regressione lineare). La trasformazione affine non è lineare, (una trasformazione lineare è Y=aX), è una trasformazione affine, vi è la proporzionalità e una costante.
Se la covarianza ha segno negativo allora le variazioni hanno segni discordi. Questa è la covarianza del vettore.
- Una matrice è semidefinita positiva se per ogni z in Rn zeta trasposto per Q per z >=0
Percentili per le distribuzioni
Se le distanze tra primo e terzo quartile con la mediana sono uguali allora la distribuzione è simmetrica. Se prendo un quartile e ci aggiungo 1,5 allora trovo il massimo. L’1 è posizionato sulla mediana. IQR è la misura della distribuzione (varianza). (Nel grafico ho scritto TQR ma in realtà è IQR). Il boxplot rappresenta le proprietà della distribuzione e gli outliers.
Percentili di una distribuzione
La funzione densità di probabilità descrive la probabilità dell’evento infinitesimo. Non tutte le v.a. hanno densità di probabilità. Le variabili aleatorie regolari hanno densità di probabilità.
- Funzione di:
- Distribuzione
- Ripartizione, è la probabilità di eventi fatti in un certo modo (La funzione arriva a 1 e rimane a 1)
- Cumulativa (esiste sempre)
Funzione densità di probabilità
Per tutte le distribuzioni simmetriche il percentile viene calcolato in modo simmetrico rispetto al valor medio. L’intervallo di confidenza quindi è simmetrico intorno al valor medio (intervallo bilaterale). Le distribuzioni simmetriche che usiamo noi sono la gaussiana e la T-student. Se non fosse simmetrica l’intervallo sarebbe più difficile da definire.
Percentili nelle distribuzioni non simmetriche
Teorema del limite centrale
La somma di un numero elevato di variabili indipendenti tende a distribuirsi come una gaussiana, indipendentemente dalla distribuzione delle singole componenti.
Test di ipotesi semplice
Un test di ipotesi semplice si verifica quando in un insieme di dati la forma della distribuzione è tutta nota salvo per i valori di un parametro. Ipotesi semplice quando σ può avere solo due valori, se avessi un intervallo per σ non sarebbe un’ipotesi semplice.
Esempio esplicativo
Una casa farmaceutica si mette in testa di fornire i kit per i vari esami che facciamo, in particolare il kit per sapere se abbiamo un certo tipo di influenza o meno. Fanno un’analisi, vedono la reazione all’antigene del virus dell’influenza. Provano il kit su un insieme di persone sane e un insieme di persone affette da influenza.
- X è la risposta del soggetto a questa sostanza che gli viene data
- Succede che sui due insiemi di soggetti la variabilità della risposta è la stessa perché lo programmo su insiemi di individui omogenei (biologicamente parlando)
- Un buon modello di questa distribuzione è la gaussiana N(m, σ2)
Uno potrebbe dire: se la regola di decisione è questa quando si fa un’analisi viene caratterizzata dalla probabilità di commettere un falso negativo o un falso positivo, due tipi di errori. Per dire positivo o negativo bisogna segnare un’ipotesi di riferimento. Scegliamo una delle due, facciamo che l’ipotesi di riferimento è il fatto di essere sani.
- H0: m=m1 il soggetto è sano
- H1: m=m2 il soggetto è malato
Falso negativo soggetto sano ma lo passiamo per malato, hanno una risposta all’antigene maggiore di x (abbiamo negato l’ipotesi nulla in maniera errata, ecco perché falso negativo). La domanda è con che probabilità ho un falso negativo?
L’errore complementare: quando diciamo che è sano quando in realtà è malato?
Set critico
Il set critico è unilaterale, prendiamo solo i valori da una parte. Se avessimo avuto come H1 m diverso da m1 allora avremmo preso l’intervallo bilaterale, quindi avremmo considerato sia la coda di destra che quella di sinistra. Errore di tipo due dico che la persona è sana quando invece è malata, ci sono malati che hanno reazione molto bassa.
Lemma di Neyman-Pearson
Fissiamo l’errore di tipo I, resta quello di tipo II ma è quello con la più piccola probabilità, quindi meglio di questo non si può fare. È il test che ha la potenza massima, test con significatività ε. Il test è il migliore possibile ma tuttavia il risultato potrebbe non essere soddisfacente. Supponiamo di voler abbassare la possibilità di commettere l’errore di tipo I. Diminuendo la portabilità di E il set critico si è spostato verso destra perché è aumentato λ, però allo stesso tempo l’area sul grafico dell’errore di tipo II è aumentata.
Perché leggiamo i percentili della gaussiana standard? Altro esempio: La regola m > m2 l’abbiamo usata all’inizio, poi m2 non compare da nessuna parte, si usa infatti solo la condizione non anche il valore. Il valore assoluto di m2 non c’entra esplicitamente, c’entra solo alla fine per vedere se quello che abbiamo fatto ha un significato.
Altro esempio: Set critico unilaterale λ per set ε critico bilaterale λ.
Tema di esame 3 luglio 2007 es.1
Il proprietario di un ristorante vede che viene scartata a fine giornata una certa quantità di cibo. X = quantità di cibo sprecato kg. Si suppone che X è una distribuzione gaussiana con valor medio incognito e varianza 9 kg2, quindi deviazione standard 3 kg. Il capo dice che sprecano troppo cibo (19 kg), il cuoco dice no guarda ne sprechiamo 17, siamo nella media dei ristoranti. Bisogna verificare chi dei due ha ragione.
- H0: m = 19 kg
- H1: m = 17 kg
Facciamo un test di ipotesi. Il valor medio dell’ipotesi alternativa è dentro il set in cui accettiamo H0, ma queste due ipotesi non si possono risolvere, sono indistinguibili perché la distanza tra le due ipotesi vale meno dello scarto tipico della X, non si possono distinguere queste due cose. Quindi esce fuori un test con valore ottimo ma questa soluzione non è adatta, non permette di distinguere tra i due test, questo test ci dice che le due medie non sono differenti. Questo tipo di test non distingue, non va bene per medie che sono più vicine di uno scarto. In questo test dobbiamo cambiare un’altra cosa. Quello che abbiamo fatto è prendere una sola informazione, magari è un giorno particolare, con un dato solo l’informazione è troppo bassa per poter distinguere tra le due ipotesi. Correttamente si dovrebbe fare un esperimento più complicato, misurare n giorni per eliminare la specificità del giorno. Possiamo decidere qual è il numero minimo di misure che dobbiamo fare per poter correttamente risolvere quelle due ipotesi.
Teorema
Se i dati hanno distribuzione gaussiana allora le loro trasformazioni hanno anche esse distribuzione gaussiana. In termini della nuova statistica rifaccio il test di ipotesi. Questo era il modo con cui si poteva risollevare quel problema.
Considerazioni sul teorema del limite centrale
Si ottiene dalla tabella di t-student, l’ultima riga si hanno i percentili per i gradi di libertà fino a 120, poi ultima riga con n>120, quelli sono uguali ai percentili di una gaussiana, questo perché per n grande la t-student tende ad avere i percentili di una gaussiana. In questo caso possiamo dire che la distribuzione è una t-student perché ho delle gaussiane, in genere devo verificare che le distribuzioni siano gaussiane, lo si testa dai dati con i test di gaussianità. Un buon test è quello di Pearson (che però richiede tantissimi dati), test di molotov?, test di Anderson-darling?.
Poi ci sono i test non parametrici, questi si usano tutte le volte che non riesco a verificare in maniera efficace un’ipotesi sui dati (ad esempio quando ho pochi dati). I test non parametrici sono però meno potenti dei parametrici. All’esame basta dire abbiamo svolto il test di... anche se in realtà non dobbiamo farlo, diciamo solo che il test ci ha dato come risultato che i dati sono gaussiani.
Set critico unilatera
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
-
Appunti completi di Modellistica ed Identificazione
-
Soluzioni esami modellistica e identificazione De Santis
-
Teoria - modellistica e identificazione De santis
-
Modellistica ed identificazioni appunti