Estratto del documento

Introduzione alla metodologia sperimentale agronomica

Scale di misura

Variabili qualitative: nominali o ordinali ⇒ l’unico parametro valutabile è la proporzione

Variabili quantitative: intervalli o rapporti ⇒ possono essere eseguiti dei calcoli, i parametri valutabili sono molti (statistiche descrittive numeriche: misure di posizione e di dispersione). Possono essere discrete o continue

Statistica descrittiva

Obiettivo: descrivere e sintetizzare i dati osservati attraverso grafici (es. distribuzioni di frequenza), indici di posizione e dispersione.

Indici di posizione

  • Media aritmetica:
    • la sommatoria degli scarti di ogni dato dalla media (momento di I ordine) è nulla
    • la sommatoria del quadrato degli scarti (momento di II ordine) è minima (ovvero non esiste alcun altro punto che, sostituito alla media, dia un valore inferiore).
  • Media aritmetica ponderata: se i dati sono espressi come frequenze o proporzioni
  • Mediana: divide la serie ordinata in due parti di uguale numerosità
  • Moda: è il valore della classe a cui corrisponde la maggiore frequenza
  • Media armonica: è il reciproco della media dei reciproci: idonea a mediare rapporti tra 2 variabili
  • Media geometrica: è la radice ennesima del prodotto di n dati, idonea per mediare tassi

Indici di tendenza centrale resistenti

  • Trimmed mean: media aritmetica nella quale non sono considerate le code della distribuzione (es. il 5% dei dati)
  • M-estimators (Maximum likelihood estimators): media aritmetica pesata, dove il peso è funzione della distanza dal valore centrale; si differenziano per la funzione di assegnazione dei pesi

Indici di dispersione

  • Quantili: misure di posizione non centrale che dividono la serie ordinata in tot parti di uguale numerosità
  • Percentili: dividono la serie ordinata in 100 parti uguali; il p-esimo percentile di una distribuzione è quel valore con p% dei valori inferiori ad esso (in statistica inferenziale sono interessanti 1, 2.5, 5, 95, 97.5 e 99 esimo perc.)
  • Quartili: dividono la serie ordinata in 4 parti uguali: 25 esimo, 50 esimo (la mediana) e 75 esimo percentile

Nota bene: L’intervallo tra il 25 esimo e il 75 esimo percentile si chiama distanza interquartile

  • Decili: dividono la serie ordinata in 10 parti uguali: 10,..., 90 esimo percentile

Alcuni indici di dispersione

  • Campo di variazione o range: Xmax – Xmin
  • Devianza o Sum of Squares
  • Varianza o Mean Square
  • Quadrato Medio
  • Deviazione Standard o Standard Deviation
  • Coefficiente di Variazione o CV
  • Teorema di Tchebysheff: indipendentemente dalla distribuzione, fissata una costante K, l’intervallo (dove s è la deviazione standard) contiene almeno dati.
    • se K=2 l’intervallo contiene almeno il 75% dei dati
    • se K=3 l’intervallo contiene almeno l’89% dei dati

Indici di forma

Analisi esplorativa dei dati: box plot

Convenzioni Box Plot: Rappresentazione grafica della distribuzione dei dati (per data set abbastanza numerosi).

  • Sull’asse delle ordinate (Y) sono riportati in scala i valori assunti dalla variabile in esame.
  • I dati compresi tra il 1° e il 3° quartile sono rappresentati sul piano cartesiano da un rettangolo.
  • Il rettangolo è tagliato da una linea che rappresenta la mediana (o 2° quartile) a cui corrisponde una frequenza cumulata pari al 50%.
  • Il braccio (o baffo) inferiore (A) rappresenta la distanza tra il valore minimo della serie di dati e il 1° quartile.
  • B è la distanza interquartile tra il 1° e il 3° quartile.
  • Il braccio superiore (C) rappresenta la distanza tra il valore massimo della serie di dati e il 3° quartile.
  • Un braccio (A o C) può avere una lunghezza massima pari a 1.5 x B.
  • Se A è maggiore di 1.5 x B, allora il valore minimo viene posto nel grafico fuori dal braccio e rappresentato come un dato "outlier".
  • Se il valore del 1° quartile è anche il valore minimo dei dati, allora il braccio non è rappresentato.
  • Se C è maggiore di 1.5 x B, allora il valore massimo viene posto nel grafico fuori dal braccio e rappresentato come un dato "outlier".
  • Se il valore del 3° quartile è anche il valore massimo dei dati, allora il braccio non è rappresentato.
  • Dato inferiore (superiore) rispetto al valore del 1° (3°) quartile diminuito (sommato) di un valore compreso tra 1.5 e 3 moltiplicato per B.
  • Dato inferiore (superiore) rispetto al valore del 1° (3°) quartile diminuito (sommato) di un valore maggiore di 3 moltiplicato per B.

Statistica inferenziale

Obiettivo: stima dei parametri della popolazione e test delle ipotesi.

  • Popolazione: insieme di tutte le manifestazioni relative a un certo fenomeno (finito o infinito). In genere ci si occupa di popolazioni molto grandi.
  • Campione: sottoinsieme della popolazione. Se estratto casualmente, rappresenta la popolazione in esame.
  • Variabile casuale: variabile (discreta o continua) che assegna un valore a ogni realizzazione di un esperimento.
  • Distribuzione di probabilità: funzione che rappresenta la probabilità associata a ciascun valore della variabile casuale. È la distribuzione teorica della popolazione, i cui parametri si intendono indagare.
    • a VC discrete/continue si associano distribuzioni di probabilità discrete/continue
    • la media di una distribuzione di probabilità è detta valore atteso della variabile casuale

Distribuzione normale o gaussiana

  • La variabile casuale è compresa tra +∞ e -∞.
  • È completamente definita da 2 parametri (media e varianza), sinteticamente indicata.
  • È simmetrica intorno alla media ed è a forma di campana. Ha il massimo in x = µ e 2 flessi in µ ± σ.
  • Nota bene: L’integrale di tra x e +∞ fornisce la probabilità che un’unità sperimentale abbia un valore superiore a x.

Distribuzione normale standardizzata

Tra le curve normali, si fa spesso riferimento alla cosiddetta "Normale Standardizzata" (detta anche Distribuzione Z), che si indica con N(0;1) e quindi ha media = 0 e varianza = deviazione standard = 1. Tutte le normali possono essere ricondotte alla normale standardizzata, sottraendo a ogni dato la media e dividendo per la deviazione standard. L’integrale della normale tra x e +∞ è calcolabile, ma con notevole difficoltà, mentre l’integrale di Z è tabulato.

Stima puntuale dei parametri

Stimatore: una statistica ottenuta da un campione che stima un parametro della popolazione. Si indica con lettera latina, mentre i parametri della popolazione si indicano con lettera greca. Proprietà:

  • Non distorsione (accuratezza): la media di tutti i possibili valori dello stimatore è uguale al valore del parametro della popolazione.
  • Consistenza: all’aumentare della dimensione del campione lo stimatore tende al valore del parametro.
  • Efficienza (precisione): tra gli stimatori non distorti è più efficiente quello con minore varianza campionaria.

Esempi di stimatori:

  • La media campionaria x è uno stimatore della media della popolazione µ.
  • La varianza campionaria s² è uno stimatore della varianza della popolazione σ².
  • La deviazione standard campionaria s è uno stimatore della deviazione standard della popolazione σ.
  • Il miglior stimatore della media di una popolazione è la media del campione.
  • Il miglior stimatore della varianza di una popolazione è la varianza campionaria.

Nota bene: Se si divide per n anziché per n-1, lo stimatore risulta distorto. Non vi sono stimatori non distorti della deviazione standard: è per questo che si usa molto la varianza.

Teorema del limite centrale

  • Una variabile che derivi dalla somma di altre tende a essere distribuita normalmente. Tante più variabili concorrono alla somma, tanto più l’approssimazione è buona.
  • Le medie campionarie, anche se i campioni sono tratti da popolazioni con distribuzioni diverse dalla normale, tendono ad essere distribuite normalmente. L’approssimazione è tanto maggiore quanto maggiore è la numerosità campionaria.

Distribuzione campionaria delle medie

La distribuzione campionaria della media di un campione di numerosità n, estratto casualmente da una popolazione con media µ e varianza σ² ha:

  • Media = µ (stimatore non distorto)
  • Varianza = σ²/n
  • Deviazione standard = σ/√n

Inoltre, per il teorema del limite centrale, se n è sufficientemente grande, la distribuzione delle medie campionarie è normale.

Errore standard della media

È la deviazione standard della distribuzione delle medie campionarie, più piccola di σ di un fattore √n. Nota bene: Se siamo interessati alla variabilità delle misurazioni, usiamo la deviazione standard. Se invece vogliamo mettere in evidenza l’errore che si commette stimando la media della popolazione a partire dalla media campionaria, calcoliamo l’errore standard della media. Va da sé che ogni volta che estraiamo un campione da una popolazione, la sua media varia.

Stima per intervalli dei parametri

Oltre al valore puntuale di una stima, è interessante conoscere qual è il margine di errore connesso alla stima stessa. Si possono stabilire dei limiti entro i quali si ha una certa "confidenza" (1-α) che sia compreso il vero valore del parametro nella popolazione. Questi limiti si chiamano limiti fiduciali e l’intervallo che definiscono è l’intervallo fiduciale o di confidenza.

  • Stima per intervalli: la stima di un parametro fatta a partire da un campione, corredata dai suoi limiti fiduciali.
  • I valori usuali di α sono 0.01, 0.05 e 0.1, che danno luogo, rispettivamente, agli intervalli fiduciali o intervalli di confidenza del 99%, 95% e 90%. Per definire un intervallo di confidenza si utilizzano le distribuzioni campionarie.

Intervallo di confidenza di una media con σ noto

  • Data una popolazione di cui si conosce la deviazione standard σ e di cui si vuole stimare la media, si estrae da essa un campione di numerosità n.
  • Facendo riferimento alla distribuzione delle medie campionarie, sappiamo che la media del campione appartiene alla popolazione di medie campionarie, la quale ha: distribuzione normale, stessa media della popolazione di partenza e deviazione standard = σ/√n.
  • Si tratta, in questa distribuzione normale, di individuare l’intervallo che esclude α/2 per lato. In tal modo questo intervallo avrà probabilità (1 - α) di includere la vera media della popolazione.
  • Se σ è noto, si fa riferimento alla distribuzione Z=N(0;1)
  • Definito un grado di confidenza α, si ha: Z(1-α/2) = μ ± Zα/2 * (σ/√n)

Esempio: Fissando il grado di confidenza (1 – α) = 0.95 e conoscendo il valore tabulato Z = 1.96 ne consegue che l’intervallo di confidenza della media sarà:

  • Z = 1.64 (per confidenza del 90%)
  • Z = 1.96 (per confidenza del 95%)
  • Z = 2.57 (per confidenza del 99%)

È la quantità che viene aggiunta e sottratta alla media campionaria per avere l’intervallo. Si chiama massimo errore di stima, ed è un indicatore della precisione della stima.

  • A parità di σ, i limiti fiduciali si restringono all’aumentare di:
    • α (e quindi al diminuire del grado di confidenza) ⇒ si esclude un’area di curva maggiore, ma aumenta la possibilità che i limiti non contengano il vero valore di µ
    • n ⇒ non vi sono controindicazioni, se non il costo o l’onere di un campione più grande

Intervallo di confidenza di una media con σ ignoto

  • Data una popolazione di cui si debba stimare sia la media che la deviazione standard, non si usa la distribuzione di Z (serve conoscere σ), ma si ricorre alla distribuzione t di Student:
  • Analogamente a quanto visto in precedenza, i limiti fiduciali per una confidenza (1 – α) saranno dati da:
  • dove si considera una distribuzione di t con n-1 gradi di libertà
  • Gli intervalli fiduciali saranno “più larghi” di quelli con σ nota, poiché vi sono due stime soggette a fluttuazioni campionarie.

Esempio: Analizzando le produzioni di un pascolo, si sono ottenuti questi valori (t ha di sostanza secca): 3.6; 4.3; 4.8; 3.3; 3.2; 2.8; 4.1; 4.8; 3.3. Calcolare la produzione media ed i suoi limiti fiduciali al 90%, al 95% e al 99%.

Statistica inferenziale: test delle ipotesi

Definizione e procedimento

Obiettivo della statistica inferenziale: stima dei parametri della popolazione e test delle ipotesi.

  • Popolazione: insieme di tutte le manifestazioni relative a un certo fenomeno (finito o infinito). In genere ci si occupa di popolazioni molto grandi.
  • Campione: sottoinsieme della popolazione. Se estratto casualmente, rappresenta la popolazione in esame.
  • Il test consiste nel formulare un’ipotesi detta ipotesi nulla (H₀), che rappresenta di solito lo stato di fatto, e nel verificare se, con i dati a disposizione, è possibile rifiutarla o no. Se il campione fornisce risultati fortemente in contrasto con H₀, quest’ultima viene rifiutata a favore di una ipotesi alternativa (H₁).
  • Usando una distribuzione campionaria, identifichiamo un range di valori che hanno bassa probabilità di accadere se l’ipotesi nulla è vera. Il range di valori costituisce la cosiddetta regione critica o regione di rifiuto dell’ipotesi nulla.
  • Dalla distribuzione campionaria della statistica posso conoscere le probabilità di ottenere determinati valori e, sulla base di queste, definire la regione di rifiuto.

Test della media di una popolazione

  • Eseguiamo il test: H₀: µ = µ₀
  • Ipotesi nulla H₀: la media µ della popolazione da cui abbiamo estratto il campione è = µ₀
  • Ipotesi alternativa H₁: la media µ della popolazione da cui abbiamo estratto il campione è ≠ µ₀
  • Verifichiamo quindi se la deviazione della media campionaria da µ₀ è compatibile con l’ipotesi nulla. A questo scopo confrontiamo la media del campione con µ₀.

Le fasi da seguire per un test delle ipotesi:

  1. Specificare H₀, H₁ ed un livello α.
  2. Definire una statistica per il test (statistica di cui sia definibile la distribuzione campionaria) e la zona di rifiuto per H₀ (cioè i valori della statistica di probabilità che risultano < α quando H₀ è vera).
  3. Eseguire il campionamento (o l’esperimento) e calcolare la statistica.
  4. Se la statistica calcolata cade nella zona di rifiuto decido di rifiutare H₀, altrimenti decido di non rifiutare H₀.

L'uso del p-value

In alternativa si può riportare direttamente il valore della probabilità p di commettere il cosiddetto "errore di I specie" (livello di significatività osservato). Il p-value è una misura di quanto siamo in disaccordo con H₀.

  1. H₀: µ = 10, H₁: µ ≠ 10
  2. Calcolo la media campionaria e la converto nella variabile standardizzata.
  3. Calcolo la probabilità p di ottenere il valore di z calcolato, vale a dire P(Z>|z|) (test a due code).

Analisi della varianza

Definizione e tipologie

L’analisi della varianza (ANOVA) studia le relazioni tra variabili discrete, che definiscono delle categorie, e variabili continue. Si tratta dell’analisi maggiormente utilizzata nelle scienze agrarie e forestali.

  • ANOVA a 1 via: quando si ha 1 sola variabile discreta
  • ANOVA a 2 o più vie: quando si hanno 2 o più variabili discrete e viene studiata anche l’interazione.

Esempi: confronti culti-varietali, produzioni in funzione di tecniche colturali diverse, effetti di andamenti climatici sulla produzione, effetti di diversi trattamenti sperimentali.

Principio Base: il confronto tra due o più gruppi di dati si fonda sul rapporto tra la variabilità entro i gruppi e la variabilità tra i gruppi.

Nel caso dell’ANOVA a 1 via, si considera 1 sola fonte o causa delle variazioni dei dati, che viene definita fattore sperimentale o trattamento. Un trattamento può prevedere: più livelli quantitativi (come le dosi crescenti di un farmaco), oppure diverse modalità qualitative (come la somministrazione di farmaci differenti).

Ogni unità sperimentale si chiama replica e, teoricamente, devono essercene almeno 2 per almeno un livello o modalità del trattamento. In altre parole, il numero minimo di repliche è pari al numero dei livelli + 1.

ANOVA a 1 via

Formalizzazione del test d’ipotesi

  • Le k popolazioni da cui sono tratti tutti i campioni hanno la stessa media
  • Almeno una delle medie delle popolazioni da cui sono tratti i campioni differisce dalle altre. N.B. m rappresenta il numero di livelli del trattamento!

La randomizzazione completa

Si tratta del modello più semplice di ANOVA e prevede un campionamento in cui:

  • Ciascun trattamento viene assegnato in modo totalmente casuale ai soggetti (omogenei) su cui si effettuano le misure, per determinare l’effetto dei singoli trattamenti;
  • Le repliche (osservazioni) sono assegnate casualmente ai vari livelli del trattamento, i quali possono non avere lo stesso numero di osservazioni.

Le devianze

La metodologia dell’ANOVA si basa sul fatto che la variazione totale nella risposta misurata a una certa sollecitazione o trattamento si può suddividere in componenti che vengono attribuite a specifiche cause di variabilità.

I gradi di libertà

Alcune stime si basano su un numero di informazioni più alto rispetto ad altre. Ad esempio, una stima della varianza a partire da un campione di taglia 100 si...

Anteprima
Vedrai una selezione di 10 pagine su 49
Metodologia Sperimentale Agronomica Pag. 1 Metodologia Sperimentale Agronomica Pag. 2
Anteprima di 10 pagg. su 49.
Scarica il documento per vederlo tutto.
Metodologia Sperimentale Agronomica Pag. 6
Anteprima di 10 pagg. su 49.
Scarica il documento per vederlo tutto.
Metodologia Sperimentale Agronomica Pag. 11
Anteprima di 10 pagg. su 49.
Scarica il documento per vederlo tutto.
Metodologia Sperimentale Agronomica Pag. 16
Anteprima di 10 pagg. su 49.
Scarica il documento per vederlo tutto.
Metodologia Sperimentale Agronomica Pag. 21
Anteprima di 10 pagg. su 49.
Scarica il documento per vederlo tutto.
Metodologia Sperimentale Agronomica Pag. 26
Anteprima di 10 pagg. su 49.
Scarica il documento per vederlo tutto.
Metodologia Sperimentale Agronomica Pag. 31
Anteprima di 10 pagg. su 49.
Scarica il documento per vederlo tutto.
Metodologia Sperimentale Agronomica Pag. 36
Anteprima di 10 pagg. su 49.
Scarica il documento per vederlo tutto.
Metodologia Sperimentale Agronomica Pag. 41
1 su 49
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Scienze agrarie e veterinarie AGR/02 Agronomia e coltivazioni erbacee

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher simone.raspagni di informazioni apprese con la frequenza delle lezioni di Metodologia Sperimentale Agronomica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Milano o del prof Acutis Marco.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community