Anteprima
Vedrai una selezione di 20 pagine su 126
Analisi dei dati Pag. 1 Analisi dei dati Pag. 2
Anteprima di 20 pagg. su 126.
Scarica il documento per vederlo tutto.
Analisi dei dati Pag. 6
Anteprima di 20 pagg. su 126.
Scarica il documento per vederlo tutto.
Analisi dei dati Pag. 11
Anteprima di 20 pagg. su 126.
Scarica il documento per vederlo tutto.
Analisi dei dati Pag. 16
Anteprima di 20 pagg. su 126.
Scarica il documento per vederlo tutto.
Analisi dei dati Pag. 21
Anteprima di 20 pagg. su 126.
Scarica il documento per vederlo tutto.
Analisi dei dati Pag. 26
Anteprima di 20 pagg. su 126.
Scarica il documento per vederlo tutto.
Analisi dei dati Pag. 31
Anteprima di 20 pagg. su 126.
Scarica il documento per vederlo tutto.
Analisi dei dati Pag. 36
Anteprima di 20 pagg. su 126.
Scarica il documento per vederlo tutto.
Analisi dei dati Pag. 41
Anteprima di 20 pagg. su 126.
Scarica il documento per vederlo tutto.
Analisi dei dati Pag. 46
Anteprima di 20 pagg. su 126.
Scarica il documento per vederlo tutto.
Analisi dei dati Pag. 51
Anteprima di 20 pagg. su 126.
Scarica il documento per vederlo tutto.
Analisi dei dati Pag. 56
Anteprima di 20 pagg. su 126.
Scarica il documento per vederlo tutto.
Analisi dei dati Pag. 61
Anteprima di 20 pagg. su 126.
Scarica il documento per vederlo tutto.
Analisi dei dati Pag. 66
Anteprima di 20 pagg. su 126.
Scarica il documento per vederlo tutto.
Analisi dei dati Pag. 71
Anteprima di 20 pagg. su 126.
Scarica il documento per vederlo tutto.
Analisi dei dati Pag. 76
Anteprima di 20 pagg. su 126.
Scarica il documento per vederlo tutto.
Analisi dei dati Pag. 81
Anteprima di 20 pagg. su 126.
Scarica il documento per vederlo tutto.
Analisi dei dati Pag. 86
Anteprima di 20 pagg. su 126.
Scarica il documento per vederlo tutto.
Analisi dei dati Pag. 91
1 su 126
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

Introduzione alla statistica non parametrica

I metodi di statistica classica o di statistica parametrica richiedono che siano sempre verificati e soddisfatti alcuni assunti che riguardano la popolazione d'origine, dalla quale si presume che i dati campionari siano stati estratti. Nel caso in cui anche uno solo dei presupposti non sia rispettato, qualunque risultato statistico può essere messo in dubbio.

Gli assunti sono di 3 tipi diversi che fanno riferimento:

  1. Indipendenza dei gruppi campionari
    • I campioni sottoposti ai differenti trattamenti dovrebbero essere generati per estrazione casuale da una popolazione, nella quale ogni soggetto ha la stessa probabilità di essere incluso in un gruppo qualsiasi. In questo modo, i fattori aleatori o non controllati, quelli che nel test t di Student formano l'errore standard e che nell'analisi della varianza formeranno la varianza d'errore o residuo, dovrebbero risultare
casualmente distribuiti e non generare distorsioni o errori sistematici. È una condizione che spesso è soddisfatta attraverso un attento disegno dello studio, ma se questa non viene rispettato i test parametrici standard non possono essere utilizzati.
  1. Omoschedasticità (uguaglianza delle varianze nelle due popolazioni)
    • se i vari gruppi analizzati, sono formati per estrazione casuale dalla medesima popolazione questi dovrebbero avere varianze eguali.
    • Se questo non viene rispettato e i dati provengono da popolazioni con distribuzione non normale, i modelli parametrici non possono essere applicati.
    • Quando la distribuzione di base è nota, ma non necessariamente normale, si possono calcolare probabilità esatte es. distribuzione binomiale o metodo esatto di Fisher, basato sulla distribuzione ipergeometrica.
L'assunto di omoschedasticità parte dal presupposto di testare l'ipotesi che due gruppi estratti casualmente,

provengano dalla medesima popolazione o da popolazioni differenti, ma per fare questo, si deve partire dal presupposto che, immaginando che queste differiscano solo per la loro tendenza centrale. La variabilità del fenomeno deve essere tenuta costante. Se questo non viene rispettato e i dati provengono da popolazioni con distribuzione non normale i modelli parametrici e il test t non possono essere utilizzati per fare inferenza sulla tendenza centrale di quel fenomeno. Questo perché il teorema dell'imite centrale ci dice, indipendentemente da quella che è la forma della variabile nella popolazione, quando lavoro con le medie, lavoro con delle distribuzioni che si approssimano alla distribuzione normale.

3. La normalità della distribuzione

Da essa deriva la relazione tra popolazione dei dati e medie dei campioni, secondo il teorema del limite centrale:

  • se da una popolazione con media μ e varianza σ^2, i cui dati abbiano una forma di distribuzione non normale,
si estraggono casualmente campioni di dimensione n, le medie dei campioni si distribuiranno normalmente, con media generale μ ed errore standard σ/n. • La distribuzione normale è la forma limite della distribuzione delle medie campionarie per n che tende all'infinito. Tuttavia, si può avere una buona approssimazione alla normale della distribuzione delle medie anche quando n è piccolo. Che cosa succede se abbiamo una caratteristica che non si distribuisce normalmente e non ci sono dati sufficienti per dire che veramente questi dati reggono l'assunto di normalità oppure no? Quando la forma della distribuzione dei dati è ignota, servono test che possano essere applicati con qualsiasi forma di distribuzione, ovvero test indipendenti dalla forma della distribuzione detti non parametrici. 1. Statistica non parametrica • La statistica non parametrica può essere fatta risalire al Chi-quadrato di Pearson (consente ditestarel'associazione tra variabili di tipo categoriale) e al metodo delle probabilità esatta di R. A. Fisher.
  • Negli ultimi anni, l'importanza della statistica non parametrica è fortemente aumentata.
  • Sovente nella ricerca sperimentale è possibile disporre solo di pochi dati, che sono insufficienti per dimostrare la normalità della distribuzione; in particolare quando il fenomeno studiato è nuovo e non è possibile citare dati di altre esperienze.
  • In questi casi si consiglia di ricorrere alle tecniche non parametriche quando gli assunti teorici relativi alle condizioni di validità della distribuzione normale non sono dimostrati. Queste non richiedono l'assunto di una certa distribuzione di dati, essendo più grossolane rispetto a quelli parametrici, richiedono meno assunzioni per poter essere attivate.
La statistica non parametrica è un tipo di statistica molto più semplice dal punto divista di formalizzazione teorica rispetto alla statistica parametrica, perché richiede meno assunti in partenza. Possiamo ritrovarci in due diverse situazioni: 1. Se la variabile è ordinale non possiamo utilizzare la statistica parametrica. La variabile non potrà distribuirsi normalmente perché nelle ordinali non esiste un'unità di misura. Le uniche relazioni che possono essere mantenute su dati di tipo ordinali sono la relazione di uguale e diverso e le relazioni d'ordine maggiore e minore. 2. Se la variabile è misurata su scala a intervalli o a rapporti, e quindi esiste un'unità di misura, ma la caratteristica nella popolazione non si distribuisce come una normale, oppure, stiamo lavorando con dei campioni troppo piccoli per cui è difficile presupporre l'andamento di una distribuzione a partire da pochi dati, allora anche in questo caso dobbiamo far riferimento alla statistica non parametrica. Risulta essere molto

più sovente la seconda tipologia di casistica, in quanto è molto più verosimile lavorare con dati quantitativi ma che non rispettano l’assunto di normalità, piuttosto che lavorare con dati che nascono come dati ordinali.

Se i dati sono quantitativi e non posso presupporre una certa distribuzione, e voglio lavorare su questi dati facendo inferenza, dovrò ridurre il livello di scala delle mie variabili. Quindi a partire dalla variabile che ha una sua unità di misura e un suo valore quantitativo, si declassa di scala la mia variabile facendola passare da scala di intervalli o rapporti ad una scala ordinale. Questo passaggio "verso dietro" sulla teoria dei livelli di scala può essere sempre fatto, ma non il contrario. Se io raccolgo dei dati come un ordinamento non potrò trasformarli su scala a intervalli, ma se ho una scala a intervalli la posso trasformare su scala ordinale.

I test non parametrici:

  • Molti metodi

Le statistiche non parametriche si basano solo sull'ordine di grandezza dei dati. La semplice graduatoria dei valori, trascurando i valori stessi.

In tal modo la statistica non parametrica opera rilasciando il vincolo relativo alla distribuzione dei dati, ma al tempo stesso rinunciando ad ottenere da essa ogni possibile informazione.

Per la maggior parte, questi metodi sono fondati sulle statistiche di rango o d'ordine; non utilizzano la media, ma la mediana come misura della tendenza centrale; vengono applicati indifferentemente sia alle variabili casuali discrete che a quelle continue.

Quando le scale sono qualitative o ordinali e i campioni non sono di grandi dimensioni, non esistono alternative accettabili all'uso di test non parametrici.

Vantaggi dei test non parametrici:

  • Richiedono meno assunti di partenza sulle caratteristiche della popolazione dalla quale il campione è stato estratto e non richiedono l'assunzione di normalità.
  • Permettono di

calcolare un valore esatto di probabilità per il test e di intervalli di confidenza senza richiedere la normalità della distribuzione.

- Si basano su calcoli più elementari, sono meno sensibili ai valori anomali e quindi più estesamente applicabili;

- le nuove tecniche, quali il jackknife e il bootstrap permettono di analizzare situazioni molto complesse, dove i metodi parametrici non sono in grado di derivare una distribuzione delle probabilità;

- La diffusione dei computer rende il loro uso più semplice ed esteso

Svantaggi dei test non parametrici:

Per scale d'intervalli o di rapporti, quando gli assunti richiesti dai metodi classici sono rispettate, sfruttano in modo meno completo l'informazione contenuta nei dati; quindi:

 Per campioni di grandi dimensioni i metodi non parametrici, soprattutto se fondati sul calcolo combinatorio, a volte richiedono metodologie più lunghe, manualmente impossibili, che pretendono l'uso del

calcolatori non parametrici, per ottenere risultati affidabili.

test nonparametrici per ottenere la stessa informazione. Questo discorso vale se la popolazione si distribuisce normalmente, altrimenti useremo test non parametrici.

Se l'assunto di normalità delle popolazioni non è violato:

  • L'ampiezza del campione per i test parametrici (Np) è MINORE dell'ampiezza dei test non parametrici (Nnp) a parità di potenza, quindi, si ha che Np < Nnp.
  • Il rapporto tra queste due numerosità è detto efficienza relativa del test non parametrico. L'efficienza viene misurata in termini di numerosità delle osservazioni ed è data dal rapporto tra il numero di osservazioni richieste dal test di tipo parametrico, sul numero di osservazioni richieste dal test di tipo non parametrico.
  • Ad esempio, per una certa differenza tra le medie di due popolazioni, fissato α=0,05 e 1- β=0,80, un test per dati ordinali (non parametrico) richiede un numero di casi Nnp=80, mentre la
sua alternativaparametrica richiede un numero di casi Np=72, l'efficienza relativa del test non parametrico è
Dettagli
A.A. 2021-2022
126 pagine
SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher caronealessia93 di informazioni apprese con la frequenza delle lezioni di Analisi dei dati e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli studi di Torino o del prof Rosato Rosalba.