Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
Campionamento esaustivo( senza reimbussolamento).
23
Modulo 4 lezione 21 analisi monovariata: |\( la distribuzione di frequenza viene rappresentata con una
tabella)/:le tecniche di analisi delle variabili cambiano a seconda che queste abbiano modalità non ordinate
o ordinate, e siano continue o discrete. L’analisi monovariata considera una sola variabile per volta,
studiando la distribuzione dei dati fra le modalità di quella variabile, rilevando e calcolando i valori
caratteristici di tale distribuzione, che viene detta distribuzione di frequenza. Se i dati di una distribuzione
di frequenza sono riferiti ad una scala nominale, la tabella si dice di serie. Se sono riferiti ad una scala
ordinale o cardinale la tabella si dice di seriazione. Una distribuzione di frequenza è costruita dividendo i
valori della variabile in intervalli (classi) e calcolando la frequenza dei casi che cadono in ogni classe per
ciascuna di esse. Ad essa si affianca una distribuzione cumulativa, ossia il numero o la percentuale di
persone che hanno un punteggio inferiore o uguale a quello individuato dall'intervallo considerato. L'analisi
monovariata consente di individuare errori nel caricamento dei dati, permettendo di scoprire i valori out of
range(fuori dal limite) di una distribuzione, ossia spesso compaiono valori che non sono stati assegnati a
nessuna modalità della variabile categoriale, e quindi la comparsa di un valore non assegnato è un errore.
Inoltre segnala squilibri nella distribuzione e opportunità di aggregazione. Alcuni squilibri possono essere
provocati da valori troppo alti o troppo bassi rispetto alla media. Inoltre, Consente una valutazione critica
del proprio lavoro.////// L’analisi monovariata: variabili categoriali non ordinate( scala nominale) : Nella
scala nominale ogni caso rientra in una categoria. Prendiamo ad esempio la regione di residenza, quando la
si trasforma in variabile, ad ogni modalità, che rappresenta una diversa ragione, si assegna un valore
numerico per registrarla nella matrice dei dati. Le etichette che si decide di attribuire ad ogni regione sono
arbitrarie, in quanto ogni categoria (o stato) ha autonomia semantica. Occorre evitare sia le categorie con
pochi dati che portano a celle di frequenza troppo bassa e quindi informazioni distorte, a categorie con
frequenza troppo alte che fanno informazioni scarse sull’andamento generale. Il numero ideale di dati per
una variabile categoriale non ordinata o nominale è:
Dove n è il numero totale, e k è il numero di modalità della variabile.Importante è il processo di
aggregazione di categorie dove bisogna fare riferimento all’affinità semantica delle categorie. Dopo aver
creato categorie con modalità equilibrate tra loro e aver assegnato ad ogni modalità la relativa funzione
operativa, bisogna fare una distribuzione di frequenza delle modalità con rispettive percentuali per
permettere un confronto tra di esse. Le percentuali devono essere usate solo quando i casi considerato
sono maggiori a 100 perché altrimenti potrebbero dare informazioni ingannevoli. Con misura di tendenza
centrale la scala nominale ha esclusivamente la moda, ossia la categoria con frequenza più alta o
percentuale più alta. // /// gradi di equilibrio/squilibrio: l’indice di equilibrio ed squilibrio si basa sulla
proposizione dei casi che cadono in una modalità, calcolata sul totale dei casi. Per esempio il sesso, se
abbiamo lo stesso numero di maschi e femmine, Sq=0,25+0,25=0,50, mentre quando tutti i casi cadono
nella categoria femminile o nella categoria maschile Sq sarà 1 in entrambi i casi. L’andamento Sq è di tipo
parabolico: il maggior squilibrio si ha quando tutti i dati appartengono ad una o all’altra categoria, il
minimo quando entrambe le categorie hanno la stessa frequenza. La distribuzione sarà equilibrata quando
Sq=1/k e Eq=1, mentre sarà squilibrata quando Sq=1 e Eq=0. Molto importante nella statistica descrittiva è
la rappresentazione numerica e grafica. Quella numerica è più precisa, quella grafica è più immediata. Altre
forme di rappresentazione sono il diagramma a barre, ossia una successione di colonne aventi base uguale
e altezza proporzionali alla frequenza. l’aereogramma è il diagramma a torta, in cui si divide l’area del
cerchio in settori proporzionali alle frequenze delle rispettive categorie. /////////////////////////—///
L'analisi monovariata: variabili categoriali ordinate: le categorie sono ordinate gerarchicamente in base al
loro valore: una persona che in graduatoria ha una posizione r, ha un valore più elevato rispetto ad una
persona con posizione r-1. Ad ogni modalità si assegna un valore numerico da 1 a K, dove K è il numero di
modalità della variabile. La moda è un valore caratteristico rilevante anche per la distribuzione dei dati in
categorie ordinate anche se non tiene conto dell'ordine delle categorie. La moda è la categoria con la
frequenza più alta. Si potrebbero avere dei casi in cui invece di decrescere da un estremo all'altro, le
24
frequenze decrescono fino ai valori centrali, poi tornano a crescere man mano che si va verso l'altro
estremo: distribuzioni di questo tipo sono dette bimodali. I valori caratteristici tipici delle distribuzioni in
categorie ordinate, tenendo conto sia della frequenza sia dell'ordine delle categorie, sono gli indici
posizionali.Il più semplice valore degli indici di posizionali è la mediana. È la modalità cui appartiene il caso
che divide in due metà uguali la distribuzione delle frequenze assolute. Da informazioni più attendibili in
presenza di distribuzioni asimmetriche. In una serie con n casi dispari, il numero della posizione centrale è
(n+1)/2 . Se n è uguale a 135 , tale numero d’ordine è pari a (135+1)/2=68 quindi 68 è la posizione. Si
definisce rango il numero di ordine assegnato ad ogni caso dopo aver ordinato l'intera distribuzione. // ///
Proprietà della mediana: la somma dei valori assoluti degli scarti dalla mediana è più bassa della somma
dei valori assoluti degli scarti da un qualsiasi altro valore. I numeri 1, 2,3, 7,8, 9,12 hanno una mediano
uguale a7 è una mediana uguale a 6. La mediana rende minima la somma dei valori assoluti degli scarti da
essa. Mentre la mediana rileva quella che in statistica si dice la tendenza centrale di una distribuzione, altri
valori caratteristici posizionali rilevano la sua dispersione attorno a questa tendenza centrale; di questi
indici i più usati sono i due quartili. I quartili sono quei valori che dividono la distribuzione in quattro parti,
in modo che il primo quartile sia quel valore che supera il 25% della distribuzione ed è superato dal 75%, il
secondo sia il valore che divide la distribuzione in due parti uguali, il terzo sia quel valore superato dal 75%
della distribuzione. La mediana e i quartili sono messo di tendenza centrale applicabili alle variabili
categoriali ordinate, dal momento che per quest'ultime non si può utilizzare la media( che serve solo nel
caso di variabili quantitative). La variabile titolo di studio è una variabile categoriale ordinata. Leti ha
proposto un indice di dispersione ch tiene conto di tutta la distribuzione, la cui formula è : Κ indica il
numero delle categorie, H le categorie,Ph indica la proporzione cumulata fino a quella categoria compresa,
con(1-Ph) si intende la frequenza retrocumulata fino a quella data categoria esclusa.Distribuzioni di
frequenza e diagrammi a barre (staccata o attaccata) sono le forme più semplici di rappresentazione
quando le categorie sono ordinate. Altre rappresentazioni sono il diagramma a bandiera; l'istogramma di
composizione, costituita da una sola colonna; ed infine la spezzata a gradini.
Modulo 4 lezione 22 l’analisi monovariata variabili cardinali( Scale a intervalli e di rapporti uguali) : le
variabili cardinali inglobano al loro interno i livelli di misurazione ad intervalli uguali e di rapporti uguali. Le
categorie sono ordinate in modo da definire la distanza che separa ciascuna categoria dalla precedente.
Variabili come l’altezza,l’età , il peso vengono denominate variabili continue, perché la proprietà può
assumere infiniti stati. Le scale ad intervalli consentono di effettuare le operazioni di addizione e
sottrazione. Addizionando o sottraendo una quantità fissa a tutti i valori della scala ad intervalli , il livello
scala non cambia , dato che nelle scale ad intervalli il punto zero è arbitrario. La scala di rapporti permette
la moltiplicazione e la divisione, operazioni che richiedono un punto zero assoluto, fisso non arbitrario. Le
modalità delle variabili cardinali normalmente non hanno autonomia semantica , quindi non ha senso un
diagramma a barre. È necessario aggregare le modalità in classi, formando nuove categorie. I valori tipici
delle variabili cardinali sono i valori sintetici: media aritmetica; valore centrale; scarto; scarto medio
assoluto; devianza;varianza; campo di variazione; scarto tipo. •La media è la somma di tutti i valori divisa
per il numero dei valori sommati, espressa attraverso la formula:
Dove Χi è il valore di un caso generico della variabile x e N è il numero dei casi. •Valore centrale è la somma
del valore massimo e del valore minimo della distribuzione diviso due. •Scarto è la distanza dalla media di
un valore qualsiasi della distribuzione. • Scarto medio assoluto, i valori assoluti sono difficili da trattare con
25
gli strumenti di analisi matematica. • devianza è la somma dei quadrati degli scarti dalla media . La devianza
dipende dalla dispersione dei dati attorno alla media e dal numero dei casi. • Varianza si ottiene elevando
ogni scarto al quadrato e dividendo la somma degli scarti al quadrato per il numero dei casi. La formula
della varianza di una popolazione è:
Mentre, quando la varianza si calcola su un campione e non su una popolazione avremo:
il valore. si chiama varianza campionaria corretta.
•Il Campo di variazione,in inglese range, è la più semplice misura di dispersione. Indica la differenza tra il
valor massimo e il valor minimo della distribuzione. In formula: Range= Xmax-Xmin.
Scarto quadratico medio (o scarto tipo o deviazione standard): Per avere una grandezza lineare si estrae la
radice quadrata della varianza. In formula:
Quando i valori sono molti, una forma di rappresentazione usata abitualmente è la curva di frequenza dove
sull'ascissa si collocano i valori delle modalità e in ordinata il numero dei dati che hanno quel valore
corrispondente di ascissa. Questa deve essere considerata come una serie di segmenti allineati che
collegano una serie di punti discontinui, ognuno dei quali rappresenta un valore.Diagramma a barre, è la
rappresentaz