Anteprima
Vedrai una selezione di 11 pagine su 49
Riassunto completo statistica + esempi Pag. 1 Riassunto completo statistica + esempi Pag. 2
Anteprima di 11 pagg. su 49.
Scarica il documento per vederlo tutto.
Riassunto completo statistica + esempi Pag. 6
Anteprima di 11 pagg. su 49.
Scarica il documento per vederlo tutto.
Riassunto completo statistica + esempi Pag. 11
Anteprima di 11 pagg. su 49.
Scarica il documento per vederlo tutto.
Riassunto completo statistica + esempi Pag. 16
Anteprima di 11 pagg. su 49.
Scarica il documento per vederlo tutto.
Riassunto completo statistica + esempi Pag. 21
Anteprima di 11 pagg. su 49.
Scarica il documento per vederlo tutto.
Riassunto completo statistica + esempi Pag. 26
Anteprima di 11 pagg. su 49.
Scarica il documento per vederlo tutto.
Riassunto completo statistica + esempi Pag. 31
Anteprima di 11 pagg. su 49.
Scarica il documento per vederlo tutto.
Riassunto completo statistica + esempi Pag. 36
Anteprima di 11 pagg. su 49.
Scarica il documento per vederlo tutto.
Riassunto completo statistica + esempi Pag. 41
Anteprima di 11 pagg. su 49.
Scarica il documento per vederlo tutto.
Riassunto completo statistica + esempi Pag. 46
1 su 49
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

DESCRIVERE I DATI QUANTITATIVI

Le caratteristiche di interesse che descrivono la distribuzione dei dati:

  • Tendenza centrale o posizione di un insieme di dati indica dove, numericamente, i dati sono posizionati o concentrati (indici di posizione)
  • La forma di un insieme di dati descrive come i dati si distribuiscono intorno ai valori centrali, simmetria o asimmetria (per variabili almeno ordinali)
  • La variabilità di un insieme di dati descrive quanto dispersi sono i dati intorno ai valori della tendenza centrale (indici di variabilità)

FORMA: SIMMETRIA / ASIMMETRIA

- Quando le osservazioni equidistanti da un valore centrale presentano la stessa frequenza relativa, la distribuzione è simmetrica

- Quando non succede quanto sopra, la distribuzione è asimmetrica

- Se l'estremità della curva è più lunga a sinistra, l'asimmetria si dice negativa (altrimenti positiva)

- Se la distribuzione è simmetrica, la sua

è rappresentata dal valore o dalla categoria con la barra più alta. LA MEDIANA È il valore che divide il campione in due parti uguali, in modo che il 50% dei valori sia al di sopra e il 50% al di sotto. Può essere calcolata solo per variabili quantitative ordinate. LA MEDIA È la somma di tutti i valori divisa per il numero totale di valori. Può essere calcolata solo per variabili quantitative. La moda, la mediana e la media sono le misure di tendenza centrale più comuni utilizzate per descrivere un insieme di dati numerici.corrisponde al rettangolo con la frequenza più alta. Per alcuni campioni la moda potrebbe essere assente. Per esempio per i dati quantitativi continui che possono assumere molti valori diversi, non si parla di moda ma di classe modale. - La classe modale per variabili quantitative continue raggruppate in classi è la classe che presenta la densità più alta. È possibile che una serie di dati presenti più di una moda (succede spesso nei piccoli campioni) e quindi che assuma il nome di campione bimodale o plurimodale. Se la variabile presenta solo categorie o valori con frequenza assolute tutte uguali a 1, diremo che i dati non presentano moda. LA MEDIANA - È la categoria o valore dell'osservazione centrale di una distribuzione ordinata di dati (dal più piccolo al più grande). È quindi il valore dell'osservazione posta al centro dei dati (se i dati sono ordinati). - Se n è dispari la mediana è il valore nella

posizione- Se n è pari, come semisomma dei valori nelle posizioni e (sela variabile è quantitativa)

Se si dispone della distribuzione di frequenza:

La mediana è la categoria o valore che per prima presenta una frequenzao relativa cumulata maggiore di 0,5 (50%)

Se trovo una categoria o valore con frequenza relativa cumulata uguale ao 0,5 (50%), fare la semisomma di quel valore e del successivo (se lavariabile è quantitativa)

Per variabili quantitative continue con raggruppamento in classi, si usa lao classe mediana

LA MEDIA aritmetica

Sintetizza la posizione (tendenza centrale) della distribuzione di un insieme di dati.

Si calcola solo per variabili quantitative, discrete o continue e si trova sommando tutti i valori dei dati osservati edividendo per il totale delle osservazioni n (dimensioni del campione).

La media aritmetica rappresenta il punto di equilibrio dei dati, infatti:

Redistribuzione del totale

Media aritmetica ponderata non è possibile ottenere

un valore preciso, ma solo un'approssimazione. È necessario calcolare il valore centrale di ogni classe e utilizzarlo nella formula della media ponderata. Più le osservazioni all'interno di una classe tendono all'equidistribuzione e più l'approssimazione è vicina al valore vero.

CONFRONTO MEDIA-MEDIANA

MEDIA E MEDIANA PER DISTRIBUZIONI ASIMMETRICHE

4. misure di dispersione o di variabilità

Si usano per variabili quantitative. Misurano l'attitudine della variabile ad assumere diversi valori, ossia indicano quanto i dati sono dispersi (attorno a qualche indice di posizione). È ragionevole che tali misure assumano valori positivi o al limite valore 0 se non c'è variabilità nei dati.

CAMPO DI VARIAZIONE (RANGE)

È la differenza fra il valore massimo e il valore minimo assunti dalla variabile: se i dati sono simmetrici fornisce anche qualche informazione sulla distribuzione dei dati rispetto alle misure

ditendenza centrale. Purtroppo però considera solo i due valori esterni ed è molto influenzato dai valori anomali o estremi, per cui diventa inaffidabile all'aumentare della dimensione del campione o della popolazione, poiché aumenta la probabilità di trovare valori estremi, quindi aumenta R. Si deve quindi utilizzare una nuova misura di dispersione o variabilità che ci dica quanto distano, in media, le osservazioni dal valore centrale.

SCARTO QUADRATICO MEDIO E VARIANZA PER DATI GREZZI

Lo scarto quadratico medio è definito con riferimento ad un'altra misura di dispersione chiamata varianza. Nella pratica la misura utilizzata è lo scarto quadratico medio perché la sua unità di misura e il suo ordine di grandezza coincidono con quelli dei dati.

La varianza campionaria (s): media dei quadrati degli scarti tra ciasun valore e la media campionaria.

Scarto quadratico medio (s) o deviazione: radice quadrata

positiva della varianza•.Un metodo alternativo riduce i calcoli da effettuare a somma ditutti i valori, elevarli al quadrato e sommare i quadrati.Σx¿¿. ¿ 2 (media dei quadrati - quadrato della media, per un fattore di correzione)2 −¿n Σ x2 =¿sEsempio:SCARTO QUADRATICO E VARIANZA PER DISTRIBUZIONI DI FREQUENZAVarianza: media dei quadrati degli scarti tra ciascun valore e la media di popolazione/campione, pesati con la• corrispondente frequenza assolutaoppure per la popolazioneScarto quadratico medio o deviazione standard: radice quadrata della varianza.• oppure per la popolazioneINTERPRETAZIONE DELLO SCARTO QUADRATICO MEDIOLA REGOLA EMPIRICAPer una distribuzione simmetrica “a campana” (normale):±- Circa il 68% delle osservazioni si trovano entro uno scarto quadratico medio della media±- Circa il 95% delle osservazioni si trovano entro due scarti quadratici medi della media±- Quasi tutte

(più del 99%) le osservazioni si trovano entro tre scarti quadratici medi dalla media.

Esempio: TEOREMA DI CHEBYSHEV Dice che per qualsiasi popolazione, fissati k>1, l’intervallo contiene almeno delle osservazioni.

VALORI STANDARDIZZATI (Z-SCORES O PUNTEGGI Z) Misura di quanti “scarti quadratici medi” un valore dista dalla media. Per calcolare z bisogna prima trovare lo scarto del valore dalla media e poi dividerlo per lo scarto quadratico medio. μ x σ come per la regola empirica sostituiamo ad la media e a lo scarto s. Un valore standardizzato z negativo indica che il valore x è sotto la media; un valore z positivo indica che x è sopra la media. È possibile usare i valori z per identificare valori anomali (con meno probabilità di verificarsi), detti anche outlier. Varianza e scarto quadratico sono indici assoluti, ossia dipendenti dalla unità di misura e dall’ordine di grandezza diciò che analizziamo. Non

consentono confronti di variabilità!IL COEFFICIENTE DI DISPERSIONEÈ una misura relativa della dispersione di un fenomeno (non risente dell’unità di misura né dell’ordine di grandezzadei dati):N.B.la media deve essere diversa da zero.o CV assume valori positivi (anche maggiori di 1); 0 se non c’è variabilitào CV non ha unità di misurao CV consente di confrontare variabilitàoEsempio:MISURE DI TENDENZA RELATIVAForniscono informazioni sulla posizione di un’osservazione nel campioneI PERCENTILISono valori di suddivisione di 100 parti: considerando una serie di dati ordinati per grandezza possiamoimmaginare di dividere la distribuzione in 100 parti ognuna delle quali contiene lo stesso numero di osservazioni.- Il p-esimo percentile di un insieme di dati è il valore per cui una percentuale pari a p delle osservazioni èinferiore o uguale a esso.Dunque:Il 50-esimo percentile è la mediana

Il secondo quartile (Q2) è il valore mediano, ovvero il valore che divide i dati in due parti uguali.

Il 25-esimo percentile è anche detto primo quartile (Q1) ed è un valore tale che il 25% dei dati è inferiore o uguale a esso.

Il 75-esimo percentile si definisce terzo quartile (Q3) ed è un valore tale che il 75% dei dati è inferiore o uguale a esso.

Il rank di percentile si calcola come percentuale dei dati del campione pari o al di sotto del valore di interesse P = (b + e) / n, dove:

  • b = numero di valori al di sotto del valore di interesse
  • e = numero di valori uguale al valore di interesse
  • n = dimensione del campione

I quartili dividono l'insieme dei dati in quattro parti uguali. La mediana divide i dati a metà e se si prende la metà di una metà si ottiene un quarto. È logico quindi che trovando la mediana di ciascuna delle due metà di dati si ottengono i quartili.

È indispensabile ordinare i dati in senso crescente.

DIFREQUENZASCARTO O DIFFERENZA INTERQUARTILE Indica l'ampiezza dell'intervallo che contiene il 50% centrale delle osservazioni. 5. analisi bivaritaria dei dati ANALISI BIVARIATA DEI DATI È un'analisi per dati qualitativi bivariati e per dati quantitativi bivariati. DATI QUALITATIVI BIVARIATI Quando si osservano i dati su due variabili associate, si possono organizzare attraverso una tabella a doppia entrata o tabella di contingenza. - Righe: si rappresentano i possibili valori (o categorie) x della prima variabile - Colonne: si rappresentano i possibili valori (o categorie) y della seconda variabile - Numeri: i dati nel corpo che rappresentano la frequenza o la percentuale di casi che corrispondono a una specifica combinazione di valori delle due variabili. DATI QUANTITATIVI BIVARIATI Quando si osservano i dati su due variabili quantitative, si possono rappresentare attraverso un diagramma di dispersione o scatterplot. - Asse x: si rappresentano i valori della prima variabile - Asse y: si rappresentano i valori della seconda variabile - Punti: i dati che rappresentano le osservazioni corrispondenti alle coppie di valori delle due variabili. L'analisi bivaritaria dei dati permette di studiare le relazioni tra due variabili e di individuare eventuali associazioni o dipendenze tra di esse.
Dettagli
Publisher
A.A. 2020-2021
49 pagine
1 download
SSD Scienze economiche e statistiche SECS-P/01 Economia politica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher davide97 di informazioni apprese con la frequenza delle lezioni di Elementi di economia e statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Udine o del prof Cavicchioli Daniele.