Che materia stai cercando?

Anteprima

ESTRATTO DOCUMENTO

• Se il numero di osservazioni è pari, la mediana è la media delle osservazioni che occupano

n n +1

le posizioni e .

2 2

Nel caso di una popolazopne la determinazione della mediana segue le stesse logiche, con l’unica

accortezza di sostituire n con N.

In casi in cui i caratteri sono misurati con scale ordinali e quando la posizione mediana ricade tra

due categoria distinte, si parla di mediana indefinita o indeterminata.

3.1.3 S ’

PIEGARE CHE COSA S INTENDE PER STATISTICA ROBUSTA

Per calcolare la media e la mediana con Excel si segue il seguente procedimento:

Step 1:inserite i dati nella colonna A.

Step 2:selezionate Analisi dati dal menu Strumenti.

Step 3:selezionate Statistica descrittiva nella finestra Analisi dati, e fate clic su OK.

Step 4:con il cursore dentro la finestra, utilizzate il mouse per selezionare i dati nella colonna A.

Step 5:selezionate l’opzione Riepilogo statistiche e fate clic su OK.

Mentre la media è sensibile a valori estremi, la mediana non lo è. Poiché i valori estremi non

influenzano il valore della mediana, si dice che la mediana è robusta.

Una misura di sintesi di una distribuzione si dice robusta se non risulta particolarmente sensibile ai

valori estremi (i valori molto grandi o molto piccoli).

Relazione tra media, mediana e forma della distribuzione

Forma della distribuzione Media e mediana

Asimmetria a sinistra Media più piccola della mediana

Simmetria Media e mediana sostanzialmente uguali

Asimmetria a destra Media più grande della mediana

3.1.4 C

ALCOLARE LA MODA

La moda di una variabile è l’osservazione che si presenta, all’interno della distribuzione esaminata,

con la frequenza più alta.

Le distribuzioni possono non avere moda, avere una sola moda o più di una moda. Se nessuna

osservazione si presenta più di una volta, si dice che la distribuzione non ha moda.

Una distribuzione può avere più di una moda: in questo caso, la distribuzione si dice bimodale.

Se una distribuzione ha tre o più valori che si presentano con la stessa frequenza più alta, la

distribuzione si dice multimodale. La moda di una distribuzione multimodale normalmente non

viene riportata perché non è rappresentativa di alcun valore tipico.

3.2 M ISURE DI DISPERSIONE

Oltre a calcolare le misure di tendenza centrale di una variabile, è possibile anche considerare

l’ammontare di dispersione della variabile. Per dispersione si intende il grado di variabilità dei dati.

3.2.1 C ’

ALCOLARE L INTERVALLO DI VARIAZIONE

La misura più semplice di dispersione è l’intervallo di variazione. Per poter calcolare l’intervallo di

variazione i dati devono essere quantitativi.

L’intervallo di variazione (o range), R, di una distribuzione è dato dalla differenza tra l’intensità

(valore) più grande e l’intensità più piccola.

Intervallo di variazione=R=Intensità più grande−Intensità più piccola

Si noti che l’intervallo di variazione è influenzato dai valori estremi della distribuzione, quindi

l’intervallo di variazione non è robusto.

3.2.2 C

ALCOLARE LA VARIANZA

La varianza misura la distanza media di ciascuna osservazione dalla media artitmetica. La

varianza si basa sulla deviazione della media. Quanto più un’osservazione è distante della media,

tanto più alta sarà la deviazione in valore assoluto.

La somma di tutte le deviazione dalla media è uguale a zero. Cioè:

x ∑

i−μ)=0

(¿¿ x x

( )

− ́ =0

e i

∑ ¿

In altre parole, le osservazioni al di sopra della media sono compensate dalle osservazioni al di

sotto della media. Tuttavia, se si eleva al quadrato una quantità diversa da zero, si ottiene un

valore positivo e quindi si utilizza la deviazione media al quadrato.

La varianza della popolazione di una variabile è la somma delle deviazione al quadrato della media

della popolazione diviso per il numero di osservazioni nella popolazione, N. La varianza della

2

σ

popolazione si indica con ( che si legge “sigma al quadrato”).

2

∑ x

( )

−μ

i

2

σ = N

La varianza del campione è calcolata usando i dati del campione.

La varianza del campione si ottiene calcolando la somma delle deviazioni al quadrato della media

del campione e dividendo il risultato ottenuto per n – 1. La formula è la seguente:

∑ 2

x x

́

( − )

2 i

s = n−1

Notiamo che la varianza del campione si ottiene dividendo per n – 1, non per n. se si dividesse per

n, la varianza del campione sottostimerebbe la varianza della popolazione. Ogni volta che una

statistica sovrastima o sottostima costantemente un parametro della popolazione viene detta

distorta. Uno stimatore distorto è uno stimatore che sottostima o sovrastima costantemente un

parametro.

Siccome dividere per n comporta una sottostima, allora si divide per un numero più piccolo in

modo da aumentare la stima.

La quantità n – 1 è definita gradi di libertà perché le prime n – 1 osservazioni sono libere di

assumere qualsiasi valore, a differenza dell’n-esima osservazione. Infatti, quest’ultima deve

necessariamente assumere quel valore che forza a zero la somma delle deviazioni della media.

3.2.3 C ( )

ALCOLARE LO SCARTO QUADRATICO MEDIO DEVIAZIONE STANDARD

σ

La deviazione standard di una popolazione, , si ottiene ponendo sotto radice quadrata la

varianza della popolazione. Cioè:

√ 2

σ σ

=

La deviazione standard di un campione, s, si ottiene ponendo sotto radice quadrata la variazione

del campione. Cioè:

√ 2

s= s

I NTERPRETAZIONE DELLA DEVIAZIONE STANDARD

La media fornisce una misura di tendenza centrale della distribuzione, mentre la deviazione

standard misura la dispersione della distribuzione.

Se si stanno confrontando due popolazioni, quanto maggiore è la deviazione standard, tanto

maggiore è la dispersione di una distribuzione, sempre che la variabile di interesse sia espressa

nella stessa unità di misura in entrambe le popolazioni.

3.3 M ISURE DI TENDENZA CENTRALE E DI DISPERSIONE PER DATI RAGGRUPPATI IN CLASSI

3.3.1 A PPROSSIMARE LA MEDIA PER LA DISTRIBUZIONE IN CLASSI

Poiché non è possibile risalire ai dati unitari a partire da una distribuzione di frequenza in classi, si

assume che ciascuna classe possa essere sintetizzata da un valore centrale. Il valore centrale si

trova sommando l’estremo inferiore di due classi adiacenti e dividendo il risultato per due. Una

volta calcolato il valore centrale di ciascuna classe, si moltiplica il valore centrale per la frequenza

di classe. Si ripete questo procedimento per ciascuna classe e si sommano i risultati.

Questa somma è un’approssimazione del totale di tutte le osservazione, e per calcolare la media

va divisa per il totale delle frequenze.

In sintesi, la formula da applicare è la seguente:

k

∑ vc n

i i

i=1

μ= x

́ = k

∑ n

i

i=1

P RIMA PROPRITÀ

La prima proprietà della media aritmetica dice che “la somma degli scarti tra la media è sempre

pari a 0”. Ciò può essere sintetizzato dalla seguente formula:

k

∑ x

( −μ)=0

i

i=1

T :

ERZA PROPRITÀ PROPRIETÀ ASSOCIATIVA

La media di ogni singolo gruppo moltiplicata per la propria numerosità e sommato alla media del

gruppo successivo moltiplicata per la propria numerosità, dà lo stesso risultato della media dalla

dalla somma di tutti i dati a disposizione.

3.3.2 C

ALCOLARE LA MEDIA PESATA

Talvolta, esistono dati che hanno una maggiore importanza (o peso) di altri nella stessa

distribuzione statistica. In questo caso si calcola la media pesata.

x

́

La media pesata, , di una variabile si trova moltiplicando ciascun valore della variabileper il

w

corrispondente peso, sommando questi prodotti e dividendo il risultato per la somma dei pesi.

∑ w x

i i

x

́ =

w ∑ w i

Dove w è il peso della i-esima osservazione e x è il valore assunto dalla i-esima osservazione.

i i

3.4 M ISURE DI POSIZIONE E OUTLIER

3.4.2 I

NTERPRETARE I PERCENTILI

Il k-esimo percentile, denotato con P , di una distribuzione è quel valore tale per cui k per cento

k

delle osservazioni cadono al di sotto di (o sono uguali a) esso.

Quindi i percentili dividono una distribuzione ordinata in senso crescente in 100 parti; in questo

modo, si possono definire 99 percentili.

I percentili sono utilizzati per indicare la posizione relativa occupata da una osservazione.

3.4.3 D

ETERMINARE E INTERPRETARE I QUARTILI

I quartili dividono una distribuzione in quarti, o quattro parti uguali.

Il primo quartile, Q , è equivalente al 25 percentile, P .

1 25

Il secondo quartile, Q , è equivalente al 50 percentile, P , che a sua volta è equivalente alla

2 50

mediana, M. ⁰

Il terzo quartile, Q , è equivalente al 75 percentile, P .

3 75

Per trovare i quartili è necessario seguire i seguenti passaggi:

Step 1:organizzare i dati in ordine crescente.

Step 2:determinare la mediana, M, o il secondo quartile Q .

2

Step 3:determinare il primo e il terzo quartile, Q e Q , dividento i dati in due parti: la prima parte

1 3

conterrà le osservazioni sotto la (o a sinistra della) mediana, mentre la seconda parte

conterrà le osservazioni sopra la (o a destra della) mediana. Il primo quartile corrisponde

alla mediana della prima metà delle osservazioni che assumono valore più basso, mentre il

terzo quartile corrisponde alla mediana della metà delle osservazioni che assumono valore

più alto.

Per determinare i quartili con Excel è necessario seguire il seguente procedimento:

Step 1:Inserire i dati grezzi nella colonna A.

Step 2:Verificare che il pacchetto degli Strumenti di analisi sia attivato. Aprire il menu Strumenti e

selezionate Analisi dati.

Step 3:Selezionate Rango e percentile e fate clic su OK.

Step 4:Con il cursore dentro il riquatro Intervallo di input, selezionate i dati nella colonna A e fate

clic su OK.

3.4.4 D ’

ETERMINARE E INTERPRETARE L INTERVALLO INTERQUARTILE

L’intervallo interquartile, IQR, è l’intervallo che contiene il 50% delle osservazioni centrali. Cioè

l’IQR è la differenza tra il terzo e il primo quartile e si trova applicando la formula seguente:

IQR=Q −Q

3 1

Se la distribuzione presenta una forte asimmetria o se contiene valori estremi, è meglio utilizzare

l’intervallo interquartile come misura di dispersione perché è robusto.

Riassunto: quale misura utilizzare

Forma della distribuzione Misure di tendenza centrale Misure di dispersione

Simmetrica Media Deviazione standard

Asimmetrica (positiva o Mediana Intervallo interquartile

negativa)

3.4.5 C

ONTROLLARE LA PRESENZA DI OUTLIER IN UNA DISTRIBUZIONE

Ogni volta che si conducono analisi statistiche è necessario controllare la presenza o meno di

valori molto distanti da quelli che caratterizzano la distribuzione. I valori estremi sono anche noti

come outlier. Essi si possono essere dovuti a:

• Cattiva trascrizione di una risposta

• Unione di distribuzioni con caratteristiche diverse

• Oppure anche casualmente; qualche volta, infatti, è normale che esistano valori estremi in

una popolazione.

Per controllare la presenza di outlier, utilizziamo i quartili seguendo questi step.

Step 1:determinare il primo e il terzo quartile della distribuzione.

Step 2:calcolare l’intervallo interquartile.

Step 3:determinare i limiti. I limiti servono per determinare gli outlier.

Limite inferiore=Q IQR)

−1.5 (

1

Limite superiore=Q IQR

( )

−1.5

3

Step 4:se una osservazione è più piccola del limite inferiore o più grande del limite superiore,

allora viene considerata un outlier.

3.5 I CINQUE NUMERI DELLA STATISTICA E I BOXPLOT

Le minure di sintesi rendono l’esplorazione molto più facile. Queste misure sono state chiamate,

da un famoso statistico di nome John Tukey, analisi esplorativa dei dati.

3.5.1 D 5

ETERMINARE LA SINTESI DEI NUMERI

La mediana, il primo quartile e il terzo quartile non forniscono informazioni sui valori estremi

presenti nella distribuzione. Per avere anche quest’ultima informazione è necessario considerare

l’osservazione più piccola e l’osservazione più grande di una distribuzione.

La sintesi dei 5 numeri di una distribuzione coinvolge l’osservazione più piccola, il primo quartile, la

mediana, il terzo quartile e l’osservazione più grande di una distribuzione. In simboli:

MinimoQ M Q Massimo

1 3

3.5.2 R

APPRESENTARE E INTERPRETARE I BOXPLOT

La sintesi dei 5 numeri può essere utilizzata per rappresentare i boxplot. Lo scopo di tale

rappresentazione è analizzare la forma della distribuzione e scovare i valori anomali.

Per rappresentare un boxplot è necessario seguire tali step.

Step 1:determinare limite inferiore e il limite superiore (vedi sopra).

Step 2:a partire dai punti Q , M, Q , tracciamo 3 linee verticali; uniamo queste linee verticali in un

1 3

rettangolo (o anche scatola o box).

Step 3:indichiamo i limiti inferiore e superiore, rispettivamente a sinistra e a destra della scatola.

Step 4:tracciamo una linea da Q fino all’osservazione più piccola immediatamente maggiore del

1

limite inferiore. Tracciamo una linea da Q fino all’osservazione più grande immediatamente

3

inferiore del limite superiore. Queste linee sono chiamate baffi.

Step 5:ogni osservazione più piccola del limite inferiore o più grande del limite superiore è

considerata un outlier e viene marcata con un asterisco (*).

U TILIZZARE I BOXPLOT E I QUARTILI PER DESCRIVERE LA FORMA DI UNA DISTRIBUZIONE

• La prima figura mostra una distribuzione che presenta un asimmetria negativa. Si noti

come la mediana si trovi alla destra del centro del box e come il baffo di sinistra sia più

lungo del baffo di destra. Si noti inoltre che la distanza tra la mediana e il primo quartile è

maggiore della distanza tra la mediana e il terzo quartile. Inoltre, la distanza tra la mediana

e il minimo valore della distribuzione è maggiore della distanza tra la mediana e il massimo

valore della distribuzione.

• La figura centrale mostra una distribuzione simmetrica. Si noti che che la mediana occupa

la posizione centrale del box, e che il baffo di destra e il baffo di sinistra hanno la stessa

lunghezza. Si noti inoltre che la distanza tra la mediana e il primo quartile è uguale alla

fistanza tra la mediana e il terzo quartile. Inoltre, la distanza tra la mediana e il minimo

valore della distribuzione è uguale alla distanza tra la mediana e il massimo valore della

distribuzione.

• L’ultima figura mostra una distribuzione che presenta una asimmetria positiva. Si noti come

la mediana si trovi alla sinistra del centro del box e come il baffo di detra sia più lungo del

baffo di sinistra. Si noti inoltre che la distranza tra la mediana e il primo quartile è minore

della distanza tra la mediana e il terzo quartile. Inoltre, la distanza tra la mediana e il

minimo valore della distribuzione è minore della distanza tra la mediana e il massimo valore

della distribuzione.

C 4 – D

APITOLO ESCRIVERE LA RELAZIONE TRA DUE VARIABILI

4.1 G RAFICO A DISPERSIONE E CORRELAZIONE

La variabile risposta o dipendente indica la variabile i cui valori possono essere spiegati attraverso

i valori della variabile esplicativa o indipendente (in alcuni casi si usa anche il termine predittore).

4.1.1 D

ISEGNARE E INTERPRETARE I DIAGRAMMI A DISPERSIONE

Il primo passo per identificare il tipo di relazione esistente tra due variabili consiste nella loro

rappresentazione grafica attraverso il diagramma a dispersione (scatterplot).

Un punto in un piano a due dimensioni è espresso attraverso due coordinate x e y: nella

costruzione di un diagramma a dispersione la variabile esplicativa è riportata sull’asse orizzontale

(x) e la variabile risposta su quello verticale (y).

Il diagramma a dispersione è un grafico che mostra la relazione tra due variabili quantitative

misurate sul medesimo individuo. Ciascun soggetto nel campione o nella popolazione o in termini

generali presente nel dataset è rappresentato da un punto nel diagramma a dispersione.

Il ricercatore deve determinare quali variabili svolgono il ruolo di variabili esplicative in base alla

domanda a cui vuole rispondere con l’analisi intrapresa.

I diagrammi a dispersione mostrano il tipo di relazione esistente tra due variabili. Il nostro obiettivo

quando interpretiamo un grafico a dispersione è quello di saper distinguere tra i grafici a

dispersione quelli che evidenziano una relazione lineare da quelli che implicano o una relazione

non linere o l’assenza di relazione tra le variabili.

Due variabili linearmente dipendenti si dicono concordanti se ai valori superiori alla media di una

variabile corrispondono valori superiori alla media dell’altra variabile oppure se ai valori inferiori alla

media di una variabile corrispondono valori sotto la media dell’altra variabile. Quindi si parla di

variabili concordanti se, aumentando (o diminuendo) i valori di una variabile, aumentano (o

diminuiscono) anche i valori dell’altra.

Due variabili linearmente dipendenti si dicono discordanti se ai valori superiori alla media di una

variabile corrispondono valori sotto la media dell’altra variabile oppure se ai valori inferiori alla

media di una variabile corrispondono valori sopra la media dell’altra variabile. Quindi, si parla di

variabili discordanti se, aumentando il valore di una variabile, diminuisce il valore dell’altra.

4.1.2 P

ROPRIETÀ DEL COEFFICIENTE DI CORRELAZIONE LINEARE

Il diagramma a dispersione è un valido strumento grafico per esplorare la relazione esistente tra

due variabili. Tuttavia, il solo utilizzo non sempre risulta adeguato, considerando le insidie che si

celano nelle rappresentazioni grafiche.

Bisogna quindi fare molta attenzione perché, come è possibile manipolare la scala dei grafici per i

dati univariati, allo stesso modo è possibile manipolare le scale dei grafici per i dati bivariti,

rischiando di indurre il lettore a trarre conclusioni errate. Per questo motivo, risulta importante

utilizzare, assieme ai grafici, alcune sintesi numeriche dei dati bivariati.

Il coefficiente di correlazione lineare, detto anche coefficiente di correlazione di prodotto-momento

di Pearson, è una misura dell’intensità e della direzione della relazione lineare esistente tra le due

ρ

variabili quantitative. Utilizziamo la lettera greca (rho) per rappresentare il coefficiente di

correlazione della popolazione ed r pr il coefficiente di correlazione campionario. La formula per il

coefficiente di correlazione campionario è la seguente:

x x y y

( )( )

− ́ − ́

∑ i i

s s

x y

r= n−1

Il coefficiente di correlazione lineare della popolazione è:

x y

( )( )

−μ −μ

i x i y

∑ s s

x y

r= N

P ROPRIETÀ DEL COEFFICIENTE DI CORRELAZIONE LINEARE

• Il coefficiente di correlazione lineare è sempre compreso tra – 1 e 1, estremi inclusi; per cui

≤ ≤

– 1 r 1.

• Se r = +1, allora esiste una perfetta relazione lineare positiva tra le due variabili, come

mostrato nella Figura (a).

−¿

• Se r = 1, allora esiste una perfetta relazione lineare negativa tra le due variabili,

come mostrato nella Figura (d).

• Più il valore di r si avvicina a +1, più forte diventa la concordanza tra le due variabili, come

mostrato nelle Figure (b) e (c). –

• Più il valore di r si avvicina a 1, più forte diventa la discordanza tra le due variabili,

come mostrato nelle Figure (e) e (f).

• Se il valore di r è vicino a 0, allora la relazione lineare tra le due variabili è molto debole

(addirittura nulla quando r = 0). Poiché il coefficiente di correlazione lineare è una misura

dell’intensità della relazione lineare, il fatto che r sia pari a 0 non implica l’assenza di

una relazione tra le variabili, ma solo l’assenza di una relazione lineare, come

mostrato nelle Figure (g) e (h).

• Il corefficiente di correlazione lineare è una misura pura della concordanza esistente tra

due variabili che non ha unità di misura, per cui l’unità di misura di x e y non influenzano

l’interpretazione di r.

• Il coefficiente di correlazione lineare non è robusto: una sola osservazione che non segue

l’andamento generale dei dati può incidere notevolmente sul valore del coefficiente di

correlazione lineare.

4.1.3 C

ALCOLARE E INTERPRETARE IL COEFFICIENTE DI CORRELAZIONE LINEARE

C E

OSTRUIRE UN DIAGRAMMA A DISPERSIONE CON XCEL

Step 1:inserire i dati della variabile esplicativa nella colonna A e quelli della variabile risposta nella

colonna B.

Step 2:selezionate i due insiemi di dati e poi fate clic sull’icona per la creazione guidata del grafico.

Step 3:selezionate il tipo di grafico a dispersione.

Step 4:fate clic su Fine.

O E

TTENERE IL COEFFICIENTE DI CORRELAZIONE LINEARE CON XCEL


ACQUISTATO

2 volte

PAGINE

23

PESO

289.80 KB

AUTORE

vevve-.-

PUBBLICATO

+1 anno fa


DETTAGLI
Corso di laurea: Corso di laurea in Relazioni pubbliche e comunicazione d'impresa
SSD:

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher vevve-.- di informazioni apprese con la frequenza delle lezioni di Statistica e ricerche di mercato e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Libera Università di Lingue e Comunicazione - Iulm o del prof Zavarrone Emma.

Acquista con carta o conto PayPal

Scarica il file tutte le volte che vuoi

Paga con un conto PayPal per usufruire della garanzia Soddisfatto o rimborsato

Recensioni
Ti è piaciuto questo appunto? Valutalo!

Altri appunti di Statistica e ricerche di mercato

Ricerche di mercato, appunti
Appunto
Ricerche di mercato Domande
Appunto
Riassunto esame Statistica prof.Zavarrone
Appunto
Riassunto esame Marketing, prof. Pellegrini, libro consigliato Marketing, Kerin, Hartley, Rudelius, Pellegrini
Appunto