Che materia stai cercando?

Analisi dei dati - Terza parte

Appunti inerenti l'esame di Analisi dei dati del prof. Baragona riguardanti Osservazione, Distribuzione di quantità, Rappresentazioni grafiche, Grafici a torta, Grafici a Barre e a Nastri, Grafico a Barre Cumulate, Istogramma, Diagramma a canne d’organo e altro ancora.

Esame di Analisi dei dati docente Prof. R. Baragona

Anteprima

ESTRATTO DOCUMENTO

Analisi dei dati Rappresentazioni grafiche

Obiettivo: illustrare mediante figure, linee o

segmenti, superfici o aree, solidi, simboli

convenzionali una distribuzione di frequenza

o di intensità di un carattere in funzione

delle sue modalità in modo da rendere

maggiormente evidenti le caratteristiche del

carattere sul collettivo in esame

Per ogni distribuzione statistica e carattere

¾ statistico esiste il tipo di rappresentazione

grafica adatta

Analisi dei Dati - a.a.2004/2005 55

Grafici a torta (pie charts)

Qualsiasi tipo di carattere, in particolare mutabili

sconnesse

Distribuzioni semplici di quantità o di frequenza

Utili per rappresentare la composizione di un

aggregato

Forma

Fetta (o spicchio) o settore circolare della torta ↔

¾ una modalità del carattere

L’angolo al centro di uno

¾ ×

spicchio è proporzionale 360

n

n g

j j

= ⇔ =

g

alla frequenza con cui si 360 n

n

realizza la modalità ad

esso associata

Analisi dei Dati - a.a.2004/2005 56 2

Analisi dei dati Distribuzione degli studenti per

Lettura dei Quotidiani

Lettura n f p

quotidiani j j j

Si 150 0,530 53,0

No 133 0,470 47,0

Totale 283 1,000 100,0

Gli studenti e la lettura dei quotidiani Si

No

47% 53%

Analisi dei Dati - a.a.2004/2005 57

Grafici a Barre e a Nastri

Mutabili sconnesse e ordinate

Distribuzioni semplici di quantità o di frequenza

Ogni frequenza (assoluta, relativa o

percentuale) o intensità della distribuzione

viene rappresentata da una barra o da un

nastro Analisi dei Dati - a.a.2004/2005 58 3

Analisi dei dati …in particolare

Grafico a Barre

Successione di rettangoli verticali

¾ equidistanti aventi la stessa base e le

altezze proporzionali alle frequenze o alle

quantità della modalità corrispondente

Adatto a Mutabili Ordinate

¾

Grafico a Nastri

Rettangoli orizzontali sovrapposti aventi

¾ tutti la stessa altezza e le basi

proporzionali alle frequenze o quantità

della modalità corrispondente

Adatto a Mutabili Sconnesse

¾ Analisi dei Dati - a.a.2004/2005 59

Grafico a Barre per la distribuzione degli

studenti secondo la Soddisfazione della

Scelta Universitaria

Soddisfazione n f p

j j j

Per nulla 4 0,014 1,4

Poco 34 0,120 12,0

Abbastanza 185 0,654 65,4

Pienamente 60 0,212 21,2

Totale 283 1,000 100,0

La soddisfazione degli studenti

0,7

0,6

relativa 0,5

0,4

Frequenza 0,3

0,2

0,1

0,0 Per nulla Poco Abbastanza Pienamente

Soddisfazione

Analisi dei Dati - a.a.2004/2005 60 4

Analisi dei dati Grafico a Nastri per la distribuzione

degli studenti per Corso di Laurea

CDL n f p

j j j

STC 152 0,537 53,7

SCPO 124 0,438 43,8

SCOSV 7 0,025 2,5

Totale 283 1,000 100,0

Studenti per Corso di Laurea

SCOSV

Croso di SCPO

laurea STC

0,00 0,10 0,20 0,30 0,40 0,50 0,60

Frequenze relative

Analisi dei Dati - a.a.2004/2005 61

Grafico a Barre o a Nastri Multiplo

Mutabili sconnesse e ordinate

Rappresentazione contemporanea di più

distribuzioni semplici di quantità o di frequenza

dello stesso carattere osservato su collettivi

diversi

Per una medesima modalità si hanno tante

barre o nastri quanti sono i collettivi osservati

Utilità: confronto per ciascuna modalità tra le

diverse frequenze con cui tale modalità è stata

osservata nei differenti collettivi

Analisi dei Dati - a.a.2004/2005 62 5

Analisi dei dati Grafico a barre multiplo per la distribuzione

degli occupati per settore di attività economico

Rieti Lazio Centro Italia

Settore attività

economico n p n p n p n p

j j j j j j j j

Agricoltura 4259 7.7 61062 3.2 153751 3.6 1119939 5.3

Industria 11674 21.2 381062 19.9 1210506 28.5 6766928 32.1

Altre Attività 39239 71.7 1474073 76.9 2890296 67.9 13192918 62.6

55172 100.0 1916197 100.0 4254553 100.0 21079785 100.0

Tot. Occupati per settore di attività economica

100

percentuale 80

60

40

Frequenza 20

0 Agricoltura Industria Altre Attività

Rieti Lazio Centro Italia

Fonte: Istat, Indagine Trimestrale delle Forze Lavoro, 2000

Analisi dei Dati - a.a.2004/2005 63

Grafico a Barre Cumulate

Mutabili sconnesse e ordinate

Rappresentazione contemporanea di più

distribuzioni semplici di quantità o di frequenza

dello stesso carattere osservato su collettivi

diversi

Utilità: rappresentazione della composizione di

un aggregato (soprattutto in termini di valori

relativi o percentuali) e confronto di diversi

aggregati rispetto ad uno stesso carattere

Rappresentazione grafica costituita da un

rettangolo verticale (barra) suddiviso in tante

parti (rettangolini) quante sono le modalità del

carattere osservato

Analisi dei Dati - a.a.2004/2005 64 6

Analisi dei dati Grafico a barre cumulate per la distribuzione

degli occupati per settore di attività economico

Rieti Lazio Centro Italia

Settore attività

economico n p n p n p n p

j j j j j j j j

Agricoltura 4259 7.7 61062 3.2 153751 3.6 1119939 5.3

Industria 11674 21.2 381062 19.9 1210506 28.5 6766928 32.1

Altre Attività 39239 71.7 1474073 76.9 2890296 67.9 13192918 62.6

55172 100.0 1916197 100.0 4254553 100.0 21079785 100.0

Tot. O c c u p a ti p e r s e tto re d i a ttiv ità e c o n o m ic a

100%

90%

80%

70%

60%

50%

40%

30%

20%

10%

0% R ie t i L a z io C e n t ro It a lia

A g ric o lt u ra In d u s t ria A lt re A t t ivit à

Fonte: Istat, Indagine Trimestrale delle Forze Lavoro, 2000

Analisi dei Dati - a.a.2004/2005 65

Istogramma

Distribuzione di frequenza di caratteri

quantitativi, in particolare variabili continue

raggruppate in classi

Consiste nel riportare tanti rettangoli contigui

quante sono le classi

Il rettangolo associato ad una generica classe

ha uguale (o proporzionale) all’ampiezza

¾base

della classe corrispondente

totale uguale o proporzionale alla

¾area

frequenza (assoluta o relativa o

percentuale) corrispondente

Analisi dei Dati - a.a.2004/2005 66 7

Analisi dei dati Costruzione di un istogramma

Le classi di modalità possono avere ampiezza

differente (x , x )

Si consideri la generica j-esima classe j-1 j

Il rettangolo che rappresenta tale classe ha

Base = ampiezza della classe

¾ = −

a x x −

j j j 1

Altezza = densità media di frequenza

¾ n f p

j

= j j

d o o

= =

d d

j j j

a a a

j j j

o o )

Area = frequenza (

n f p

¾ j j j

Analisi dei Dati - a.a.2004/2005 67

Esempio: Popolazione per classi di età

nella provincia di Rieti (anno 2000)

Classi di età n f p a d

j j j j j

(0, 14] 20.451 0,13 13,5 14 0,010

(14, 64] 97.793 0,65 64,7 50 0,013

64 e oltre 32.999 0,22 21,8 56 0,004

(64,120]

Totale 151.243 1,00 100,0

Densità media di

frequenza d 2

d 1 f 2

f 1

d 3 f 3 Eta’

0 14 64 120

Analisi dei Dati - a.a.2004/2005 68 8

Analisi dei dati Esempio

n f p a d

Classe di età j j j j j

30-39 6 0.30 30 10 0.60

[30 , 40)

40 - 49 3 0.15 15 9 0.33

[40 , 49]

50 - 59 7 0.35 35 10 0.70

(49 , 59]

60 ed oltre 4 0.20 20 21 0.19

(59, 80]

Totale 20 1.00 100

La classe “60 e oltre” è

stata chiusa a 80 Analisi dei Dati - a.a.2004/2005 69

Diagramma a canne d’organo

Distribuzione di frequenza di caratteri

quantitativi discreti non raggruppati in classi

Consiste nel riportare tanti segmenti

distanziati quante sono le modalità numeriche

Il segmento associato ad una generica

modalità numerica

posizionato sull’asse delle ascisse in

¾è

corrispondenza del numero osservato per

la modalità a cui è associato

altezza uguale o proporzionale alla

¾ha

frequenza (assoluta o relativa o

percentuale) corrispondente

Analisi dei Dati - a.a.2004/2005 70 9

Analisi dei dati Esempio n f p

Num. Corsi Freq. j j j

1 15 0,053 5,3

2 43 0,152 15,2

3 103 0,364 36,4

4 80 0,283 28,3

5 32 0,113 11,3

6 8 0,028 2,8

7 2 0,007 0,7

Totale 283 1,000 100,0

Distribuzione degli studenti per Numero di Corsi

frequentati

120

100

assoluta 80

60

Frequenza 40

20

0 1 2 3 4 5 6 7

Numero Corsi Frequentati

Analisi dei Dati - a.a.2004/2005 71

Cartogramma

Adatto alla rappresentazione di serie

territoriali, ossia mutabili o variabili riferite a

luoghi, territori, zone geografiche o

amministrative.

Occorre disporre di una carta geografica o

topografica con zone (ad es. regioni,

circoscrizioni politiche, geografiche,

amministrative, etc.) rispetto alle quali

viene analizzata l’intensità o la frequenza di

uno o più caratteri (ad es. livelli di

inquinamento, reddito pro-capite, nati,

morti, etc.). Analisi dei Dati - a.a.2004/2005 72 10

Analisi dei dati Serie territoriale del tasso di

disoccupazione del 2003

Tasso

Territorio disoccupazione Regioni italiane

Piemonte 5,10 Tasso disoccupazione

Valle d'Aosta 3,65 18,5 a 24,6 (3)

Lombardia 3,81 14 a 18,5 (3)

6,2 a 14 (3)

Trentino Alto Adige 2,57 4,8 a 6,2 (4)

Veneto 3,40 3,8 a 4,8 (2)

Friuli Venezia Giulia 3,71 2,5 a 3,8 (5)

Liguria 6,36

Emilia Romagna 3,30

Toscana 4,84

Umbria 5,69

Marche 4,43

Lazio 8,59

Abruzzo 6,17

Molise 12,58

Campania 21,14

Puglia 13,97

Basilicata 15,35

Calabria 24,59

Sicilia 20,10

Sardegna 18,46 Fonte: Istat, Indagine Trimestrale delle Forze Lavoro, 2003

Italia 9,02

Analisi dei Dati - a.a.2004/2005 73

Serie territoriale del PIL dell’anno 1992

Regione PIL

Piemonte 29.964

Valle d'Aosta 32.685

Lombardia 32.875

Trentino AA 32.136

Veneto 30.067

Friuli VG 30.617

Liguria 30.145

Emilia R 32.065

Toscana 27.718

Umbria 24.422

Marche 27.397

Lazio 30.183

Abruzzo 22.756 Distribuzione del PIL (in migliaia) nel 1992.

Molise 18.721 32.100 a 32.900 (3)

Campania 17.512 30.100 a 32.100 (4)

24.400 a 30.100 (5)

Puglia 18.826 17.700 a 24.400 (4)

1.100 a 17.700 (4)

Basilicata 15.744

Calabria 1.149

Sicilia 17.721 Fonte: Istat, Compendio Statistico Italiano, 1995

Sardegna 15.290 Analisi dei Dati - a.a.2004/2005 74 11

ANALISI DEI DATI

Negli anni sessanta compaiono libri e articoli nei quali si parla di

“analisi dei dati” da punti di vista differenti

J. P. Benzecri (Univ. De Paris VI) introduce il termine con riferimento in

primo luogo all’analisi delle corrispondenze (AFC: analyse factorielle

des correspondences) ma anche a tecniche per l’analisi di dati

multidimensionali quali l’analisi in componenti principali, l’analisi

fattoriale, l’analisi dei gruppi (cluster analysis). I metodi proposti fanno

spesso riferimento a rappresentazioni geometriche dei dati e si

contrappongono ai metodi della statistica matematica.

John Tukey (Princeton University) sviluppa sotto il nome di EDA

(exploratory data analysis), tecniche per identificare le caratteristiche

di maggiore interesse in un insieme di dati (rappresentazioni grafiche,

analisi dei residui (il dato è somma di una stima della misura e di un

errore residuo), dati anomali, trasformazioni per verificare la linearità

dei dati) L’analisi è essenzialmente univariata. 1

DATA MINING

Processo di estrazione di conoscenza da banche dati di grandi dimensioni

tramite l'applicazione di algoritmi che individuano le associazioni "nascoste"

tra le informazioni e le rendono visibili.

In altre parole, col nome data mining si intende l'applicazione di una o più

tecniche che consentono l'esplorazione di grandi quantità di dati, con

l'obiettivo di individuare le informazioni più significative e di renderle

disponibili e direttamente utilizzabili nell'ambito del decision making.

L'estrazione di conoscenza (informazioni significative) avviene tramite

individuazione delle associazioni, o "patterns", o sequenze ripetute, o

regolarità, nascoste nei dati. In questo contesto un "pattern" indica una

struttura, un modello, o, in generale, una rappresentazione sintetica dei dati.

Il termine data mining è utilizzato come sinonimo di knowledge discovery in

databases (KDD), anche se sarebbe più preciso parlare di knowledge

discovery quando ci si riferisce al processo di estrazione della conoscenza, e

di data mining come di una particolare fase del suddetto processo 2

ANALISI DEI DATI

OBIETTIVO: fornire concetti e strumenti utili

per evidenziare gli aspetti salienti

dell’informazione disponibile e per

quantificare la forza dei suggerimenti che

da essi si possono ragionevolmente trarre

INFORMAZIONE: espressa in forma

codificata e non – ambigua (valori numerici,

categorie, ecc.) --Æ DATI 3

STATISTICA

DEFINIZIONE: metodologia che ha come

scopo la conoscenza quantitativa dei

fenomeni collettivi, ossia dei fenomeni il cui

studio richiede l’osservazione di un insieme

di manifestazioni individuali

FENOMENI COLLETTIVI

---- relativi ad una collettività di casi singoli

---- relativi ad una collettività di osservazioni

di un solo caso o fenomeno 4

…. SENZA STATISTICA

-Æ impressioni qualitative dei fenomeni

statura M > statura F

nozze tra persone entrambe giovani o

entrambe anziane

-Æ Errori

osservazione di una parte del fenomeno

proporzione 1:10 di M e F in una

specie di animali

impressione distorta

nascono più femmine che maschi 5

CAMPI DI APPLICAZIONE DELLA STATISTICA

Quasi tutte le scienze fanno ricorso alla statistica

-- scienze che studiano aspetti differenti dei fenomeni

collettivi . Esempio : demografia, sociologia,

psicologia sociale

-- scienze sperimentali: fisica, chimica e astronomia

OBIETTIVO: analisi e conoscenza di problemi attinenti

----------- la ricerca di fattori che influiscono su un

fenomeno

----------- la ricerca di relazioni che legano i fenomeni

----------- la previsione di uno o più fenomeni tra loro

collegati 6

CONTENUTO ATTUALE DELLA STATISTICA

OSSERVAZIONE TOTALE DEL COLLETTIVO

schematizzazione

Æ osservazione

Æ descrizione

Æ

OSSERVAZIONE PARZIALE DEL COLLETTIVO

schematizzazione

Æ formulazione delle ipotesi

Æ osservazione

Æ descrizione

Æ induzione

Æ 7

L’INDAGINE STATISTICA

OBIETTIVO: conoscenza di una

popolazione intesa come insieme di unità

elementari su cui si manifesta il fenomeno

da studiare

FASI di rilevazione

ÆPiano dati

ÆRaccolta e spoglio dei dati

ÆClassificazione

dei dati ------|

ÆElaborazione dei risultati ------|

ÆInterpretazione Æ

ANALISI DEI DATI 8

PIANO DI RILEVAZIONE

OBIETTIVO: definizione del problema da

analizzare in tutti i suoi aspetti

del metodo di rilevazione

ÆScelta

ÆLista di rilevazione

ÆEpoca degli strumenti e delle modalità

ÆDefinizione

di diffusione dei risultati

e costi

ÆTempi 9

METODI DI RILEVAZIONE

DIRETTO

ÆCensimento

ÆCampione

CATI, indagine postale

ÆCAPI,

INDIRETTO

dati

ÆBase

OSSERVAZIONE SPERIMENTALE

osservazionale

ÆStudio sperimentale

ÆStudio 10

LISTA

COMPLETA

deve contenere tutte le unità della

popolazione

ESATTA

le unità della lista individuano

univocamente le unità della popolazione

AGGIORNATA

non devono essere presenti unità che

non fanno più parte della popolazione di

riferimento 11


PAGINE

47

PESO

926.18 KB

AUTORE

nadia_87

PUBBLICATO

+1 anno fa


DETTAGLI
Corso di laurea: Corso di laurea in scienze e tecnologie della comunicazione (POMEZIA, ROMA)
SSD:
A.A.: 2012-2013

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher nadia_87 di informazioni apprese con la frequenza delle lezioni di Analisi dei dati e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università La Sapienza - Uniroma1 o del prof Baragona Roberto.

Acquista con carta o conto PayPal

Scarica il file tutte le volte che vuoi

Paga con un conto PayPal per usufruire della garanzia Soddisfatto o rimborsato

Recensioni
Ti è piaciuto questo appunto? Valutalo!

Altri appunti di Analisi dei dati

Analisi dei dati  - Esercizi
Esercitazione
Analisi dei dati - nozioni generali
Appunto
Analisi dei dati - Prima parte
Appunto
Analisi dei dati - Seconda parte
Appunto