Estratto del documento

Facoltà di Scienze della Comunicazione

Corsi di laurea in Scienze e Tecnologie della Comunicazione

Corso di laurea in Comunicazione Pubblica e Organizzativa
Analisi dei Dati
Dispense a cura di Roberto Baragona e Laura Bocci
Analisi dei Dati
Dispense a cura di R. Baragona e L. Bocci

Indice

  • Capitolo 1. Introduzione all’analisi dei dati
    • 1.1 Origini storiche ed evoluzione della statistica
    • 1.2 Servizio Statistico Nazionale
    • 1.3 Le statistiche internazionali
    • 1.4 Le basi dati
    • 1.5 L’indagine statistica
  • Capitolo 2. La struttura dei dati
    • 2.1 Unità statistiche, popolazione e caratteri
    • 2.2 Distribuzioni statistiche e tabelle
  • Capitolo 3. Eventi e probabilità
    • 3.1 Eventi
    • 3.2 Definizione di probabilità
    • 3.3 I numeri casuali
    • 3.4 La distribuzione binomiale
    • 3.5 La distribuzione normale
    • 3.6 Il campionamento
  • Capitolo 4. Medie e variabilità
    • 4.1 Indici medi, di posizione e di dimensione
    • 4.2 La media aritmetica
    • 4.3 La media campionaria: stima della media di un carattere
    • 4.4 Indici di variabilità
    • 4.5 La varianza
    • 4.6 Intervalli di confidenza
    • 4.7 I test delle ipotesi
  • Capitolo 5. Rappresentazioni grafiche
    • 5.1 Rappresentazioni grafiche per distribuzioni semplici
    • 5.2 Rappresentazioni grafiche per distribuzioni doppie
    • 5.3 Rappresentazioni grafiche per serie storiche
  • Capitolo 6. Analisi dell’associazione tra caratteri qualitativi
    • 6.1 Analisi preliminare delle tabelle a doppia entrata
    • 6.2 Misure di associazione per caratteri qualitativi
  • Capitolo 7. Analisi multivariata: correlazione e regressione
    • 7.1 Il modello di correlazione
    • 7.2 Il modello di regressione
    • 7.3 Regressione semplice da una rilevazione parziale
    • 7.4 Regressione con più variabili indipendenti
    • 7.5 Regressione multipla da una rilevazione parziale
  • Capitolo 8. Componenti principali
  • Appendice. Note sugli autori citati nel testo
  • Nota bibliografica

Capitolo 1

Introduzione all’analisi dei dati

Le moderne tecniche di archiviazione delle informazioni su supporto magnetico consentono di disporre di una enorme quantità di dati estremamente dettagliati. L’analisi dei dati fornisce concetti e strumenti per evidenziare gli aspetti salienti della mole di informazioni di cui si dispone e per trarne utili suggerimenti e indicazioni circa i fenomeni di interesse. L’analisi dei dati si avvale di tecniche proprie della statistica, di cui ne costituisce una branca, per cui essa analizza informazioni espresse principalmente in forma quantitativa cioè costituite da dati.

Un’importante elemento che sta alla base della società moderna è la ricerca empirica intesa come investigazione, condotta con sistematicità, in cui le informazioni tratte dal mondo esterno sono utilizzate per formulare conclusioni su tale mondo. In tale contesto, l’analisi dei dati rappresenta uno strumento fondamentale della ricerca empirica e dei procedimenti induttivi impliciti nella sua definizione: infatti il ruolo primario dell’analisi dei dati consiste nel fornire delle efficienti tecniche generali di supporto ai ricercatori nello studio dei fenomeni e delle relazioni tra i loro vari aspetti, essenzialmente con lo scopo di predire e controllare il rispettivo andamento.

Più precisamente, si può dire che la caratteristica principale dell’analisi dei dati, e quindi della statistica, consiste nel rendere effettivamente utilizzabili grandi quantità di informazioni, teoricamente e praticamente disponibili, ma di fatto difficilmente gestibili, relative ai fenomeni oggetto di analisi. In questa direzione, tale disciplina fornisce i più appropriati strumenti di selezione, organizzazione e sintesi necessari per trattare da vari punti di vista tutte quelle informazioni che possono accrescere la conoscenza di un fenomeno. Quindi l’analisi dei dati, e la statistica nel suo complesso, raccoglie e restituisce in forma organizzata, ben leggibile e interpretabile, diverse informazioni. In tale processo di analisi essa soddisfa una duplice esigenza: quella descrittiva, o esplorativa, e quella predittiva.

Si è detto che l’analisi dei dati affonda le sue radici nella statistica utilizzando tecniche statistiche: ma cos’è la statistica? Una definizione generale di statistica è la seguente: La statistica è una metodologia che ha come scopo la conoscenza quantitativa dei fenomeni collettivi, ossia dei fenomeni il cui studio richiede l’osservazione di un insieme di manifestazioni individuali. Tale definizione, proprio per la generalità, può risultare poco chiarificatrice, ma una definizione più esauriente ed esaustiva di tale disciplina richiederebbe una maggiore conoscenza di chi si trova coinvolto in essa.

A questo punto si può affermare che l'analisi dei dati si occupa dello studio dei fenomeni collettivi attraverso l’osservazione dell’insieme delle manifestazioni individuali delle caratteristiche legate a tali fenomeni: non si occupa, dunque, dei singoli casi in particolare. Esistono le dovute eccezioni, ad esempio, dati anomali, oppure sottogruppi con caratteristiche peculiari in una popolazione. L'analisi dei dati, tuttavia, si limita a fare emergere eventuali casi particolari, per i quali si conserva sempre l'anonimato, ed è lasciato ad altre appropriate discipline il compito di condurre analisi più approfondite.

Esistono diverse categorie di fenomeni collettivi:

  • Fenomeni collettivi che sono tali perché relativi ad una collettività di casi singoli
    Esempio 1: natalità, nuzialità e mortalità le cui misure si ottengono contando le nascite, i matrimoni e le morti in un certo periodo di tempo in una certa popolazione.
  • Fenomeni collettivi che pur essendo relativi ad un solo caso, assumono la qualifica di collettivi
    Esempio 2: misurazione ripetuta della massa di un corpo o della resistenza di un conduttore. In queste situazioni ci si trova di fronte ad un singolo caso, ma la conoscenza esatta del fenomeno non può essere raggiunta mediante un’unica misurazione.

Quasi tutte le scienze fanno ricorso alla statistica e quindi anche all’analisi dei dati. Basti pensare che oggi si studiano mediante la statistica anche i testi letterari: si cerca di metterne in evidenza la struttura attraverso la determinazione della lunghezza media dei periodi o l’individuazione delle parole più ricorrenti al fine anche di poter attribuire un testo anonimo al più probabile autore. Lo strumento statistico risulta indispensabile per due categorie di scienze riconducibili alle due differenti categorie di fenomeni collettivi:

  • Le scienze che studiano aspetti differenti dei fenomeni collettivi facendo affidamento sulla ricerca empirica con situazioni di rilevazione di tipo osservazionale.
    Esempio 3: demografia, sociologia, psicologia sociale.
  • Le scienze sperimentali che, attraverso situazioni di rilevazione di tipo sperimentale, hanno lo scopo di fornire ed analizzare dati misurati con estrema precisione.
    Esempio 4: fisica, chimica, ingegneria, biologia.

Anche la ricerca empirica in campo sociale utilizza la metodologia statistica al fine di analizzare e conoscere meglio problemi attinenti:

  • Alla ricerca di fattori e delle circostanze che influiscono su un fenomeno
  • Alla ricerca delle relazioni che legano uno o più fenomeni
  • Alla previsione di un fenomeno o di più fenomeni tra loro collegati

1.1 Origini storiche ed evoluzione della statistica

L’origine del termine statistica è italiana e sembra derivare dal passaggio da Stato a statista a statistico (aggettivo) a statistica (sostantivo). Il termine statistica si incontra, per la prima volta, in un'opera di Gerolamo Ghislini. Nel primo volume della seconda edizione del suo “Teatro d’huomini letterati” (Venezia, 1647) viene citato un lavoro giovanile, rimasto manoscritto, dal titolo “Ristretto della civile, politica, statistica e militare scienza” (1589). Con il termine statistica, quindi, deve intendersi la descrizione della qualità e degli elementi caratterizzanti di uno stato. Da questo significato iniziale, vennero rapidamente configurandosi ampliamenti, in senso descrittivo ed investigativo, fino all'attuale concezione della statistica come scienza dei fenomeni collettivi.

Anche se il termine è relativamente recente, l'origine e lo sviluppo del metodo statistico sono connessi a quelle di tutte le scienze sperimentali, e solo a partire dal diciassettesimo secolo avviene la graduale separazione e precisazione del campo di applicazione e della metodologia delle varie discipline. L'esigenza di contare ed esprimere attraverso numeri aspetti della vita sociale è presente fin dalla preistoria. Occorre osservare che la statistica è antica quanto la società per: riscuotere le tasse, muovere guerra, fare scorte alimentari per l'inverno. Solo per portare alcuni esempi, la società deve contarsi e misurarsi: in un libro di Confucio (550 a.C.) sono presenti notizie di un censimento della popolazione e di una statistica agraria, industriale e commerciale risalente al 2238 a.C. ordinata in Cina dall’imperatore Yao.

Altri noti esempi sono:

  • L’enumerazione degli ebrei dopo l’esodo dall'Egitto verso il 1500 a.C.
  • L’esistenza, nell’antico Egitto nel 1200 a.C. circa, di una dea dei conti e della scrittura, chiamata Safhkit, che valutava la quantità di prodotti raccolti e scambiati con altri paesi
  • Presenza nell'Antico Testamento di notizie di regolari censimenti fatti da Mosè e David (1700 – 400 a.C.)
  • I censimenti dell'antica Roma, che tradizionalmente si ritiene siano iniziati durante il regno di Servio Tullio, nel 555 a.C., e furono poi ripetuti, più o meno regolarmente, almeno fino all’epoca dell’imperatore Vespasiano, nel 72 d.C.

Esempi più vicini nel tempo si ritrovano nelle Repubbliche Marinare, dopo l’anno 1000, e nei registri parrocchiali, istituiti nel corso del Concilio di Trento (1545-1563) per la registrazione obbligatoria dei matrimoni, delle nascite e delle morti.

La nascita delle moderne scienze statistiche, e quindi della statistica moderna come disciplina, deve tuttavia collocarsi tra la seconda metà del XVI secolo e la seconda metà del XVII secolo con l'affermazione di due differenti scuole:

  • Indirizzo investigativo facente capo alla Scuola degli Aritmetici Politici sviluppatasi in Inghilterra, il cui massimo esponente è J. Graunt che introduce il metodo empirico induttivo nelle scienze sociali. La statistica investigativa della scuola degli aritmetici politici studia i fenomeni demografici alla ricerca di leggi o regolarità al fine di ricavare informazioni o previsioni.
  • Indirizzo descrittivo-applicativo facente capo alla Statistica Universitaria sviluppatasi in Germania, il cui massimo esponente è Achenwall che insegnava Statistica all'Università di Gottinga. La statistica descrittivo-applicativa si occupa dello studio dei principali fatti relativi alla vita dello Stato al fine di fornirne una valutazione tramite una descrizione quantitativa.

Parallelamente e indipendentemente alle due anime della statistica moderna, a partire dalla seconda metà del sedicesimo secolo, si sviluppa il calcolo delle probabilità i cui maggiori esponenti sono Pascal, Bernoulli, Bayes, Laplace. Tuttavia verso la fine del diciannovesimo secolo anche la matematica e il calcolo delle probabilità entrarono a far parte degli strumenti impiegati per gli studi statistici contribuendo allo sviluppo di una branca della statistica chiamata statistica inferenziale o inferenza statistica i cui esponenti di spicco sono Pearson, Fisher e Neyman. La statistica inferenziale consiste in un insieme di tecniche statistiche che, in base ai risultati relativi alle informazioni tratte dall’osservazione di una parte dei fenomeni individuali che compongono il fenomeno collettivo che si sta studiando (campione), consentono, secondo un approccio logico di tipo induttivo, di trarre conclusioni la cui validità per il fenomeno in esame, relativo ad un più ampio collettivo di osservazioni, è espressa in termini probabilistici.

Con lo sviluppo dell’informatica, intorno agli anni ‘50, è stato possibile trattare quantità sempre più rilevanti di dati, riducendo nel contempo al minimo l’eventualità di errori di trascrizione e rendendo possibili calcoli sempre più complicati. Masse ingenti di dati vengono organizzate nelle basi di dati, o banche dati, la cui interrogazione diviene possibile, anche a distanza, grazie allo sviluppo della telematica e delle reti informatiche. Dal connubio tra statistica e informatica ha avuto origine in Francia verso la fine degli anni ’60 con Escouffier e Benzecrì, l'indirizzo metodologico dell’Analisi dei Dati comprendente un insieme di metodologie basate sul calcolo intensivo e di programmi applicativi che consentono di analizzare, descrivere, elaborare e sintetizzare grandi quantità di dati ottenuti dall’osservazione di fenomeni complessi.

1.2 Servizio statistico nazionale

Attualmente, ogni Stato assume la statistica come compito proprio e istituisce una attività statistica ufficiale e pubblica cioè disciplinata da una legge di obbligo che stabilisce quali enti siano tenuti a effettuare la rilevazione dei dati, in quali forme e servendosi di quali strutture organizzative, e secondo quali tempi, almeno per quanto riguarda le rilevazioni maggiormente importanti ed impegnative, quali i censimenti.

La statistica pubblica in Italia è regolata dalla legge del 23 agosto 1988, n. 400, e dal decreto legislativo n. 322/89. Con questo decreto legislativo del 1989 viene istituito, in sostituzione dell’Istituto Centrale di Statistica, il Sistema Statistico Nazionale (SISTAN), articolato sull’Istituto Nazionale di Statistica (ISTAT) e sugli uffici statistici delle Amministrazioni dello Stato, degli enti locali, delle aziende sanitarie, delle Camere di Commercio e delle Regioni. Il SISTAN ha la funzione di coordinamento e interconnessione della vasta e complessa moltitudine degli uffici di statistica dell’apparato statale.

L’ISTAT, nato come Istituto Centrale di Statistica con la legge n. 1162 del 9 luglio 1926 e poi denominato Istituto Nazionale di Statistica con il decreto legislativo n. 322/89, è persona giuridica di diritto pubblico con ordinamento autonomo sottoposto alla vigilanza del Consiglio dei Ministri. Questo ente assume la funzione di coordinamento ed assolve diversi compiti quali: l’esecuzione dei censimenti e altre rilevazioni statistiche di interesse nazionale, la predisposizione di nomenclature e metodologie di base, la predisposizione del Programma statistico nazionale. Quest’ultimo ha durata triennale, salvo gli eventuali aggiornamenti annuali, ed è sottoposto al parere della Commissione per la Garanzia dell’Informazione Statistica. Il piano è approvato con decreto del Presidente della Repubblica, su proposta del Presidente del Consiglio dei Ministri e previa delibera del CIPE. Il programma statistico nazionale si suddivide in diverse aree: censimenti, demografica, economica, sociale, metodologica e ambientale.

L’articolo 12 del decreto legislativo n. 322/89 ha consentito l’istituzione della Commissione per la Garanzia dell’Informazione Statistica: si tratta di un organo collegiale indipendente e di controllo istituito presso la Presidenza del Consiglio dei Ministri e composto di nove membri. I compiti di tale commissione riguardano la garanzia dell’imparzialità, la completezza e la riservatezza dell’informazione statistica.

1.3 Le statistiche internazionali

Nell’Unione Europea, le statistiche ufficiali sono affidate all’Istituto di Statistica (EUROSTAT) il quale è una delle Direzioni generali della Commissione Esecutiva delle Comunità Europee. Compito essenziale dell’EUROSTAT è raccogliere ed elaborare i dati statistici riguardanti i Paesi comunitari ed i principali partners commerciali. Gli Istituti di Statistica degli Stati membri da un lato forniscono i dati e, d’altro lato, uniformano, per quanto possibile, la loro attività sulla base delle direttive e dei regolamenti comunitari emanati dall’EUROSTAT.

A livello mondiale, la più importante fonte di dati statistici sono le Nazioni Unite (ONU). L’ONU pubblica con cadenza annuale l’Annuario Statistico, in inglese e francese, in cui figurano per circa 300 nazioni i dati relativi a popolazione, agricoltura, industria, costruzioni, trasporti, commercio, bilancia dei pagamenti, reddito nazionale, istruzione e cultura.

Altre organizzazioni internazionali facenti capo all’ONU che si occupano della raccolta ed elaborazione di dati, ciascuna per il settore di propria competenza, sono:

  • FAO - Organizzazione per l’Alimentazione e l’Agricoltura
  • OMS - Organizzazione Mondiale della Sanità
  • BIT - Agenzia Internazionale del Lavoro
  • UNESCO - Organizzazione delle Nazioni Unite per l’Educazione, la Scienza e la Cultura

Al di fuori delle Nazioni Unite le più note organizzazioni internazionali i cui uffici di statistica pubblica dati statistici di rilevante importanza sono:

  • OCSE - Organizzazione per la Cooperazione e lo Sviluppo
  • FMI - Fondo Monetario Internazionale
  • CEE - Comunità Economiche Europee
Anteprima
Vedrai una selezione di 20 pagine su 95
Analisi dei dati - nozioni generali Pag. 1 Analisi dei dati - nozioni generali Pag. 2
Anteprima di 20 pagg. su 95.
Scarica il documento per vederlo tutto.
Analisi dei dati - nozioni generali Pag. 6
Anteprima di 20 pagg. su 95.
Scarica il documento per vederlo tutto.
Analisi dei dati - nozioni generali Pag. 11
Anteprima di 20 pagg. su 95.
Scarica il documento per vederlo tutto.
Analisi dei dati - nozioni generali Pag. 16
Anteprima di 20 pagg. su 95.
Scarica il documento per vederlo tutto.
Analisi dei dati - nozioni generali Pag. 21
Anteprima di 20 pagg. su 95.
Scarica il documento per vederlo tutto.
Analisi dei dati - nozioni generali Pag. 26
Anteprima di 20 pagg. su 95.
Scarica il documento per vederlo tutto.
Analisi dei dati - nozioni generali Pag. 31
Anteprima di 20 pagg. su 95.
Scarica il documento per vederlo tutto.
Analisi dei dati - nozioni generali Pag. 36
Anteprima di 20 pagg. su 95.
Scarica il documento per vederlo tutto.
Analisi dei dati - nozioni generali Pag. 41
Anteprima di 20 pagg. su 95.
Scarica il documento per vederlo tutto.
Analisi dei dati - nozioni generali Pag. 46
Anteprima di 20 pagg. su 95.
Scarica il documento per vederlo tutto.
Analisi dei dati - nozioni generali Pag. 51
Anteprima di 20 pagg. su 95.
Scarica il documento per vederlo tutto.
Analisi dei dati - nozioni generali Pag. 56
Anteprima di 20 pagg. su 95.
Scarica il documento per vederlo tutto.
Analisi dei dati - nozioni generali Pag. 61
Anteprima di 20 pagg. su 95.
Scarica il documento per vederlo tutto.
Analisi dei dati - nozioni generali Pag. 66
Anteprima di 20 pagg. su 95.
Scarica il documento per vederlo tutto.
Analisi dei dati - nozioni generali Pag. 71
Anteprima di 20 pagg. su 95.
Scarica il documento per vederlo tutto.
Analisi dei dati - nozioni generali Pag. 76
Anteprima di 20 pagg. su 95.
Scarica il documento per vederlo tutto.
Analisi dei dati - nozioni generali Pag. 81
Anteprima di 20 pagg. su 95.
Scarica il documento per vederlo tutto.
Analisi dei dati - nozioni generali Pag. 86
Anteprima di 20 pagg. su 95.
Scarica il documento per vederlo tutto.
Analisi dei dati - nozioni generali Pag. 91
1 su 95
D/illustrazione/soddisfatti o rimborsati
Acquista con carta o PayPal
Scarica i documenti tutte le volte che vuoi
Dettagli
SSD
Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher valeria0186 di informazioni apprese con la frequenza delle lezioni di Analisi dei dati e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Roma La Sapienza o del prof Baragona Roberto.
Appunti correlati Invia appunti e guadagna

Domande e risposte

Hai bisogno di aiuto?
Chiedi alla community