Riassunti Statistica 1

Name: Riassunti Statistica 1
Rating: 4.0 (1 reviews)
Author: maximo.98

Revisionato il 10/06/2026

di maximo.98

Publisher

Vota 4,0/5 (1)

Contenuto verificato e approvato dal Team di Esperti di Skuola.net

Appunti di statistica basati su appunti personali del publisher presi alle lezioni del prof. Tedesco dell’università degli Studi di Cagliari - Unica, facoltà di Scienze …

Esame Statistica

Facoltà Scienze politiche

Dal corso del Prof. Tedesco Nicola

Università Università degli Studi di Cagliari

A.A. 2018-2019

46 pagine

Appunto

Scarica

Estratto del documento

Introduzione

Perché studiare la statistica?

Il crescente impiego di dati statistici è evidente osservando il cambiamento che si registra nel contenuto degli articoli pubblicati nelle riviste scientifiche in ambito sociale nonché nel contenuto dei report prodotti sia dalla pubblica amministrazione, sia da soggetti privati. Uno sguardo rapido ai numeri più recenti di riviste scientifiche come American Political Science Review e American Sociological Review mette in evidenza il ruolo fondamentale ricoperto dalla statistica nella ricerca sociale. I ricercatori raccolgono informazioni e le elaborano attraverso metodi statistici al fine di studiare, ad esempio, i fattori che esercitano la maggiore influenza sulle performance scolastiche degli studenti.

In ragione di tutto ciò, è sempre più importante il ruolo ricoperto dalla statistica nella ricerca applicata: un numero sempre maggiore di istituti di ricerca richiede che i propri componenti abbiano delle competenze in ambito statistico. Attualmente, coloro che si occupano di scienze sociali nella pubblica amministrazione, nelle organizzazioni economiche e nell'ambito sanitario e assistenziale si trovano a operare in contesti applicativi che fanno largo uso del metodo statistico. I profili occupazionali per esperti in scienze sociali prevedono, infatti, la conoscenza dei metodi statistici come competenza fondamentale.

Va sottolineato che la comprensione dei metodi statistici è importante anche per chi non li impiegherà mai nella sua camera lavorativa. Quotidianamente ciascuno di noi è posto di fronte a un flusso di informazioni statistiche: pubblicità, notizie, informazioni politiche, indagini sulle opinioni e altre comunicazioni sono caratterizzate da contenuti quantitativi. La statistica ci aiuta a dare un significato a queste informazioni e a meglio comprendere e interpretare i fenomeni del mondo che ci circonda.

I dati

La raccolta di informazioni è il cuore della scienza, attraverso essa vengono ottenute le osservazioni impiegate per l'analisi statistica. Le osservazioni raccolte su determinate caratteristiche di interesse sono chiamate nel loro insieme dati. I dati per ciascun soggetto possono essere costituiti da osservazioni; esaminare i dati nel modo opportuno è utile per comprendere come queste caratteristiche sono tra loro in relazione. Per ottenere i dati, gli esperti in scienze sociali impiegano una vasta gamma di metodi fra i quali indagini, esperimenti, osservazioni dirette dei comportamenti.

Le raccolte di dati contenute in archivi sono dette database. Numerosi database sono disponibili su Internet. Negli Stati Uniti, un database molto importante per le ricerche sociali contiene informazioni raccolte fin dal 1972 nell'ambito della General Social Survey.

Esempio 1.1: La General Social Survey (GSS)

Con cadenza biennale, il National Opinion Research Center realizza la General Social Survey (GSS). L'indagine che coinvolge circa 2000 soggetti adulti permette di "ottenere" informazioni sulle opinioni e sui comportamenti della popolazione statunitense. Non è difficile ottenere dati riassuntivi dal database della GSS.

Cos'è la statistica?

In questo testo il termine "statistica" viene impiegato per fare riferimento alle metodologie finalizzate alla raccolta e all'analisi dei dati. La statistica è l'insieme delle metodologie finalizzate alla raccolta e all'analisi dei dati. La statistica è l'insieme dei metodi per:

Progettare: pianificare come devono essere raccolti i dati necessari per le ricerche;
Descrivere: sintetizzare i dati;
Inferire: formulare previsioni basate sui dati raccolti.

Il termine progettare è riferito alla pianificazione di come dovranno essere ottenuti i dati. Il termine descrivere si riferisce ai modi in cui dovranno essere sintetizzati i dati per meglio comprendere le informazioni che sono in essi contenute. I dati grezzi sono una lista completa di osservazioni registrate persona per persona; in tale formato essi non sono certamente facili da capire: rimaniamo intrappolati nei numeri. Per presentare efficacemente i dati, invece di elencare tutte le osservazioni, potremmo riassumere i dati con un grafico o con una tabella che mostra le percentuali di risposte 1 amico stretto, 2 amici stretti, 3, ... e così via. Grafici, tabelle e sintesi numeriche sono definiti come statistiche descrittive. Il termine inferire si riferisce alle previsioni fatte attraverso dati. Le previsioni fatte utilizzando i dati sono chiamate inferenze statistiche. Quelli descrittivi e quelli inferenziali sono i due metodi per l'analisi statistica dei dati. Gli esperti di scienze sociali usano la statistica descrittiva o inferenziale per spiegare i fenomeni sociali.

Statistica descrittiva e statistica inferenziale

Gli strumenti per analizzare i dati comprendono i metodi descrittivi per le sintesi e quelli inferenziali per formulare previsioni. Un'analisi statistica viene classificata come descrittiva o inferenziale a seconda che il suo obiettivo principale sia quello di descrivere i dati o di fare previsioni. Per meglio spiegare questa distinzione è utile definire altri due concetti: quello di popolazione e di campione.

Popolazioni e campioni

Le entità che vengono osservate in una ricerca vengono definite soggetti di studio. Solitamente i soggetti sono persone fisiche come nel caso della GSS, tuttavia essi potrebbero essere, per esempio, famiglie, scuole, città o imprese. La popolazione è costituita dal totale dei soggetti di interesse in uno studio. Un campione è un sottoinsieme della popolazione di riferimento dello studio. L'obiettivo principale di qualunque ricerca è quello di acquisire conoscenze riferibili alle popolazioni. Tuttavia, è spesso necessario, osservare campioni piuttosto che popolazioni. Ad esempio, la GSS oppure importanti istituti di ricerche demoscopiche come la Gallup, solitamente effettuano le loro ricerche su campioni di circa 1000-3000 statunitensi per raccogliere opinioni riferibili all'intera popolazione USA.

Statistica descrittiva

La statistica descrittiva viene impiegata per sintetizzare le informazioni raccolte in un'indagine. Gli strumenti della statistica descrittiva sono costituiti da un complesso di grafici, tabelle e numeri come medie e percentuali. L'obiettivo primario della statistica descrittiva è quello di sintetizzare i dati in formati semplici e facilmente leggibili limitando al massimo la loro distorsione e la perdita di informazioni. Le statistiche descrittive sono utili anche quando i dati sono stati raccolti per l'intera popolazione come accade, ad esempio, nei censimenti. Di contro, la statistica inferenziale viene impiegata quando sono disponibili solo dati campionari e si vogliono fare delle previsioni per l'intera popolazione.

Statistica inferenziale

La statistica inferenziale viene impiegata per ottenere previsioni su una popolazione sulla base di informazioni raccolte su un campione selezionato da essa. Le tecniche statistiche inferenziali sono in grado di prevedere valori caratteristici di grandi popolazioni attraverso analisi condotte su campioni di dimensioni relativamente ridotte. Questo è il motivo per cui in molte indagini vengono selezionati campioni di circa un migliaio di unità anche se le popolazioni di interesse sono costituite da milioni di individui.

Parametri e statistiche

Un parametro è una sintesi numerica delle caratteristiche della popolazione. Una statistica è una sintesi numerica dei dati campionari. Nelle applicazioni, il principale obiettivo è quello di conoscere il valore assunto dai parametri e non il valore che le statistiche assumono nel particolare campione selezionato. Ad esempio, nell'esaminare i risultati di un sondaggio pre-elettorale, il principale obiettivo è quello di conoscere le percentuali di elettori favorevoli a ciascun candidato nella popolazione piuttosto che nel campione di intervistati. Il campione e le statistiche che lo descrivono hanno un'utilità solo in quanto ci permettono di fare inferenza sul valore assunto nella popolazione dai parametri incogniti.

Un aspetto importante dell'inferenza statistica riguarda l'accuratezza delle statistiche campionane che stimano i parametri della popolazione. Quando si dispone di dati su un'intera popolazione è possibile determinare gli esatti valori dei parametri di interesse e pertanto non vi è necessità di fare ricorso ai metodi statistici inferenziali.

Capitolo 2: Campionamento e misurazione

Per studiare i fenomeni sociali attraverso l'analisi statistica, i metodi descrittivi sintetizzano i dati mentre i metodi inferenziali impiegano i dati campionari per fare previsioni sulle popolazioni di interesse. Nella fase di raccolta dei dati dobbiamo sempre scegliere quali devono essere i soggetti da includere nel campione. Disponendo di un campione possiamo convertire in dati le nostre idee relative a un certo fenomeno; si tratta di decidere che cosa misurare e come. Tali misure devono possedere il requisito dell'affidabilità (una misura è affidabile se un soggetto darà un'identica risposta a una domanda che gli è già stata posta in precedenza). Dati raccolti attraverso strumenti metodologici non corretti o non affidabili produrranno elaborazioni statistiche prive di significato.

Le variabili e la loro misurazione

L'impiego dei metodi statistici ci aiuta a determinare i fattori che influiscono sulla variabilità osservata tra i soggetti dello studio.

Variabili

Qualunque caratteristica misurata su ciascun soggetto è chiamata variabile. Il nome riflette il fatto che il valore della caratteristica varia tra i soggetti. Una variabile è una caratteristica che assume diversi valori tra i soggetti di un campione o di una popolazione. Differenti soggetti possono avere differenti valori di una variabile. Esempi di variabili possono essere il reddito, il numero di fratelli, lo status occupazionale, il sesso. I valori della variabile formano una scala di misura. Per il sesso, ad esempio, la scala di misura consiste delle due espressioni verbali (o etichette) femmina e maschio. La validità di un determinato metodo statistico è strettamente legata alla scala di misurazione del carattere a cui lo stesso è applicato. I metodi per trattare una variabile che assume valori numerici sono diversi da quelli per trattare una variabile che assume come valori le categorie sì/no (come lo status di occupato). Di seguito verranno presentati diversi modi per classificare le variabili.

Variabili quantitative e variabili categoriali

Una variabile viene definita quantitativa quando assume valori che sono numeri. I valori rappresentano i diversi ordini di grandezza (magnitudine) assunti dalla variabile. Una variabile viene definita categoriale quando i valori da essa assunti sono un insieme di categorie. Ad esempio, lo stato civile (single, coniugato, divorziato, vedovo) è categoriale. Per le variabili categoriali, le diverse categorie sono da considerarsi differenziate in termini qualitativi e non in termini di grandezza numerica. Le variabili categoriali spesso sono chiamate qualitative. La distinzione fra variabili quantitative e categoriali è di fondamentale importanza in quanto sono differenti i metodi statistici che si applicano per la loro sintesi. Ad esempio, la media è una sintesi statistica per una variabile numerica; è possibile calcolare la media per una variabile quantitativa come il reddito ma non per una variabile categoriale come l'affiliazione religiosa o il tipo di musica preferito.

Variabili nominali, ordinali e scale di intervalli

Una scala di intervalli viene formata dai possibili valori numerici assunti da una variabile quantitativa. Le scale di intervalli sono caratterizzate da specifiche distanze numeriche (gli intervalli) fra ciascuna coppia formata con i diversi valori assunti dalla variabile. Le variabili categoriali formano due tipi di scale; negli esempi fatti in precedenza le categorie elencate non rispettavano alcun ordinamento; in sostanza le scale non avevano un'estremità "alta" e una "bassa". Le categorie formavano quella che viene definita propriamente una scala nominale. Ad esempio, è una variabile categoriale misurata su scala nominale quella con la quale viene misurato il metodo di trasporto principale per raggiungere il posto di lavoro; sebbene le diverse categorie siano spesso chiamate livelli della scala, nel caso delle variabili nominali non possiamo dire che un certo livello è più grande o più piccolo di un altro.

Un terzo tipo di scala può essere considerato, in un certo senso, una via di mezzo fra le scale nominali e quelle di intervalli. Esso è formato da una scala di categorie che ha un ordinamento naturale dei suoi valori; si tratta della scala ordinale. Esempi di questo tipo di scala sono la classe sociale (alta, media, bassa), l'ideologia politica ecc. In sintesi, per le variabili ordinali le categorie hanno un ordinamento naturale, mentre le categorie di una variabile nominale sono prive di ordinamento.

Aspetti quantitativi dei dati ordinali

Come è stato detto in precedenza, i vari livelli delle scale nominali sono rappresentati da espressioni verbali e denotano variazioni in termini qualitativi e non quantitativi. I livelli delle scale di intervalli sono quantità e denotano variazioni in grandezza. Le variabili ordinali possiedono, infatti, un'importante caratteristica delle scale quantitative: ciascun livello (categoria) è una grandezza che è minore o maggiore di quella di un altro livello. Alcuni metodi statistici si applicano in maniera specifica alle variabili ordinali, tuttavia, spesso è utile analizzare le scale ordinali assegnando valori numerici alle diverse categorie; in tal modo, le variabili vengono trattate come se fossero misurate su scale di intervalli e si possono impiegare metodi più efficaci per la loro analisi.

Variabili discrete e variabili continue

Un altro modo che può essere impiegato per classificare le variabili fa riferimento al numero di valori contenuti nella scala di misura. La sua applicazione ci consente di determinare quali metodi statistici sono più appropriati per l'analisi di un dato problema.

Una variabile viene definita discreta se i suoi possibili valori formano un insieme di numeri distinti come 0, 1, 2, 3... Una variabile viene definita continua se può assumere come valori ogni possibile numero reale incluso in un continuum infinito. Esempi di variabili discrete sono il numero di fratelli o il numero di visite mediche nell'ultimo anno. Variabili continue sono, ad esempio, l'altezza, il peso o il tempo trascorso nella lettura di un libro. Le variabili discrete sono espresse con un'unità di misura di base che non è divisibile. Di contro, per una variabile continua è possibile osservare un infinito insieme di valori compresi tra due estremi di un intervallo.

Qualunque variabile con un numero finito di possibili valori è discreta. Tutte le variabili categoriali, nominali o ordinali, sono discrete essendo costituite da un insieme finito di categorie. Le variabili quantitative possono essere discrete o continue; l'età è una variabile continua mentre il numero di fratelli è una variabile discreta. I valori assunti dalle variabili continue vengono arrotondati e, quindi, resi discreti. Si dice che un individuo ha 21 anni anche se, in realtà, la sua età è un valore compreso tra 21 e 22.

In sintesi, vale il seguente schema. Le variabili sono di tipo quantitativo o categoriale. Le variabili categoriali con categorie non ordinate sono dette nominali mentre quelle categoriali con categorie ordinate sono dette ordinali. Le variabili categoriali (siano esse ordinali o nominali) sono discrete. Le variabili quantitative possono essere discrete o continue. Nella pratica, le variabili discrete che assumono molti valori sono trattate come continue.

Casualizzazione

I metodi statistici inferenziali fanno uso delle statistiche campionarie per fare previsioni sui parametri delle popolazioni. L'utilità dell'inferenza dipende in maniera significativa da quanto bene il campione rappresenta la popolazione. In questo paragrafo viene presentato un importante metodo di campionamento basato sulla casualizzazione (in lingua inglese, randomization). La casualizzazione è il meccanismo chiave per conseguire una buona rappresentatività del campione.

Campione casuale semplice

Un campione è un campione casuale semplice (CCS) quando è ottenuto attraverso un metodo in grado di assicurare che ogni possibile campione che può essere selezionato dalla popolazione abbia un'identica probabilità di selezione. Sia “n” il numero di soggetti del campione, tale grandezza è chiamata dimensione campionaria.

Un campione casuale semplice di n soggetti estratti da una popolazione è tale se a ogni possibile campione di pari numerosità che poteva essere estratto ha un'uguale probabilità di selezione.

Esempio: supponiamo che un ricercatore sottoponga un questionario a un adulto scelto a caso in ogni famiglia. Una certa famiglia contiene quattro adulti — madre, padre, zio e zia identificati con M, P, Zio e Zia. Per un campione casuale di n=1 adulti, ciascuno dei quattro adulti ha la stessa probabilità di essere intervistato. Potrebbe essere selezionato inserendo i quattro nomi in un'urna (utilizzando quattro bussolotti identici) e scegliendo a caso uno di essi. Per un campione casuale di n=2 adulti, ogni possibile campione di ampiezza due deve essere ugualmente probabile: i sei campioni potenziali sono (M, P), (M, Zia), (M, Zio), (P, Zia), (P, Zio) e (Zia, Zio). Il campione viene selezionato estraendo a caso dall'urna due nomi.

Anteprima

Vedrai una selezione di 10 pagine su 46