vuoi
o PayPal
tutte le volte che vuoi
STATISTICA DESCRITTIVA
INSIEME= collezione di oggetti, detti elementi, definiti. Da un insieme supporto si costruiscono delle successioni.
SUCCESSIONE= una funzione che a ogni numero naturale i, chiamato indice della successione, fa corrispondere un elemento dell'insieme supporto di partenza. Può contenere elementi uguali. L'ordine è significativo.
ANDAMENTO= variazione dei valori della successione al variare dell'indice.
VARIAZIONE= funzioni di secondo ordine, che se applicate a successioni generano altre successioni.
- VARIAZIONE ASSOLUTA: dati due elementi, è lo scarto del secondo dal primo.
- VARIAZIONE RELATIVA: dati due elementi, è lo scarto del secondo dal primo rispetto al primo, trattato dunque come riferimento.
- VARIAZIONE PERCENTUALE: dati due elementi, è la variazione relativa per 100.
POPOLAZIONE STATISTICA= insieme degli elementi a cui si riferisce l'indagine statistica. È una successione completa.
UNITÀ
- STATISTICA: ogni elemento della popolazione statistica, la minima unità della quale si raccolgono dati
- CAMPIONE STATISTICO (sample): una qualsiasi successione di unità statistiche prese da tutta la popolazione. È utilizzabile solo se è sufficientemente significativo.
- CAMPIONAMENTO: azione di raccogliere dati che ci porta ad avere un campione a partire da una popolazione.
- DISTRIBUZIONE: criterio di sintesi.
- DISTR. A FR. ASSOLUTE: indica quante volte un certo numero n occorre nel campione preso.
- DISTR. A FR. RELATIVE: il rapporto tra la distribuzione a frequenze assolute e la cardinalità del campione.
- DISTR. A FR. ASSOLUTE con categorie (intervalli uniformi): indica quante volte un numero n occorre nella categoria presa in considerazione. N.B. Un numero di categorie elevato porta ad una distribuzione sparsa mentre categorie con cardinalità diversa porta ad una distribuzione sbilanciata.
- DISTRIBUZIONE CUMULATA: se le categorie sono ordinate, si
MEDIANA= è la categoria centrale, che contiene il 50% della distribuzione, una volta che i valori sono stati ordinati in ordine crescente. La mediana è il valore che occupa la posizione centrale in un insieme ordinato di dati. È una misura robusta, in quanto poco influenzata dalla presenza di dati anomali.
Caratteristiche:
- si ricorre al suo uso quando si vuole attenuare l'effetto di valori estremi;
- in una distribuzione o serie di dati, ogni valore estratto a caso ha la stessa probabilità di essere inferiore o superiore alla mediana.
Partendo dalla mediana si possono definire:
- QUARTILI: il primo/secondo/terzo quartile sono le categorie a cui corrisponde il primo 25%/50%/75% della distribuzione (ne segue che la mediana coincide con il secondo quartile).
- PERCENTILI: il primo/secondo/terzo/... percentile è la categoria a cui corrispondono il...
primo1%/2%/3%/… della distribuzione (ne segue che la mediana coincide con il cinquantesimopercentile)
L’applicabilità di un indice ordinale dipende dunque non dai simboli con cui si identificano le categorie delladistribuzione ma dalla presenza di una relazione empirica di ordine tra le categorie.
MEDIALa media di qualsiasi campione può essere molto diversa da quella dell’intera popolazione. Più è numerosoil campione, più la media del campione sarà vicina a quella della popolazione.
- MEDIA CAMPIONARIA (aritmetica): somma di tutti i valori delle variabili di un sottoinsieme dellapopolazione diviso il numero di unità di tale campione (n).
Es. somma di tutti gli elementi di un campione /numero degli elementi del campione (cardinalità).
- MEDIA DELLA DISTRIBUZIONE (ponderata o pesata): si assegna ad ogni variabile un peso; sisommano tutti i valori delle variabili, moltiplicate per il peso, e si divide il numero
ottenuto per la somma dei pesi. Es. sommatoria dei prodotti delle categorie per le rispettive frequenze assolute o relative/il numero di elementi del campione (cardinalità), ovvero la somma delle frequenze assolute. Le categorie utilizzate sono arrotondamenti della media tra il minimo dell'intervallo e il massimo dell'intervallo incluso. La media è spesso calcolata sulla partizione più fine di A, in cui ogni categoria contiene un solo elemento (quindi in pratica su A stesso). Se la distribuzione è simmetrica vale che mediana e media sono uguali e coincidono con la categoria centrale. Se la distribuzione è asimmetrica: mentre per la definizione la mediana divide il campione su cui la distribuzione è costruita in due parti della stessa numerosità, può accadere che la gran parte degli elementi del campione sia sopra, o sotto, la media. Moda, Mediana e Media forniscono informazione, progressivamente sempre più specifica, sulbaricentro della distribuzione, ma non indicano quanto i valori della distribuzione stessa sono dispersi intorno a tale baricentro. Un indice di dispersione restituisce uno scalare con cui si valuta la diversità esistente tra le osservazioni. Come statistica di dispersione si potrebbe pensare di utilizzare la MEDIA DEGLI SCARTI, ovvero la sommatoria degli scarti diviso la cardinalità. SCARTO = misura quanto ciascun dato xi si discosta dal valor medio, ovvero s = x - Mx La media degli scarti non è una buona idea perché scarti positivi e negativi si compensano, allora gli scarti della media si considerano in forma quadratica e li si normalizza dividendo per n-1, invece che per n. VARIANZA CAMPIONARIA = sommatoria degli scarti quadratici diviso la cardinalità - 1 La varianza campionaria ha però il problema che non è dimensionalmente omogenea ai valori del campione. DEVIAZIONE STANDARD CAMPIONARIA = radice quadrata della varianza campionaria. Caratteristiche: - La varianzaha lo svantaggio di essere una grandezza quadratica e quindi non direttamente confrontabile con la media o con gli altri valori della distribuzione.
Per trovare una misura espressa nella stessa unità di misura della variabile di partenza è sufficiente estrarre la radice quadrata della varianza.
La deviazione standard è una misura di distanza dalla media e quindi ha sempre un valore positivo.
È una misura della dispersione della variabile casuale intorno alla media.
L'importanza della deviazione standard è tale che la si usa spesso come unità di misura della dispersione intorno alla media, per esempio riportando i risultati di misurazioni nella formula Mx+- kSx, per k positivo.
È rilevante l'informazione circa quanti elementi del campione stanno entro k, dove k>0, deviazioni standard dalla media, cioè quanti elementi sono contenuti nell'intervallo.
DISUGUAGLIANZA DI CHEBYSHEV
Dato un campione di n elementi con
marginali.marginali.COVARIANZA= Indice che consente di verificare se fra due variabili statistiche esiste un legame lineare.È la sommatoria dei prodotti degli scarti/ n-1
La Covarianza può essere:
- POSITIVA: quando X e Y variano tendenzialmente nella stessa direzione, cioè al crescere della Xtende a crescere anche Y e al diminuire della X tende a diminuire anche Y.
- NEGATIVA: quando le due variabili variano tendenzialmente in direzione opposta, cioè quando alcrescere di una variabile l’altra variabile tende a diminuire (e viceversa).
- NULLA: quando non vi è alcuna tendenza delle 2 variabili a variare nella stessa direzione o indirezione opposta. Quando Cov(X,Y) = 0 si dice anche che X ed Y sono non correlate o linearmenteindipendenti.
CCC(COEFFICIENTE DI CORRELAZIONE CAMPIONARIA)= è un coefficiente adimensionale ottenuto dividendola covarianza per il prodotto delle deviazioni standard campionarie.
Il CCC assume valori tra -1 e 1:
- -1: completa correlazione negativa (retta a pendenza negativa)- 0: assenza di correlazione- 1: completa correlazione positiva (retta a pendenza positiva)N.B. se i valori non coincidono perfettamente e due grandezze sono moderatamente correlate. TSA (Analisi delle serie storiche) SERIE STORICA: successione che descrive gli istanti di tempo in cui sono acquisiti gli elementi della successione. - Con la funzione CASUALE i valori successivi nel tempo variano troppo uno rispetto all'altro, quindi è bene usare CAMMINI CAUSALI (random walk): Ai = A(i-1) + X(i-1), dove X è casuale().∆t - PERIODO DI CAMPIONAMENTO: gli intervalli con ampiezza costante. Il suo inverso è la FREQUENZA DI CAMPIONAMENTO. - Siccome si può stabilire come unità di tempo 1, la serie storica può essere descritta come un campione e una funzione. Si può quindi rappresentare graficamente con un grafico a dispersione (poiché bivariato) o a linee (poiché è un
L'ANALISI DELLE SER