Anteprima
Vedrai una selezione di 5 pagine su 17
Analisi dei dati sperimentali e statistica - teoria Pag. 1 Analisi dei dati sperimentali e statistica - teoria Pag. 2
Anteprima di 5 pagg. su 17.
Scarica il documento per vederlo tutto.
Analisi dei dati sperimentali e statistica - teoria Pag. 6
Anteprima di 5 pagg. su 17.
Scarica il documento per vederlo tutto.
Analisi dei dati sperimentali e statistica - teoria Pag. 11
Anteprima di 5 pagg. su 17.
Scarica il documento per vederlo tutto.
Analisi dei dati sperimentali e statistica - teoria Pag. 16
1 su 17
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

STATISTICA DESCRITTIVA

INSIEME= collezione di oggetti, detti elementi, definiti. Da un insieme supporto si costruiscono delle successioni.

SUCCESSIONE= una funzione che a ogni numero naturale i, chiamato indice della successione, fa corrispondere un elemento dell'insieme supporto di partenza. Può contenere elementi uguali. L'ordine è significativo.

ANDAMENTO= variazione dei valori della successione al variare dell'indice.

VARIAZIONE= funzioni di secondo ordine, che se applicate a successioni generano altre successioni.

- VARIAZIONE ASSOLUTA: dati due elementi, è lo scarto del secondo dal primo.

- VARIAZIONE RELATIVA: dati due elementi, è lo scarto del secondo dal primo rispetto al primo, trattato dunque come riferimento.

- VARIAZIONE PERCENTUALE: dati due elementi, è la variazione relativa per 100.

POPOLAZIONE STATISTICA= insieme degli elementi a cui si riferisce l'indagine statistica. È una successione completa.

UNITÀ

  1. STATISTICA: ogni elemento della popolazione statistica, la minima unità della quale si raccolgono dati
  2. CAMPIONE STATISTICO (sample): una qualsiasi successione di unità statistiche prese da tutta la popolazione. È utilizzabile solo se è sufficientemente significativo.
  3. CAMPIONAMENTO: azione di raccogliere dati che ci porta ad avere un campione a partire da una popolazione.
  4. DISTRIBUZIONE: criterio di sintesi.
  5. DISTR. A FR. ASSOLUTE: indica quante volte un certo numero n occorre nel campione preso.
  6. DISTR. A FR. RELATIVE: il rapporto tra la distribuzione a frequenze assolute e la cardinalità del campione.
  7. DISTR. A FR. ASSOLUTE con categorie (intervalli uniformi): indica quante volte un numero n occorre nella categoria presa in considerazione. N.B. Un numero di categorie elevato porta ad una distribuzione sparsa mentre categorie con cardinalità diversa porta ad una distribuzione sbilanciata.
  8. DISTRIBUZIONE CUMULATA: se le categorie sono ordinate, si
puoi utilizzare il tag strong per evidenziare le parole chiave nel testo. Può costruire una distribuzione cumulata, in cui per ogni categoria si considera la frequenza degli elementi del campione presi fino a quella categoria. L'informazione contenuta in una distribuzione può essere sintetizzata, in particolare mediante tre indici di posizione: MODA è la categoria a cui corrisponde la frequenza massima della distribuzione. Una distribuzione può avere più mode (multimodale). È definita anche se l'insieme non ha struttura algebrica, ovvero non sono stabilite relazioni empiricamente significative. Caratteristiche: - Viene utilizzata solamente a scopi descrittivi, perché è meno stabile e meno oggettiva delle altre misure di tendenza centrale. - Per individuare la moda di una distribuzione si possono usare gli istogrammi. - Può differire nella stessa serie di dati, quando si formano classi di distribuzione (intervalli) con ampiezza differente. - Per individuare la moda entro una classe di frequenza, puoi utilizzare il tag strong per evidenziare le parole chiave nel testo.non conoscendo come i dati sono distribuiti, si ricorre all'ipotesi della ripartizione uniforme.

MEDIANA= è la categoria centrale, che contiene il 50% della distribuzione, una volta che i valori sono stati ordinati in ordine crescente. La mediana è il valore che occupa la posizione centrale in un insieme ordinato di dati. È una misura robusta, in quanto poco influenzata dalla presenza di dati anomali.

Caratteristiche:

  • si ricorre al suo uso quando si vuole attenuare l'effetto di valori estremi;
  • in una distribuzione o serie di dati, ogni valore estratto a caso ha la stessa probabilità di essere inferiore o superiore alla mediana.

Partendo dalla mediana si possono definire:

  • QUARTILI: il primo/secondo/terzo quartile sono le categorie a cui corrisponde il primo 25%/50%/75% della distribuzione (ne segue che la mediana coincide con il secondo quartile).
  • PERCENTILI: il primo/secondo/terzo/... percentile è la categoria a cui corrispondono il...

primo1%/2%/3%/… della distribuzione (ne segue che la mediana coincide con il cinquantesimopercentile)

L’applicabilità di un indice ordinale dipende dunque non dai simboli con cui si identificano le categorie delladistribuzione ma dalla presenza di una relazione empirica di ordine tra le categorie.

MEDIALa media di qualsiasi campione può essere molto diversa da quella dell’intera popolazione. Più è numerosoil campione, più la media del campione sarà vicina a quella della popolazione.

- MEDIA CAMPIONARIA (aritmetica): somma di tutti i valori delle variabili di un sottoinsieme dellapopolazione diviso il numero di unità di tale campione (n).

Es. somma di tutti gli elementi di un campione /numero degli elementi del campione (cardinalità).

- MEDIA DELLA DISTRIBUZIONE (ponderata o pesata): si assegna ad ogni variabile un peso; sisommano tutti i valori delle variabili, moltiplicate per il peso, e si divide il numero

ottenuto per la somma dei pesi. Es. sommatoria dei prodotti delle categorie per le rispettive frequenze assolute o relative/il numero di elementi del campione (cardinalità), ovvero la somma delle frequenze assolute. Le categorie utilizzate sono arrotondamenti della media tra il minimo dell'intervallo e il massimo dell'intervallo incluso. La media è spesso calcolata sulla partizione più fine di A, in cui ogni categoria contiene un solo elemento (quindi in pratica su A stesso). Se la distribuzione è simmetrica vale che mediana e media sono uguali e coincidono con la categoria centrale. Se la distribuzione è asimmetrica: mentre per la definizione la mediana divide il campione su cui la distribuzione è costruita in due parti della stessa numerosità, può accadere che la gran parte degli elementi del campione sia sopra, o sotto, la media. Moda, Mediana e Media forniscono informazione, progressivamente sempre più specifica, sulbaricentro della distribuzione, ma non indicano quanto i valori della distribuzione stessa sono dispersi intorno a tale baricentro. Un indice di dispersione restituisce uno scalare con cui si valuta la diversità esistente tra le osservazioni. Come statistica di dispersione si potrebbe pensare di utilizzare la MEDIA DEGLI SCARTI, ovvero la sommatoria degli scarti diviso la cardinalità. SCARTO = misura quanto ciascun dato xi si discosta dal valor medio, ovvero s = x - Mx La media degli scarti non è una buona idea perché scarti positivi e negativi si compensano, allora gli scarti della media si considerano in forma quadratica e li si normalizza dividendo per n-1, invece che per n. VARIANZA CAMPIONARIA = sommatoria degli scarti quadratici diviso la cardinalità - 1 La varianza campionaria ha però il problema che non è dimensionalmente omogenea ai valori del campione. DEVIAZIONE STANDARD CAMPIONARIA = radice quadrata della varianza campionaria. Caratteristiche: - La varianza

ha lo svantaggio di essere una grandezza quadratica e quindi non direttamente confrontabile con la media o con gli altri valori della distribuzione.

Per trovare una misura espressa nella stessa unità di misura della variabile di partenza è sufficiente estrarre la radice quadrata della varianza.

La deviazione standard è una misura di distanza dalla media e quindi ha sempre un valore positivo.

È una misura della dispersione della variabile casuale intorno alla media.

L'importanza della deviazione standard è tale che la si usa spesso come unità di misura della dispersione intorno alla media, per esempio riportando i risultati di misurazioni nella formula Mx+- kSx, per k positivo.

È rilevante l'informazione circa quanti elementi del campione stanno entro k, dove k>0, deviazioni standard dalla media, cioè quanti elementi sono contenuti nell'intervallo.

DISUGUAGLIANZA DI CHEBYSHEV

Dato un campione di n elementi con

marginali.

marginali.COVARIANZA= Indice che consente di verificare se fra due variabili statistiche esiste un legame lineare.È la sommatoria dei prodotti degli scarti/ n-1

La Covarianza può essere:

  • POSITIVA: quando X e Y variano tendenzialmente nella stessa direzione, cioè al crescere della Xtende a crescere anche Y e al diminuire della X tende a diminuire anche Y.
  • NEGATIVA: quando le due variabili variano tendenzialmente in direzione opposta, cioè quando alcrescere di una variabile l’altra variabile tende a diminuire (e viceversa).
  • NULLA: quando non vi è alcuna tendenza delle 2 variabili a variare nella stessa direzione o indirezione opposta. Quando Cov(X,Y) = 0 si dice anche che X ed Y sono non correlate o linearmenteindipendenti.

CCC(COEFFICIENTE DI CORRELAZIONE CAMPIONARIA)= è un coefficiente adimensionale ottenuto dividendola covarianza per il prodotto delle deviazioni standard campionarie.

Il CCC assume valori tra -1 e 1:

  • -1: completa
  • correlazione negativa (retta a pendenza negativa)- 0: assenza di correlazione- 1: completa correlazione positiva (retta a pendenza positiva)N.B. se i valori non coincidono perfettamente e due grandezze sono moderatamente correlate. TSA (Analisi delle serie storiche) SERIE STORICA: successione che descrive gli istanti di tempo in cui sono acquisiti gli elementi della successione. - Con la funzione CASUALE i valori successivi nel tempo variano troppo uno rispetto all'altro, quindi è bene usare CAMMINI CAUSALI (random walk): Ai = A(i-1) + X(i-1), dove X è casuale().∆t - PERIODO DI CAMPIONAMENTO: gli intervalli con ampiezza costante. Il suo inverso è la FREQUENZA DI CAMPIONAMENTO. - Siccome si può stabilire come unità di tempo 1, la serie storica può essere descritta come un campione e una funzione. Si può quindi rappresentare graficamente con un grafico a dispersione (poiché bivariato) o a linee (poiché è un

    L'ANALISI DELLE SER

Dettagli
Publisher
A.A. 2019-2020
17 pagine
SSD Scienze economiche e statistiche SECS-S/01 Statistica

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher GiugiN99 di informazioni apprese con la frequenza delle lezioni di Analisi dei dati sperimentali e statistica e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università "Carlo Cattaneo" (LIUC) o del prof Mari Luca.