vuoi
o PayPal
tutte le volte che vuoi
Caratteristiche delle distribuzioni di frequenza
1. Esprimono quantità di misure/dati continui
2. Permettono di rilevare tutti i possibili valori, anche frazionari, di un intervallo
3. Possono anche essere rese discrete (ammessi solo numeri interi)
4. Operazioni ammesse: =, diverso, <, >
5. Scala razionale (ha uno zero assoluto o determinabile)
Distribuzione di frequenza
La distribuzione di frequenza è la prima sintesi dei dati e consiste nell'associare ad ogni modalità di una variabile una frequenza, ovvero un numero che descrive quante volte la modalità è stata osservata nei dati.
Distribuzioni univariate e bivariate
Le distribuzioni possono essere univariate (una variabile) o bivariate (due variabili).
Distribuzione univariata
1. Tabella (K, ni, fi, Ni, Fi) - frequenze relative x 100 = percentuali
2. Figure:
- Diagramma circolare o a torta: usato per variabili qualitative nominali. Si realizza dividendo una torta in settori secondo la frequenza relativa.
- Diagramma a barre orizzontali: usato per variabili qualitative (nominali/ordinabili).
L'altezza delle barre rappresenta la FREQUENZA ASSOLUTA o la FREQUENZA RELATIVA
DIAGRAMMA AD AGHI: l'altezza delle barre rappresenta la FREQUENZA ASSOLUTA/ FREQUENZA RELATIVA
DIAGRAMMA CON FREQUENZE CUMULATE: FREQUENZE RELATIVE
ISTOGRAMMA O DIAGRAMMA A CANNE D'ORGANO: si usa per rappresentare caratteristiche contigue le cui modalità sono rappresentate in CLASSI:
- CLASSI DI UGUALE AMPIEZZA: l'altezza è proporzionale alla frequenza delle classi
- CLASSI DI DIVERSA AMPIEZZA: le altezze devono essere adattate e espresse per unità di misura della base
- È l'AREA e non l'ALTEZZA a coincidere con la FREQUENZA
DISTRIBUZIONE BIVARIATA:
- TABELLA A DOPPIA ENTRATA: rappresentata dalla classificazione congiunta delle unità statistiche in base a COPPIE di variabili
- FIGURE (BIVARIATA/ MULTIVARIATA):
SCATTERPLOT: si usa per rappresentare graficamente come due variabili si relazionano l'una con l'altra.
Utile per rappresentazione bivariata di 2 variabili continue. Ciascun punto rappresenta una unità statistica; una variabile è visualizzata sull'asse delle ascisse e l'altra sull'asse delle ordinate. MISURE DI TENDENZA CENTRALE O POSIZIONE: riassumono in un'unica modalità l'intera serie o seriazione secondo un criterio specifico. La posizione centrale della distribuzione è il BARICENTRO. MISURE DI SIMMETRIA: descrivono la forma di una distribuzione di frequenza. MISURE DI DISPERSIONE: informazione di dispersione dei valori di un insieme di dati. MODA: valore più frequente, picco di distribuzione. DISTRIBUZIONI BI-TRI-MODALI, PLURIMODALI. - MAGGIORE INFORMATIVA QUANTO È PIÙ ELEVATA LA FREQUENZA. - NON INFLUENZATA DA ESTREMI. - PUÒ ESSERE DECENTRATA. MEDIANA: modalità di una seriazione che lascia il 50% a DX e il 50% a SX dopo che le n unità sono state ordinate in senso crescente. CALCOLABILE PERFENOMENTI CON SCALA ORDINABILE
POCO SENSIBILE AI VALORI ESTREMI
DIFFICILE UTILIZZO PER INFERENZA STATISTICA
QUANTILE: valore della variabile che taglia la distribuzione di frequenza con un quantoa SX e il rimanente a DX
CENTILE: taglia la curva in centesimi
MEDIA ARITMETICA SEMPLICE(DATI NON AGGREGATI): somma dei valori divisa per illoro numero
INFLUENZATA ANCHE DA VALORI ESTREMI
MEDIA ARITMETICA PESATA: (DATI AGGREGATI)
INDICI DI SIMMETRIA: la distribuzione è simmetrica rispetto alla media, se le modalitàche sono equidistanti dalla media hanno la stessa frequenza
MEDIANA POCO INFLUENZATA DA SIMMETRIA
MEDIA MOLTO INFLUENZATA DA SIMMETRIA
MEDIANA PREFERIBILE QUANDO LA DISTRIBUZIONE È ASIMMETRICA
COEFFICIENTE DI SIMMETRIA O SKEWNEES:
- SK= ø SIMMETRIA ( coda DX E SX) → MEDIA= MEDIANA= MODA
- SK= + SIMMETRIA POSITIVA( coda DX) → MEDIA > MEDIANA
- SK. – SIMMETRIA NEGATIVA( coda SX) → MEDIA < MEDIANA
MISURE DI DISPERSIONE:
- ...
VARIAZIONE: misura la variabilità tra variabili diverse
BOX-PLOT: racchiude in una sola rappresentazione grafica molti aspetti sintetici di una distribuzione di frequenza
INDICI DI POSIZIONE: MEDIA, MEDIANA
INDICI DI SIMMETRIA: DIFFERENZA TRA MEDIA E MEDIANA
INDICI DI DISPERSIONE: RANGE INTERQUARTILE E RANGE
DEFINIZIONE CLASSICA DI PROBABILITÀ: dato un esperimento aleatorio con un insieme di possibili risultati, ugualmente probabili, la probabilità che si verifichi l'evento A [P(A)] è il numero di uscite favorevoli ad A moltiplicato per il numero totale delle possibili uscite
DEFINIZIONE FREQUENTISTA DI PROBABILITÀ: dato un esperimento aleatorio ben specificato e preferibilmente ripetibile di cui E è uno dei possibili esiti; sia Fr(E) la frequenza con cui E si è verificato in una serie di n repliche dell'esperimento (FREQUENZA ASSOLUTA di E). La probabilità dell'evento E è il limite cui tende
La frequenza relativa dell'accadimento dell'evento E al crescere del numero di prove (numero infinito) è definita da una distribuzione di frequenza:
- Empirica: ottenuta da un esperimento reale
- Teorica: definita da un assunto iniziale
La definizione matematica/assiomatica di probabilità è la seguente: dato un insieme di possibili eventi o esiti di un esperimento E appartenenti ad uno spazio campionario S, la probabilità di un evento è una funzione che ha le seguenti caratteristiche:
- Assegna ad ogni evento un numero reale non negativo: P(Ei) > 0
- La probabilità dell'evento certo è pari a 1: P(S) = 1
- La probabilità di unione di eventi incompatibili è la somma delle singole probabilità
Lo spazio campionario è l'insieme delle possibili uscite.
La definizione matematica è alla base della costruzione di un modello teorico di una distribuzione di probabilità.
Una distribuzione di probabilità è una funzione matematica che associa ad ogni possibile valore di un evento una probabilità.
fenomeno la probabilità con cui questo valore si verifica in una serie di prove indipendenti DISTRIBUZIONE BINOMIALE: ha solo 2 possibilità- PIGRECO= probabilità di successo in ciascuna singola prova
- X= numero di successi in n prove
- X= assume valori da 0 a n
- FORMULAZIONE DELL'IPOTESI
- RACCOLTA DATI
- CONFRONTO LE DUE DISTRIBUZIONI (MEDIE)
- SE LE DUE MEDIE SONO UGUALI, ACCETTO L'IPOTESI NULLA (ASSENZA DI DIFFERENZA), SE SONO DIVERSE, ACCETTO L'IPOTESI
IPOTESI 0 (NULLA): il peso medio delle due popolazioni è UGUALE [HO]
IPOTESI 1 (ALTERNATIVA): il peso medio delle due popolazioni è DIVERSO [H1]
IMPORTANTE!!!! ALFABETO GRECO (POPOLAZIONE), ALFABETO LATINO (CAMPIONE)
ALTERNATIVA INFERENZA STATISTICA: poter trarre conclusioni sull'ipotesi nulla senza conoscere l'intera popolazione di manager ma conoscendo solo il campione rappresentativo di questa
DISTRIBUZIONE DI CAMPIONAMENTO DELLE MEDIE: si riferisce alla distribuzione dei campioni che si derivano dalla popolazione. Sono la base per eseguire l'INFERENZA STATISTICA
LA MEDIA DELLE D.d.C. DELLE MEDIE È PARI ALLA MEDIA DELLA POPOLAZIONE
LA DS DELLA D.d.C. DELLE MEDIE È:
ES(errore standard) = SIGMA(DS) / RADICE DI n (CAMPIONE)
LA FORMA DELLA D.d.C. delle medie è approssimativamente normale
indipendentemente dalla distribuzione della popolazione, posto che n sia sufficientemente grande
STATISTICA TEST: la misura della DISTANZA tra la situazione OSSERVATA nel campione e quella che mi ATTENDO sotto ipotesi nulla
MEDIA CAMPIONARIA - MEDIA / ESP-VALUE: esprime la probabilità di osservare i dati osservati o dati che si discostano dall'ipotesi nulla ancora di
più di quanto osservato se l’ipotesi nulla è vera. Viene confrontato con il livello di significatività “a” per prendere decisioni rispetto all’ ipotesi nulla:
- > 0.05 (GRANDE) l’ipotesi nulla è supportata dai dati osservati
- <= 0.05 (PICCOLA) l’ipotesi nulla NON è supportata dai dati
TEST STATISTICO:
ERRORE DI PRIMO TIPO/PRIMA SPECIE (Se l’ipotesi nulla è VERA, ma noi la rifiutiamo attraverso il test commettiamo un errore) → a (alpha)
ERRORE DI SECONDO TIPO/DI SECONDA SPECIE (Se l’ipotesi nulla è FALSA e noi l’accettiamo attraverso il test commettiamo un errore) → b (beta)
LIMITI DI CONFIDENZA AL 95%: indica che con probabilità pari al 95% il valore incognito del parametro di interesse nella popolazione è compreso nell’intervallo. La differenza tra le medie nelle popolazioni sia pari a 0. Pertanto, se l’intervallo di confidenza contiene il valore 0,
Significa che i miei dati supportano l'ipotesi nulla; mentre se l'intervallo di confidenza non contenesse 0, allora significherebbe che i dati supportano l'ipotesi alternativa.
FREQUENZA ASSOLUTA (GIA SCRITTA)
FREQUENZA ASSOLUTA CUMULATA (SOMMA PARZIALE FREQUENZA ASSOLUTA)
FREQUENZA RELATIVA (FREQUENZA ASSOLUTA/TOTALE)
FREQUENZA RELATIVA CUMULATA (SOMMA PARZIALE FREQUENZA RELATIVA)
MODA (FREQUENZA ASSOLUTA PIU' GRANDE - CORRISPONDENTE ALLA CLASSE-)
MEDIANA (TOTALE + 1 : 2, SE È DISPARI, TOTALE : 2, SE È PARI)
MEDIA (Xi - X)^2 / TOTALE
VARIANZA (Xi - X)^2 * Ni / TOTALE (dop)