vuoi
o PayPal
tutte le volte che vuoi
FASE EMPIRICA (LINK SONO IMPORTANTI)
Si passa alla fase successiva operativa, partendo dal disegno empirico.
La fase della ricerca empirica implica: campionamento, raccolta dati,
definizione variabili, metodo di analisi.
L’analisi empirica dei dati è un processo iterativo, processo di manipolazione
dei dati per estrapolare informazioni su domanda di ricerca.
Vedere key concepts of data analysis per i termini.
1) Fase campionamento: processo di scelta dei case (unità).
Per capire di aver fatto un campionamento è quello di capire se c’è il giusta
corrispondenza tra le unità campionate e la domanda di ricerca.
Il campione deve essere rappresentativo (caratteristiche del campione devono
riflettere quelle della larger population), giusta grandezza, metodo (casuale,
volontario…)…
2) Fase raccolta dati: database piu utilizzati, non tutti stesse informazioni (crsp,
eikon, orbis, aida…)
La scelta del database può cambiare i risultati.
3) analisi variabili: la scelta delle variabili è dettata dalla teoria, dalla
letteratura di riferimento, almeno 2 varibili explanatory, explained.
Categorie delle variabili: nominali
dicotomica (binaria, due variabili)
ordinale (ranking crescente)
Variabili continue.
Problemi variabili…
vedere LIBBY BOXES (LINK so importanti, vanno spiegati nel progetto).
4)Metodi di analisi:
Analisi descrittive, comparative. Modello di regressione.
Studio dati longitudinali: dati della stessa impresa in diverso tempo.
Quello che noi facciamo è un analisi panel: (cioè prendiamo tot imprese e tot
anni), usiamo dati longitudinali, un’impresa analizzata in un tempo, può essere
bilanciata (es: 100 imprese analizzate per tre anni= 300 analisi)
unbalanced (non tutte le imprese analizzate ogni anno,
magari 80 il primo, 130 il secondo…).
Lez. 5.
Dal costrutto concettuale alla struttura empirica.
Costrutti concettuali: link 1 è il collegamento tra i due costrutti presenti in
explanatory ed explained.
- Si sceglie il campionamento (con opportune giustificazioni)
- Scegliamo le variabili (link 2-3), variabili diverse misurano in modo differente
lo stesso
costrutto. Scegliere variabili appartenenti al settore, non c’è bisogno di
giustificarle.
- Formalizzazione Libby Boxes.
- Accesso database Orbis: estrazione dei dati (in base ai parametri da noi
inseriti). (aggiungi/rimuovi colonna per nuove variabili).
Orbis non ha lo storico (faremo finta per esempio che la governance sia la
stessa anche negli anni precedenti), specificare manager attuali).
- Strutturare database: miglior metodo è il panel long (+ imprese + anni).
Il problema è che il database da per ogni riga un’impresa, e tempo da colonne,
ma questo è un problema, ogni impresa in un anno è diversa dall’altro (per es.
eni 2020/21 occupa 1 riga, ni 21/22 deve occupare un’altra riga. -> per fare
questo cioè renderlo panel.
Tutte le imprese nelle righe, tutte le variabili nelle colonne (questo è il
focus).Un metodo è creare diversi fogli excel in base all’anno, cancellando le
variabili degli anni che non ci interessano, dopodiche basta incollare uno sotto
all’altro i 3 fogli, inserire variabile ANNO come colonna.
Ordinare per nome e poi anno.
- Coding variabili
Lez 6 Online
quad.
Lez. 1 (PIRRA)
Testo utile ma non tratta tutti gli argomenti (acq. Opz.).
LEZIONE 2
Non è attività valutativa il teamwork week 4. (Dataset si sceglie, consigliato nel
tenersi quel dataset ma non è nulla di vincolante)
Obiettivo di usare tecniche e metodi per analisi di dati. Studieremo alcune delle
metodologie.
Un punto rilevante prima di utilizzare i metodi è bene saper quali dati e la loro
tipologia abbiamo a disposizione, la principale distinzione è tra:
variabili quantitative e categoriali (qualitative)
Le prime sono quelle in cui i valori sono numeri.
Le seconde sono quelle in cui i valori sono rappresentati da categorie.
Var dicotomiche (poche misurazioni tipo frequenza)
Var. nom./ Scala nominale: due osservazioni che non hanno un ordine, non può
essere ordinata. (es: ristorante fa delivery? Si/No)
Var. categoriale ordinale/ Scala ordinale: si possono confrontare le categorie in
termini di maggiore e minore (es: titoli di studio, gradi militari). Anche se valori
sono trasformati in numero bisogna tener conto che non hanno lo stesso valore
dei numeri in senso proprio.
Var Card. (?): inteso quantitative
Var. Discrete: numero finito, cioè facile si conta (es. numero di auto)
Var. Continue: infinità di valori, (es. reddito, età…).
L’analisi di frequenza punto di partenza di tutte le analisi descrittive.
La media si calcola su variabili quantitative, non si può su quelle qualitative.
Media anche utile per var. card. e scale ordinali.
LEZIONE 3 PIRRA. ONLINE
Interagire via chat, foto profilo webex consigliati.
I dataset li possiamo trovare dove ci pare e piace, però punto di partenza un
https://paolapozzolo.it/dataset-esempio-
link (KAGGLE consigliato):
analisi-statistiche/
Ultima SPSS 29.
Funzionamento spss.
Da vedere video reg.
Lezione 4 02/10
Pirra continua con esempi SPSS.
3/10
Tabelle di contingenza (CROSS-TAB)
Attraverso tabella cercare di capire in termini di resilienza qualche differenza
tra az che hanno fatto outsourcing o no (es).
Ricodifica in caso di errori di battitura (trasforma -> ricodifica stess var).
TAB DI CONTIGENZA: Analizza -> stat descrittive
Analizza -> frequenza -> agg. Average, statitische
Assignement per 11/10:
1) Pulisci il set di dati rimuovendo tutti gli errori di battitura emersi dalla
raccolta dei dati.
2) Descrivi i dati utilizzando le statistiche effettuate nelle settimane 3 e 4 e
genera almeno due figure per supportare la tua descrizione. Trasforma e
ricodifica i dati quando necessario.
3) - Formulare una domanda di ricerca per variabile.
- Dare una risposta calcolando media e mediane. Quando non è possibile
calcolare né la media né la mediana, utilizzare l'analisi delle frequenze
- Rispondi alle tue domande di ricerca. Supporta le tue risposte con un breve
commento
4) - Quando possibile, effettuare un'analisi della variabilità di tutti i dati
disponibili utilizzando quartili, percentili, deviazione standard/varianza, minimo,
massimo, box-plot, asimmetria e curtosi. Identificare e risolvere eventuali valori
anomali.
5) - Formulare tre domande di ricerca a cui rispondere utilizzando tre diverse
analisi incrociate.
Dai una risposta facendo commenti e lasciando approfondimenti
manageriali.
3)
- Qual è la predominanza di genere dei dipendenti all’interno delle aziende?
- Quali sono i mercati in cui le aziende operano maggiormente?
Op. Le imprese operano maggiormente…
- Qual è il livello di consenso tra le aziende riguardo agli investimenti nei social
media (oppure dire propensione media) (o cambiare domanda in modo sia
rivolto ai dipendenti)
Qual è il grado di consenso tra i dipendenti delle aziende riguardo agli
investimenti nei social media?
- Qual è la fascia salariare in cui si collocano maggiormente le imprese?
9/10
cap 4-5-6 agresti
TEST IPOTESI E INTERV. CONFIDENZA AL 99% SONO PER VAR.QUANTITATIVE.
Confidenza: margine di errore, una statistica campionaria può variare proprio
perché non ha tutto come osservazione.
Nell’intervallo di confidenza si ha : il livello di confidenza (maggiore è
confidenza, maggiore è intervallo).
10/10
16/10
8 Novembre secondo assignment.
Agrestic cap.6
Verifica di ipotesi.
PVALUE >= ad ALPHA (5%), ipotesi accetata
pvalue minore ipotesi nulla rifiutata
17/10/2023
Es test camp. Sing (esmepio dischi dei macchinari)
- Raggruppiamo i numeri della macchina (li suddividiamo)
suddividi file (dati)
- Essendo la misura dischi 322, vogliamo testarla.
Analizza -> Confr. Media e Pro.-> valore test 332. OK (prime 2 tabelle sono di
nostro interesse).
gl (gradi di libertà), significatività (dove abbiamo p value e ci concentriamo sul
bilaterale perché ipotesi di base è media=322 e quella alternativa media=/322,
ma nel momento in cui dico diverso considera sia maggiore che minore perciò
va considerato solo P bilaterale).
Alpha è 10% (cioè differenza tra 100 e intervallo di confidenza), e vedo se
l’ipotesi di base può essere accettata. Primo esempio prima riga è 0,602 e
quindi si accetta cioè macchinario in linea desiderata della produzione… vedere
ragionamento anche su intervalli di confidenza.
Abbiamo visto anche camp indipendenti
18/10
INDIPDENTENTI: Vediamo.
Ricodifica in variabili differenti in n_GENDER
oggi vediamo campioni dipendenti
In entrambi confrontiamo due medie: nei campioni indipendenti vediamo
osservazioni indipendenti, due gruppi diversi per genere ecc… media gruppo 1
=/ 2 e gruppi non hanno legame.
Nei campioni dipendenti, i gruppi sono stessi ma istanti diversi, oppure a
condizioni differenti tipo valuto la reazione della stessa persona se prendere
vivinC o aspirina e vedere se la reazione è la stessa o diversa. Campioni
accoppiati persone stesse in diversi tempi o condizioni diversi e si confrontano
le medie.
- analizza confornta media test a campioni accoppiati (due salari le var.).
Terza tabella: ci dice se diff. È significativa.
PER MALE E FEMALE SEPARATI?
DATI -> SUDDIVILE FILE -> CONFRONTA GRUPPI -> GENDER (esce file con
gender ordinato).
poi fare confronta media ecc di prima, escono due righe.
23/10
Legame sinonimo di assocazione.
Tabelle di contingenza e test chi2 i più utilizzati.
Chiquadro test per variabili anche categoriali, finalizzato ad analizzare singolo
legame.
Abbiamo un ipotesi di base e una alternativa, le variabili in quella di base sono
statisticamente indipendenti, quella alternativa è se c’è legame (dipendenti).
Limite di questo test (non dice che forma (direzione) è di legame e che forza ha
il legame, se debole o forte), (p value piccolo c’è dipendenza).
Gradi di liberta: sono calcolati come numero di righe – 1 , numero di colonne -1
Correlazione è una delle forme di associazione, misura la forma lineare. Ma non
è che se la correlazione è nulla allora non c’è dipendenza (esempio delle due
colonne, una è il quadrato dell’altra ma comunque dice correlazione 0).
24/10
test operativo chiquadro.
stat desc -> tab. di contingenza -> stat chi quadro
celle > 5 per attendibilità
p value 0,17 sotto 5% abbiamo evid statistica che ci permette di