Anteprima
Vedrai una selezione di 5 pagine su 20
Report Social media mining Pag. 1 Report Social media mining Pag. 2
Anteprima di 5 pagg. su 20.
Scarica il documento per vederlo tutto.
Report Social media mining Pag. 6
Anteprima di 5 pagg. su 20.
Scarica il documento per vederlo tutto.
Report Social media mining Pag. 11
Anteprima di 5 pagg. su 20.
Scarica il documento per vederlo tutto.
Report Social media mining Pag. 16
1 su 20
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

La Figura 8 è un grafico a serie temporali che mostra i punteggi medi settimanali di sentimento

derivati da tre diversi lessici di sentiment: AFINN, Bing e NRC. Il grafico traccia come il

sentimento fluttua nel tempo, presentando l’andamento dei punteggi di sentimento su base

settimanale.

Inoltre, il grafico o l’analisi associata confronta il sentimento delle recensioni con valutazioni

alte rispetto a quelle con valutazioni basse. Questo confronto viene effettuato utilizzando test t

per verificare se la differenza nei punteggi medi di sentimento tra i due gruppi è

statisticamente significativa. I risultati di questi test sono visualizzati tramite boxplot, che

mostrano la distribuzione dei punteggi di sentimento all’interno di ciascun gruppo.

In sostanza, il grafico aiuta a:

Visualizzare le tendenze del sentimento nel corso delle settimane.

 Evidenziare le differenze di sentimento tra recensioni positive e negative.

 Utilizzare test statistici (test t) per confermare se tali differenze sono significative.

 Sentiment by rating (high and low)

La Figura 9 offre una visualizzazione efficace della relazione tra la polarità della valutazione e il

sentimento espresso nelle recensioni, contribuendo a una migliore comprensione della validità

delle misure di sentiment e delle dinamiche del feedback degli utenti. L’analisi comparativa

riguarda il sentimento espresso nelle recensioni, categorizzate in base alla polarità della

valutazione assegnata dall’utente. In particolare, i punteggi di sentimento estratti utilizzando

tre diversi lessici computazionali (AFINN, Bing e NRC) sono confrontati tra due gruppi di

recensioni:

Recensioni con valutazioni alte (4-5 stelle): considerate rappresentative di feedback

 positivo.

Recensioni con valutazioni basse (1-2 stelle): considerate rappresentative di feedback

 negativo.

L’obiettivo principale di questa analisi è valutare se i lessici utilizzati siano in grado di

discriminare efficacemente il sentimento associato alle recensioni positive e negative, fornendo

una validazione della robustezza delle misure di sentiment.

Per ciascun lessico, la Figura 9 presenta un insieme di boxplot affiancati, in cui:

L’asse verticale rappresenta il punteggio di sentimento, la cui scala varia a seconda del

 lessico.

L’asse orizzontale distingue i due gruppi di recensioni (‘High vs Low’).

L’interpretazione dei boxplot si basa sui seguenti punti:

Confronto delle mediane: La posizione relativa delle mediane tra i gruppi ad alta e bassa

 valutazione è un indicatore chiave della capacità del lessico di distinguere il sentimento.

Una mediana significativamente più alta per il gruppo con valutazioni alte suggerisce

che il lessico cattura un sentimento più positivo in queste recensioni.

Sovrapposizione delle distribuzioni: Il grado di sovrapposizione tra le scatole e i baffi

 fornisce informazioni sulla somiglianza delle distribuzioni del sentimento tra i gruppi.

Una minore sovrapposizione indica una maggiore capacità del lessico di separare i due

gruppi sulla base del sentimento.

Analisi degli outlier: La presenza e la distribuzione di punti esterni (outlier) evidenziano

 recensioni in cui il sentimento espresso si discosta dal trend generale del gruppo di

appartenenza. Questi casi possono rivelare incoerenze o sfumature complesse nella

relazione tra valutazione e sentimento.

Il confronto dei risultati ottenuti con i tre lessici (AFINN, Bing e NRC) consente di valutare la

coerenza e la robustezza delle conclusioni. L’accordo tra i lessici nel discriminare il sentimento

delle recensioni positive e negative rafforza la validità dell’analisi, mentre eventuali

discrepanze possono suggerire specificità o limiti degli approcci individuali.

Avg AFINN/Bing/NRC by Rate and distribution by Rate

La figura, intitolata "Avg AFINN/Bing/NRC by Rate and distribution by Rate" (Figura 10),

presenta sei grafici — diagrammi a barre e boxplot — che illustrano i punteggi di sentiment in

relazione alle valutazioni degli utenti (presumibilmente su una scala da 1 a 5, anche se

sull’asse x sono mostrate principalmente le valutazioni da 3 a 5). Vengono utilizzati tre diversi

lessici di sentiment: AFINN, Bing e NRC.

Nella fila superiore sono riportate le medie del sentiment per ciascuna valutazione:

Avg AFINN (top 5 ratings): Questo grafico a barre mostra il punteggio medio di

 sentiment calcolato utilizzando il lessico AFINN per ciascuna delle valutazioni più alte.

L’asse y rappresenta il “Mean sentiment” (sentimento medio). Si può osservare come il

sentimento medio AFINN vari tra le valutazioni, con barre più alte che indicano un

sentimento medio più positivo per quella valutazione.

AFINN distribution by Rate: Questo boxplot visualizza la distribuzione dei punteggi di

 sentiment AFINN per ciascuna valutazione. Ogni box rappresenta l’intervallo

interquartile (IQR), la linea interna è la mediana, i baffi si estendono a circa 1,5 volte

l’IQR, mentre i punti rappresentano gli outlier. Il grafico fornisce informazioni sulla

dispersione e asimmetria dei punteggi di sentiment all’interno di ciascuna categoria di

valutazione.

Avg Bing (top 5 ratings): Simile al grafico AFINN, questo grafico a barre mostra il

 punteggio medio di sentiment calcolato con il lessico Bing per ciascuna valutazione

principale. L’asse y mostra il “Mean sentiment” secondo l’analisi Bing.

Nella fila inferiore è mostrata la distribuzione del sentiment per ciascuna valutazione:

Bing distribution by Rate: Questo boxplot è analogo a quello della distribuzione AFINN,

 ma utilizza i punteggi di sentiment derivati dal lessico Bing, illustrando la distribuzione

dei punteggi Bing nelle diverse categorie di valutazione.

Avg NRC (top 5 ratings): Questo grafico a barre mostra il punteggio medio di sentiment

 ottenuto con il lessico NRC per ciascuna valutazione più alta. L’asse y è etichettato

come “Mean sentiment.” Il lessico NRC categorizza le parole in varie emozioni e

sentimenti; questo grafico rappresenta probabilmente un punteggio medio di polarità o

una misura aggregata simile derivata dall’analisi NRC.

NRC distribution by Rate: Questo boxplot mostra la distribuzione dei punteggi di

 sentiment basati sul lessico NRC per ciascuna valutazione, fornendo una

rappresentazione visiva dell’intervallo e della tendenza centrale di questi punteggi

all’interno di ciascun gruppo di valutazione.

L’obiettivo della figura è fornire una visione completa di come il sentimento, misurato tramite

tre diversi lessici, si relazioni alle valutazioni degli utenti. Analizzando i punteggi medi e le loro

distribuzioni per ciascuna valutazione, è possibile comprendere:

Tendenze del Sentimento: Se valutazioni più alte corrispondono generalmente a un

 sentimento più positivo e viceversa.

Consistenza del Sentimento: Quanto varia il sentimento all’interno di ciascuna categoria

 di valutazione (indicato dalla dispersione nei boxplot).

Differenze tra Lessici: Se i tre lessici (AFINN, Bing, NRC) producono punteggi e

 distribuzioni simili per le stesse valutazioni.

Analisi Keyword-in-Context (KWIC)

La funzione Keyword-in-Context (KWIC) è stata utilizzata per esaminare l'uso specifico e il

significato di determinate parole chiave all'interno del loro contesto originale nelle recensioni.

Questo approccio qualitativo è fondamentale per comprendere le sfumature semantiche che le

analisi quantitative (come N-grammi o TF-IDF) potrebbero non catturare completamente.

Esempio per la parola chiave "magic": L'applicazione della funzione KWIC alla

 parola "magic" ha rivelato che il termine è quasi universalmente associato a

connotazioni positive e descrittive dell'universo di Harry Potter. I contesti includono frasi

come "good film with a MAGIC universe", "evokes a warm, childlike MAGIC", "journey

filled with MAGIC, mystery", "sense of MAGIC and wonder", "pure cinematic MAGIC",

"movie full of MAGIC!". Ci sono anche riferimenti agli effetti speciali ("special effects to

bring the MAGIC to life") e alla relazione con il materiale sorgente ("captures the

MAGIC of the book"). Occasionalmente, "magic" appare in contesti che ne lamentano la

scarsità o l'assenza ("very minimal MAGIC that was actually used"), ma la stragrande

maggioranza delle occorrenze la lega a un'esperienza positiva e immersiva. Questo

conferma che l'elemento magico è una componente chiave del successo del film e della

sua ricezione entusiasta.

Esempio per la parola chiave "spell": Sebbene meno frequente di "magic", l'analisi

 KWIC per "spell" ha mostrato contesti più specifici e talvolta critici. Esempi come

"doesnt cast one SPELL in this movie?" o "saying a SPELL or pulling a trigger?"

suggeriscono che il termine è spesso usato in relazione all'azione o alla mancanza di

azione magica diretta da parte dei personaggi. Questo indica che i recensori prestano

attenzione non solo alla presenza della magia ma anche alla sua manifestazione e al

suo utilizzo all'interno della narrazione.

L'analisi KWIC, quindi, non solo valida le scoperte quantitative ma aggiunge profondità,

rivelando come e perché certe parole siano importanti per i recensori, fornendo un ponte tra

l'analisi lessicale e l'interpretazione del contenuto.

3.1.7 Topic Modeling

Come passo finale, il codice prepara i dati per il topic modeling utilizzando il metodo Latent

Dirichlet Allocation (LDA). LDA è una tecnica che identifica i topic sottostanti in una collezione

di documenti. Per eseguire l’LDA viene utilizzato il pacchetto topicmodels.

Il codice elimina i documenti vuoti dalla matrice documento-termine (DTM), poiché LDA non

può gestirli. Per identificare e rimuovere le righe vuote dalla DTM si utilizza il pacchetto slam.

3.1.8 Stima del numero ottimale di topic (K) tramite perplexity

Questa sezione del codice ha l’obiettivo di determinare il numero ottimale di topic (K) per il

modello LDA. La perplexity è una misura di quanto bene un modello di probabilità predice un

campione: valori più bassi indicano una migliore adattabilità del modello.

Il codice esplora un intervallo di valori possibili per K (da 2 a 10) e calcola la perplexity per

ciascun K. Per ogni K viene addestrato un modello LDA usando la funzione LDA() del pacchetto

topicmodels. La funzione perplexity() calcola la perplexity del modello LDA addestrato sulla

DTM fornita (dtm_lda).

Il valore di K con la perplexity più bassa viene selezionato come “miglior K”. Infine, il codi

Dettagli
A.A. 2025-2026
20 pagine
SSD Scienze politiche e sociali SPS/08 Sociologia dei processi culturali e comunicativi

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher Eleonora_Perone1 di informazioni apprese con la frequenza delle lezioni di Social media mining e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi della Tuscia o del prof Parlato Enrico.