Anteprima
Vedrai una selezione di 6 pagine su 21
Report Social media mining Pag. 1 Report Social media mining Pag. 2
Anteprima di 6 pagg. su 21.
Scarica il documento per vederlo tutto.
Report Social media mining Pag. 6
Anteprima di 6 pagg. su 21.
Scarica il documento per vederlo tutto.
Report Social media mining Pag. 11
Anteprima di 6 pagg. su 21.
Scarica il documento per vederlo tutto.
Report Social media mining Pag. 16
Anteprima di 6 pagg. su 21.
Scarica il documento per vederlo tutto.
Report Social media mining Pag. 21
1 su 21
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

Questi risultati, visualizzati anche tramite un network graph e una heat-map, delineano

chiaramente che le discussioni vertono principalmente sulla qualità dell'inizio della serie,

l'universo magico e l'apprezzamento generale da parte del pubblico, con una forte enfasi sul

primo capitolo della saga. Top 50 term co-occurrence

Questo grafo di rete mostra la co-occorrenza dei primi 50 termini. I nodi rappresentano i

termini, mentre gli archi indicano la loro co-occorrenza, mostrando quanto frequentemente le

parole compaiono insieme nelle recensioni.

Il grafo di rete risultante (Figura 5) presenta una struttura complessa, caratterizzata da un

cluster centrale densamente interconnesso di nodi, affiancato da diversi cluster più piccoli e

isolati e da nodi singoli posizionati verso la periferia.

Questa organizzazione suggerisce una doppia natura delle relazioni tra i termini: mentre alcuni

termini mostrano un’ampia interconnessione, indicativa di un contesto condiviso e frequente

co-occorrenza, altri manifestano associazioni più specifiche e localizzate.

Co-occurrence heat map (top 30 terms)

L’immagine fornita mostra una heatmap di co-occorrenza dei primi 30 termini di un testo.

Questo strumento di visualizzazione illustra con quale frequenza coppie di parole appaiono

insieme all’interno del corpus testuale analizzato.

Sull’asse orizzontale (x) e su quello verticale (y) sono elencati gli stessi 30 termini più

frequenti, nello stesso ordine. Ogni cella all’intersezione di due termini è colorata in base alla

frequenza della loro co-occorrenza: tonalità più scure di blu indicano una frequenza più alta

delle due parole che compaiono nello stesso contesto, segnalando una forte associazione. Al

contrario, tonalità più chiare o celle quasi bianche indicano una bassa co-occorrenza,

suggerendo che queste parole raramente o mai appaiono insieme.

La diagonale principale, che va dall’angolo in alto a sinistra a quello in basso a destra, mostra

sempre la co-occorrenza di un termine con sé stesso ed è quindi rappresentata dalla tonalità di

blu più scura per ciascuna parola.

Osservando l’intensità del colore nelle diverse celle, è possibile identificare coppie di parole

fortemente associate nel testo. Ad esempio, una cella blu scuro all’intersezione tra “wizard” e

“magic” indicherebbe la loro frequente co-occorrenza. Viceversa, una cella chiara tra “stone” e

“effect” suggerisce che queste parole appaiono raramente insieme.

I termini visibili includono “stone”, “first”, “more”, “great”, “one”, “like”, “charact”, “good”,

“well”, “watch”, “sorcer”, “effect”, “make”, “hogwart”, “still”, “wizard”, “start”, “just”, “can”,

“stori”, “get”, “even”, “best”, “reali”, “move”, “cast”, “also”, “witch”, “world”, “sen”,

“contract”, “time”, “great”, “magic”, “first” e “stone”. Analizzando le tonalità di blu

corrispondenti a queste parole, si possono dedurre concetti o temi strettamente collegati nel

testo, come una potenziale forte co-occorrenza tra “wizard” e “hogwart” o tra “magic” e

“sorcer”.

3.1.6 Analisi degli N-grams

Per ottenere una comprensione più granulare del contenuto testuale, l'analisi è stata estesa

oltre le singole parole (unigrammi) per includere le sequenze di due (bigrammi) e tre

(trigrammi) parole. L'uso di N-grammi permette di catturare il contesto e le espressioni

composte, fornendo un'immagine più ricca del linguaggio utilizzato nelle recensioni.

Unigrammi: L'analisi dei 20 unigrammi più frequenti ha confermato la predominanza di

 termini legati al giudizio positivo e al mondo narrativo. Parole come "great" (429

occorrenze), "magic" (358), "good" (352), "first" (348) e "seri" (339) evidenziano

un'accoglienza complessivamente favorevole e un forte riferimento all'inizio della saga.

Termini specifici come "stone" (325), "world" (272), "charact" (246) e "sorcer" (198)

sottolineano i pilastri concettuali e tematici del film e del suo universo.

Bigrammi: I bigrammi hanno rivelato associazioni concettuali più specifiche e nomi

 propri che emergono come discussi frequentemente:

Riferimenti al titolo: sorcer stone (187) e philosoph stone (102) sono, come

o atteso, tra i più frequenti, confermando il focus sul primo capitolo della saga.

Personaggi principali: Le coppie daniel radcliff (78), emma watson (72) e rupert

o grint (62) indicano che gli attori principali (e di conseguenza i loro personaggi)

sono spesso menzionati congiuntamente, suggerendo che la loro performance o

la loro presenza sono elementi salienti nelle recensioni.

Elementi di produzione/team: Termini come special effect (61), chris columbus

o (54), richard harri (52), alan rickman (51), john william (51), maggi smith (41) e

robbi coltran (41) mettono in luce l'attenzione del pubblico non solo sul

contenuto ma anche sul cast di supporto e sulle figure chiave della produzione

(regista, compositore degli effetti speciali).

Temi e qualità: Bigrammi come wizard world (53), one best (48), magic world

o (43), start seri (41), great start (38) e first time (36) confermano il successo del

film nell'introdurre il mondo magico e nell'essere percepito come un ottimo inizio

per la serie, spesso visto o apprezzato per la prima volta.

Trigrammi: L'analisi dei trigrammi ha ulteriormente affinato queste osservazioni, con un

 focus ancora più marcato sui nomi dei protagonisti e sul contesto scolastico/magico:

Le sequenze grint emma watson (27), rupert grint emma (27) e daniel radcliff

o rupert (24) evidenziano la frequenza con cui il trio di attori/personaggi viene

menzionato insieme, suggerendo che la loro dinamica è un punto focale delle

recensioni.

Frasi come school witchcraft wizardri (17) e hogwart school witchcraft (16)

o rimarcano l'importanza dell'ambientazione di Hogwarts e del tema della magia.

Alcuni trigrammi ("must must must", "love love love") suggeriscono un uso

o enfatico o ripetitivo di certe parole per esprimere forte apprezzamento.

3.1.7 Analisi TF-IDF Comparativa tra Recensioni con Rating Basso e Alto

Per identificare i termini che sono più distintivi delle recensioni con rating elevato (4-5 stelle)

rispetto a quelle con rating basso (1-2 stelle), è stata applicata l'analisi TF-IDF (Term Frequency-

Inverse Document Frequency). Questo metodo assegna un peso a ogni termine basato sulla

sua frequenza all'interno di un documento e sulla sua rarità nell'intero corpus, permettendo di

evidenziare le parole più significative per ciascun gruppo di recensioni.

L'analisi ha identificato i 25 termini con la maggiore differenza di punteggio TF-IDF tra i due

gruppi, fornendo intuizioni preziose sulle divergenze nel linguaggio utilizzato dai recensori.

bore faith

Termini più forti nelle recensioni a basso rating: Parole come (noiose),

 (fede - in un contesto critico, potrebbe suggerire aspettative deluse o mancanza di

better

credibilità narrativa), (migliore - spesso usato in contesti comparativi negativi,

lot

es. "mi aspettavo di meglio"), (molto - spesso in un contesto negativo, es. "c'è molto

dont plot

da migliorare"), (non - indicando negazione o insoddisfazione), (trama),

possibl know

(possibile - forse in riferimento a carenze o opportunità mancate),

much doesnt like

(sapere), (molto - nuovamente in contesti negativi), (non), (come -

noth seen

in senso di "non mi è piaciuto come...", o "non è come il libro"), (niente),

enough live

(visto), (abbastanza - spesso in senso di "non abbastanza"), (vivo/vivere),

experi philosoph

(esperienza), e (filosofale - in contesti critici, forse per sottolineare

una mancanza di aderenza o gestione del titolo). Questi termini suggeriscono che le

recensioni negative si concentrano su aspetti legati alla percezione di noia, delusione,

difetti nella trama, e una generica insoddisfazione, spesso in termini comparativi o di

negazione.

Termini più forti nelle recensioni ad alto rating: Al contrario, le recensioni positive

 love great best

sono caratterizzate da termini come (amore), (grande), (migliore),

amaz classic begin magic favorit

(incredibile), (classico), (inizio), (magia) e

(preferito). Queste parole indicano un forte apprezzamento per l'esperienza

complessiva, la qualità percepita del film, il suo status di "classico" e l'elemento

intrinseco della magia che lo rende coinvolgente e amato.

3.1.8 Analisi del Sentimento (Sentiment Analysis)

Il codice esegue un’analisi del sentimento per valutare il tono emotivo delle recensioni. Viene

utilizzato il pacchetto syuzhet, che offre diversi lessici di sentimento (AFINN, Bing e NRC).

Lo script calcola i punteggi di sentimento per ciascuna recensione e per ogni frase, usando i

diversi lessici. La funzione get_sentiment() del pacchetto syuzhet viene usata per calcolare

questi punteggi.

L’analisi esplora la relazione tra i punteggi di sentimento e le valutazioni delle recensioni,

includendo:

Il calcolo delle correlazioni tra punteggi di sentimento e valutazioni.

 La generazione di boxplot per visualizzare la distribuzione dei punteggi di sentimento

 nelle diverse categorie di valutazione.

AFINN vs rate, Bing vs rate, NRC vs rate

La Figura 7 presenta un confronto visivo dei punteggi di sentimento estratti dalle recensioni

utilizzando tre diversi lessici computazionali: AFINN, Bing e NRC. L’analisi è condotta in

relazione alle valutazioni delle recensioni, rappresentate sull’asse orizzontale come ‘Rate’, per

investigare la correlazione tra il sentimento espresso nel testo e il punteggio numerico

assegnato dall’utente.

Ogni boxplot nella figura fornisce un riepilogo statistico della distribuzione dei punteggi di

sentimento per ciascun livello di valutazione specifico. La struttura dei boxplot permette di

osservare le tendenze centrali (mediana), la dispersione (intervallo interquartile e baffi) e la

presenza di valori anomali (outlier) nei dati.

Nello specifico:

Asse verticale (‘Polarity’): Rappresenta il punteggio di sentimento, la cui scala e

 interpretazione variano a seconda del lessico utilizzato. In generale, valori più alti

indicano sentimenti positivi,

Dettagli
A.A. 2025-2026
21 pagine
SSD Scienze politiche e sociali SPS/08 Sociologia dei processi culturali e comunicativi

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher Eleonora_Perone1 di informazioni apprese con la frequenza delle lezioni di Social media mining e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi della Tuscia o del prof Fiordaliso Giovanna.