Anteprima
Vedrai una selezione di 10 pagine su 41
Appunti lezioni Social media mining Pag. 1 Appunti lezioni Social media mining Pag. 2
Anteprima di 10 pagg. su 41.
Scarica il documento per vederlo tutto.
Appunti lezioni Social media mining Pag. 6
Anteprima di 10 pagg. su 41.
Scarica il documento per vederlo tutto.
Appunti lezioni Social media mining Pag. 11
Anteprima di 10 pagg. su 41.
Scarica il documento per vederlo tutto.
Appunti lezioni Social media mining Pag. 16
Anteprima di 10 pagg. su 41.
Scarica il documento per vederlo tutto.
Appunti lezioni Social media mining Pag. 21
Anteprima di 10 pagg. su 41.
Scarica il documento per vederlo tutto.
Appunti lezioni Social media mining Pag. 26
Anteprima di 10 pagg. su 41.
Scarica il documento per vederlo tutto.
Appunti lezioni Social media mining Pag. 31
Anteprima di 10 pagg. su 41.
Scarica il documento per vederlo tutto.
Appunti lezioni Social media mining Pag. 36
Anteprima di 10 pagg. su 41.
Scarica il documento per vederlo tutto.
Appunti lezioni Social media mining Pag. 41
1 su 41
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

Già da questi dati, possiamo osservare alcune cose. Possiamo notare che R1 è un utente molto

intenso, R2 è un utente moderatamente intenso, e R3 è un utente meno frequente. Abbiamo

selezionato questi tre rappresentanti tra persone che utilizzano la piattaforma molto frequentemente

e altre che la utilizzano meno frequentemente.

La frequenza, naturalmente, si osserva nel numero di "thread", ma anche nel livello di

coinvolgimento, misurato dal numero di commenti e risposte, dalla lunghezza del testo e dalla

lunghezza media di ogni "entry". In generale, meno si scrive, meno coinvolgimento si ottiene, e

anche testi più brevi tendono a generare meno coinvolgimento. Questo è il primo passo

fondamentale in un'applicazione di text mining: fornire statistiche sul testo, sul corpus di testo. Il

corpus può essere composto da sottogruppi, come in questo caso, dove abbiamo tre rappresentanti

che consideriamo come tre individui distinti. In realtà, li abbiamo trattati come tre corpus separati

per l'analisi successiva. Si può avere questa situazione, oppure una situazione in cui si raccolgono

molti testi correlati allo stesso argomento, formando un unico corpus di testo. In ogni caso, è

necessario fornire queste statistiche di base, che offrono una visione generale del contenuto del

testo, o meglio, delle caratteristiche del testo, non tanto del contenuto in sé.

In un'applicazione di text mining, si combinano normalmente diverse tecniche, e la scelta delle

tecniche dipende dalle domande di ricerca che guidano l'analisi. In questo esempio, eravamo

interessati a esplorare il discorso, e poiché il discorso riguarda la discussione di argomenti, abbiamo

utilizzato la modellazione degli argomenti (topic modeling), una tecnica di text mining per

analizzare i dati testuali. Approfondiremo questo aspetto in altri video, ma è importante capire che

per comprendere l'argomento di un testo, si hanno fondamentalmente due opzioni. La prima è

leggere il testo e riassumerlo o codificarlo manualmente, utilizzando un sistema di codifica. Questo

può essere fatto individualmente o in gruppo, e ci sono protocolli per farlo in modo rigoroso.

Tuttavia, richiede tempo, soprattutto se il corpus è grande.

La seconda opzione è utilizzare metodi quantitativi automatici, come l'algoritmo di modellazione

degli argomenti LDA (Allocazione Latente di Dirichlet), che abbiamo utilizzato in questo caso. Il

livello di informazione che questo algoritmo produce sui temi è potente, ma allo stesso tempo

limitato. La comprensione dei temi richiede spesso un'analisi del testo originale. Per questo motivo,

abbiamo combinato un'analisi quantitativa con un'analisi qualitativa. Abbiamo utilizzato l'LDA per

classificare il corpus di testo in temi, abbiamo estratto i temi, e poi abbiamo selezionato campioni di

testo da ciascun tema per capire di cosa trattassero i temi, con l'obiettivo di unire i temi e

etichettarli, ovvero darle un nome. Questa tabella mostra il numero di temi individuati nei diversi

periodi per i diversi "provider". Come si può vedere, non ci sono grandi differenze, variano tra 11 e

21 temi discussi. Sembra che il numero di temi per il rappresentante 1 stia aumentando nel tempo,

mentre per il rappresentante 2 stia diminuendo e per il rappresentante 3 sia altalenante.

In questa tabella, invece, vedrete di cosa trattano questi temi.

La prima colonna contiene l'etichetta del tema, che abbiamo assegnato con un approccio

qualitativo. È importante capire che con le tecniche di text mining non si ottengono queste etichette,

ma si ottiene un insieme di parole chiave. Ad esempio, "apprezzamento del lavoro" è un tema in cui

le persone esprimono felicità per il lavoro svolto dai rappresentanti, utilizzando parole come

"okay", "buon lavoro", "ben fatto", "grazie per il tuo impegno", "eccitato". Nella modellazione degli

argomenti, otterremmo un insieme di parole chiave come "buon lavoro", "lavoro", "impegno", ecc.

Questo è il livello di dettaglio che si ottiene da un'analisi LDA con modellazione degli argomenti.

Un'altra cosa che si può osservare in questa tabella è che in tutti i "provider" abbiamo temi di

messaggi di apprezzamento, che sono tra gli argomenti principali. Abbiamo anche la segnalazione

di attività e l'invito alla partecipazione, che è presente solo in due rappresentanti e meno nel primo. I

temi sono quindi un numero limitato, nove in questo caso.

Come indicato in questa tabella, la varietà dei temi variava da 11 a 21 temi diversi discussi, ma

dopo la classificazione qualitativa, abbiamo ridotto il numero a nove. Abbiamo questi diversi temi

discussi, alcuni dei quali sono discussi in modo coerente tra i "provider" e nel corso degli anni,

mentre altri sono più presenti in alcuni "provider" e meno in altri.

Il passo successivo è capire meglio come questi temi si sviluppano durante il discorso online. Per

questo motivo, volevamo costruire una rappresentazione grafica del discorso, una rappresentazione

che ci permettesse di esplorare, analizzare e visualizzare come si sviluppano i diversi discorsi

online, come una composizione dei temi che abbiamo individuato. Per fare ciò, abbiamo utilizzato

la teoria delle reti.

Comunque, una cosa importante da sapere, come vedrete in un video futuro quando impareremo ad

usare la modellazione degli argomenti, è che la tecnica di modellazione degli argomenti produce

una distribuzione probabilistica della presenza dei diversi temi nel testo di ciascun documento, in

questo caso, in ciascuna "entry". Ci dice quali sono i temi discussi e questi temi sono associati a un

punteggio di probabilità. Poiché il modo in cui la tecnica funziona è che, dato un numero di temi (in

questo caso nove), in ogni "entry", in ogni riga del nostro dataset, ci sarà una distribuzione

probabilistica dei nove temi. Alcuni di questi saranno irrilevanti, apparendo solo con un punteggio

di probabilità del 2, 3, 5 o 10%, altri saranno più rilevanti, con un punteggio di probabilità del 20,

25, 40 o 60%. Il punteggio di probabilità varia tra 0 e 1, dove 0 è 0% e 1 è 100%.

Per assegnare un tema a ciascuna "entry", abbiamo deciso di utilizzare quello con il punteggio di

probabilità più alto. In questo modo, siamo stati in grado di assegnare a ciascuna "entry" un solo

tema di discussione, il più probabile. Abbiamo riassunto l'analisi con un grafo. Un grafo è una

rappresentazione concettuale della realtà, dove le entità sono rappresentate da punti, o nodi, e le

relazioni tra le entità sono rappresentate da archi, o connessioni, che collegano i diversi nodi.

Abbiamo utilizzato nodi di tre tipi: nodi blu per i "thread", nodi arancioni per i temi e nodi rossi per

i temi senza contenuto, che abbiamo chiamato tema zero (T0). I temi senza contenuto sono "entry"

per le quali non possiamo osservare nulla, perché sono formate solo da immagini e non contengono

testo.

Quindi, tre tipi di nodi e tre tipi di archi, o edge. Gli archi sono le connessioni che collegano i nodi

tra loro. Le connessioni avvengono tra un nodo blu e un nodo rosso o arancione. Questo perché il

nodo blu rappresenta il "thread" e i nodi rossi e arancioni rappresentano i temi di discussione, sia i

temi che abbiamo individuato, sia T0, il tema zero. Gli archi sono rossi se rappresentano il tema di

apertura, ovvero il tema impostato dal proprietario che ha scritto il post, e grigi se invece

rappresentano i temi introdotti dalle altre persone durante la discussione.

La dimensione dei diversi archi rappresenta il numero di "entry" associate a quel tema. Anche la

dimensione dei nodi blu rappresenta la rilevanza del nodo. Per i nodi blu, la dimensione rappresenta

la dimensione dei "thread", quindi più grande è il nodo, maggiore è il numero di "entry", ovvero

commenti e risposte. Per i nodi arancioni, più grande è il nodo, maggiore è il numero di "entry" che

discutono di un tema specifico.

Ecco come appare un grafo di questo tipo.

Abbiamo formulato due ipotesi. La prima è quella di una conversazione convergente, in cui in un

post, in un "thread" con molti commenti e risposte, vediamo che il "thread" inizia con un tema e le

persone lo seguono. Abbiamo un "thread" (blu) che è collegato a un tema (rosso) tramite un arco

rosso, e il tema è grande. Questo accade perché il "thread" è stato avviato dal rappresentante con un

tema e le persone che seguono continuano a discutere dello stesso tema. Questa sarebbe una

conversazione convergente.

Una conversazione divergente, invece, sarebbe una come questa, in cui abbiamo un "thread" (blu)

composto da molti commenti e risposte. Questo "thread" è associato a un tema (rosso) tramite un

arco rosso, che è il tema impostato dal proprietario del profilo, colui che ha scritto il post. Poi ci

sono molti altri temi (arancioni), introdotti dagli altri soggetti che partecipano al discorso.

Questa rappresentazione visiva è un po' più complessa di quella mostrata in precedenza. Questa è

una delle discussioni del rappresentante 1, poiché, come ricorderete, il rappresentante 1 era quello

che interagiva di più con le persone online.

In questo grafico, ciò che si può riconoscere è il nodo rosso, che è T0, il tema senza contenuto,

poiché non contiene testo. È così grande perché, ovviamente, concentra tutte le "entry" senza testo

trovate nel corpus di testo. Da questo lato, si trovano i temi di discussione individuati nell'analisi del

testo, collegati ai "thread" tramite archi. Se la connessione è rossa, significa che è il tema iniziale; se

è grigia, significa che è un tema di follow-up.

La dimensione dei nodi dei temi rappresenta quanto è discusso il tema, così come la dimensione dei

nodi blu rappresenta l'intensità del "thread". Questo "thread", ad esempio, contiene molto

coinvolgimento e discussione, a differenza di questo, che è molto piccolo e probabilmente

composto da una singola "entry".

Quindi, ciò che possiamo osservare in questa struttura è, come detto, i temi di discussione estratti e

come si sviluppa l'intero discorso. Ad esempio, qui abbiamo un "thread" di discussione, che è uno

dei più rilevanti perché è piuttosto grande. Come si può vedere, inizia con un tema specifico (rosso)

e poi si dirama in altri tre e, infine, in T0, che è molto frequente, perché lo spessore degli archi

mostra che gli archi qui sono molto spessi.

Poi abbiamo "thread" di discussione che discutono solo di T0, quindi la discussione avviene

principalmente attraverso immagini e contenuti visivi, che non sono rilevabili con il text mining, il

che è ovviamente una limitazione di questo tipo di analisi

Dettagli
A.A. 2025-2026
41 pagine
SSD Scienze politiche e sociali SPS/08 Sociologia dei processi culturali e comunicativi

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher Eleonora_Perone1 di informazioni apprese con la frequenza delle lezioni di Social media mining e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi della Tuscia o del prof Parlato Enrico.