Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
Già da questi dati, possiamo osservare alcune cose. Possiamo notare che R1 è un utente molto
intenso, R2 è un utente moderatamente intenso, e R3 è un utente meno frequente. Abbiamo
selezionato questi tre rappresentanti tra persone che utilizzano la piattaforma molto frequentemente
e altre che la utilizzano meno frequentemente.
La frequenza, naturalmente, si osserva nel numero di "thread", ma anche nel livello di
coinvolgimento, misurato dal numero di commenti e risposte, dalla lunghezza del testo e dalla
lunghezza media di ogni "entry". In generale, meno si scrive, meno coinvolgimento si ottiene, e
anche testi più brevi tendono a generare meno coinvolgimento. Questo è il primo passo
fondamentale in un'applicazione di text mining: fornire statistiche sul testo, sul corpus di testo. Il
corpus può essere composto da sottogruppi, come in questo caso, dove abbiamo tre rappresentanti
che consideriamo come tre individui distinti. In realtà, li abbiamo trattati come tre corpus separati
per l'analisi successiva. Si può avere questa situazione, oppure una situazione in cui si raccolgono
molti testi correlati allo stesso argomento, formando un unico corpus di testo. In ogni caso, è
necessario fornire queste statistiche di base, che offrono una visione generale del contenuto del
testo, o meglio, delle caratteristiche del testo, non tanto del contenuto in sé.
In un'applicazione di text mining, si combinano normalmente diverse tecniche, e la scelta delle
tecniche dipende dalle domande di ricerca che guidano l'analisi. In questo esempio, eravamo
interessati a esplorare il discorso, e poiché il discorso riguarda la discussione di argomenti, abbiamo
utilizzato la modellazione degli argomenti (topic modeling), una tecnica di text mining per
analizzare i dati testuali. Approfondiremo questo aspetto in altri video, ma è importante capire che
per comprendere l'argomento di un testo, si hanno fondamentalmente due opzioni. La prima è
leggere il testo e riassumerlo o codificarlo manualmente, utilizzando un sistema di codifica. Questo
può essere fatto individualmente o in gruppo, e ci sono protocolli per farlo in modo rigoroso.
Tuttavia, richiede tempo, soprattutto se il corpus è grande.
La seconda opzione è utilizzare metodi quantitativi automatici, come l'algoritmo di modellazione
degli argomenti LDA (Allocazione Latente di Dirichlet), che abbiamo utilizzato in questo caso. Il
livello di informazione che questo algoritmo produce sui temi è potente, ma allo stesso tempo
limitato. La comprensione dei temi richiede spesso un'analisi del testo originale. Per questo motivo,
abbiamo combinato un'analisi quantitativa con un'analisi qualitativa. Abbiamo utilizzato l'LDA per
classificare il corpus di testo in temi, abbiamo estratto i temi, e poi abbiamo selezionato campioni di
testo da ciascun tema per capire di cosa trattassero i temi, con l'obiettivo di unire i temi e
etichettarli, ovvero darle un nome. Questa tabella mostra il numero di temi individuati nei diversi
periodi per i diversi "provider". Come si può vedere, non ci sono grandi differenze, variano tra 11 e
21 temi discussi. Sembra che il numero di temi per il rappresentante 1 stia aumentando nel tempo,
mentre per il rappresentante 2 stia diminuendo e per il rappresentante 3 sia altalenante.
In questa tabella, invece, vedrete di cosa trattano questi temi.
La prima colonna contiene l'etichetta del tema, che abbiamo assegnato con un approccio
qualitativo. È importante capire che con le tecniche di text mining non si ottengono queste etichette,
ma si ottiene un insieme di parole chiave. Ad esempio, "apprezzamento del lavoro" è un tema in cui
le persone esprimono felicità per il lavoro svolto dai rappresentanti, utilizzando parole come
"okay", "buon lavoro", "ben fatto", "grazie per il tuo impegno", "eccitato". Nella modellazione degli
argomenti, otterremmo un insieme di parole chiave come "buon lavoro", "lavoro", "impegno", ecc.
Questo è il livello di dettaglio che si ottiene da un'analisi LDA con modellazione degli argomenti.
Un'altra cosa che si può osservare in questa tabella è che in tutti i "provider" abbiamo temi di
messaggi di apprezzamento, che sono tra gli argomenti principali. Abbiamo anche la segnalazione
di attività e l'invito alla partecipazione, che è presente solo in due rappresentanti e meno nel primo. I
temi sono quindi un numero limitato, nove in questo caso.
Come indicato in questa tabella, la varietà dei temi variava da 11 a 21 temi diversi discussi, ma
dopo la classificazione qualitativa, abbiamo ridotto il numero a nove. Abbiamo questi diversi temi
discussi, alcuni dei quali sono discussi in modo coerente tra i "provider" e nel corso degli anni,
mentre altri sono più presenti in alcuni "provider" e meno in altri.
Il passo successivo è capire meglio come questi temi si sviluppano durante il discorso online. Per
questo motivo, volevamo costruire una rappresentazione grafica del discorso, una rappresentazione
che ci permettesse di esplorare, analizzare e visualizzare come si sviluppano i diversi discorsi
online, come una composizione dei temi che abbiamo individuato. Per fare ciò, abbiamo utilizzato
la teoria delle reti.
Comunque, una cosa importante da sapere, come vedrete in un video futuro quando impareremo ad
usare la modellazione degli argomenti, è che la tecnica di modellazione degli argomenti produce
una distribuzione probabilistica della presenza dei diversi temi nel testo di ciascun documento, in
questo caso, in ciascuna "entry". Ci dice quali sono i temi discussi e questi temi sono associati a un
punteggio di probabilità. Poiché il modo in cui la tecnica funziona è che, dato un numero di temi (in
questo caso nove), in ogni "entry", in ogni riga del nostro dataset, ci sarà una distribuzione
probabilistica dei nove temi. Alcuni di questi saranno irrilevanti, apparendo solo con un punteggio
di probabilità del 2, 3, 5 o 10%, altri saranno più rilevanti, con un punteggio di probabilità del 20,
25, 40 o 60%. Il punteggio di probabilità varia tra 0 e 1, dove 0 è 0% e 1 è 100%.
Per assegnare un tema a ciascuna "entry", abbiamo deciso di utilizzare quello con il punteggio di
probabilità più alto. In questo modo, siamo stati in grado di assegnare a ciascuna "entry" un solo
tema di discussione, il più probabile. Abbiamo riassunto l'analisi con un grafo. Un grafo è una
rappresentazione concettuale della realtà, dove le entità sono rappresentate da punti, o nodi, e le
relazioni tra le entità sono rappresentate da archi, o connessioni, che collegano i diversi nodi.
Abbiamo utilizzato nodi di tre tipi: nodi blu per i "thread", nodi arancioni per i temi e nodi rossi per
i temi senza contenuto, che abbiamo chiamato tema zero (T0). I temi senza contenuto sono "entry"
per le quali non possiamo osservare nulla, perché sono formate solo da immagini e non contengono
testo.
Quindi, tre tipi di nodi e tre tipi di archi, o edge. Gli archi sono le connessioni che collegano i nodi
tra loro. Le connessioni avvengono tra un nodo blu e un nodo rosso o arancione. Questo perché il
nodo blu rappresenta il "thread" e i nodi rossi e arancioni rappresentano i temi di discussione, sia i
temi che abbiamo individuato, sia T0, il tema zero. Gli archi sono rossi se rappresentano il tema di
apertura, ovvero il tema impostato dal proprietario che ha scritto il post, e grigi se invece
rappresentano i temi introdotti dalle altre persone durante la discussione.
La dimensione dei diversi archi rappresenta il numero di "entry" associate a quel tema. Anche la
dimensione dei nodi blu rappresenta la rilevanza del nodo. Per i nodi blu, la dimensione rappresenta
la dimensione dei "thread", quindi più grande è il nodo, maggiore è il numero di "entry", ovvero
commenti e risposte. Per i nodi arancioni, più grande è il nodo, maggiore è il numero di "entry" che
discutono di un tema specifico.
Ecco come appare un grafo di questo tipo.
Abbiamo formulato due ipotesi. La prima è quella di una conversazione convergente, in cui in un
post, in un "thread" con molti commenti e risposte, vediamo che il "thread" inizia con un tema e le
persone lo seguono. Abbiamo un "thread" (blu) che è collegato a un tema (rosso) tramite un arco
rosso, e il tema è grande. Questo accade perché il "thread" è stato avviato dal rappresentante con un
tema e le persone che seguono continuano a discutere dello stesso tema. Questa sarebbe una
conversazione convergente.
Una conversazione divergente, invece, sarebbe una come questa, in cui abbiamo un "thread" (blu)
composto da molti commenti e risposte. Questo "thread" è associato a un tema (rosso) tramite un
arco rosso, che è il tema impostato dal proprietario del profilo, colui che ha scritto il post. Poi ci
sono molti altri temi (arancioni), introdotti dagli altri soggetti che partecipano al discorso.
Questa rappresentazione visiva è un po' più complessa di quella mostrata in precedenza. Questa è
una delle discussioni del rappresentante 1, poiché, come ricorderete, il rappresentante 1 era quello
che interagiva di più con le persone online.
In questo grafico, ciò che si può riconoscere è il nodo rosso, che è T0, il tema senza contenuto,
poiché non contiene testo. È così grande perché, ovviamente, concentra tutte le "entry" senza testo
trovate nel corpus di testo. Da questo lato, si trovano i temi di discussione individuati nell'analisi del
testo, collegati ai "thread" tramite archi. Se la connessione è rossa, significa che è il tema iniziale; se
è grigia, significa che è un tema di follow-up.
La dimensione dei nodi dei temi rappresenta quanto è discusso il tema, così come la dimensione dei
nodi blu rappresenta l'intensità del "thread". Questo "thread", ad esempio, contiene molto
coinvolgimento e discussione, a differenza di questo, che è molto piccolo e probabilmente
composto da una singola "entry".
Quindi, ciò che possiamo osservare in questa struttura è, come detto, i temi di discussione estratti e
come si sviluppa l'intero discorso. Ad esempio, qui abbiamo un "thread" di discussione, che è uno
dei più rilevanti perché è piuttosto grande. Come si può vedere, inizia con un tema specifico (rosso)
e poi si dirama in altri tre e, infine, in T0, che è molto frequente, perché lo spessore degli archi
mostra che gli archi qui sono molto spessi.
Poi abbiamo "thread" di discussione che discutono solo di T0, quindi la discussione avviene
principalmente attraverso immagini e contenuti visivi, che non sono rilevabili con il text mining, il
che è ovviamente una limitazione di questo tipo di analisi