Riassunto esame Linguistica Computazionale, prof. Lenci, libro consigliato Testo e Computer di A. Lenci, S. Montemagni e V. Pirrelli

Riassunto per l'esame di Linguistica Computazionale e dei prof. Lenci/Dell'Orletta, basato su appunti personali e studio autonomo del testo consigliato dal docente Testo e Computer di A. Lenci, S. Montemagni e V. Pirrelli. Argomenti trattati: testi e corpora, lo studio statistico del testo, legge di Zipf, catene Markoviane, Entropia, Associazioni, l'annotazione del testo, Trattamento Automatico del Linguaggio, ecc.

Esame Linguistica computazionale

Facoltà Interfacoltà

Dal corso del Prof. Lenci Alessandro

Università Università degli Studi di Pisa

Publisher francesac

A.A. 2015-2016

43 pagine

27 download

Appunto

Vota 4,0 / 5 (1)

Scarica

Estratto del documento

FREQUENZA

Per quanto riguarda la linguistica, una popolazione linguistica sarà il linguaggio oggetto di

studio, il campione sarà un corpus di testi della popolazione linguistica, e le unità statistiche

saranno le parole (ma anche altre unità come morfemi, sintagmi, frasi, ecc.) Ogni token

rappresenta una distinta occorrenza di una parola (sottoinsieme dei token) nel testo, quindi le

parole token sono le unità statistiche. Le parole unità sono caratterizzate da attributi (tipicamente

di natura categoriale) come il tipo, il lemma, la categoria grammaticale, la lunghezza in caratteri

ecc. Questi attributi formano le variabili statistiche da rilevare, e di essi si possono calcolare le

varie frequenze: dato un attributo, si può contare quante parole unità ricorrono con un certo valore

v dell’attributo, calcolando quindi la frequenza (assoluta) di v. Un attributo molto importante è il

tipo, il quale introduce un livello di astrazione dai dati osservabili, che non vengono più analizzati

come unità distinte, ma come classi di unità; con tipo si intende tutti i token che sono formalmente

indistinguibili a prescindere dalla posizione che occupano nel testo (La porta è chiusa/La strada

porta al mare).

Distribuzione di frequenze

Il comportamento di un insieme di unità osservabili può essere analizzato guardando come esse si

distribuiscono rispetto ai valori di uno o più attributi specifici. La frequenza (assoluta) di una

parola tipo v equivale al numero delle occorrenze della parola in un testo. Le frequenze assolute di

due distribuzioni, però, non sono confrontabili, in quanto si riferiscono a un diverso numero totale

di unità; per ovviare a questo effetto di distorsione si ricorre alle frequenze relative, calcolate

come rapporto tra la frequenza assoluta e il numero totale di unità osservate nel testo |C| (se v ,

…,v sono le frequenze delle parole tipo nel testo, vale che |v |+|v |+…+|v | = |C|). La frequenza

n 1 2 n

relativa di una parola sarà quindi f(v ) = |v . E’ importante introdurre anche la nozione di

| / |C|

i i

vocabolario del corpus, ossia il numero di parole tipo distinte in un testo; questa nozione va

distinta da quella di lessico, ovvero il repertorio potenzialmente infinito di tutte le parole possibili in

una lingua, e anche da quella di dizionario, ovvero il repertorio di lemmi e forme flesse di una

lingua. Dato un testo di lunghezza finita, la grandezza del vocabolario è anch’essa finita ed è data

dalla cardinalità di |V |, cioè dal numero di parole tipo. Il rapporto tipo/unità (type/token ratio)

C

può essere interpretato come indice della ricchezza lessicale di un testo, che può assumere valori

da 0 a 1; tanto più i valori si avvicinano a 1, tanto più è ampia la ricchezza lessicale di un testo. Il

valore 1 corrisponde ad un testo formato solamente da hapax (cosa impossibile), ovvero da parole

che hanno classe di frequenza 1, che ricorrono una sola volta nel testo.

Classi di frequenza

Si definisce classe di frequenza |V | l’insieme dei type che hanno come frequenza i; V1 è

l’insieme dei type che ricorrono una sola volta nel testo, ovvero gli hapax, ed è la classe più

numerosa. L’insieme di tutte le classi di frequenza equivale al vocabolario del corpus: |V |+|V |+..+|

1 2

V |=|V |. La ripetizione di una stessa parola tipo determina il passaggio di v da una classe V a

max c i

una classe V , senza che il valore del vocabolario cambi, perché non viene inserito un nuovo tipo.

i+1

Con le classi di frequenza è possibile ricostruire la lunghezza del corpus: |V |x1+|V |x2+..+|V |

1 2 max

xmax=|V

c |

Utile per analizzare la distribuzione delle parole tipo in classi di frequenza è lo spettro delle

frequenze, ovvero un grafico che si ottiene mettendo sull’asse delle x valori crescenti di classi di

frequenza da 1 a max, e sull’asse delle y il numero di parole relative a tale frequenza.

Si possono calcolare le frequenze cumulate di parole tipo, ovvero la

percentuale di vocabolario coperta da parole tipo appartenenti a una certa

classe di frequenza, se per ogni classe di frequenza i sull’asse delle x, l’asse

delle y ci da il numero di parole tipo che appaiono nel testo da 1 a i volte, diviso

per la cardinalità del vocabolario del testo:

Volendo calcolare le frequenze cumulate delle parole unità (invece che dei

tipi), ovvero la percentuale di testo coperta da parole unità corrispondenti a

determinate classi di frequenza, per ogni classe di frequenza i sull’asse delle

x, l’asse delle y ci da il numero di parole unità che ricorrono nel testo da 1 a i

volte, diviso il numero di parole unità che ricorrono nel testo:

Osserviamo che le parole di classe 1 coprono circa l’8% dell’intero testo, e rappresentano circa il

54% dell’intero vocabolario. Osserviamo che il 90% del vocabolario di Pinocchio, qui sopra, copre

poco più del 28% della lunghezza complessiva del libro; questo implica che due testi possono

presentare fino al 70% di parole unità in comune, anche quando i loro vocabolari non si

sovrappongono per più del 10%. Bastano poche differenze testuali per far parlare due documenti

di cose completamente diverse.

Categorie di parole

Dal punto di vista della loro distribuzione nel testo, possiamo dividere le parole del lessico in due

grandi categorie: le parole grammaticali (o “socievoli”), come congiunzioni, preposizioni, articoli,

ecc. formano il tessuto connettivo grammaticale del testo, sono usate molto frequentemente e

indipendentemente dall’argomento del testo, dato che sono poco informative e costituiscono una

lista chiusa e ristretta; le parole lessicalmente piene (o “difficili”), come i nomi, gli aggettivi e i

verbi, sono portatori del vero contenuto informativo del testo, sono meno frequenti e sono legate al

dominio tematico cui il documento fa riferimento.

La Legge di Zipf

La legge di Zipf è una delle leggi quantitative più note e interessanti dell’uso linguistico: ordinando

le parole per valori decrescenti di frequenza, Zipf osservò l’esistenza di una relazione matematica

costante fra la posizione che una parola occupa all’interno della lista (rango) e la sua frequenza.

Zipf osservò che la frequenza di una parola è inversamente proporzionale al suo rango:

Per a=1 vale che f(1)=C, f(2)=C/2, f(3)=C/3, e così via. In questo modo, fra la frequenza della

z-esima e la frequenza della z+1-esima parola della lista, lo scarto (C/z)-(C/z+1) si riduce

progressivamente al crescere di z; in parole povere, all’aumentare del rango la frequenza

diminuisce sempre più lentamente. La legge di Zipf prevede un decremento progressivo della

frequenza di una parola proporzionale all’aumentare del suo rango; a causa della riduzione

progressiva dello scarto, parole che appaiono molto in basso nella lista tendono ad avere

frequenze simili: la coda della curva di Zipf conterrà molte parole con frequenza 1: hapax. Per

rendersi conto del significato della Legge di Zipf, è utile osservarla in doppia scala logaritmica: la

scala logaritmica ingrandisce le distanze tra i punti vicini allo zero e comprime le stesse distanze

tra punti lontani dallo zero. La legge in doppia scala logaritmica diventa l’equazione di una retta:

logf(z)=logC - alogz.

Il risultato è una retta che scende da sinistra verso destra, la cui pendenza è definita dal

coefficiente a. L’intercetta sull’asse delle y corrisponde a logC, cioè al logaritmo della frequenza

massima di parola, mentre l’intercetta sull’asse delle x corrisponde al rango in cui cominciamo a

trovare hapax. In scala logaritmica lo scarto fra la frequenza f(1) e f(10) è uguale allo scarto fra

f(10) e f(100), f(100) e f(1000) e così via. Esistono, come vediamo nel grafico, differenze fra

l’andamento teorico previsto e la distribuzione osservata: maggiori scostamenti nella testa e

nella coda della distribuzione, e la coda stessa, nella distribuzione reale, è costituita da gradoni

sempre più larghi. Questo avviene perché la legge di Zipf non prevede che esistano più parole

con la stessa frequenza, e che il numero di queste aumenti all’aumentare del rango. In ogni testo

la distribuzione delle parole approssima la Legge di Zipf, così la retta varia nella pendenza e nelle

intercette. In pratica,

Invarianza di scala

La Legge di Zipf fa parte di quelle che sono definite “leggi di potenza (power laws)”, le quali

godono della proprietà di invarianza di scala: moltiplicando l’argomento per un fattore di scala c, il

k k k

valore della funzione viene moltiplicato di un fattore c . => f(cx)= a(cx) = c f(x) Ciò significa che,

pur ampliando la dimensione del testo, non muta la forma della distribuzione di Zipf, ma si ha solo

un cambiamento di scala.

Interpretare la Legge

Secondo Zipf, la distribuzione delle parole nei testi riflette un principio di economia nella

comunicazione, per cui parlante e ascoltatore cercano di minimizzare i loro sforzi: lo sforzo del

parlante è ridotto avendo un piccolo vocabolario di parole molto comuni, mentre lo sforzo

dell’ascoltatore è ridotto avendo un grande vocabolario di parole più rare. La Legge di Zipf

rappresenterebbe il compromesso migliore fra queste due opposte tendenze. In un testo ci sono

sempre poche parole molto frequenti (parole grammaticali) e moltissime parole a bassa frequenza

e hapax (parole piene). Il vocabolario è comunque sempre aperto, nuovi temi e concetti portano a

introdurre nuove parole, termini e derivati morfologici. E’ necessaria una visione dinamica della

composizione lessicale di un testo, per capire il comportamento delle parole all’aumentare del

testo e per riuscire anche a prevedere la loro distribuzione finale a partire da un’osservazione

parziale di dati. Studiamo quindi l’andamento della crescita lessicale all’aumentare del testo:

come aumenta |V | all’aumentare di |C|. E’ utile rappresentare il testo come flusso di parole v ,

C 1

v , ..., v ,.., v indicizzate per posizione; i pedici sono interpretati come istanti temporali: v è la

2 i T i

parola che troviamo leggendo sequenzialmente il testo all’istante i. Chiamiamo poi V il

C(i)

vocabolario delle prime i parole di C, e rappresenta la grandezza del vocabolario usato nelle prime

i parole del testo; grazie a questo tipo di valore possiamo individuare il tasso di crescita del

vocabolario all’aumentare del corpus. Osservando la curva si capisce che il vocabolario di un

corpus cresce in maniera non lineare, questo succede perché esistono parole che devono

ripetersi più o meno regolarmente,

Anteprima

Vedrai una selezione di 10 pagine su 43