Anteprima
Vedrai una selezione di 13 pagine su 59
Linguistica Computazionale appunti lezione prof Alessandro Lenci e Felice Dell'Orletta Pag. 1 Linguistica Computazionale appunti lezione prof Alessandro Lenci e Felice Dell'Orletta Pag. 2
Anteprima di 13 pagg. su 59.
Scarica il documento per vederlo tutto.
Linguistica Computazionale appunti lezione prof Alessandro Lenci e Felice Dell'Orletta Pag. 6
Anteprima di 13 pagg. su 59.
Scarica il documento per vederlo tutto.
Linguistica Computazionale appunti lezione prof Alessandro Lenci e Felice Dell'Orletta Pag. 11
Anteprima di 13 pagg. su 59.
Scarica il documento per vederlo tutto.
Linguistica Computazionale appunti lezione prof Alessandro Lenci e Felice Dell'Orletta Pag. 16
Anteprima di 13 pagg. su 59.
Scarica il documento per vederlo tutto.
Linguistica Computazionale appunti lezione prof Alessandro Lenci e Felice Dell'Orletta Pag. 21
Anteprima di 13 pagg. su 59.
Scarica il documento per vederlo tutto.
Linguistica Computazionale appunti lezione prof Alessandro Lenci e Felice Dell'Orletta Pag. 26
Anteprima di 13 pagg. su 59.
Scarica il documento per vederlo tutto.
Linguistica Computazionale appunti lezione prof Alessandro Lenci e Felice Dell'Orletta Pag. 31
Anteprima di 13 pagg. su 59.
Scarica il documento per vederlo tutto.
Linguistica Computazionale appunti lezione prof Alessandro Lenci e Felice Dell'Orletta Pag. 36
Anteprima di 13 pagg. su 59.
Scarica il documento per vederlo tutto.
Linguistica Computazionale appunti lezione prof Alessandro Lenci e Felice Dell'Orletta Pag. 41
Anteprima di 13 pagg. su 59.
Scarica il documento per vederlo tutto.
Linguistica Computazionale appunti lezione prof Alessandro Lenci e Felice Dell'Orletta Pag. 46
Anteprima di 13 pagg. su 59.
Scarica il documento per vederlo tutto.
Linguistica Computazionale appunti lezione prof Alessandro Lenci e Felice Dell'Orletta Pag. 51
Anteprima di 13 pagg. su 59.
Scarica il documento per vederlo tutto.
Linguistica Computazionale appunti lezione prof Alessandro Lenci e Felice Dell'Orletta Pag. 56
1 su 59
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

La legge di Zipf e l'equazione della retta

La legge di Zipf identifica una famiglia di curve che hanno sempre lo stesso andamento (forma di distribuzione delle parole del testo) ma che differiscono per il punto di intercetta tra l'asse delle x e delle y, punto che equivale a?

Questa legge è valida per ogni testo e ogni lingua, quindi è universale. In qualsiasi testo di qualsiasi dimensione, le parole del testo hanno una distribuzione di tipo zipfiano, e questa distribuzione è invariata rispetto alla lingua e alle dimensioni del testo.

La retta varia nella pendenza e nelle intercette: la legge di Zipf definisce una famiglia di distribuzioni che dipendono da C e da a.

Gli hapax sono comunque le parole che hanno il grado di rango più ampio, poiché in ogni testo ce ne sono sempre in grandi quantità: in realtà, la percentuale di hapax rimane la stessa, poiché il numero di hapax aumenta naturalmente con l'aumentare dell'ampiezza del corpus, ma la percentuale.

no.Dentro questo insieme di hapax, ovviamente, ci sono parole rare, informative e interessanti, ma ci sono anche errori, tali per cui occorrono una volta all'interno del testo.Paradossalmente, quando non dovremmo avere hapax o averne pochi? Questo accadrebbe se cercassimo di ripeterci e di utilizzare sempre le stesse parole, e quindi il testo risultasse ripetitivo e il suo vocabolario non crescesse mai, ma è importante dire che la comunicazione umana non funziona così. La distribuzione zipfiana è usata come marchio di testo prodotto dagli esseri umani. Se andiamo a vedere cosa si trova ad altissima frequenza, vedremo che si tratta sempre delle stesse parole, per di più delle parole grammaticali, che costituiscono il tessuto connettivo del testo. Al contrario, le parole contenuto si trovano sempre a frequenze più basse.Pagina 33 di 59

quantità di significato/contenuto veicolato da essa: questo significa che le parole meno frequenti sono più lunghe. Molte delle strutture della grammatica sono frutto di un processo di trasformazione di elementi lessicali (es. articoli definiti che derivano dai numerali; molti suffissi flessivi derivano dalle perifrasi del latino tardo). Più una parola è frequente, più significati e usi ricopre. La Legge di Zipf riguarda fenomeni linguistici e non:

  • Accessi a siti web o reti sociali
  • Andamento del reddito
  • Numero degli abitanti per città

Lezione 7

Interpretare la legge di Zipf: Un problema è quello di comprendere la ragione della distribuzione di tipo zipfiano. In realtà non c'è una risposta precisa, ma si sa che i dati linguistici si distribuiscono secondo questo andamento; anche sequenze di parole o strutture sintattiche hanno una distribuzione di tipo zipfiano. Secondo Zipf questo tipo di distribuzione dipende da una sorta

Di principio di economia nella comunicazione, anche detto principio di minimo sforzo. Parlante e ascoltatore, infatti, cercano entrambi di minimizzare i loro sforzi comunicativi.

Quale è il massimo risultato che si ottiene da uno scambio comunicativo? Essere compresi, comunicare un qualcosa che si pensa, e per l'ascoltatore si tratta di capire quel pensiero.

L'obiettivo si realizza per mezzo degli organi fonatori, e questo procedimento ha un costo per i nostri organismi, nonché ha un costo in termini di memoria.

Parlante e ascoltatore vogliono quindi minimizzare i loro sforzi all'interno del contesto comunicativo. In che senso?

Il parlante può economizzare i suoi sforzi se ha un numero ristretto di parole che possono essere utilizzate in tantissime circostanze diverse, vale a dire con una sorta di vocabolario di parole possibilmente brevi che siano una sorta di passpartout in termini di significato che veicolano.

L'ascoltatore poi minimizza il suo

sforzo di decodifica in maniera ridotta, nella misura in cui le parole hanno un significato univoco: il suo obiettivo è quindi quello di codificare un messaggio fatto di parole più rare, la cui rarità diminuisce l'ambiguità.

Pagina 34 di 59 lOMoARcPSD|3578778

Queste sono visibilmente due cose contrastanti. Il linguaggio deve trovare un equilibrio tra queste due forze dell'individuo in quanto ascoltatore e in quanto parlante. La legge di Zipf rappresenterebbe quel compromesso in maniera economica. Le cose sono, poi, più complicate di così.

C'è spesso l'idea che la distribuzione zipfiana delle parole sia una sorta di bollino di testo prodotto da umani. Vorrebbe dire che in fin dei conti non è proprio il frutto di un principio di economia, bensì altri fattori, come un bisogno di bilanciamento tra fattori interni alla lingua. Non c'è quindi un teoria univoca per spiegare la tendenza zipfiana dei

testi. Le conseguenze per la LC: La distribuzione zipfiana dei dati linguistici ha grande impatto nel trattamento dei dati linguistici. Da un lato esiste il fatto che ci sono poche parole a frequenze molto alte (parole grammaticali e parole ambigue ad altra frequenza), mentre ci sono molti eventi rari, quindi la grande quantità di elementi linguistici a frequenze bassissime o hapax (fenomeno di distribuzione chiamato LNRE: large number of rare events): in quest'ultima classe rientrano le parole piene, le parole dette difficili, solitamente estremamente informative sul contenuto del testo. Anche ingrandendo il corpus, la maggior parte delle parole continuano ad essere rare. Perché questo grande numero di eventi rari? Perché il vocabolario e il lessico della lingua sono sistemi aperti, e ci sono tutte i vari processi morfologici che creano sempre nuove parole per necessità di esprimere nuovi temi e concetti legati alla realtà extralinguistica. Il vocabolarionon si finisce mai di esplorare. Gran parte delle parole contenuto, poi, finiscono comunque per occorrere poche volte. Per noi la frequenza di una parola in un testo ci indica anche l'importanza che quella parola ha in un contesto, per caratterizzare la sua importanza e il contenuto di un testo. Ci sono comunque casi in cui parole molto frequenti ricorrono in molti testi, quindi non sono discriminanti. La frequenza di per sé non è sufficiente per capire quali sono gli eventi linguistici più importanti. Dovremmo correggere matematicamente questa struttura delle distribuzioni di frequenze. Di base i dati linguistici sono rari (fenomeno chiamato data spareness); eventi, anche interessanti, hanno frequenze basse mentre eventi interessanti e informativi sono poco frequenti. La dinamica del vocabolario: Comunque grande sia il corpus, fotografa sempre una realtà molto finita della realtà linguistica possibile. La legge di Zipf ci testimonia il fatto che la

La rappresentatività di un corpus è praticamente impossibile da raggiungere, visto che essi danno una visione distorta della realtà. Qualsiasi corpus lascia fuori eventi importanti, o li include in frequenze molto basse. Questo ci spiega perché c'è la credenza del "more data is better data": se i corpora non possono essere rappresentativi, tanto vale avere enormi quantità per raggiungere risultati più significativi.

In un corpus, avere una parola che ricorre più di 10 volte è già una minoranza rispetto al vocabolario totale. Una delle ragioni che rendono le reti neurali tra i modelli di intelligenza artificiale più efficaci è perché sanno gestire meglio i dati linguistici che sono sparsi, che sono rari. In questo senso, la legge di Zipf giustifica il bisogno di tanti dati linguistici, e anche il fatto che la frequenza come dato in sé è poco affidabile.

Pagina 35 di 59 lOMoARcPSD|3578778

quindi va corretta per iproblemi che essa si porta dietro.Una delle ragioni del data spareness è proprio il vocabolario aperto e in crescita,anche se lo andiamo a guardare sul testo: possiamo infatti guardarlo come se fossespalmato sull'asse temporale: all'aumentare del corpus, aumenta anche il vocabolario.Possiamo immaginare che Vc il vocabolario delle prime parole di un testo.La prima parola fa aumentare Vc e C.La seconda parola (come tutte le altre che vengono dopo), se diversa da quella prima,fa crescere sia Vc che C.La seconda parola (come tutte le altre che vengono dopo), se già ripetuta inprecedenza, fa aumentare C ma non Vc, che rimane fermo fino a che non si presentauna parola mai ricorsa precedentemente.Possiamo così vedere come il vocabolario cresce all'aumentare del testo (ovviamentein ogni caso diverso da quello in cui un testo è composto dalla stessa parola ripetuta).La dinamica del vocabolario in un testo ha questo tipo di

andamento: Sull'asse delle ascisse si ha la lunghezza del testo. Sull'asse delle ordinate si ha la grandezza del vocabolario. La curva cresce quasi logaritmicamente, ed è comunque una crescita più rapida all'inizio e poi tende a placarsi come crescita, ma non arriva mai a stare ferma. Se la crescita fosse una retta vorrebbe dire che il tasso di parole nuove è costante, e che, ad esempio, ogni 10 parole ne avremmo 2 nuove ad esempio. Quella del grafico in figura non è una retta in realtà, perché non si vede sempre un aumento costante delle parole nuove. All'inizio ne vedo tante nuove, dopo cominciano Pagina 36 di 59 lOMoARcPSD|3578778 a ripetersi. Ci sono poi dei momenti in cui ci sono dei picchi di accelerazione della crescita, poi anche se nuove parole in questo caso iniziano a ripetersi. Non è quindi una retta, è chiaro che dopo un po' le parole grammaticali il testo già le ha viste tutte.

(alcune parole necessariamente si ripetono più o meno in modo regolare, come appunto le parole grammaticali, ma anche principi di coerenza lessicale e di andamento narrativo). Poi ci saranno parole comuni che si ripetono, ma al tempo stesso non si raggiunge un'asintoto, perché vorrebbe dire che ad un certo punto si continuerebbe a vedere sempre le stesse parole ripetute, e questo non succede. La crescita non è lineare, ma non si ferma. Naturalmente il tasso di questa curva dipende dall'andamento delle parole nel testo. In generale, però, c'è una forte correlazione tra l'aumento della lunghezza del corpus e l'aumento del vocabolario. Alla fine dei conti cose come la media non hanno grande interesse quando si lavora con i testi: la frequenza media di parola è infatti una cosa calcolabile ma non così utile ai fini dello studio. La media ci dà una de
Dettagli
A.A. 2019-2020
59 pagine
SSD Scienze antichità, filologico-letterarie e storico-artistiche L-FIL-LET/12 Linguistica italiana

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher mariateresa200127 di informazioni apprese con la frequenza delle lezioni di Linguistica computazionale e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli Studi di Pisa o del prof Lenci Alessandro.