Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
FREQUENZA
Per quanto riguarda la linguistica, una popolazione linguistica sarà il linguaggio oggetto di
studio, il campione sarà un corpus di testi della popolazione linguistica, e le unità statistiche
saranno le parole (ma anche altre unità come morfemi, sintagmi, frasi, ecc.) Ogni token
rappresenta una distinta occorrenza di una parola (sottoinsieme dei token) nel testo, quindi le
parole token sono le unità statistiche. Le parole unità sono caratterizzate da attributi (tipicamente
di natura categoriale) come il tipo, il lemma, la categoria grammaticale, la lunghezza in caratteri
ecc. Questi attributi formano le variabili statistiche da rilevare, e di essi si possono calcolare le
varie frequenze: dato un attributo, si può contare quante parole unità ricorrono con un certo valore
v dell’attributo, calcolando quindi la frequenza (assoluta) di v. Un attributo molto importante è il
tipo, il quale introduce un livello di astrazione dai dati osservabili, che non vengono più analizzati
come unità distinte, ma come classi di unità; con tipo si intende tutti i token che sono formalmente
indistinguibili a prescindere dalla posizione che occupano nel testo (La porta è chiusa/La strada
porta al mare).
Distribuzione di frequenze
Il comportamento di un insieme di unità osservabili può essere analizzato guardando come esse si
distribuiscono rispetto ai valori di uno o più attributi specifici. La frequenza (assoluta) di una
parola tipo v equivale al numero delle occorrenze della parola in un testo. Le frequenze assolute di
i
due distribuzioni, però, non sono confrontabili, in quanto si riferiscono a un diverso numero totale
di unità; per ovviare a questo effetto di distorsione si ricorre alle frequenze relative, calcolate
come rapporto tra la frequenza assoluta e il numero totale di unità osservate nel testo |C| (se v ,
1
…,v sono le frequenze delle parole tipo nel testo, vale che |v |+|v |+…+|v | = |C|). La frequenza
n 1 2 n
relativa di una parola sarà quindi f(v ) = |v . E’ importante introdurre anche la nozione di
| / |C|
i i
vocabolario del corpus, ossia il numero di parole tipo distinte in un testo; questa nozione va
distinta da quella di lessico, ovvero il repertorio potenzialmente infinito di tutte le parole possibili in
una lingua, e anche da quella di dizionario, ovvero il repertorio di lemmi e forme flesse di una
lingua. Dato un testo di lunghezza finita, la grandezza del vocabolario è anch’essa finita ed è data
dalla cardinalità di |V |, cioè dal numero di parole tipo. Il rapporto tipo/unità (type/token ratio)
C
può essere interpretato come indice della ricchezza lessicale di un testo, che può assumere valori
da 0 a 1; tanto più i valori si avvicinano a 1, tanto più è ampia la ricchezza lessicale di un testo. Il
valore 1 corrisponde ad un testo formato solamente da hapax (cosa impossibile), ovvero da parole
che hanno classe di frequenza 1, che ricorrono una sola volta nel testo.
Classi di frequenza
Si definisce classe di frequenza |V | l’insieme dei type che hanno come frequenza i; V1 è
i
l’insieme dei type che ricorrono una sola volta nel testo, ovvero gli hapax, ed è la classe più
numerosa. L’insieme di tutte le classi di frequenza equivale al vocabolario del corpus: |V |+|V |+..+|
1 2
V |=|V |. La ripetizione di una stessa parola tipo determina il passaggio di v da una classe V a
max c i
una classe V , senza che il valore del vocabolario cambi, perché non viene inserito un nuovo tipo.
i+1
Con le classi di frequenza è possibile ricostruire la lunghezza del corpus: |V |x1+|V |x2+..+|V |
1 2 max
xmax=|V
c |
Utile per analizzare la distribuzione delle parole tipo in classi di frequenza è lo spettro delle
frequenze, ovvero un grafico che si ottiene mettendo sull’asse delle x valori crescenti di classi di
frequenza da 1 a max, e sull’asse delle y il numero di parole relative a tale frequenza.
Si possono calcolare le frequenze cumulate di parole tipo, ovvero la
percentuale di vocabolario coperta da parole tipo appartenenti a una certa
classe di frequenza, se per ogni classe di frequenza i sull’asse delle x, l’asse
delle y ci da il numero di parole tipo che appaiono nel testo da 1 a i volte, diviso
per la cardinalità del vocabolario del testo:
Volendo calcolare le frequenze cumulate delle parole unità (invece che dei
tipi), ovvero la percentuale di testo coperta da parole unità corrispondenti a
determinate classi di frequenza, per ogni classe di frequenza i sull’asse delle
x, l’asse delle y ci da il numero di parole unità che ricorrono nel testo da 1 a i
volte, diviso il numero di parole unità che ricorrono nel testo:
Osserviamo che le parole di classe 1 coprono circa l’8% dell’intero testo, e rappresentano circa il
54% dell’intero vocabolario. Osserviamo che il 90% del vocabolario di Pinocchio, qui sopra, copre
poco più del 28% della lunghezza complessiva del libro; questo implica che due testi possono
presentare fino al 70% di parole unità in comune, anche quando i loro vocabolari non si
sovrappongono per più del 10%. Bastano poche differenze testuali per far parlare due documenti
di cose completamente diverse.
Categorie di parole
Dal punto di vista della loro distribuzione nel testo, possiamo dividere le parole del lessico in due
grandi categorie: le parole grammaticali (o “socievoli”), come congiunzioni, preposizioni, articoli,
ecc. formano il tessuto connettivo grammaticale del testo, sono usate molto frequentemente e
indipendentemente dall’argomento del testo, dato che sono poco informative e costituiscono una
lista chiusa e ristretta; le parole lessicalmente piene (o “difficili”), come i nomi, gli aggettivi e i
verbi, sono portatori del vero contenuto informativo del testo, sono meno frequenti e sono legate al
dominio tematico cui il documento fa riferimento.
La Legge di Zipf
La legge di Zipf è una delle leggi quantitative più note e interessanti dell’uso linguistico: ordinando
le parole per valori decrescenti di frequenza, Zipf osservò l’esistenza di una relazione matematica
costante fra la posizione che una parola occupa all’interno della lista (rango) e la sua frequenza.
Zipf osservò che la frequenza di una parola è inversamente proporzionale al suo rango:
Per a=1 vale che f(1)=C, f(2)=C/2, f(3)=C/3, e così via. In questo modo, fra la frequenza della
z-esima e la frequenza della z+1-esima parola della lista, lo scarto (C/z)-(C/z+1) si riduce
progressivamente al crescere di z; in parole povere, all’aumentare del rango la frequenza
diminuisce sempre più lentamente. La legge di Zipf prevede un decremento progressivo della
frequenza di una parola proporzionale all’aumentare del suo rango; a causa della riduzione
progressiva dello scarto, parole che appaiono molto in basso nella lista tendono ad avere
frequenze simili: la coda della curva di Zipf conterrà molte parole con frequenza 1: hapax. Per
rendersi conto del significato della Legge di Zipf, è utile osservarla in doppia scala logaritmica: la
scala logaritmica ingrandisce le distanze tra i punti vicini allo zero e comprime le stesse distanze
tra punti lontani dallo zero. La legge in doppia scala logaritmica diventa l’equazione di una retta:
logf(z)=logC - alogz.
Il risultato è una retta che scende da sinistra verso destra, la cui pendenza è definita dal
coefficiente a. L’intercetta sull’asse delle y corrisponde a logC, cioè al logaritmo della frequenza
massima di parola, mentre l’intercetta sull’asse delle x corrisponde al rango in cui cominciamo a
trovare hapax. In scala logaritmica lo scarto fra la frequenza f(1) e f(10) è uguale allo scarto fra
f(10) e f(100), f(100) e f(1000) e così via. Esistono, come vediamo nel grafico, differenze fra
l’andamento teorico previsto e la distribuzione osservata: maggiori scostamenti nella testa e
nella coda della distribuzione, e la coda stessa, nella distribuzione reale, è costituita da gradoni
sempre più larghi. Questo avviene perché la legge di Zipf non prevede che esistano più parole
con la stessa frequenza, e che il numero di queste aumenti all’aumentare del rango. In ogni testo
la distribuzione delle parole approssima la Legge di Zipf, così la retta varia nella pendenza e nelle
intercette. In pratica,
Invarianza di scala
La Legge di Zipf fa parte di quelle che sono definite “leggi di potenza (power laws)”, le quali
godono della proprietà di invarianza di scala: moltiplicando l’argomento per un fattore di scala c, il
k k k
valore della funzione viene moltiplicato di un fattore c . => f(cx)= a(cx) = c f(x) Ciò significa che,
pur ampliando la dimensione del testo, non muta la forma della distribuzione di Zipf, ma si ha solo
un cambiamento di scala.
Interpretare la Legge
Secondo Zipf, la distribuzione delle parole nei testi riflette un principio di economia nella
comunicazione, per cui parlante e ascoltatore cercano di minimizzare i loro sforzi: lo sforzo del
parlante è ridotto avendo un piccolo vocabolario di parole molto comuni, mentre lo sforzo
dell’ascoltatore è ridotto avendo un grande vocabolario di parole più rare. La Legge di Zipf
rappresenterebbe il compromesso migliore fra queste due opposte tendenze. In un testo ci sono
sempre poche parole molto frequenti (parole grammaticali) e moltissime parole a bassa frequenza
e hapax (parole piene). Il vocabolario è comunque sempre aperto, nuovi temi e concetti portano a
introdurre nuove parole, termini e derivati morfologici. E’ necessaria una visione dinamica della
composizione lessicale di un testo, per capire il comportamento delle parole all’aumentare del
testo e per riuscire anche a prevedere la loro distribuzione finale a partire da un’osservazione
parziale di dati. Studiamo quindi l’andamento della crescita lessicale all’aumentare del testo:
come aumenta |V | all’aumentare di |C|. E’ utile rappresentare il testo come flusso di parole v ,
C 1
v , ..., v ,.., v indicizzate per posizione; i pedici sono interpretati come istanti temporali: v è la
2 i T i
parola che troviamo leggendo sequenzialmente il testo all’istante i. Chiamiamo poi V il
C(i)
vocabolario delle prime i parole di C, e rappresenta la grandezza del vocabolario usato nelle prime
i parole del testo; grazie a questo tipo di valore possiamo individuare il tasso di crescita del
vocabolario all’aumentare del corpus. Osservando la curva si capisce che il vocabolario di un
corpus cresce in maniera non lineare, questo succede perché esistono parole che devono
ripetersi più o meno regolarmente,