Anteprima
Vedrai una selezione di 4 pagine su 11
Appunti di Linguistica computazionale e intelligenza artificiale Pag. 1 Appunti di Linguistica computazionale e intelligenza artificiale Pag. 2
Anteprima di 4 pagg. su 11.
Scarica il documento per vederlo tutto.
Appunti di Linguistica computazionale e intelligenza artificiale Pag. 6
Anteprima di 4 pagg. su 11.
Scarica il documento per vederlo tutto.
Appunti di Linguistica computazionale e intelligenza artificiale Pag. 11
1 su 11
D/illustrazione/soddisfatti o rimborsati
Disdici quando
vuoi
Acquista con carta
o PayPal
Scarica i documenti
tutte le volte che vuoi
Estratto del documento

Teorie all'origine della LCE

Esiste una grammatica universale? Se esistesse una struttura basilare comune a tutte le lingue, allora esse si potrebbero trattare con teorie e sistemi simili. Secondo la teoria della Grammatica Universale (Chomsky) esistono principi grammaticali condivisi da tutti gli esseri umani in quanto innati. Chomsky propose questa teoria per spiegare l'acquisizione del linguaggio in presenza di stimoli limitati (povertà dello stimolo): il bambino può imparare bene e rapidamente la sua lingua madre perché ha già innata parte della conoscenza necessaria a usare il linguaggio. L'esposizione ad una particolare lingua naturale completa quella parte innata della conoscenza della lingua. Inoltre, la GU spiega che chi parla fluentemente una lingua sa quali espressioni sono accettabili e quali inaccettabili in quella lingua, anche se a questa persona non vengono proposte espressioni inaccettabili o se viene fatto occasionalmente.

Le espressioni non corrette non vengono segnalate come tali. Chomsky, che propone l'idea dell'innatismo e universalità della grammatica, propone un'idea già presente nel pensiero di Bacone (XVII secolo) e di molti filosofi del linguaggio, secondo cui il linguaggio sta dentro la mente umana. Le idee di Chomsky e della scuola generativista hanno influenzato pesantemente sulla LC! Secondo la tradizione della corpus linguistics la GU non esiste, ma quando affrontiamo problemi relativi alla LC dobbiamo per forza pensare che esista, perché per costruire degli algoritmi ci si deve basare su degli assunti teorici. Gli approcci interlingua della MT si basano sulla possibilità di formulare principi universali per tutte le lingue esistenti; l'interlingua è un'astrazione da tutte le lingue e si è rivelato fallimentare perché è difficile formulare un'interlingua sufficientemente astratta e, allo stesso tempo,

Il generativismo ha prevalso nella LC fino alla fine del '900, determinando la nascita di approcci rule-based. Dalla fine del '900 si sono imposti orientamenti basati su dati empirici e statistici ispirati ai corpora, determinando la nascita degli approcci corpus-based.

Un'altra distinzione di Chomsky è quella tra competence e performance:

  • competence: capacità linguistica idealizzata; fa parte delle proprietà mentali e psicologiche umane; può essere osservata solo tramite l'introspezione e quindi non fa riferimento a evidenze empiriche. Ha a che fare con la dimensione soggettiva del parlante come singolo e non considera il fatto che sia inserito all'interno di una comunità.
  • performance: uso del linguaggio nella produzione di frasi nella comunicazione quotidiana. Può essere studiata solo tramite osservazione diretta delle produzioni dei parlanti e comporta il riferimento a

Il testo fornisce evidenze empiriche. Si tiene conto della dimensione della comunicazione e di aspetti ad essa legati, come la presenza di rumore.

In passato i sistemi di NLP tenevano conto solo della competence, senza considerare il contesto della comunicazione; oggi, invece, considerano la performance e considerano il contesto comunicativo, e tollerano gli errori dei parlanti.

Chomsky si focalizzò più sulla competence e questo influenzò la LC, dove fino al XX secolo non si utilizzarono approcci derivanti dalla performance. Egli criticò le teorie basate sulla performance, come la corpus linguistics, che studia il linguaggio tramite la raccolta di campioni che lo rappresentino: i corpora (=insieme di dati linguistici prodotti dai parlanti).

Le critiche di Chomsky e le risposte alle critiche:

  1. Un corpus può rappresentare un linguaggio? No, perché il numero di frasi di un linguaggio è infinito, mentre un corpus ne contiene un numero finito, oltre che casuale. Risposta:

Uncorpus può adeguatamente rappresentare un linguaggio se contiene un campione statisticamente significativo di esso. Non occorre che contenga tutte le frasi di un linguaggio, ma una sua porzione abbastanza ampia da contenere esempi di tutte le strutture di tale linguaggio.

Perché studiare il linguaggio tramite osservazione diretta invece che introspezione? Nella nostra mente abbiamo tutte le strutture corrette del linguaggio, mentre lo stesso non si può dire per un corpus. Risposta: Solo l'osservazione diretta ci può rendere conto di come il linguaggio è realmente usato, del fatto che i parlanti riescono a comunicare tra loro nonostante errori e rumore. Inoltre, solo l'osservazione diretta ci mostra anche quanta importanza statistica ha ogni struttura (i.e. quanto è rara o frequente) e quanto il linguaggio varia da un parlante all'altro.

ASSUNTI FONDAMENTALI DELLA LC

  1. Il trattamento del linguaggio richiede conoscenza linguistica:

ciò è stato sottovalutato nella costruzione dei primi sistemi di NLP. In seguito, molto attenzione è stata posta alla rappresentazione e acquisizione della conoscenza linguistica. Il sistema di NLP assume che la conoscenza sia formalizzata in regole, ma il modo in cui esse vengono ottenute incide su vari aspetti.

2. Teorie e sistemi vanno di pari passo: per sviluppare un sistema di NLP si parte da una teoria di riferimento che cerca di spiegare il comportamento linguistico e guida la formulazione degli algoritmi. Viceversa, un sistema può essere sviluppato per validare una teoria linguistica (immagine1).

3. La conoscenza linguistica si può organizzare in livelli gerarchici: la LC ha sempre evidenziato la presenza di relazioni gerarchiche tra i diversi aspetti della lingua (sintassi, semantica, morfologia, etc). Ogni livello rappresenta un modo diverso di vedere gli stessi dati linguistici. Es. "il cane dorme" (l.morfologico: articolo+nome+verbo;

Livello morfologico: si occupa della singola parola presa in isolamento, vedendo anche le sotto-unità che si possono combinare per formare parole (es. remangia vs. mangiare).

Livello sintattico: vede come le parole si combinano per formare la frase e considera l'ordine in cui sono disposte, come le caratteristiche morfologiche (il caso) (es. Giorgio vuole il pane bianco - Vuole bianco Giorgio pane il).

Livello semantico: si occupa del significato di ogni parola e di come i significati delle parole si combinano per formare il significato della frase (es. idee verdi senza colore sognano furiosamente).

Ad ognuno di questi livelli appartengono problemi che un sistema di NLP deve saper formattare utilizzando tag html.

trattare: Ambiguità: una parola/frase è ambigua quando non è possibile darne una sola interpretazione. Es. "I made her duck" può avere 5 significati: Io ho cucinato un'anitra per lei-Io ho cucinato un'anitra che apparteneva a lei-Io ho costruito l'anitra che lei possiede-Io ho fatto sì che lei abbassasse rapidamente la testa-Io ho trasformato lei in un'anitra (con la mia bacchetta magica). C'è ambiguità sia a livello morfologico ("duck" può essere nome o verbo; "her" pronome dativo o aggettivo possessivo), sia a livello semantico ("make" può significare: creare, cucinare, fare sì, trasformare). Gli esseri umani, grazie alla conoscenza del mondo e del contesto, possono risolvere le ambiguità, al contrario di un sistema di NLP, che genera più possibili output. Esempio di ambiguità morfologica trans-categoriale: "pescaE

(=nome [frutto,sport], verbo[lo sport, l’estrazione], aggettivo [il colore]).

Esempio di ambiguità sintattica: “brucia” (inteso come verbo alla terza persona singolare indicativo) può significare: prendere fuoco, essere piccante, essere troppo caldo/a, causare dolore fisico o mentale. L’ambiguità sintattica può causare ambiguità semantica (es. Giorgio vide un uomo con un telescopio). Essa può essere locale, se riguarda solo una parte della frase (es. i soldati, avvertiti del pericolo, condussero il raid di mezzanotte soldati:soggetto attivo o soggetto passivo di ‘avvertiti’), o globale, se è la frase completa a permettere più interpretazioni, ed è anche irrisolvibile (es. la vecchia porta la sbarra). Può dipendere dai quantificatori; es: “Ogni uomo ama una donna” per ogni singolo uomo esiste una singola donna che egli ama vs. esiste una sola singola donna che ognuno

degliuomini (preso singolarmente) ama.La possibilità di organizzare la conoscenza linguistica in diversi livelli di astrazione è utile per laLC, considerando il suo difficile compito (=comprendere il linguaggio naturale). Così facendo, sipuò suddividere ogni compito in sotto-compiti più semplici.

SISTEMI E TASKScomporre in sottoproblemiTask della LC comprensione del linguaggio naturale. I task vengono scomposti in subtask piùsemplici, ma perché? a. la scomposizione in subtask è la naturale conseguenza dei livelli diastrazione; b. è dovuta alla complessità di determinati task; c. spesso i sistemi di NLP sono integratiall’interno di altri sistemi e il compito che devono svolgere può essere anche solo una parzialecomprensione del testo (es. information extraction: reperire informazioni dentro un documento eutilizzarle per riempire un template predefinito).

Task classici vs. task innovativiI task classici

Sono quelli più basilari, cioè necessari a tutti gli altri:

  • Tokenization: è il primo passo di analisi e consiste nel suddividere il testo nelle unità minime portatrici di informazione morfologica, dette token. Spesso il token corrisponde alla parola, infatti questi algoritmi spezzano il testo quando incontrano uno spazio vuoto, cioè considerano token le stringhe di caratteri che si trovano tra due spazi vuoti. N.B: possono sorgere problemi nei casi di parole che inglobano due o più funzioni morfologiche, come preposizioni articolate (del, nella, sugli...) o verbi cliticizzati (daglielo).
  • Part of speech tagging: secondo passo di analisi; esplicita le informazioni morfologiche della parola (part of speech) e in seguito associa un'annotazione alle parole. Il sistema che svolge questo task si chiama PoS Tagger e 1) prende in input una frase, in cui ciascuna parola è posizionata su ogni riga; 2) per ogni parola cerca un tag adatto.
selezionato all'interno di una lista; 3) restituisce in output ogni parola seguita dal suo tag. Questo task è fondamentale per l'elaborazione dei dati.
Dettagli
Publisher
A.A. 2020-2021
11 pagine
SSD Scienze antichità, filologico-letterarie e storico-artistiche L-FIL-LET/12 Linguistica italiana

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher chiara-4 di informazioni apprese con la frequenza delle lezioni di Teorie e pratiche della traduzione magistrale e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Università degli studi di Torino o del prof Corino Elisa.