Che materia stai cercando?

Dati linguistici Appunti scolastici Premium

Appunti della facoltà di lettere e filosofia del professor De Masi sulla linguistica generale. Il file contiene una lunga trattazione sull'analisi dei dati testuali, su campioni probabilistici e sulle informazioni archiviate nei database (schemi e funzionamento).

Esame di Linguistica generale docente Prof. S. De Masi

Anteprima

ESTRATTO DOCUMENTO

valori di y massimi vicini alla medi; la media è il valore intorno a cui si concentrano il maggior numero dei casi

divide la campana in due parti perfettamente simmetriche.

Scale intervalli > più precise e dettagliate;

scale nominali > meno indicative (maschi/femmine, cattolici/musulmani).

Raccolta dati tramite questionari, ogni domanda definisce una variabile all’interno della quale noi mettiamo i

valori, per esempio “l’età” costituisce una scala a intervalli; il “titolo di studio” è una scala ordinale (laurea,

diploma, ecc) ma nn possiamo dire la differenza tra laurea e diploma e diploma e licenza media. Per esempio “il

lavoro svolto” si possono ordinare in base al reddito, ma a volte vorremmo inquadrare i soggetti nel ceto sociale ,

cosa difficile perché gli interessati tendono a sovrastimare le proprie condizioni. Così si divide la variabile grande

con variabili più piccole , per esempio il titolo di studio e il mestiere che possono essere indicativi per

l’individuazione del ceto sociale, anche se la casa è di proprietà e la grandezza, se la famiglia possiede altre

case, quante stanze... cioè faccio tante domande per avere tante risposte che mi diano la possibilità di comporre

un quadro giusto nei riguardo la variabile originaria che era il “ceto sociale”.

come facciamo a costruire un indice sintetico di tutte le domande? Potremmo incrociare due variabili es. titolo di

studio e professione - 12 classi. E se lo faccio a 3 variabili con 3 possibili valori ottengo 36 classi > nn è una

buona strada.

Posso mettere le diverse risposte possibili in ordine in ordine dando dei punti ad ogni risposta e sommo i punti di

ogni variabile. Ma come attribuire i punti? Come togliere la soggettività?

C’è una classe con 2 prof., uno di italiano e uno di matematica; i risultati del compito d’italiano e matematica

sono:

X1 6 4

X2 5 3

X3 6 5

X4 4 4

X5 8 2

X6 10 8

a) Media: I = 39 diviso 6 = 6,5; M = 26 diviso 6 =4,3

b) Varianza

c) Scarto quadratico medio

Per standardizzare i risultati si fa tutto questo procedimento.

Calcolare lo scarto e la media, dal voto grezzo tolgo la media, lo divido per lo scarto quadratico medio e ottengo il

voto standardizzato per confrontare.

I > X1 -0,5 > scarto I

M > -0,34 > scarto M

Lo scarto quadratico medio diventa l’unità di misura.

Z > nuova variabile come media 0 e come scarto quadratico medio 1 e con tutte e due possiamo fare i confronti,

per es X1 è più bravo in matematica.

Questo procedimento si può applicare ai sondaggi con questionari.

Linguistica Computazionale 3

Il materiale deve essere trattabile dalla macchina utilizzando una codifica che permette la lettura. La macchina si

serve di linguaggio binario O e 1 e le conseguenti combinazioni danno ulteriori informazioni. Per es, per avere

quattro informazioni devo avere due caratteri > 11/01/10/00 > stringhe di lunghezza 2.

In linguistica la ridondanza è un eccesso d’informazione che però ci tutela dagli errori, basterebbe una lettera per

esprimere un concetto ma gli errori d’interpretazione sarebbero tantissimi.

Computer > non magnetizzato = 0; magnetizzato 1 > l’unità d’informazione si chiama bit e corrisponde ad una

cifra binaria o 0 o 1 > le stringhe di bit codificano più caratteri e raggiungono la lunghezza di 8, formano un byte e

sono la codifica di un carattere > si possono costruire 2(8) (due all’ottava) cioè 256 caratteri. Ogni stringa binaria

corrisponde ad una cifra, es: 0 = 0, 1 = 1, 10 = 2.

322 si può scrivere in base 10 così:

3 x 10(2) + 2 x 10(1) + 2 x 10 (0)

11 su base binaria si scrive così:

1 x 2(1) + 1 x 2(0) quindi 11 è uguale a 3.

(regole: un numero elevato alla potenza 0 dà sempre 1, elevato alla potenza 1 dà sempre se stesso, elevato ad

altre potenze si moltiplica tante volte quanto indica la potenza).

esempi di trasformazione di numeri da binari a decimali:

1101 >

1 x 2(3) + 1 x 2(2) + 0 x 2(1) + 1 x 2(0) = 13

(cioè 6 + 4 + 2 + 1 = 13)

Abbiamo un valore intrinseco ed uno di posizione.

Su base decimale:

3425

3 x 10(3) + 4 x 10(2) + 2 x 10(1) + 5 x 10(0).

Se prendo un numero in base 10 e lo divido per 2, questa operazione può dare o resto 0 o resto 1; per es il

numero 13 con una serie di divisioni deve dare vari resti (algoritmo da decimale a binario).

Posso scrivere una corrispondenza biunivoca fra caratteri, un insieme di numeri binari e un insieme di numeri

decimali C<>B<>D.

Ogni carattere può essere rappresentato con un numero decimale per esempio sul computer Alt + 65 = A, quindi

le lettere sono frutto di stringhe di cifre binaria, quando premiamo A do un comando di scrivere una stringa che

corrisponde a 65 e corrisponde a un segno grafico sul monitor e queste associazioni sono arbitrarie, infatti ci

sono dei font con simboli dove associato al 65 c’è un disegno diverso dalla A. Quindi un numero binario può

essere letto come decimale al quale corrisponde un segno grafico che dipende dal font; ci sono delle proprietà

che appartengono al carattere: il font, la dimensione, lo stile.

Carattere; più caratteri = paragrafo; paragrafo; più paragrafi = pagina; paragrafo; allineamento; rientri.

Testo = entità che varia in funzione delle ns esigenze, possiamo servirci di dati salvati in formati diversi. Il nome

del file è composto da un prefisso ed un’estensione separati da un punto.

In un file ci sono informazioni di tipo ASCI e informazioni che ci dicono come deve essere (caratteri di controllo).

- La trasformazione di un numero da base 10 a base 2, si ottiene dividendo il numero per due fino ad ottenere un

quoziente inferiore a 2; si registrano i resti delle divisioni e l’ultimo quoziente; il numero viene rappresentato

scrivendo l’ultimo quoziente e riportando a ritroso, e resti delle divisioni.

37 : 2 = 18 resto 1

18 : 2 = 9 resto 0

9 : 2 = 4 resto 1

4 : 2 = 2 resto 0

2 : 2 = 1 resto 0

(ultimo quoziente)

=

100101

Questa procedura può essere utilizzata per trasformare qualsiasi numero dato in base 10, in altra base: il

divisore sarà il numero utilizzato per quella determinata base.

- La trasformazione di un numero da base 2 a base 10 si ottiene moltiplicando ogni cifra, partendo dall’ultima, per

la potenza di 2 che gli corrisponde (all’ultima cifra corrisponde 2(0) cioè 1, alla penultima 2(1), alla terzultima 2(2)

e così via) e sommando i risultati. Es.:

1 x 2(5) + 0 x 2(4) + 0 x 2(3) + 1 x 2(2) + 0 x 2(1) + 1 x 2(0) = 37 (cioè 32 + 4 + 1 = 37)

Altro esempio: 748 da base 10 a base 8: 748 : 8 = 93 resto 4

93 : 8 = 11 resto 5

11 : 8 = 1 resto 3

=

4

1453

infatti

1 x 8(3) + 4 x 8(2) + 5 x 8(1) + 4 x 8(0) = 748

(cioè 512 + 192 + 40 + 4 = 748)

Basi più grandi danno rappresentazioni più compatte.

Su base 16 = 0........9 ABCDEF(10,11,12,13,14,15).

Tutto questo è base di codifica delle ns parole.

Individuazione di un errore: per esempio se passa o nn passa corrente basta 1 e 0 se è un solo filo; se sono due

i fili, ci vogliono 4 situazioni possibili. In genere la comunicazione è disturbata e con questo sistema ci sono molte

possibilità d’errore.

a > 111

| |

b > 100

| |

c > 010

| |

d > 001

La distanza tra due parole > D(alfa, beta) è data dal numero di posizioni nelle quali alfa e beta differiscono. Es:

P1 11

P2 10

P3 01

P4 00

D (P1, P2) = 1

D (P1, P4) = 2

Nel trasmettere P1 e P2 faccio un errore semplice, possono convertirsi tra loro, cosa che nn può succedere dove

la distanza è 2 > quindi se ho distanze maggiori di 1 posso individuare l’errore. Installando 3 cavi, ricavo 3

stringhe per avere distanze maggiori di 1.

Possibili esiti di un errore semplice (codici di correttori di errori semplici).

011 - 101 - 110 > per il caso a questi sono gli esiti, cioè gli errori possibili.

Il linguaggio combina unità di primo livello in unità di secondo livello che si combinano tra loro (fonemi, morfemi,

frasi). Un sistema combinatorio è il linguaggio umano. Es: se ho un codice binario e devo fare stringhe di sette

parole, quante combinazioni ho? > 2(7).

Le lingue quindi hanno bisogno di costi aggiuntivi > stringhe che nn ricavo alcun significato. Es: se ho una

sorgente di messaggi che mi invia 1 fra 4 messaggi possibili, ho così ridotto l’incertezza di quale messaggio mi

doveva arrivare all’inizio. Ma quanta è l’incertezza che si è ridotta? È legata al numero di alternative possibili (1

mess su 4 è 1/; 1 mess su 8 è 1/8 e quindi meno).

Logaritmo è la potenza che ci dà....

lg2 a > logaritmo in base 2 di a > 2x = a > lg2 4 = 2 perché 2(2) = 4; è quel numero che bisogna mettere alla

base per ottenere il numero di partenza.

Entropia. DATABASE

Nel file le informazioni vengono messe secondo una struttura, noi nei file inseriamo dei record e ogni

informazione è un campo quindi un insieme ri record è un file. Ogni volume rappresenta un insieme di

informazioni fisso. Ogni campo ha un valore. Per l’inserimento dei dati sempre uguali ( es stesso autore, libri

diversi) fare 2 file, uno con tutti i titoli, l’altro con i dati dell’autore, si possono richiamare le informazioni con un

collegamento con un codice univoco.

Come si costruiscono gli archivi:

Superbase > File > Nuovo > File Tipo Dati > Esterno (per richiamare un file esterno che può contenere dati

lunghi) per mettere il riferimento al file esterno.

Formato del Testo > se scegli Logico contiene un solo carattere che può essere Vero o Falso, gli altri li so.

File > Indice > Criteri di ordinamento; è un file che contiene una chiave secondo la quale do un certo

ordinamento, si possono fare Indici su ogni campo. Non cambia l’ordine di inserimento ma solo le visualizzazioni.

Solo Valori Unici > vuol dire che il sistema impedisce l’inserimento di dati uguali; in questo caso non va

selezionato perché, per esempio, ci possono essere due titoli uguali di autori diversi.

Utilità > Editor Testi > per fare il file esterno. Per visualizzarlo fare click sull’alberello che si trova in basso.

Obiettivi: prendere i testi ed elaborarli tramite strutture particolari realizzate con Superbase.

File > Nuovo > Testi > Aggiungi: NemRec (tipo dati: intero) Calcolo... (formula di calcolo per NumRec > Formula

SER (“TESTI”) per far inserire automaticamente la numerazione del sistema come un contatore). RDO = di sola

lettura (Opzioni Campo). 5


PAGINE

8

PESO

43.27 KB

PUBBLICATO

+1 anno fa


DETTAGLI
Corso di laurea: Corso di laurea in scienze della comunicazione
SSD:
A.A.: 2013-2014

I contenuti di questa pagina costituiscono rielaborazioni personali del Publisher cecilialll di informazioni apprese con la frequenza delle lezioni di Linguistica generale e studio autonomo di eventuali libri di riferimento in preparazione dell'esame finale o della tesi. Non devono intendersi come materiale ufficiale dell'università Salento - Unisalento o del prof De Masi Salvatore.

Acquista con carta o conto PayPal

Scarica il file tutte le volte che vuoi

Paga con un conto PayPal per usufruire della garanzia Soddisfatto o rimborsato

Recensioni
Ti è piaciuto questo appunto? Valutalo!

Altri appunti di Linguistica generale

Riassunto esame Linguistica Generale, prof. De Masi, libro consigliato La linguistica, Berruto, Cerruti
Appunto
Riassunto esame Linguistica Generale, prof. De Masi, libro consigliato: La frase: l'analisi logica, Graffi
Appunto
Appunti di Linguistica Generale (Parte 1)
Appunto
Analisi linguistica
Appunto