Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
Scarica il documento per vederlo tutto.
vuoi
o PayPal
tutte le volte che vuoi
ICMP
Primo protocollo per il network monitoring e management, prevede 11 tipi di messaggi ognuno dei quali inviato in un singolo pacchetto IP. Due le categorie di messaggi ICMP: report di errori nel processo dei pacchetti e messaggi che consentono ai router di rispondere a richieste di informazioni.
Applicazioni: Ping, utilizzato per verificare la connettività a livello rete tra due host, e Traceroute, utilizzato per scoprire il percorso seguito per raggiungere una certa destinazione.
SNMP
Usato per performance measurement, debugging e capacity planning. Usa UDP come protocollo di trasporto. Per essere gestito da SNMP un device deve eseguire un SNMP management process chiamato SNMP agent (risponde a info sul device). Quest'ultimo ha una conoscenza locale del device e restituisce informazioni su di esso trasformandole in SNMP MIB. I MIB possono includere informazioni relative a: stato di un device (se funziona correttamente), attività del device e workload (quanti pacchetti ha).
processato un router dall'ultimo reboot). 115. Analytic Background
5.1 Probabilità
Nella teoria della probabilità una random variable può essere vista come il risultato numerico di un
E' una variabile che può assumere
valori diversi in dipendenza da qualche fenomeno aleatorio.
Funzione di ripartizione F di una variabile aleatoria X: probabilità che la variabile aleatoria X
assuma un valore minore o uguale di x.
Variabile casuale discreta: una variabile random che può assumere un numero finito o al più
numerabile di
possibili valori.
Variabile casuale continua: una variabile random che può assumere un numero non finito di
Definita come un intervallo di valori, rappresentato come un'area sotto una
curva (integrale).
5.1.1 Metriche importanti nelle misurazioni Internet
Varianza di una variabile aleatoria X: funzione che fornisce una
misura della variabilità dei valori assunti dalla variabile stessa; misura di quanto essi si discostino quadraticamente rispettivamente dalla media aritmetica.
Se la deviazione standard ( σ ) è grande, i valori della distribuzione sono dispersi. Viceversa, se la deviazione standard è piccola, i valori sono concentrati vicino alla media.
Covarianza: di 2 variabili random X e Y, è un numero che fornisce una misura di quanto le due varino assieme, ovvero della loro dipendenza.
5.1.2 Special issues in the Internet
Processi stocastici:
Nel campo delle misurazioni Internet si possono avere situazioni in cui le misurazioni sono presentate in un certo ordine, cioè arrivano nel corso di un certo periodo di tempo.
Un processo stocastico è pertanto una collezione o sequenza di variabili random indicizzate su un insieme (tale indice in generale denota il tempo).
Da un punto di vista pratico, un processo stocastico è una forma di
Rappresentazione di una grandezza che varia nel tempo in modo casuale e con certe caratteristiche, ad esempio un segnale elettrico, il numero di autovetture che transitano su un ponte, ecc.
Facendo delle prove (o osservazioni) ripetute dello stesso processo, si ottengono diversi andamenti nel tempo (realizzazioni del processo). Osservando le diverse realizzazioni ad un istante t, otteniamo una variabile aleatoria X(t) che comprende i diversi valori che il processo può assumere in quell'istante.
Arrivals: eventi che occorrono in un determinato istante di tempo.
Arrival process: un processo stocastico in cui variabili random successive corrispondono agli istanti di tempo degli arrivals.
Un altro modello utile per una sequenza di eventi è il time series of counts: fissato un intervallo di tempo si contano il numero di arrivals in questo intervallo.
T prende il nome di timescale, esso rappresenta la forma più comune in cui viene riportato il traffico Internet.
(linea tratteggiata) distribution:

Distribution (linea tratteggiata).
5.2 Statistica di valori {xi, i=1,...,n},
Dato un set:
Media, Varianza e Deviazione Standard: già definite precedentemente.
Moda: è il numero di osservazioni che compare con maggior frequenza. Per esempio, per i valori [1, 2, 4, 4, 5, 7, 9, 11], la moda è 4.
Mediana: è il numero che compare al centro dei valori osservati (ordinati). Se il data set è dispari (data set ordinato e diviso in 2 parti uguali). Se sono pari, è la media fra i due valori centrali. Per esempio, per i valori [1, 2, 4, 4, 5, 7, 9, 11], la mediana è (4 + 5)/2.
Percentile: Il k-esimo percentile di un campione di dati è il valore tale che il k% delle misurazioni cadono sotto di esso (dove k è un numero compreso fra 0 e 100), valore di una variabile sotto il quale cade una certa percentuale di valori. Esempi: il 25-esimo percentile è conosciuto come primo quartile, il 50-esimo percentile come mediana.
Le misurazioni possono arrivare nel tempo.
varianza. In questo caso, è importante considerare la presenza di valori anomali o outliers che possono influenzare significativamente le statistiche. Per analizzare la variabilità dei dati, è possibile utilizzare l'istogramma o il boxplot. L'istogramma rappresenta la distribuzione dei valori in intervalli di classe, mentre il boxplot mostra la mediana, il primo e il terzo quartile, e i valori minimo e massimo. Inoltre, è possibile calcolare l'indice di variabilità come il coefficiente di variazione, che rappresenta la deviazione standard divisa per la media. Un valore elevato indica una maggiore variabilità dei dati. Per gestire la variabilità dei dati, è possibile applicare tecniche di trasformazione come la logaritmica o la standardizzazione. La trasformazione logaritmica può essere utile quando i dati presentano una distribuzione highly skewed, mentre la standardizzazione può essere utilizzata per confrontare dati con unità di misura diverse. Infine, è importante considerare che la variabilità dei dati può influenzare l'accuratezza delle analisi statistiche e dei modelli predittivi. Pertanto, è fondamentale valutare attentamente la variabilità dei dati e adottare le opportune strategie di gestione.varianza. Dunque media e varianza non adatte in caso di alta variabilità nei dati. Ad esempio Determinare la proporzione di richieste che usano il metodo GET e la proporzione di richieste il cui response code è 200 OK si traduce nel contare il numero totale di trasferimenti effettuati. Quando i parametri variano molto, la media può ingannare dal momento che può essere deviata da un piccolo numero di valori abbastanza grandi. Calcolare sia la media che la mediana può dare una migliore rappresentazione dei dati, la mediana più piccola della media suggerisce la presenza di un piccolo numero di risposte con taglia grande, le distribuzioni di probabilità sono in grado di mostrare meglio come i parametri possono variare in un range molto alto di valori.
5.2.2 Power-Law
Il power-law implica che i piccoli eventi sono estremamente comuni, mentre i casi di grandi dimensioni sono estremamente rari. La distribuzione power law può essere utilizzata
per descrivere un fenomeno in cui un piccolo numero di elementi è raggruppato nella parte superiore di una distribuzione (o nella parte inferiore), occupando il 95% delle risorse. In altre parole, implica una piccola quantità di eventi è comune, mentre eventi più grandi sono rari, ad esempio, dove è in gioco la distribuzione del reddito, ci sono pochissimi miliardari, ogni quattro individui con reddito annuo pari a diecimila euro, ne esiste uno con reddito pari a ventimila (distribuzione della ricchezza). Altri esempi di fenomeni che seguono questa legge: frequenza delle parole in un linguaggio, frequenza dei nomi, taglia dei terremoti ecc. Una funzione power law è una relazione polinomiale che esibisce la proprietà di scale invariance. Zipf's Law Zipf pensò di determinare la frequenza della terza, ottava e centesima parola più comune. Per la legge di Zipf: Ranking della popolarità, a dx la long tail e a sx le pocheRisorse che dominano la distribuzione di Pareto
Una distribuzione power-law in grado di modellare fenomeni sociali, scientifici, geografici, ecc. Dovuta all'economista italiano Vilfredo Pareto.
La "regola del 80-20 - il 20% della popolazione possiede l'80% della ricchezza"
La "probabilità" o frazione della popolazione f(x) che possiede una piccola quantità di ricchezza e stabilmente decresce con l'aumentare della ricchezza per persona (x) è piuttosto alta.
Pareto è applicabile per calcolare la dimensione degli insediamenti umani (poche grandi città, molti agglomerati), distribuzione del traffico (molti file piccoli, pochi di grosse dimensioni), distribuzione dei job assegnati ai supercomputer, dimensione delle particelle di sabbia, ecc.
5.3 Measurement and modeling in computing
Un ricercatore interessato a studiare le reti costruisce un modello di una rete che consiste di
- uncerto numero di router e di link con un particolare connection pattern. Il modello può essere usato per costruire una simulazione che risponda a domande circa le performance di rete sotto diversi workload
- Modelli per la descrizione di misurazioni
- Per costruire un data model si parte con una collezione di dati reali, tre sono i passi chiave:
- Scelta della idealizzazione sottostante, definito anche come model selection problem
- Selezione dei valori appropriati per i parametri del modello considerando i dati alla mano, uno è stato realizzato, l'idea è che definito anche parameter estimation problem (quando il modello dovrebbe aver generato i dati osservati)
- Validazione del modello, conferma che i dati osservati rappresentano un probabile output del modello
- Practical issues in Internet Measurement
- Dove possono essere fatte le misurazioni?
- Con hardware e