The volume and heterogeneity of computer network traffic are exponentially in-creasing. In consequence, managing the traffic that flows through the network is a challenge. Over recent years, an essential tool used in network traffic management is flow classification. In traffic flow classification a significant objective is to identify and classify flows that exhibit heavy-tailed or long-tailed distribution. An inferable observation from heavy-tailed distribution is that a very small percentage of flows carry the bulk of the traffic (in bytes). These flows are most commonly referred to as Heavy-Hitters (HHs).
One of the consequences of unsupervised (uncontrolled) forwarding of HHs is that it often leads to network congestion and, subsequently, to overall network performance degradation. The main motivation for HHs identification includes flow scheduling, QoS provisioning, and load balancing, especially applied to Data Centre Networks (DCNs). Therefore, the identification and classification of HHs remain to attract interest.
Most of the existing approaches to identify HHs are based on thresholds, i.e., if the flow exceeds a predefined threshold, it will be marked as a HH; otherwise, it will be classified as a non-HH. However, these approaches present two significant issues. First, there is no consistent and accepted threshold that would reliably classify flows. Second, they use counters (duration, packets, and bytes), which their accuracy depends on how complete the flow information is. Thus, the goal of this master dissertation is to investigate the feasibility on using per-flow packet size distribution as an effective, in terms of Precision, Recall, F-measure, and ROC curve, approach for identifying HHs.
To achieve the raised goal, this master dissertation introduces a novel HHs identifi-cation approach based on per-flow Packet Size Distribution (PSD) and the Template Matching (TM). An extensive analysis of the approach was conducted on different dataset from DCNs. The results of the analysis have provided directions and evi-dence that corroborate the feasibility of using per-flow PSD and TM as an effective approach for identifying HHs. The approach proposed achieves up to 96% accuracy while using only the first 14 packets of a flow. Furthermore, this accuracy remains consistent throughout all classifications while existing approaches yield different ac-curacies for different flow size-based threshold.
El volumen y la heterogeneidad del tráfico de la red aumentan exponencialmente. En consecuencia, administrar el tráfico que fluye a través de la red es un desafío. En los últimos años, la clasificación de flujos ha sido una herramienta esencial para la gestión de tráfico de red. Uno de los objetivos más importantes en la clasificación del flujo de tráfico de red, es identificar y clasificar los flujos que exhiben una distribución de cola larga o cola pesada. Una observación común de la distribución de cola pesada es que un porcentaje muy pequeño de flujos transporta la mayor parte del tráfico (en bytes). Estos flujos se conocen comúnmente como Heavy-Hitters (HHs).
Una de las consecuencias del reenvío no supervisado (descontrolado) de HHs, es que pueden dirigir a la congestión de la red y, posteriormente, a la degradación general del rendimiento de la red. La principal motivación para identificar HHs incluye la programación de rutas para flujos, el aprovisionamiento de QoS y el equilibrio de carga, especialmente aplicado a las Redes de Centros de Datos (Data Centre Net-work, DCN). Por lo tanto, la identificación y clasificación de HHs siguen atrayendo interés.
La mayoría de los enfoques existentes para identificar HH se basan en umbrales, es decir, si el flujo excede un umbral predefinido, se marcaría como HH; de lo contrario, se clasificaría como no HH. Sin embargo, estos enfoques presentan dos limitantes importantes. En primer lugar, no hay un umbral consistente y aceptado que clasifique de manera confiable los flujos. En segundo lugar, los enfoques basados en umbrales hacen uso de contadores (duración, paquetes y bytes), cuya precisión depende de que´ tan completa sea la información del flujo. Por lo tanto, el objetivo de esta disertación de maestría es investigar la viabilidad del uso de la distribución del tamaño de paquete por flujo, como un enfoque eficaz, en términos de precisión, recuperación, medida F y curva ROC, para identificar HH.
Para lograr el objetivo planteado, se presenta un nuevo enfoque de identificación de HHs basado en la Distribución de tamaño de paquetes (PSD) por flujo y la Coincidencia de plantillas (TM). Se realizó un análisis exhaustivo del enfoque en diferentes conjuntos de datos de DCN. Los resultados del análisis han proporcionado instrucciones y evidencia que corroboran la viabilidad de usar PSD y TM por flujo como un enfoque efectivo para identificar HH. El enfoque propuesto logra una precisión de hasta el 96% mientras usa solo los primeros 14 paquetes de un flujo. Además, esta precisión se mantiene constante ante todas las clasificaciones, mientras que los en-foques existentes presentan diferentes precisiones para diferentes umbrales basados en el tamaño del flujo.