The expansion of mobile communications and OTT applications have caused mobile operators to have a high level of uncertainty regarding the quality indicators of the services of the application layer that they offer, this is caused because today the encrypted information that the applications handle makes this task more difficult. As network operators do not have enough information on the customer side, and having in mind that the little information that these operators collect from users, is used mostly for marketing purposes, it causes that they cannot offer personalized plans, better quality of service and a better user experience.
With this in mind, the objective of this project is to monitor and classify the consumption of a user's OTT services within the framework of an LTE network data plan. However, as there is no access to a real LTE network, in this case a simulated LTE network will be taken.
To supply the need above, it is proposed to take a simulated LTE network that is installed within the network of the Universidad del Cauca, in which it is possible to simulate different Internet users and servers and through which information is exchanged. However, the main objective of this undergraduate thesis is to exchange information of specific OTT applications, something that this simulator does not have, since its traffic generator only creates generic Internet traffic. For this reason, it was decided to investigate different traffic generators in the hope of finding one that would adapt to the needs of this research project. Despite this exhaustive research, it was concluded that no current traffic generator is capable of creating traffic from specific OTT applications, and for this reason it was decided to create a synthetic OTT application generator.
This synthetic generator creates flow of applications such as WhatsApp, YouTube, Skype, Google and Spotify, resulting, after a long process, different datasets of the applications mentioned above. With these datasets, cleaning processes were followed with the CRISP-DM methodology, later they were grouped to form a single dataset and finally this dataset was validated with different machine learning algorithms such as J48, Bagging, IBK, NaiveBayes, among others.
As future works, it is proposed to do the modeling and the synthetic generation of other OTT applications, to create an IDE that everybody can handle and be able to use the generator in a more intuitive way, to validate the datasets using other machine learning algorithms, among others.
La expansión de las comunicaciones móviles y las aplicaciones OTT han provocado que los operadores móviles tengan un alto nivel de incertidumbre frente a los indicadores de calidad de los servicios de la capa de aplicación que ellos mismos ofrecen, siendo esto, gracias a que hoy en día la información encriptada que las aplicaciones manejan hace más difícil esta tarea. Como los operadores de red no tienen la suficiente información del lado del cliente, y teniendo en cuenta que la poca información que estos operadores recolectan de los usuarios, es mas que todo usada para fines de marketing, provoca que no se puedan ofrecer planes personalizados ni que puedan ofrecer una mejor calidad de servicio y una mejor experiencia de usuario.
Teniendo en cuenta lo anterior, el objetivo de este proyecto es monitorizar y clasificar el consumo de los servicios OTT de un usuario en el marco del plan de datos de una red LTE. Sin embargo, como no se tiene acceso a una red LTE verdadera, en este caso se va tomar una red LTE simulada.
Para cumplir el objetivo anterior, se plantea tomar una red LTE simulada que está instalada en la red de la Universidad del Cauca, en la cual es posible simular diferentes usuarios y servidores de Internet y a través de la cual se hace intercambio de información. Sin embargo, el objetivo principal de esta tesis de pregrado es poder intercambiar información de aplicaciones OTT específicas, algo que este simulador no posee, ya que su generador de tráfico solo crea tráfico genérico de Internet. Por esto, se tomó la decisión de investigar diferentes generadores de tráfico con la esperanza de poder encontrar uno que se adaptara a las necesidades de este proyecto de investigación. A pesar de esta exhaustiva investigación, se llegó a la conclusión de que ningún generador de tráfico actual es capaz de crear tráfico de aplicaciones OTT específicas, y por este motivo se optó por crear un generador sintético de aplicaciones OTT.
Este generador sintético, crea flujo de aplicaciones como WhatsApp, YouTube, Skype, Google y Spotify, dando como resultado, después de un largo proceso, diferentes datasets de las aplicaciones mencionadas anteriormente. Con estos datasets se siguieron procesos de limpieza con la metodología CRISP-DM, posteriormente se agruparon para formar un solo dataset y finalmente este dataset se validó con diferentes algoritmos de Machine learning como lo son, J48, Bagging, IBK, NaiveBayes, entre otros.
Como trabajos futuros, se propone hacer el modelamiento y la generación sintética de flujos de otras aplicaciones OTT, crear un IDE para que todo el mundo pueda manejar el generador de manera más intuitiva, validar el conjunto de datos usando otros algoritmos de machine learning, entre otros.