Aplicación de la programación distribuida en la obtención de patrones en la navegación por Internet de los usuarios de la UCI. (Application of distributed programming in obtaining patterns in internet browsing done by users of the ICU.)

Published in: Megaprojects: Building Infrastructure by Fostering Engineering Collaboration, Efficient and Effective Integration and Innovative Planning: Proceedings of the 10th Latin American and Caribbean Conference for Engineering and Technology
Date of Conference: July 23-25, 2012
Location of Conference: Panama City, Panama
Authors: Husseyn Despaigne Reyes
Julio Antonio Hernández Pérez
Yoanni Ordoñes Leyva
Refereed Paper: #56

Abstract

In English:
This work pursues as its main objective to reduce the time it takes for the processing of navigational records generated by the proxy server of the University of Informatics Sciences (UCI) in a software tool that automating a process of Knowledge Discovery in Databases and is able to discover patterns of user behavior when using their navigation account for Internet browsing. This software will have several sources of data, where navigational records being the largest (up to 30 GB in just one month). In this regard, was used distributed computing with the middleware ICE (Internet Communication Engine) to analyze navigation data, allowing manage when and how to distribute the processing of records depending on the number of computers with which count, which reduced the time delayed to perform this task and proved to be a good choice when you have to process large volumes of information on computers with not very high performance. ICE established an efficient bandwidth, in memory usage and CPU load, ensuring flexibility and performance. This research can be applied in a similar environment.


In Spanish:
Este trabajo persigue como objetivo principal reducir el tiempo que demora el procesamiento de los registros de navegación generados por el servidor proxy de la Universidad de las Ciencias Informáticas (UCI) en una herramienta informática, que automatizando un Proceso de Descubrimiento de Conocimientos en Base de Datos, es capaz de descubrir patrones de comportamiento de los usuarios al utilizar su cuota de navegación por Internet. Para ello se tienen varias fuentes de datos, siendo los logs la de mayor tamaño (hasta 30 GB en tan solo un mes). En tal sentido, se utilizó la programación distribuida con el middleware ICE (Internet Communication Engine) para analizar los datos de navegación, permitiendo que se pudiera manejar cuándo y cómo distribuir el procesamiento de los registros en dependencia de la cantidad de computadoras con las que se contaba, lo cual redujo el tiempo que demoraba realizar esta tarea y demostró que es una buena opción cuando se tiene que procesar grandes volúmenes de información en computadoras con no muy altas prestaciones. ICE constituyó una solución eficiente en ancho de banda, en uso de memoria, y en carga de CPU, garantizando flexibilidad y buen rendimiento. Esta investigación puede ser aplicada en un entorno similar.