Revista Sinapsis. ISSN 1390 – 9770
Periodo. Julio – Diciembre 2026
Vol. 28, Nro. 1, Publicado 2026-06-30
de sus operaciones en el cluster, promoviendo una comprensión más profunda de los procesos de
cómputo distribuido (Sumbaly, Kreps, & Wu, 2012).
Validación técnica del entorno
La validación del entorno se llevará a cabo mediante la ejecución de pruebas de rendimiento y
estabilidad. Se simularán tareas de procesamiento de grandes volúmenes de datos (10 GB de
archivos CSV estructurados) y se medirá el tiempo de respuesta, la distribución de carga entre
nodos y el porcentaje de éxito de las operaciones. Se espera que los resultados indiquen que el
entorno es funcional para fines académicos, con tiempos de respuesta aceptables y sin errores
críticos durante la ejecución de scripts simples en Python y R sobre el cluster simulado.
Resultados
Arquitectura física y lógica del Laboratorio de Análisis de Datos
El diseño del Laboratorio Universitario de Análisis de Datos (LAD) consta de una infraestructura
local compuesta por ocho estaciones de trabajo para estudiantes y una computadora principal que
actúa como nodo maestro y servidor central. Todas las máquinas están interconectadas mediante
un switch Cisco SG200-18, que garantiza una comunicación estable y soporte para Quality of
Service (QoS), PoE y gestión remota, elementos clave para la administración eficiente de redes
locales en entornos educativos (CISCO, 2023).
Cada estación de trabajo cuenta con un procesador de cuatro núcleos, 16 GB de RAM y 500 GB
de almacenamiento SSD, especificaciones mínimas recomendadas para ejecutar herramientas de
análisis de datos como Python, R y Power BI sin latencias significativas (Camacho Marín, Rivas
Vallejo, Gaspar Castro, & Quiñonez Mendoza, 2020). La computadora principal dispone de 32
GB de RAM, CPU octocore y 1 TB de almacenamiento, lo que le permite gestionar servicios
compartidos como Hadoop, Ambari y respaldos temporales.
Modelo de cluster distribuido simulado
El LAD incorpora un entorno de cómputo distribuido emulado mediante Apache Hadoop en modo
pseudo-distribuido, instalado en cada estación de trabajo y coordinado desde el nodo maestro.
Este modelo permite simular un cluster real con roles definidos: el nodo maestro asume las
funciones de NameNode y JobTracker, mientras que cada estación de trabajo opera como
DataNode y TaskTracker, siguiendo la arquitectura clásica de Hadoop 2.x (White, 2015).
La partición de datos se realiza mediante el sistema de archivos distribuido HDFS, con un tamaño
de bloque configurado en 128 MB y un factor de replicación de 2, asegurando tolerancia básica a
fallos. Cada nodo almacena fragmentos de los conjuntos de datos utilizados en prácticas
académicas en tal caso, bases públicas de salud, educación o transporte, permitiendo a los
estudiantes experimentar con técnicas de procesamiento paralelo sin requerir acceso a
infraestructuras en la nube.
Servicios de software integrados
El stack de software del LAD incluye:
Apache Spark, para procesamiento en memoria y tareas de aprendizaje automático.
Apache Hive, que permite consultas SQL sobre datos almacenados en HDFS, facilitando
la transición desde bases de datos tradicionales.
Apache Pig, para transformaciones de alto nivel en flujos de datos.
Power BI Desktop (versión gratuita para educación), utilizado en módulos de
visualización interactiva.
Jupyter Notebook y RStudio, como entornos interactivos para programación en Python y
R.
Todos estos servicios son gestionados centralmente mediante Apache Ambari 2.7.7, instalado en
el nodo maestro. Ambari proporciona una interfaz web para la monitorización del estado del
cluster, la gestión de usuarios, la activación/desactivación de servicios y la generación de alertas
ante eventos críticos (Hassin Alasadi & Nemer, 2017). Los agentes de Ambari se instalan en cada
estación de trabajo, permitiendo una visibilidad completa del entorno desde una única consola.