Especialización en IA y Big Data

← Blog 2025

En 2025 completé la Especialización en Inteligencia Artificial y Big Data en Campus Net Manyanet Les Corts (Barcelona). Venía del mundo del desarrollo web —Laravel, PHP, MySQL— y quería entender qué había detrás del boom de la IA. Lo que encontré fue un ecosistema profundo, exigente y fascinante.

🐍 Python como lenguaje de datos

Aunque ya tenía experiencia con otros lenguajes, Python para ciencia de datos es un mundo aparte. El primer bloque se centró en dominar las herramientas fundamentales del ecosistema:

NumPyArrays multidimensionales, operaciones vectoriales y álgebra lineal de alto rendimiento sin bucles explícitos.

PandasDataFrames para limpieza, transformación y exploración de datasets reales con miles de registros.

Matplotlib & SeabornVisualización de distribuciones, correlaciones y patrones para entender los datos antes de modelarlos.

Jupyter NotebooksEntorno interactivo para experimentar, documentar y compartir análisis de forma iterativa.

Lo que más me impactó de Pandas fue el concepto de vectorización: operar sobre columnas enteras de un DataFrame en vez de iterar fila a fila. La diferencia en rendimiento con datasets grandes es abismal.

🤖 Machine Learning con scikit-learn

El núcleo de la especialización fue el Machine Learning. Aprendí a distinguir cuándo aplicar cada enfoque y a evaluar correctamente los modelos.

Aprendizaje supervisado

Clasificación: Regresión Logística, árboles de decisión, Random Forest y SVM para predecir categorías.
Regresión: Regresión lineal y polinómica para predecir valores continuos.
Evaluación: accuracy, precision, recall, F1-score y matrices de confusión.

Aprendizaje no supervisado

Clustering: K-Means y DBSCAN para agrupar datos sin etiquetas previas.
Reducción de dimensionalidad: PCA para visualizar datasets de alta dimensión en 2D/3D.

💡 El concepto que más cambió mi forma de pensar

El overfitting. Construir un modelo que memoriza los datos de entrenamiento en lugar de aprender patrones generales es el error más habitual. La validación cruzada y la separación train/test se convirtieron en rutina obligatoria antes de dar por válido cualquier resultado.

📊 Big Data: datos a escala industrial

El módulo de Big Data amplió la perspectiva hacia el procesamiento de volúmenes de información que no caben en memoria:

Las 3 Vs: Volumen (terabytes de datos), Velocidad (streams en tiempo real) y Variedad (estructurados y no estructurados).
Procesamiento distribuido: principios de MapReduce y cómo frameworks como Spark distribuyen operaciones entre nodos.
Pipelines ETL: diseño de flujos de ingesta, transformación y carga para sistemas de análisis a escala.
Almacenamiento: cuándo usar bases relacionales, NoSQL o data lakes según el caso de uso.

🧠 Proyecto final: detección de salud mental en RRSS

El punto culminante fue un proyecto aplicado de principio a fin. El objetivo: detectar señales tempranas de problemas de salud mental analizando publicaciones en redes sociales.

Fases del proyecto

Datos: dataset de publicaciones etiquetadas (depresión, ansiedad, neutro) obtenido de fuentes académicas públicas.
Preprocesado NLP: limpieza de texto, tokenización, eliminación de stopwords y stemming con NLTK. Vectorización con TF-IDF.
Modelado: comparativa de Naive Bayes, SVM y Random Forest. El SVM con kernel RBF obtuvo el mejor F1-score en la clase minoritaria.
Evaluación: foco en recall sobre la clase positiva para minimizar falsos negativos, priorizando la seguridad sobre la precisión global.

📌 Aprendizaje clave: En problemas con clases desbalanceadas, la accuracy es engañosa. Un modelo que predice siempre «sano» puede alcanzar 90% de accuracy si solo el 10% de casos son positivos. La clave está en el recall y el F1-score de la clase minoritaria.

💡 Qué me llevo de esta especialización

Más allá de las herramientas concretas, lo que más valoro es el cambio de mentalidad:

Datos primero: antes de construir cualquier modelo, invertir tiempo en entender, limpiar y explorar los datos.
Definir bien el problema: qué métrica optimizamos y por qué, según el contexto real.
Reproducibilidad: documentar cada paso del análisis para que pueda ser auditado o repetido.
Conexión con mi perfil backend: puedo integrar modelos entrenados en APIs REST con Laravel/PHP, cerrando el ciclo completo.

← Volver al blog