

Resumen Ejecutivo – Academia 29-04-2026
Fecha: 29 de abril de 2026
Expuesto por: Profesor Ángel Royo
Corresponde a: Plan Academia
Resumen General
La sesión del 29 de abril de 2026 se enfocó en mostrar de forma concreta cómo funciona la inteligencia artificial cuando trabaja con voz. La clase no presentó el reconocimiento de audio como una magia misteriosa, sino como un proceso técnico comprensible: primero se capturan datos de sonido, luego esos datos alimentan un modelo de aprendizaje automático, y finalmente el modelo entrenado se utiliza para ejecutar una solución funcional.
El valor principal de la reunión estuvo en enseñar que la inteligencia artificial no “entiende” palabras como lo hace una persona. Lo que hace es comparar patrones acústicos convertidos en imágenes matemáticas y asociarlos a etiquetas previamente entrenadas. Para demostrar esto, se trabajó en Pictoblocks con un clasificador de audio entrenado para distinguir comandos como abierto y cerrado, integrándolo luego con bloques de programación para producir respuestas automáticas.
La IA no es Magia, sino Proceso
La clase comenzó aclarando una idea esencial: la inteligencia artificial no debe ser tratada como un truco o como una especie de mente misteriosa. Su funcionamiento depende de un flujo bastante claro y ordenado. Primero están los datos, luego el modelo y finalmente la solución útil para el usuario.
Esta introducción fue importante porque prepara mentalmente a los estudiantes para pensar la IA como una arquitectura y no como una caja negra. El curso insistió en que si se entiende ese flujo, se vuelve posible construir aplicaciones propias en vez de solo admirar tecnologías ajenas.
- Datos: la materia prima.
- Modelo: la estructura que aprende patrones.
- Solución: la aplicación funcional para el usuario.
Los Datos son lo Más Importante
Ángel Royo enfatizó que sin datos no hay inteligencia artificial. Los datos son el fundamento real de cualquier sistema de aprendizaje automático. Después de los datos, se selecciona o utiliza un modelo existente, el cual inicialmente está “vacío” hasta ser entrenado con la información adecuada.
La sesión volvió a reforzar una idea central del Plan Academia: el éxito de una solución de IA depende en gran medida de la calidad del insumo. Si lo que entra al sistema es basura, el resultado también será deficiente. Esa lógica fue presentada como un principio universal de la tecnología aplicada.
La Voz como Dato Acústico
Uno de los puntos más importantes de la clase fue explicar que la computadora no escucha la voz como una persona. No entiende el significado de una palabra, ni sabe qué es “abierto” o “cerrado” en términos humanos. Para la máquina, la voz es simplemente una señal acústica que entra por el micrófono.
Esta señal no se procesa como lenguaje en el sentido cotidiano, sino como una forma de dato. La IA trabaja con vibraciones y patrones sonoros, no con intenciones o significados conscientes.
Del Sonido al Espectrograma
La sesión explicó que, para que la IA procese la voz, el sonido se transforma en una imagen llamada espectrograma. Esta imagen puede entenderse como una “foto del sonido”. Allí aparecen representadas matemáticamente distintas características acústicas de la voz, como frecuencia, intensidad y duración.
Ese paso fue fundamental para que los estudiantes comprendieran que muchos modelos de IA no analizan el sonido directamente como “audio puro”, sino que lo convierten a una representación visual matemática donde pueden detectar patrones.
La IA Busca Patrones, no Significados
Una vez transformado el sonido en espectrograma, el modelo lo analiza usando filtros y funciones matemáticas. El sistema no piensa “esto significa abrir”; simplemente compara el patrón detectado con los patrones que ya vio durante el entrenamiento.
Si en el entrenamiento se etiquetó cierto patrón como abierto, el modelo tenderá a asociar futuras señales parecidas con esa misma etiqueta. En otras palabras, no comprende el lenguaje: solo reconoce similitudes estadísticas entre ejemplos.
Probabilidad y Clasificación
La clase explicó que el resultado de un modelo de audio suele expresarse como probabilidad. Por ejemplo, el sistema puede concluir algo como:
- Abierto: 87%
- Cerrado: 13%
Esto ayuda a entender que la IA no suele entregar certezas absolutas, sino estimaciones probabilísticas basadas en el patrón detectado y en lo que aprendió del conjunto de ejemplos previos.
Importancia del Audio Limpio y Bien Etiquetado
La reunión insistió en que la calidad del audio es decisiva. Si las muestras están contaminadas por demasiado ruido, si las palabras no están bien separadas o si hay muy pocos ejemplos, el modelo tendrá dificultades para aprender de forma robusta.
Esto enlaza nuevamente con la idea principal del curso: la IA no se arregla sola. Necesita buenos datos, bien tomados y bien organizados. En el caso del audio, eso significa muestras limpias, etiquetas correctas y suficiente variedad de voces y tonos.
Aplicaciones Reales del Reconocimiento de Voz
La clase conectó este contenido con tecnologías cotidianas como Alexa, asistentes del celular y sistemas de casas inteligentes. Estos dispositivos también convierten la voz en datos procesables, detectan patrones y los transforman en órdenes funcionales, como encender una luz o abrir una puerta.
Al mostrar estos ejemplos, la sesión ayudó a que los estudiantes vieran que el ejercicio realizado en Pictoblocks no era un simple experimento escolar, sino una versión reducida de tecnologías que ya están presentes en la vida diaria.
Privacidad y Uso Comercial de la Voz
La reunión también abrió una reflexión sobre privacidad. Se explicó que muchos dispositivos y aplicaciones recopilan voz y sonido ambiental, y que esos datos pueden ser usados para perfilar a las personas según intereses, hábitos o ubicación geográfica.
El punto principal no fue hacer una denuncia técnica detallada, sino ayudar a los estudiantes a comprender que detrás de muchas tecnologías “gratuitas” existe una economía basada en la captura y explotación de datos.
Preparación Práctica en Pictoblocks
Después de la explicación conceptual, la clase se movió hacia la práctica con Pictoblocks. Se eligió la herramienta de clasificación de audio, aprovechando que este entorno permite entrenar un modelo funcional sin tener que programar desde cero redes neuronales complejas.
La sesión mostró que Pictoblocks funciona como un laboratorio educativo: permite a los estudiantes tocar ideas reales de IA usando una interfaz accesible.
Primero: Registrar el Ruido de la Sala
Antes de grabar las palabras que servirían como clases del modelo, Ángel Royo explicó que era importante registrar el sonido ambiente o “audio de la sala”. Esto sirve como una referencia del nivel de ruido base del entorno y permite al sistema distinguir mejor entre comandos útiles y contaminación acústica.
Este detalle fue muy valioso porque enseña a pensar como alguien que diseña datos, no solo como alguien que aprieta botones. Incluso el silencio relativo o el ruido ambiente deben considerarse parte del entrenamiento.
Clases Elegidas para el Entrenamiento
En el proyecto se definieron tres clases de audio:
- Audio de la sala
- Abierto
- Cerrado
Estas clases permitieron entrenar un modelo simple pero funcional. La elección fue estratégica: dos comandos claros y una categoría de ruido ambiente para reducir falsas detecciones.
Cantidad de Muestras Recomendadas
La clase indicó que el sistema requiere al menos unas 20 muestras para empezar a entrenar, aunque lo ideal es llegar a una cantidad mayor, como 30, 50 o incluso 100 ejemplos. Además, se sugirió usar diferentes tonos de voz y variaciones al hablar, para enriquecer el modelo.
Esta recomendación fue clave porque ayuda a formar una intuición correcta: un buen clasificador de audio no se construye con una sola voz perfectamente repetida, sino con variedad suficiente para generalizar mejor.
Entrenamiento del Modelo
Una vez reunidas las muestras, el sistema entrenó el modelo con parámetros por defecto, como 25 capas y un lote de 16. La gráfica de entrenamiento mostró una precisión muy alta y una pérdida casi nula, lo que sugería que el modelo estaba aprendiendo de forma adecuada a distinguir los sonidos etiquetados.
Este momento fue importante porque permitió a los estudiantes ver el entrenamiento no solo como una acción invisible, sino como un proceso que se puede observar y evaluar mediante métricas.
Exportación a Bloques
Tras el entrenamiento, el modelo fue exportado a bloques de programación dentro de Pictoblocks. Este paso fue decisivo porque convirtió al modelo en una herramienta programable dentro de un entorno lógico visual.
Aquí aparece nuevamente una de las ideas fuertes del curso: la IA no debe quedarse encerrada en la etapa de entrenamiento. Debe integrarse con lógica programática para convertirse en una solución útil.
Uso del Modelo con Lógica “Por Siempre”
La demostración práctica utilizó un ciclo por siempre junto con condicionales si para que el programa escuchara continuamente el sonido y reaccionara según el comando reconocido. Esta estructura permitió que el objeto en Pictoblocks tomara decisiones de forma constante y no solo una vez.
Se mostró, por ejemplo, cómo responder a “abierto”, “cerrado” o “audio sala” con acciones distintas, como mover un objeto o mostrar un mensaje en pantalla.
Reconocimiento Funcional y Corrección de Errores
Maxo Z y Sofía Ponce participaron mostrando ejemplos funcionales de reconocimiento de voz. En el caso de Sofía, se detectó que faltaba integrar adecuadamente el bucle por siempre, lo que impedía que el programa siguiera escuchando de manera continua.
Este momento fue pedagógicamente muy útil porque mostró que un modelo entrenado no basta: también debe integrarse de manera correcta con la lógica del programa para que la solución funcione de verdad.
La IA no Piensa: Compara
Hacia el cierre, Ángel Royo reforzó varias veces una idea esencial: la inteligencia artificial no piensa, no entiende el mundo y no tiene intuición. Solo compara lo que recibe con ejemplos previos y responde según los patrones que logró aprender.
Esta aclaración es muy importante en un contexto donde la IA suele ser exagerada o malinterpretada. La clase buscó formar una mirada técnica y sobria, sin mitificar la herramienta.
Crear Soluciones sin Construir el Modelo desde Cero
Se explicó que el objetivo de los estudiantes no es inventar desde cero los grandes modelos matemáticos, sino aprender a usar modelos ya existentes para crear productos y soluciones. Esta perspectiva es realista y muy valiosa, porque concentra la formación en la aplicación, que es donde realmente se crea valor para la mayoría de las personas.
En otras palabras, no se espera que cada estudiante sea un investigador que construye la red neuronal base, sino alguien capaz de alimentar bien un modelo y convertirlo en una solución funcional.
Conclusión
En términos ejecutivos, la clase del 29 de abril de 2026 enseñó de forma clara y aplicada cómo funciona la inteligencia artificial cuando trabaja con voz. La sesión mostró que el reconocimiento de audio depende de datos de calidad, de modelos entrenados con ejemplos bien etiquetados y de una integración lógica correcta dentro de Pictoblocks para convertir la clasificación en acción.
El valor principal de la reunión estuvo en desmitificar la IA y volverla operativa. Los estudiantes no solo vieron cómo se entrena un clasificador de voz, sino también cómo se traduce un sonido a un espectrograma, cómo el modelo reconoce patrones y cómo ese resultado puede gobernar un programa interactivo. De esta forma, la clase siguió fortaleciendo exactamente lo que el Plan Academia busca formar: estudiantes capaces de comprender la tecnología desde dentro y de usarla para crear soluciones reales.



