Publicado

¿Cómo aprenden los modelos de aprendizaje profundo?

"A model is like the brain of a newborn" by
Kandinsky

"Un modelo es como el cerebro de un recién nacido" por Kandinsky (DALL-E)

Modelos

Inicialmente, un modelo (o un resolvedor de tareas) es como el cerebro de un recién nacido: tiene una enorme capacidad para aprender, pero no contiene información útil (conocimientos). Es decir, como en el caso del cerebro, nuestro modelo está abierto a aprender a partir de nuevas experiencias y es lo suficientemente flexible para lograrlo.

Generalización

La primera vez que un bebé ve un perro y su madre o padre le dice que es un perro, no aprende lo que es un perro. El niño simplemente ha visto un ejemplar de una raza o mezcla de razas particular, por lo que aún no sabrá qué tiene en común la enorme variedad de morfologías de las diferentes razas de perro (los patrones que comparten todas las razas). Ese niño deberá vivir muchas experiencias como la anterior con perros muy diversos en distintos escenarios para aprender lo qué es un perro, es decir, para abstraer lo común a todas las experiencias hasta asimilar el concepto de perro (generalización).

Principio de aprendizaje

Este principio de aprendizaje se transfiere al entrenamiento de modelos: procesar múltiples experiencias, descubrir patrones comunes y relacionarlos con conceptos. En esencia, nuestro modelo es una función matemática: transforma un dato en un resultado. El modelo aprende mediante el procesamiento repetido de muchos ejemplos de la tarea a resolver (e.g. imágenes de perros, imágenes de rayos X, etc.), mientras se compara el resultado del modelo (predicción del modelo) con el resultado esperado (expectativa) en cada caso. Si ambos son diferentes, realizamos ajustes o adaptaciones al modelo de forma que que la próxima vez que el modelo "vea" los mismos ejemplos, la diferencia entre la predicción y la expectativa sea menor. Este proceso se repite hasta que la diferencia desaparezca o sea aceptable.

Caso de estudio

En nuestro caso de estudio (estimación de la edad ósea), el modelo necesita procesar muchas imágenes de rayos X de manos izquierdas de niñas y niños, hasta lograr estimar o calcular un valor preciso de la edad ósea en cada caso. Pero, ¿preciso con respecto a qué? En esta tarea no existe ningún valor de referencia, porque la edad biológica es una estimación en sí misma, y tampoco contamos con un oráculo que nos resuelva el problema. Por lo tanto, la predicción del modelo se comparará contra valores de la edad ósea consensuados a partir de opiniones individuales de tantos médicos o expertos como sea posible. Es decir, le pediremos al modelo que funcione tan bien como un comité de expertos humanos.

"El modelo de IA es como el cerebro de un recien nacido" por pintor
impresionista

"El modelos de IA es como el cerebro de un recien nacido" por pintor impresionista (DALL-E)

Proximos pasos

Como el lector podrá imaginar, un proceso de entrenamiento real es mucho más complejo. Sin embargo, el objetivo de estas notas ha sido simplemente transmitir algunas primeras ideas a personas ajenas al ámbito del aprendizaje automático. En futuras notas cubriremos otras analogías entre el cerebro humano y los modelos de aprendizaje automático, la importancia de la diversidad de los ejemplos en el aprendizaje del modelo, la relación entre la complejidad de la tarea y la capacidad del modelo, la evaluación independiente del aprendizaje, etc. Y por supuesto, ¡siempre reduciendo al mínimo la jerga técnica!