Son modelos de IA capaces de procesar y comprender información de múltiples tipos de datos simultáneamente, como texto, imágenes, audio y video. Esto les permite tener una comprensión del mundo mucho más rica y contextualizada, similar a la de los humanos. Hacen que el comportamiento del modelo sea más predecible frente a la incertidumbre, ya que puede cruzar información de diferentes fuentes para generar una respuesta más completa. La clave de su éxito está en medir la precisión con la que integran y razonan sobre estas diversas modalidades.