La inteligencia artificial no es nueva, pero recién ahora está transformando negocios, educación y vida cotidiana. ¿Sabías que existen al menos 8 tipos de modelos de IA, cada uno con funciones específicas? En este artículo te los explico de forma clara y directa. La idea de IA data de mediados del siglo pasado. Ya entre el año 1964 y 1966, se construyó el primer programa con base en la IA, llamada ELIZA, que funcionaba, pero sus resultados no llamaban la atención como ahora, porque carecía de cantidades grandes de datos a consultar.
Hubo que esperar décadas hasta que se digitalizara mucha información y al tenerla a mano, o “cargada”, se pudieron hacer las primeras grandes búsquedas, y el mejor ejemplo de ello fue Chat GTP, en noviembre/2022, aunque hubo versiones anteriores.
Hoy varios modelos de IA:
-
LLM (Maestría en Lenguaje) Large Language Model
- LCM — Modelo de Consistencia Latente
-
LAM — Modelo de Acción del Lenguaje
-
MoE — Mezcla de expertos
-
VLM — Modelo de Lenguaje de Visión
-
SLM — Modelo de Lenguaje Pequeño
- MLM — Modelo de Lenguaje Enmascarado
- SAM — Modelo de Segmentación de Cualquier Cosa
Analicemos cada uno de ellos, en forma sucinta. Al finalizar les dejo mis conclusiones.
La IA es una herramienta excelente que ha venido a ayudarnos en todo lo que nosotros queramos. Sí, todo. Entonces de nosotros dependerá que le vamos a pedir, como controlamos sus respuestas y como aumentamos nuestra eficiencia laboral, comercial, educativa, industrial, y toda otra actividad.
Debemos aprender a hablar con ella, a explicarle muy bien lo que queremos, y a insistir (iterar) las veces que entendamos sea necesario.
Recordemos como hicimos todo esto cuando en el año 2000 aproximadamente tuvimos que hacer lo mismo en los navegadores, para obtener lo que buscábamos. En esa época, si preguntábamos mal, no se encontraba nada en Internet y aparecían opciones (páginas Web) que no valían la pena.
Básicamente, hay que saber hablar, no solo preguntar, con la IA, haciendo un “prompt” con el mayor detalle posible, de los que queremos, y decirle también como queremos que nos devuelva la respuesta. Podemos escribir mucho, o hablarle y grabar un mensaje, o insertar un archivo de texto, o imagen, o un reporte, una canción, o una página Web y pedirle el resumen de ello, o que busque tal o cual información relacionada con el prompt. Así de simple.
Como herramienta es similar a Excel, se puede hacer todo, y solo dependerá de nuestra inventiva y explicación, para recibir lo que deseamos recibir. Si sale mal la primera, se puede iterar, incluso mejorando el prompt. Hasta si se lo pedimos y tenemos espacio alquilado, podemos pedirle que nos guarde el trabajo, para mejorarlo más adelante o usarlo para otros prompts.
En definitiva, sola, no hace nada, tenemos que orientarla, guiarla, hacia donde nosotros lo necesitamos. Como tiene muchos terabytes de información en la Nube, puede respondernos todo.
1. LLM (Maestría en Lenguaje) Large Language Model.
Los LLM(Modelo de Lenguaje Grande) se entrenan con cantidades masivas de texto de internet, libros, artículos, código y tuits para aprender cómo funciona el lenguaje.
-
Objetivo.
Predecir la siguiente palabra (o tokens) en una secuencia, basándose en todo lo anterior. No adivina, deduce en base a la información que hay en Internet, que otros escribieron. Al principio, en el 2022, había que subir toda la información que iba leer el LLM, en un repositorio o gran carpeta. Ahora puede hacer eso, tomándolo como información validad, o buscar en Internet y deducir si es correcta o no.
-
Para que sirve y contras.
Se han convertido en un referente de la IA en los últimos años por varias razones:
-
Poder conversacional: ChatGPT, Claude, GEMINI, todos impulsados por LLM.
-
Código + Contenido: Desde artículos de blog hasta scripts de Python, los LLM gestionan tareas creativas y técnicas.
-
Conocimiento general: Saben un poco de casi todo, lo que los convierte en excelentes herramientas de uso general.
-
Ideal para redacción, comunicaciones, atención al cliente y reportes.
Generalmente se los utiliza para:
-
Redacción y reescritura de contenido
-
Asistencia en programación y generación de código
-
Chatbots de atención al cliente
-
Lluvia de ideas
-
Traducción de idiomas
-
Educación y tutoría
Sin embargo, tiene algunas contras:
-
Aunque los LLM parecen mágicos, tienen limitaciones.
-
Pueden alucinar (inventar cosas con seguridad) con tal de responder algo.
-
Carecen de verdadera comprensión o razonamiento; se basan en suposiciones basadas en patrones.
-
Consumen mucha energía.
Por esas razones, están surgiendo rápidamente nuevos tipos de modelos, diseñados para la velocidad aunque sean más pequeños, la especialización o un razonamiento más profundo.
2. LCM — Modelo de Consistencia Latente.
El poder de los LCM (Modelos de Consistencia Latente) es responder en pocos segundos, leyendo menos datos. No tiene certeza total, pero son muy rápidos, y se pueden iterar muchas veces. Son como los primos rápidos y ligeros de los modelos de generación de imágenes más potentes, como la Difusión Estable.
-
Objetivo.
A diferencia de los LLM que generan texto, los LCM están diseñados principalmente para imágenes y están optimizados para la velocidad, la eficiencia y los dispositivos pequeños.
Los usan para trabajar en tiempo real. Se los llama “latente” en similitud a las caché que usamos a diario al navegar por Internet. No se les puede pedir gran definición.
-
Para que sirve.
Generalmente se los utiliza para:
-
Generación de imágenes en el dispositivo (piense en filtros de IA o avatares)
-
Herramientas de prototipado más rápidas para diseñadores.
-
Aplicaciones de RA/RV donde la velocidad es crucial.
-
Mejora de la visión en tiempo real en cámaras inteligentes.
-
Es ideal para juegos on line, diseñar, hacer prototipos.
-
Puede generar imágenes no reales y poco precisas.
En esencia, los LCM son el modelo ideal cuando se buscan resultados rápidos y atractivos sin necesidad de una supercomputadora.
Actualmente, nos movemos en la frontera (Edge) y on line, razón por la cual es importante la velocidad. Por eso se usan tanto. Generalmente hay proceso oculto en la IA, que no se muestran.
En el futuro muy cercano, sus gafas RA o RV, o sus relojes inteligentes, podrían generar y mejorar imágenes utilizando un LCM, todo al instante.
3. LAM — Modelo de Acción del Lenguaje
Un LAM (Modelo de Acción del Lenguaje) es tu asistente inteligente que planifica, recuerda y ejecuta tareas, y algunas automáticamente. No solo genera texto, sino que comprende la intención del usuario, recuerda el contexto que le explicó, e interactúa con herramientas o entornos conocidos.
-
Objetivo.
Son la columna vertebral de los “agentes de IA”, quienes son los que pueden ayudar a automatizar tareas, operar herramientas de software o planificar acciones de varios pasos, como reservar un viaje, leer un pdf o depurar código de programación.
-
Para que sirve.
Los LAM suelen combinar:
-
LLM para la comprensión del lenguaje natural.
-
Tomar decisiones sobre que tareas ejecutar, y como hacerlo.
-
Módulos de memoria para el seguimiento de acciones o entradas pasadas.
-
Planificadores que pueden desglosar tareas complejas.
-
Capacidades de uso de herramientas para ejecutar pasos (por ejemplo, mediante API o interfaces).
Los Agentes de IA que automatizan los flujos de trabajo (ej., ZapierAI, Devin) son asistentes digitales que interactúan con aplicaciones y servicios Bots de atención al cliente que resuelven problemas, no solo responden. También son herramientas de productividad que completan tareas según instrucciones, y la robótica, donde la entrada de lenguaje controla acciones físicas. Ya hay robots con IA, que aprenden mejor y más rápido a hacer tareas rutinarias de todo tipo y a conectarse con sensores IoT.
En un mundo de creciente automatización, los LAM están impulsando una IA que puede funcionar en todas las aplicaciones, comprender objetivos y adaptarse a entornos cambiantes. Resolviendo tareas de acuerdo al medio ambiente.
4. MoE — Mezcla de expertos.
Un modelo de Mezcla de Expertos (MoE) se compone de muchos submodelos («expertos»), pero cuando llega una solicitud, solo se activan unos pocos expertos según lo relevante que pide. Esto hace que el modelo sea escalable y eficiente, ya que no se utiliza a todos los expertos en cada ocasión. Se le puede consultar cual es la mejor acción a tomar, de acuerdo a los que sabe.
-
Objetivo.
MoE utiliza un «enrutador», un sistema interno inteligente que decide qué experto(s) activar según la información proporcionada.
-
El enrutador evalúa la información.
-
Selecciona a los N mejores expertos (normalmente 2 de más de 100).
-
Solo los expertos seleccionados, procesan la información y generan un resultado.
-
Estos resultados se combinan y se devuelve el mix al usuario.
-
Puede lograr respuestas complejas.
-
Para que sirve.
De esta forma, se obtiene una inteligencia específica con una mínima sobrecarga de procesamiento, pero siempre considerando la información a la que tiene acceso. No crea nada.
Con el crecimiento de los modelos de IA a cientos de miles de millones de parámetros, los costes de computación se están convirtiendo en un cuello de botella. Los modelos MoE ofrecen una solución alternativa brillante: permiten obtener respuestas a gran escala, sin necesidad de escalar a gran escala, porque ya tienen millones de parámetros a su disposición. No necesitan gran consumo de recursos ni de energía.
5. VLM — Modelo de Lenguaje de Visión.
Estos modelos VLM están diseñados para procesar y comprender, simultáneamente entradas visuales y de texto.
-
Objetivo.
En el núcleo de un VLM se encuentra un espacio de incrustación compartido, una zona especial donde las imágenes y el texto se mapean en representaciones numéricas significativas similares y esto permite al modelo VLM, relacionar imágenes con descripciones, responder preguntas sobre el contenido visual o incluso generar texto a partir de imágenes y viceversa. Al detectar la imagen lee lo que se dice de ella.
-
Para que sirve.
A continuación, se muestra un flujo simplificado:
-
La imagen pasa por un codificador de visión CNN.
-
El texto pasa por un codificador de lenguaje (como BERT o GPT).
-
Ambos se alinean en un espacio compartido, para la comprensión intermodal.
-
El modelo genera resultados como respuestas, subtítulos, autores, clasificaciones, etc.
-
Entiende múltiples formatos.
Ayuda a las herramientas de accesibilidad (p. ej., para usuarios con discapacidad visual), ala robótica (interpretación del entorno mediante la visión y la instrucción) y la RA o RV (interacción contextual con el mundo real).
En un mundo donde el contenido digital es cada vez más visual, como el actual, necesitamos modelos que vayan más allá de las capacidades de solo texto. Los VLM son fundamentales para la búsqueda multimodal, los agentes contextuales y la IA asistida para la percepción del mundo real o analógico. Así los sistemas que pueden «ver», «comprender» y «actuar» en entornos físicos o virtuales.
6. SLM — Modelo de Lenguaje Pequeño
Mientras que los modelos LLM acaparan la atención por su escala masiva, los Modelos de Lenguaje Pequeños (SLM) funcionan silenciosamente en segundo plano. En tu teléfono, tu portátil o incluso tu tostadora o procesadora inteligente.
-
Objetivo.
Los SLM son modelos de lenguajes compactos y eficientes, diseñados para ofrecer respuestas rápidas y de baja latencia en hardware limitado por su tamaño o poder de proceso. Son diseñados para trabajar en miniaturas.
-
Para que sirve.
Los SLM se construyen generalmente utilizando la misma arquitectura de transformador que los LLM, pero con menos parámetros y rutas de inferencia optimizadas.
-
Recuento de parámetros: Generalmente solo millones de parámetros, cuando los LLM usan miles de millones o billones.
-
Optimizaciones: Cuantización, poda, destilación de conocimiento o ajustes arquitectónicos.
-
Implementación: Dispositivos perimetrales (teléfonos, IoT, navegadores, servidores locales).
Si bien pueden carecer del razonamiento profundo y la memoria de contexto de los LLM, su diseño ligero permite un rendimiento muy rápido en tiempo real y sin conexión.
El uso diario de la IA y muchos dispositivos inteligentes, hace que los SLM sean indispensables para dar más ayuda y servicio a los usuarios. Algunos ejemplos:
-
Electrodomésticos inteligentes y sistemas integrados
-
Herramientas para desarrolladores y autocompletado de código en entornos de desarrollo integrados (IDE) locales.
-
Chatbots en dispositivos (p. ej., asistentes virtuales móviles)
-
Aplicaciones que priorizan la privacidad (los datos nunca salen del dispositivo)
-
Inferencia en tiempo real en robótica o gafas de realidad aumentada (RA) y Realidad Virtual (RV)
-
Su uso en Phi-3 y Tiny LLaMa de Meta, ayudan a usarlo en todos lados.
-
Ejecuta IA en dispositivos pequeños.
-
Es privado, rápido y económico.
7. MLM — Modelo de Lenguaje Enmascarado
Mucho antes de que se presentara ChatGPT, existía BERT de Google, y con él llegó el Modelo de Lenguaje Enmascarado (MLM). Se entrenan enmascarando palabras aleatorias en una oración y haciendo que el modelo prediga las que faltan. En lugar de predecir la siguiente palabra, como los LLM, los MLM analizan la oración completa y razonan o comparan con lo archivado, sobre qué debe ir en el espacio en blanco.
-
Objetivo.
Para ello usa la Sintaxis (gramática + estructura), Semántica (significado + relaciones), Contexto bidireccional. Pueden entrenarse con textos masivos y complejos. Puede buscar sinónimos y así facilitar el resultado que busca.
-
Para que sirve.
Otra forma de definirlos es diciendo que el modelado de “lenguaje enmascarado” es como aprender a leer entre líneas y luego predecir lo que realmente dicen.
Es muy preciso al ejecutar tareas específicas. No genera texto, solo lo interpreta.
Ayuda mucho usarlo en el reinforcement de información.
8. SAM — Modelo de Segmentación de Cualquier Cosa
El Modelo Segment Anything(SAM) de Meta AI, es revolucionario en visión artificial. Contornea la imagen, le da forma milimétrica y la etiqueta.
-
Objetivo.
A diferencia de los modelos que clasifican o detectan objetos completos, SAM segmenta, lo que significa que dibuja contornos precisos alrededor de cada objeto en una imagen, incluso aquellos que no ha visto antes. No se limita a etiquetar «caballo», «gato» o «perro». Comprende su forma, límites y posición con precisión milimétrica.
-
Para que sirve.
En esencia, SAM está diseñado para la segmentación programable. Se le puede asignar una instrucción (un punto, un cuadro o una máscara) y te devuelve el segmento exacto del objeto al que se hace referencia.
Para ello utiliza un componente principal de Vision Transformer para procesar la imagen, luego arma un enfoque basado en incrustaciones para comparar características visuales y decodificador de segmentación rápido que genera máscaras al instante.
Segmentar todo, no solo las categorías conocidas, abre un nuevo paradigma en la visión de IA, ya que es potente, flexible y se puede conectar con cualquier modelo de lenguaje o de acción para crear agentes visuales potentes, como un robot que ve un objeto, comprende qué es y lo recoge.
Muy utilizable en salud, robótica, visión computacional delentorno.
CONCLUSIÓN PARA LA ACCIÓN.
Es claro que para cada tarea hay que saber que herramienta a utilizar y eso no siempre es sencillo de hacer, y además obliga a estar capacitar en varios de ellas.
Pero ahora todo está resuelto con el GPT 5.0 que realiza solo esa elección y busca y encuentra el modelo que necesita, sin esperar al usuario.
Y como la AGI-Inteligencia Artificial General- está casi al alcance de la mano, todo será más sencillo aún, lo cual no quieta saber en detalle, los distintos modelos.
Ahora que conoces los principales modelos de IA, viste que son varios, puedes elegir el más adecuado para tu negocio, tus estudios o tus proyectos. Y si no sabes por donde empezar, GPT-5 puede ayudarte a decidir, solo pídeselo. Lo importante es que la IA no reemplaza tu criterio:¡¡¡ lo potencia!!!
¿Querés implementar IA en tu negocio? Hablemos.
Campana, setiembre de 2025.