La industria de la IA está obsesionada con la escala. Algoritmos más grandes. Más datos. Centros de datos en expansión que podrían, en unos pocos años, consumir suficiente electricidad para alimentar ciudades enteras.
Este apetito insaciable es la razón por la que OpenAI, que va camino de generar 3.700 millones de dólares en ingresos pero perderá 5.000 millones de dólares este año, acaba de anunciar que ha recaudado 6.600 millones de dólares más en financiación y abrió una línea de crédito por otros 4.000 millones de dólares.
Números sorprendentes como estos hacen que sea fácil olvidar que el tamaño no lo es todo.
Algunos investigadores, especialmente aquellos con menos recursos, pretenden hacer más con menos. La ampliación de la IA continuará, pero estos algoritmos también serán mucho más eficientes a medida que crezcan.
La semana pasada, investigadores del Instituto Allen de Inteligencia Artificial (Ai2) lanzaron una nueva familia de modelos multimodales de código abierto que son competitivos con modelos de última generación como el GPT-4o de OpenAI, pero un orden de magnitud más pequeño. Llamados Molmo, los modelos varían entre mil millones y 72 mil millones de parámetros. En comparación, se estima que GPT-4o supera el billón de parámetros.
Está todo en los datos.
Ai2 dijo que logró esta hazaña centrándose en la calidad de los datos en lugar de la cantidad.
Los algoritmos alimentados con miles de millones de ejemplos, como GPT-4o, son extraordinariamente capaces. Pero también ingieren mucha información de baja calidad. Todo este ruido consume una valiosa potencia informática.
Para construir los nuevos modelos multimodales, Ai2 reunió una columna vertebral de grandes modelos de lenguaje y codificadores de visión existentes. Luego compilaron un conjunto de datos más enfocado y de mayor calidad de aproximadamente 700.000 imágenes y 1,3 millones de títulos para entrenar nuevos modelos con capacidades visuales. Puede parecer mucho, pero son aproximadamente 1.000 veces menos datos que los utilizados en modelos multimodales propietarios.
En lugar de escribir pies de foto, el equipo pidió a los anotadores que grabaran descripciones verbales de 60 a 90 segundos respondiendo una lista de preguntas sobre cada imagen. Luego transcribieron las descripciones, que a menudo abarcaban varias páginas, y utilizaron otros modelos de lenguaje grandes para limpiarlas, reducirlas y estandarizarlas. Descubrieron que este simple cambio de notación escrita a verbal producía muchos más detalles con un mínimo esfuerzo adicional.
Modelos pequeños, mejores perros
Los resultados son impresionantes.
Según un documento técnico que describe el trabajo, el modelo más grande del equipo, Molmo 72B, iguala o supera aproximadamente el rendimiento de los modelos cerrados de última generación, incluidos el GPT-4o de OpenAI, el Claude 3.5 Sonnet de Anthropic y el Gemini 1.5 Google Pro. , en un rango de 11 puntos de referencia académicos y en función de las preferencias del usuario. Incluso los modelos Molmo más pequeños, que tienen un tamaño una décima parte del modelo más grande, se comparan favorablemente con los modelos más modernos.
Molmo también puede señalar cosas que identifica en las imágenes. Este tipo de capacidad podría ayudar a los desarrolladores a crear agentes de inteligencia artificial que identifiquen botones o campos en una página web para manejar tareas como hacer una reserva en un restaurante. O podría ayudar a los robots a identificar e interactuar mejor con objetos del mundo real.
El director ejecutivo de Ai2, Ali Farhadi, reconoció que es cuestionable cuánto nos pueden decir los puntos de referencia. Pero podemos usarlos para hacer una comparación aproximada de un modelo a otro.
“Hay una docena de puntos de referencia diferentes según los cuales la gente evalúa. No me gusta este juego, científicamente… pero tenía que mostrarle a la gente un número», dijo Farhadi en un evento de lanzamiento en Seattle. «Nuestro modelo más grande es un modelo pequeño, 72B, que supera a GPT, Claudes y Geminis. en estos puntos de referencia. Una vez más, tómelo con cautela; ¿significa esto que esto es realmente mejor que ellos o no? Pero al menos para nosotros significa que estamos jugando el mismo juego».
IA de código abierto
Además de ser más pequeño, Molmo es de código abierto. Esto es importante porque significa que la gente ahora tiene una alternativa gratuita a los modelos propietarios.
Hay otros modelos abiertos que empiezan a competir con los mejores de algunas marcas. Llama 3.1 405B de Meta, por ejemplo, es el primer modelo de lenguaje abierto grande y ampliado. Pero no es multimodal. (Meta lanzó versiones multimodo de sus modelos Llama más pequeños la semana pasada. Es posible que haga lo mismo con su modelo más grande en los próximos meses).
Molmo también es más abierto que Llama. Los modelos de Meta se describen mejor como modelos de “peso abierto”, ya que la empresa publica los pesos del modelo pero no el código o los datos utilizados en el entrenamiento. El modelo Molmo más grande se basa en Qwen2 72B de peso abierto de Alibaba Cloud, que, al igual que Llama, no incluye datos ni código de entrenamiento, pero Ai2 ha publicado el conjunto de datos y el código utilizados para hacer que su modelo sea multimodal.
Además, Meta limita el uso comercial a productos con menos de 700 millones de usuarios. Por el contrario, Molmo tiene una licencia Apache 2.0. Esto significa que los desarrolladores pueden modificar plantillas y comercializar productos con pocas limitaciones.
“Nos dirigimos a investigadores, desarrolladores, desarrolladores de aplicaciones, personas que no saben cómo lidiar con estos (grandes) modelos. Un principio clave para llegar a una audiencia tan amplia es el principio clave que hemos apoyado durante mucho tiempo, que es: hacerlo más accesible”, dijo Farhadi.
Mordiendo los talones
Hay algunas cosas que vale la pena señalar aquí. En primer lugar, a medida que los creadores de modelos propietarios buscan monetizar sus modelos, están apareciendo alternativas de código abierto con capacidades similares. Estas alternativas, como muestra Molmo, también son más pequeñas, lo que significa que pueden ejecutarse localmente y ser más flexibles. Son una competencia legítima para las empresas que recaudan miles de millones con la promesa de productos de inteligencia artificial.
«Tener un modelo multimodal de código abierto significa que cualquier startup o investigador que tenga una idea puede intentar hacerla realidad», dijo Ofir Press, postdoctorado en la Universidad de Princeton. cableado.
Al mismo tiempo, trabajar con imágenes y texto es algo antiguo para OpenAI y Google. Las empresas están retrocediendo al agregar capacidades avanzadas de voz, generación de video y capacidades de razonamiento. Con miles de millones en nuevas inversiones y acceso a una creciente cantidad de datos de calidad provenientes de acuerdos con editores, la próxima generación de modelos podría volver a aumentar las apuestas.
Sin embargo, Molmo sugiere que incluso cuando las empresas más grandes invierten miles de millones en ampliar la tecnología, es posible que las alternativas de código abierto no se queden atrás.
Crédito de la imagen: Base de datos de recursos / Unsplash