Por qué OpenAI o1 apesta en programación

Si bien la serie de modelos o1 de OpenAI es conocida por sus excepcionales capacidades de razonamiento, varios desarrolladores han informado que estos modelos no son la mejor opción para tareas relacionadas con la programación, especialmente o1-mini.

Si bien las respuestas lentas siguen molestando a los desarrolladores, el problema va más allá de los tiempos de respuesta. Un desarrollador escribió en Hacker News que el modelo de vista previa de o1 era tan espeluznante que comenzó a responder en el contexto de bibliotecas y funciones inexistentes.

«Es lo mismo de siempre: ‘Tienes toda la razón y te pido disculpas por el descuido en mi respuesta anterior’. Si bien es posible que se haya mejorado el razonamiento, esto no resuelve el problema de que el modelo no tenga forma de evaluar si lo que evoca a partir de sus pesos es real o no”, explicó con más detalle.

ChatGPT 4o es incluso mejor que el modelo o1

Por estas razones, los desarrolladores creen que los modelos o1 están sobrevalorados. Moutaz Alkhatib, principal desarrollador de software de Yieldlove, dijo que se arrepiente de haber comprado el nivel plus de ChatGPT, que compró específicamente para usar plantillas o1, y que no renovará la compra.

La parte del «pensamiento».

Cuando ALCANCE En comparación con varios LLM para pruebas de finalización de codificación en LiveBench, los resultados fueron impactantes ya que o1-mini se clasificó por debajo del modelo de código abierto Qwen2-72B y GPT-4.

comparando modelos o1 con otros

Para todo desarrollador que se enfrente a plazos, lo primero y más importante es el tiempo de respuesta. Pero incluso si ignoras el tiempo de respuesta, varios desarrolladores han dicho que se congela después de la fase de pensamiento y no responde en absoluto.

Mike Young, al revisar los modelos o1, dijo que aumentar el tiempo de respuesta durante la fase de reflexión puede ser un gran impedimento, especialmente cuando se necesitan respuestas rápidas. “El modelo a veces se queda atascado en el modo de pensar y nunca da una respuesta, lo que ocurre aproximadamente el 40% de las veces. Funciona como si el procesamiento hubiera terminado, pero la respuesta nunca llega; a menudo es solo una respuesta en blanco o solo unos pocos caracteres”, agregó.

Modelo o1 atascado en la parte de pensamiento.

Un usuario de Reddit compartió su experiencia cuando usó la plantilla o1 para crear una aplicación y su experiencia fue peor que la versión gratuita de ChatGPT.

«Estoy creando una aplicación (que no tengo idea de cómo hacer ya que soy un ingeniero integrado) y o1 era incluso peor que el GPT-4 gratuito en este sentido, y tengo que ser muy, muy específico con el solicitud mientras trabaja con o1”, agregó, sugiriendo además que, a menos que sea muy específico acerca de los detalles más pequeños, el modelo o1 puede ser una pesadilla para el desarrollo de aplicaciones.

Incluso si ignoramos el uso de múltiples tokens y la demora en la respuesta, el razonamiento que es la característica profesional de los modelos o1 aún genera código con errores.

o1 tarda algo de tiempo en corregir el código defectuoso generado por sí mismo

o1 es el arquitecto, Claude es el desarrollador

Dan McAteer, un desarrollador de software en X, dijo que está utilizando o1-mini como arquitecto para su proyecto. Todo lo que tuvo que hacer fue explicar los requisitos del proyecto al modelo y éste generó un documento de diseño detallado con instrucciones paso a paso para cada módulo.

Por otro lado, McAteer utiliza Claude Sonnet 3.5 como desarrollador para generar el código basado en el documento arquitectónico producido por o1-mini.

“Esto funciona bien porque Sonnet 3.5 siempre ha sido excelente para generar código, pero el código que generó fue tan bueno como la lógica de sus instrucciones. Ahora que tenemos modelos que pueden simular trayectorias de razonamiento, también puede usarlos para generar lógica. planes a seguir para Sonnet 3.5”, añadió además.

De manera similar, Sully Omar, cofundador y director ejecutivo de Cognosys, mencionó en X que o1-mini es prácticamente inútil para codificar. «Muy a menudo faltan pequeños detalles y casi siempre le pido a Claude 3.5 que los arregle», añadió.

Esto explica por qué OpenAI lanzó Canvas, una plataforma de codificación OpenAI que utiliza ChatGPT 4o en lugar de los modelos o1.

Esto explica todo, ya que los modelos o1 están en su mayoría orientados al razonamiento. Para la programación, estos patrones pueden ser útiles en la arquitectura de la base, y luego patrones como Sonnet pueden encargarse de la parte de generación de código.