Noticias

La audaz apuesta de DeepSeek R1 por el aprendizaje por refuerzo: cómo superó a OpenAI con un 3% del coste

Published

1 año ago

enero 26, 2025

DeepSeek R1: La revolución en inteligencia artificial

El lanzamiento del lunes de DeepSeek R1 ha conmocionado a la comunidad de IA, alterando las suposiciones sobre lo que se requiere para lograr un rendimiento de IA de vanguardia. Este modelo de código abierto, que iguala el o1 de OpenAI con solo un 3%-5% del costo, no solo ha cautivado a los desarrolladores sino que también desafía a las empresas a repensar sus estrategias de IA.

El avance de DeepSeek: pasar al aprendizaje por refuerzo puro

En noviembre, DeepSeek fue noticia con su anuncio de que había logrado un rendimiento superior al o1 de OpenAI, pero en ese momento solo ofrecía un modelo de vista previa limitado R1-lite. Con el lanzamiento completo de R1 el lunes y el acompañamiento documento técnico, la compañía reveló una innovación sorprendente: una desviación deliberada del proceso convencional de ajuste fino supervisado (SFT) ampliamente utilizado en la formación de grandes modelos de lenguaje (LLM).

La empresa logró gran parte del camino utilizando código abierto, una forma convencional y nada sorprendente

Para entrenar sus modelos, High-Flyer Quant consiguió más de 10.000 GPU Nvidia antes de las restricciones de exportación de EE. UU. y supuestamente ampliado a 50.000 GPU a través de rutas de suministro alternativas, a pesar de las barreras comerciales. Esto palidece en comparación con los principales laboratorios de inteligencia artificial como OpenAI, Google y Anthropic, que operan con más de 500.000 GPU cada una.

A pesar de las especulaciones, se desconoce el presupuesto total de DeepSeek

Según se informa, DeepSeek entrenó su modelo base, llamado V3, con un presupuesto de 5,58 millones de dólares durante dos meses. Si bien la compañía no ha divulgado los datos de capacitación exactos que utilizó, las técnicas modernas hacen que la capacitación en la web y los conjuntos de datos abiertos sean cada vez más accesibles.

Cómo llegó DeepSeek-R1 al “momento ajá”

El viaje hacia la iteración final de DeepSeek-R1 comenzó con un modelo intermedio, DeepSeek-R1-Zero, que se entrenó utilizando aprendizaje por refuerzo puro. Al confiar únicamente en RL, DeepSeek incentivó este modelo a pensar de forma independiente, recompensando tanto las respuestas correctas como los procesos lógicos utilizados para llegar a ellas.

Más que RL

Sin embargo, es cierto que el modelo necesitaba algo más que RL. El modelo intermedio DeepSeek-R1-Zero enfrentó algunos desafíos, incluida una legibilidad deficiente y una combinación de idiomas. Solo entonces el equipo decidió crear un nuevo modelo, que se convertiría en el modelo final de DeepSeek-R1.

Las ramificaciones

Para los tomadores de decisiones empresariales, el éxito de DeepSeek subraya un cambio más amplio en el panorama de la IA: prácticas de desarrollo más ágiles y eficientes son cada vez más viables. Es posible que las organizaciones necesiten reevaluar sus asociaciones con proveedores propietarios de IA, considerando si los altos costos asociados con estos servicios están justificados cuando las alternativas de código abierto pueden ofrecer resultados comparables, si no superiores.

Sin duda, no hay ninguna pista importante

Si bien la innovación de DeepSeek es innovadora, de ninguna manera ha establecido una ventaja dominante en el mercado. Debido a que publicó su investigación, otras empresas modelo aprenderán de ella y se adaptarán. Meta y Mistral, la empresa modelo francesa de código abierto, pueden estar un poco por detrás, pero probablemente solo pasarán unos meses antes de que se pongan al día.

Abundan las preguntas sobre el ROI de las grandes inversiones de OpenAI

Todo esto plantea grandes interrogantes sobre los planes de inversión de OpenAI, Microsoft y otros. El proyecto Stargate de OpenAI, valorado en 500 mil millones de dólares, refleja su compromiso de construir centros de datos masivos para impulsar sus modelos avanzados. Respaldada por socios como Oracle y Softbank, esta estrategia se basa en la creencia de que lograr inteligencia artificial general (AGI) requiere recursos informáticos sin precedentes. Sin embargo, la demostración de DeepSeek de un modelo de alto rendimiento a una fracción del costo desafía la sostenibilidad de este enfoque.

Diario Artificial – Noticias de Inteligencia Artificial

Noticias

La audaz apuesta de DeepSeek R1 por el aprendizaje por refuerzo: cómo superó a OpenAI con un 3% del coste

Leave a Reply

Leave a Reply

Tendencias

Leave a Reply Cancelar respuesta

Leave a Reply

Tendencias

Leave a Reply