Estamos viviendo un punto de inflexión en el desarrollo de software. Entre mayo de 2025 y febrero de 2026, los modelos de inteligencia artificial pasaron de resolver el 72% al 81% de issues reales de GitHub en SWE-bench Verified, el benchmark (referencia) más exigente de la industria. Ese salto no es solo un número: representa un cambio real en lo que la IA puede hacer por las personas que construyen software.
En Buk decidimos apostar fuerte por este cambio. A inicios de 2026, cerca de 550 personas de ingeniería y producto trabajan con Claude Code como herramienta principal, impulsada con IA. Este post cuenta cómo llegamos ahí: desde nuestros primeros pasos con un IDE agéntico en 2025, pasando por el momento en que los modelos dieron un salto cualitativo a fines de ese año, hasta la decisión de migrar a un agente autónomo y lo que estamos construyendo hacia adelante.
Nuestra filosofía siempre ha puesto al desarrollador en el rol de diseñador de software. Lo que importa es el modelamiento, la arquitectura, la mantenibilidad, la revisión. Escribir el código es una necesidad, no el centro de nuestra actividad. En esa línea, vemos a la IA como un exoesqueleto: potencia lo que hacemos, pero el control sigue en manos de las personas.
Para entender nuestra evolución, es útil pensar en tres niveles de interacción entre personas e inteligencia artificial:
Automation (automatización): tú le dices exactamente qué hacer y la IA lo ejecuta. Es útil, pero limitado — requiere que definas cada paso.
Augmentation (aumento): tú y la IA trabajan juntos. Te acompaña en el ciclo de desarrollo, iterando ideas y ayudándote a lograr tu propósito. Aquí la IA ya no solo ejecuta: sugiere, complementa y acelera.
Agency (agencia): la IA trabaja de forma independiente. Tú la configuras estableciendo su conocimiento y patrones de comportamiento, en vez de darle tareas puntuales. Toma decisiones, navega el contexto y produce resultados con mínima intervención humana.
Nuestra historia es, en esencia, el camino de Augmentation a Agency.
Durante 2025 implementamos Windsurf, un IDE agéntico, como nuestra herramienta de IA para desarrollo. Con cerca de 380 personas del equipo de desarrollo usándolo, el objetivo era claro: acelerar el ciclo de desarrollo sin perder el control sobre el diseño del software.
Trabajamos en tres frentes para potenciar la experiencia:
Los resultados fueron mixtos. La herramienta nos ayudaba, pero su autonomía no era la mejor. A fines del período, el 43% de las personas había utilizado solamente un 10% de su cuota disponible, y un 17% prácticamente no la tocó. El NPS era de 30.
Estábamos en el nivel de Augmentation: la IA nos acompañaba y colaboraba en el ciclo de desarrollo, pero necesitaba supervisión constante. Era un buen copiloto, no un ingeniero autónomo.
En noviembre de 2025 ocurrió algo inusual: tres modelos de gran capacidad fueron lanzados casi simultáneamente. GPT-5.1 de OpenAI, Gemini 3 Pro de Google y Claude Opus 4.5 de Anthropic llegaron al mercado en un período muy corto. No fue un avance incremental — fue un watershed moment (momento decisivo).
Los datos en SWE-bench Verified lo reflejan con claridad. En mayo de 2025, Claude Opus 4 resolvía el 72.5% de los issues. Para noviembre, GPT-5.1 alcanzó el 76.3% y Gemini 3 Pro el 76.2%. En diciembre, Claude Opus 4.5 llegó al 80.9%.
Hay un concepto que ayuda a entender por qué esto importa tanto: el ratio entre la potencia del modelo y la complejidad de la tarea. Cuando este ratio cruza cierto umbral, tareas que antes eran demasiado complejas para la IA caen dentro de su capacidad. Eso es exactamente lo que pasó a fines de 2025. El one-shotting — donde la IA genera el código para una funcionalidad o una corrección en una sola pasada — se hizo viable para un número creciente de casos de uso.
Los ejemplos no tardaron en aparecer: el navegador Ladybird migró su motor de JavaScript de C++ a Rust con asistencia de IA en dos semanas. Boris Cherny, creador de Claude Code, declaró no haber escrito una sola línea de código desde noviembre.
El tercer nivel de interacción — Agency — estaba comenzando a tomar fuerza.
En febrero de 2026 terminaba nuestro contrato con Windsurf. Después de evaluar pilotos con distintas herramientas, decidimos migrar a Claude Code.
La razón de fondo fue un cambio de paradigma. Un IDE agéntico como Windsurf opera en el nivel de Augmentation: vive dentro de tu editor, te sugiere código, te acompaña mientras programas. Es un copiloto sofisticado. Claude Code, en cambio, opera en el nivel de Agency: es un agente impulsado con IA que trabaja autónomamente con tu base de código. No necesita que le dictes cada paso — tú le das contexto, conocimiento y herramientas, y él navega el problema por su cuenta.
Dicho de forma simple: es la diferencia entre tener a alguien mirando tu pantalla sugiriéndote qué escribir, y tener a un ingeniero al que le puedes delegar una tarea completa.
Otro cambio importante fue ampliar el alcance. Con Windsurf, la herramienta era exclusiva para el equipo de desarrollo. Con Claude Code, decidimos que todas las personas ligadas a ingeniería y producto tuvieran acceso — especialmente los product managers. En un mundo donde la IA puede generar código, las personas que definen el qué y el por qué se vuelven tan relevantes como las que definen el cómo. Hoy tenemos cerca de 550 licencias activas entre personas de desarrollo, producto y otros roles de ingeniería.
Para entender por qué el contexto es tan importante, vale la pena entender — en simple — cómo funcionan los modelos de lenguaje que están detrás de herramientas como Claude Code.
Un LLM (Large Language Model, o modelo de lenguaje grande) es un sistema que predice el siguiente token (unidad de texto) en una secuencia. Fue entrenado con enormes cantidades de texto y aprendió patrones del lenguaje, el código, la lógica y el razonamiento. Cuando le haces una pregunta o le das una instrucción, el modelo genera una respuesta token por token, eligiendo en cada paso el más probable dado todo lo anterior.
Ese “todo lo anterior” es lo que llamamos la ventana de contexto: el espacio de trabajo del modelo. Es todo lo que puede “ver” en un momento dado para generar su respuesta — tu instrucción, los archivos que leyó, la documentación que le entregaste, el historial de la conversación. Todo lo que está en la ventana de contexto influye directamente en la calidad de la respuesta.
Aquí aparece un problema sutil pero crítico: la polución de contexto. Si le entregas al modelo demasiada información irrelevante, no solo desperdicias tokens (que tienen un costo y un límite), sino que diluyes la señal con ruido. El modelo pierde foco y genera respuestas de menor calidad. Piénsalo así: es como intentar concentrarte en una reunión donde hay cinco conversaciones simultáneas que no tienen nada que ver con tu tema.
El context engineering (ingeniería de contexto) es el arte de entregar al modelo el contexto justo y necesario — ni más, ni menos. Que cuando la IA vaya a trabajar en una tarea, tenga exactamente la información que necesita: las convenciones del equipo, la arquitectura del módulo, el dominio de negocio relevante, y nada que sobre.
En Buk, esto se tradujo en un trabajo colaborativo en tres frentes:
La clave está en el equilibrio: suficiente contexto para que la IA tome buenas decisiones, pero no tanto que se ahogue en información irrelevante.
La migración a Claude Code y el trabajo en context engineering son los cimientos. Sobre ellos estamos construyendo lo que viene.
Uno de los problemas más comunes al trabajar con IA es la repetición: el agente comete un error, tú lo corriges manualmente, y en la siguiente sesión comete el mismo error porque no aprendió nada. Compound Engineering es nuestra respuesta a eso.
La idea es simple: en vez de arreglar las cosas que la IA hace mal, enseñarle cómo arreglarlas. Cada sesión con el agente debe ser mejor que la anterior. Lo estructuramos como un ciclo de cuatro pasos:
El paso clave es Codify. Es lo que transforma una corrección puntual en un aprendizaje permanente. Con el tiempo, el agente se vuelve más capaz porque acumula conocimiento sesión tras sesión — y todo el equipo se beneficia de ello.
Compound Engineering mejora al agente en cada interacción. Harness Engineering va un paso más allá: se trata de armar un ecosistema completo de herramientas y ciclos de retroalimentación para que la IA pueda operar sin intervención humana.
Esto significa darle al agente acceso a la misma información que tenemos nosotros — métricas, registros, trazas, resultados de tests — para que pueda evaluar su propio trabajo y corregir el rumbo. En vez de que una persona le diga “esto está mal, arréglalo”, el agente puede detectar el problema por sí mismo a través de la retroalimentación de las herramientas.
La visión final es tener agentes que sepan trabajar como nosotros por su propia cuenta. Que se puedan comunicar entre ellos si lo necesitan. Que usen las herramientas y el conocimiento que les hemos entregado. No como reemplazo de las personas, sino como una extensión del equipo que potencia nuestra capacidad de entrega.
El futuro del desarrollo de software es uno donde las personas diseñan — en colaboración con el agente —, el agente escribe el código, y las personas revisan y aprueban. Y en Buk, estamos avanzando hacia allá.