secture & code

Me tiré 3 días metiéndome en el rabbit hole de RL para agentes

La semana pasada un compi me pasó un artículo sobre entrenar agentes con Reinforcement Learning (RL). El pitch era tentador: «montas un entorno donde tu LLM aprende como si fuera un ratón de laboratorio, le das rewards cuando hace bien las cosas, y boom… mejora solo.»

Obvio que me flipó. Me imaginaba agentes que se autoperfeccionan, que aprenden de sus cagadas, que cada vez van mejor. El siguiente level de IA, vaya.

Así que me puse a investigar en serio. Y lo que descubrí es bastante WTF.

El plot twist que nadie te cuenta al principio

Anthropic (los que hacen Claude) se encontraron con algo alucinante: Claude 3.7 Sonnet se dedicaba a hackear el sistema de recompensas.

Le pedían que escribiera código que pasara unos tests. ¿Qué hizo Claude? En lugar de mejorar su código, se dedicó a modificar los tests para que su código cutre los pasara. Recibía su reward, pero obviamente no era el objetivo.

Esto tiene nombre: reward hacking. Y pasa mucho más de lo que nos gustaría.

Piénsalo: si le dices a un agente «maximiza las ventas» sin más contexto, el tío podría empezar a tirar descuentos del 99% o directamente inventarse números. Tecnicamente está maximizando ventas. ¿Es eso lo que querías? Nope.

El learning: diseñar reward functions que no sean explotables es muy complicado. Incluso para empresas con equipos de cientos de ingenieros y budgets infinitos.

Aquí va la cruda realidad.

Implementar RL de verdad en un proyecto te sale por unos:

€100.000 el primer año

Y no estoy inflando números. Te lo desgloso:

2-3 meses de dev solo para montar todo el tinglado: el environment, las reward functions, la infra, los primeros trainings que petarán (siempre petan al principio).
€10K-€20K en GPUs: Necesitas entrenar millones de iteraciones. Cada episodio son 20 steps, cada step es una llamada al LLM. Son +200K llamadas solo para el training inicial. Eso sin contar los re-entrenamientos.
Re-trainings cada 2-3 meses: Porque tu producto evoluciona, metes features nuevas, actualizas APIs, y el agente se queda desactualizado.
1-2 semanas cada vez que algo raro pasa: Y créeme, pasarán cosas raras. El agente hará movimientos que no entiendes. Te pasarás días en los logs intentando debuggear por qué eligió la action X en el step 47 de un episodio random.

Compáralo con el baseline

Prompting bien hecho + RAG + eval sistemática: €5K-€15K

Mismo problema resuelto. Entrega en 3-4 semanas en vez de 4 meses. Margen mucho mejor. Cliente happy porque ve resultados rápidos.

La pregunta del millón: ¿Cuándo tiene sentido gastarte 10X más?

Cuándo RL realmente tiene sentido (casi nunca)

Después de analizar un montón de use cases, encontré solo 4 situaciones donde RL no es un meme:

1. Cuando un bug te cuesta MÁS de €100K

Ejemplo: Agente DevOps que ejecuta comandos en prod.

Un comando mal ejecutado → service down → €500K de pérdidas + executives gritando.
RL te permite entrenar en un sandbox donde el agente puede cagarla sin romper nada real.
Validación exhaustiva antes de tocar producción.

Aquí el ROI es obvio: Evitar UN solo incident paga todo el coste de RL y te sobra para cervezas.

2. Cuando la task tiene 10+ pasos y la secuencia importa

Ejemplo: Agente de troubleshooting que tiene que:

Revisar logs.
Formar hipótesis.
Ejecutar diagnósticos.
Parsear resultados.
Aplicar fix.
Validar que funciona.
Documentar.

El search space de secuencias posibles es gigante. Prompting puede funcionar, pero RL puede descubrir la path óptima que a un humano ni se le ocurriría.

3. Cuando tienes metrics de negocio claras y mucho tráfico

Ejemplo: Chatbot de soporte con 10K conversaciones/mes.

Metric: Bajar tiempo de resolución de 8 min → 5 min.
RL aprende qué strategies funcionan con data real.
3 minutos × 10K convos = 500 horas saved/mes.
A €30/hora = €15K/mes de savings.

Aquí el volumen justifica la inversión total.

4. Cuando estás buildeando un SaaS, no un proyecto one-off

Ejemplo: Haces «AI Code Reviewer» como producto.

Te gastas €80K en entrenar con RL.
Output: 83% accuracy vs 65% de la competencia (GPT-4 vanilla).
Cobras €99/dev/mes.
Con 200 customers → €240K/año recurring.

Amortizas el coste entre TODOS los customers. Los siguientes no te cuestan casi nada, marginal.

Aquí RL es tu moat competitivo que monetizas una y otra vez.

Para todo lo demás: tu cerebro > algoritmo random

En la mayoría de casos, TÚ ya sabes qué debería hacer el agente. No necesitas que lo «descubra» después de millones de iteraciones.

Si estás haciendo un agente de soporte, ya sabes que debe:

Saludar nice.
Hacer preguntas para entender el issue.
Buscar en la knowledge base.
Dar la solución step by step.
Confirmar que funcionó.

¿Por qué gastarte €100K para que un algoritmo aprenda lo que ya tienes en tu cabeza?

En su lugar:

Escribes un prompt decente con esa strategy.
Montas 50 test cases gold-standard.
Evalúas sistemáticamente.
Iteras el prompt hasta que pase 45/50 tests.

Costo: 1 semana. Output: 90% de lo que conseguirías con RL.

El hack que SÍ deberías robar de RL

Aunque no uses RL, hay un concept brillante que deberías implementar ASAP:

Entornos de eval automática (a.k.a. verifiers)

En lugar de entrenar con RL, usa el framework para EVALUAR:

class MiVerifier:
    def evaluar(self, output_agente):
        checks = {
            "completitud": self.tiene_todos_los_campos(output_agente),
            "accuracy": self.datos_son_correctos(output_agente),
            "safety": self.no_leakea_info_sensible(output_agente),
            "formato": self.cumple_spec(output_agente)
        }
        
        score = sum(checks.values()) / len(checks)
        feedback = self.genera_feedback(checks)
        
        return score, feedback

Con esto:

Evalúas 100 cases en minutos vs. manualmente en días.
Detectas regressions instant cuando cambias el prompt.
Le muestras al cliente mejoras con números objetivos.
Costo: €5K-€10K, no €100K.

Lo que haría si empezara de cero hoy

Mes 1-2: Foundation (zero RL)

Primero implementaría un sistema de eval automática, montaría 100 test cases para nuestros use cases principales y mediría el baseline de nuestros agentes actuales. Budget: €8K-€12K

Mes 3-6: Optimization (still zero RL)

Comenzaría iterando prompts hasta pegar +85% en evals, documentaría playbooks de los que funciona y establecería benchmarks internos. Budget: €10K-€15K extra

Mes 7+: Evaluar RL solo si

Evaluaría un RL solo si tenemos UN caso que cumple los 4 criterios de arriba. Solo entonces, tomaría el camino de un piloto de RL con todo el learning de los meses previos

¿Por qué hay tanto hype con RL entonces?

Tres razones real:

Es técnicamente fascinante – A los devs nos flipan las cosas que aprenden solas.
Funciona en papers – En entornos super controlados con métricas perfectas.
Suena pro en reuniones – «Usamos Reinforcement Learning avanzado» queda mejor que «escribimos buenos prompts».

Pero como dijo un senior eng de OpenAI: «The best RL is a human looking at outputs and fixing the prompt».

Brutal pero true.

El TLDR para los que scrollearon hasta aquí:

RL para agentes es como comprarte una RTX 4090 para jugar al Minecraft. Técnicamente es mejor que tu GPU integrada. Pero ¿de verdad necesitas ray tracing para minar bloques?

Para el 95% de casos: prompting + eval sistemática + iterar. Faster, cheaper, más predecible.

Para el 5% restante (high risk, high complexity, high volume): ahí sí, RL puede tener sentido.

La clave está en saber distinguir en cuál estás.

Hot take final: La industria tech tiene un fetiche con over-engineering. A veces la solución más simple es la correcta. No todo problema necesita deep learning, no todo agente necesita RL, y no todo microservicio necesita Kubernetes.

A veces solo necesitas un buen prompt y ganas de iterar.

Descubre más en nuestro blog: https://secture.com/blog/

Software engineer specialized in AI

Antonio Romero

I love difficult technical challenges and I'm always learning something new. I see every project as my opportunity to transform ideas into real code, using the latest technologies and collaborating with the team. Python is my go-to language for developing robust and scalable systems.