¿Cuántas operaciones necesitas para confiar en un backtest?

No existe un número mágico de operaciones que convierta un backtest en evidencia. Lo que importa es si la muestra es lo bastante grande como para estrechar los márgenes de error, lo bastante larga como para incluir regímenes de mercado feos, y lo bastante honesta como para sobrevivir a costes reales y a comprobaciones out-of-sample.

Esa es la parte que los traders suelen infravalorar. Cuarenta operaciones pueden hacer que una estrategia parezca convincente. A una cuenta de prop firm no le importa lo convincente que pareciera. Le importa si el siguiente clúster de pérdidas se queda dentro del reglamento.

No existe un número mágico

Un backtest no es creíble porque cruzara un recuento arbitrario de operaciones. Es creíble cuando la incertidumbre alrededor del edge se ha estrechado lo suficiente como para que el resultado signifique algo.

Pon un ejemplo sencillo. Supón que una estrategia muestra un win rate del 45%, y el ganador medio es 1.5R mientras que el perdedor medio es 1.0R. La esperanza matemática parece positiva:

expectancy = (win rate x average win) - (loss rate x average loss)
           = (0.45 x 1.5R) - (0.55 x 1.0R)
           = +0.125R

Eso pinta bien sobre el papel. El problema es que una muestra pequeña deja mucho margen alrededor de la estimación.

Muestra	Win rate observado	Rango aprox. al 95% para el win rate real	Qué significa para un payoff 1.5:1
40 operaciones	45%	entre el 30% y el 60% aprox.	Podría ser esperanza negativa o excelente
400 operaciones	45%	entre el 40% y el 50% aprox.	Sigue siendo incierto, pero mucho más estrecho

Con un ratio de payoff 1.5:1, el punto de equilibrio antes de costes está en el 40%. La muestra de 40 operaciones todavía deja margen para que el edge real esté por debajo de esa línea. La muestra de 400 operaciones es mucho más informativa porque la banda de incertidumbre es mucho más estrecha.

Eso es lo que el recuento de operaciones hace de verdad. No certifica la verdad. Reduce el espacio en el que puedes engañarte a ti mismo.

Por qué el recuento de operaciones por sí solo aún no basta

Mil operaciones pueden seguir mintiendo si son todas del mismo tipo, todas extraídas de un solo régimen de mercado, o todas valoradas con fills de fantasía.

Tres modos de fallo importan más que el resto:

Las operaciones correlacionadas inflan la confianza

Diez rupturas la misma mañana no son diez experimentos independientes. Son una condición de mercado repitiéndose a sí misma. Una estrategia que dispara en clústeres puede producir un recuento de operaciones grande sin producir mucha información nueva.

Un solo régimen tranquilo puede favorecer casi cualquier cosa

Una estrategia probada a lo largo de una sola tendencia amable puede parecer robusta simplemente porque el mercado se pasó meses siendo benévolo. Lo que importa no es solo cuántas operaciones viste. Es si esas operaciones vivieron tendencia, lateralidad, shocks de volatilidad, periodos tranquilos y recuperaciones feas.

Los fills baratos crean durabilidad falsa

Una muestra grande con spread cero, sin slippage o con el swap ignorado sigue siendo una muestra de fantasía. El recuento de operaciones se hace más grande. La evidencia no mejora. Ese es todo el problema detrás de por qué los backtests bonitos fallan cuando los costes son falsos.

Por eso también importa tener un hold-out limpio. Si las reglas se afinaron sobre todo el histórico, toda la muestra sigue siendo in-sample por muchas operaciones que contenga. El explicador relacionado sobre out-of-sample testing cubre esa parte como es debido.

La pregunta correcta para un trader de prop firm

La pregunta correcta no es "¿cuántas operaciones tomó la estrategia?". Es "¿cuántas oportunidades tuvo de tumbar la cuenta, y qué pasó cuando lo intentó?".

A las reglas de prop les importa la trayectoria. Una estrategia puede tener una esperanza matemática respetable a largo plazo y aun así ser una mala estrategia de prop si las pérdidas se agrupan demasiado, si los días malos se apilan unos sobre otros, o si la curva de equity devuelve demasiado tras un nuevo máximo.

Eso cambia el aspecto de una muestra útil.

Pregunta	Por qué importa más que el recuento bruto de operaciones
¿Cuántos días malos distintos hay en la muestra?	Las reglas de pérdida diaria se superan por clústeres, no por medias
¿Cómo de grande es la peor racha perdedora?	Los edges pequeños fallan cuando las rachas normales son mayores de lo que supone el plan de sizing
¿Incluía la muestra regímenes distintos?	Las cuentas de prop fallan en el régimen que el backtest se olvidó de incluir
¿Sobrevive el resultado al out-of-sample y al Monte Carlo?	Una sola trayectoria histórica no es la única que la cuenta podría haber tomado

Si una estrategia opera rara vez, la respuesta no es bajar el listón de la evidencia. La respuesta es recopilar más tiempo de calendario. Un sistema swing que toma treinta operaciones al año no se vuelve fiable porque sea lento. Necesita una ventana más larga para demostrar el mismo punto.

Esa es también la razón por la que el modelo de fondeo importa. Para el prop trading, la supervivencia a lo largo de muchas trayectorias plausibles importa más que la elegancia de una sola curva histórica.

Qué aspecto tiene la evidencia suficiente en la práctica

La evidencia suficiente es una pila, no un solo número.

Un backtest empieza a volverse útil cuando las siguientes piezas se alinean:

El recuento de operaciones es lo bastante grande como para que el edge no se esconda dentro de márgenes de error enormes.
La ventana de calendario es lo bastante larga como para incluir condiciones de mercado materialmente distintas.
Los costes se cobran con honestidad: spread, comisión, slippage y swap cuando sea relevante.
Las reglas sobreviven sobre datos que no vieron durante el afinado.
La trayectoria sobrevive al estrés, no solo a la media.

realbacktesting publica sistemas de cTrader verificables y listos para prop firm sobre esa base. La investigación corre sobre barras M1 de broker de cTrader más el spread medido por tick de 2021-2026, usa una base modelo de 80,000 EUR, cobra spread real por símbolo, comisión, swap y 1 bps de slippage, y luego aplica techos de drawdown en el percentil 95 de 20,000 simulaciones de Monte Carlo usando el peor entre el remuestreo de operaciones y un bootstrap por bloques diarios de 10 días. Esos techos se confirman después en un 30% de hold-out out-of-sample. El motor de investigación y el cBot enviado además coinciden al 100% en cada señal en 13 estrategias y 175,401 barras.

El proceso exacto está en la página de metodología. La razón de construirlo así es simple: un trader de prop no necesita un backtest halagador. Un trader de prop necesita evidencia que sobreviva al contacto con la varianza.

Preguntas frecuentes

¿Pueden 30 operaciones llegar a ser suficientes?

Treinta operaciones pueden bastar para descartar una tontería o para detectar un problema de ejecución obvio. Rara vez bastan para confiar en una estimación estable de la esperanza matemática, sobre todo si las operaciones están correlacionadas o la estrategia es sensible a un solo régimen.

¿Es la longitud del calendario más importante que el recuento de operaciones?

Ninguna de las dos basta por sí sola. Una ráfaga corta de muchas operaciones parecidas puede engañarte, y un histórico muy largo con demasiado pocas operaciones puede dejar las estimaciones demasiado ruidosas. Necesitas tanto suficientes observaciones como suficiente variedad de mercado.

¿Y si mi estrategia solo opera unas pocas veces al mes?

Entonces el estándar es el mismo y el periodo de recopilación es más largo. Las estrategias raras no tienen descuento. Necesitan más años de datos para construir el mismo peso probatorio.

¿Debería confiar en un backtest de mil operaciones con coste cero?

No. Una muestra grande de fills baratos sigue siendo una muestra grande de ficción. La honestidad en costes va antes que el tamaño de muestra.

La conclusión tozuda

No confías en un backtest porque el recuento de operaciones suene grande. Confías en él cuando la incertidumbre se ha estrechado, los regímenes feos están incluidos, y la trayectoria todavía sobrevive a las reglas.

No existe un número mágico#

Por qué el recuento de operaciones por sí solo aún no basta#

Las operaciones correlacionadas inflan la confianza#

Un solo régimen tranquilo puede favorecer casi cualquier cosa#

Los fills baratos crean durabilidad falsa#

La pregunta correcta para un trader de prop firm#

Qué aspecto tiene la evidencia suficiente en la práctica#

Preguntas frecuentes#

¿Pueden 30 operaciones llegar a ser suficientes?#

¿Es la longitud del calendario más importante que el recuento de operaciones?#

¿Y si mi estrategia solo opera unas pocas veces al mes?#

¿Debería confiar en un backtest de mil operaciones con coste cero?#

La conclusión tozuda#

No existe un número mágico

Por qué el recuento de operaciones por sí solo aún no basta

Las operaciones correlacionadas inflan la confianza

Un solo régimen tranquilo puede favorecer casi cualquier cosa

Los fills baratos crean durabilidad falsa

La pregunta correcta para un trader de prop firm

Qué aspecto tiene la evidencia suficiente en la práctica

Preguntas frecuentes

¿Pueden 30 operaciones llegar a ser suficientes?

¿Es la longitud del calendario más importante que el recuento de operaciones?

¿Y si mi estrategia solo opera unas pocas veces al mes?

¿Debería confiar en un backtest de mil operaciones con coste cero?

La conclusión tozuda