El out-of-sample testing en trading, explicado

El out-of-sample testing es la parte del histórico que te ocultas a ti mismo. Si un sistema de trading solo funciona sobre los datos que usaste para construirlo, no tienes un edge. Tienes una autobiografía ordenada.

Por eso el segmento out-of-sample importa más que la rentabilidad de titular. Para un trader de prop firm, la pregunta de verdad no es si la curva pareció lista durante el desarrollo. Es si las reglas siguen comportándose una vez que el mercado deja de cooperar.

Qué es de verdad el out-of-sample testing

El out-of-sample testing es una comprobación sobre histórico no visto, no una etiqueta elegante para "la parte posterior del gráfico".

Los datos in-sample son el histórico que usas para diseñar, afinar y descartar ideas. Los datos out-of-sample son el histórico que deliberadamente dejas intacto hasta que las reglas están terminadas. La división suele ser cronológica porque los mercados atraviesan regímenes, y quieres que el test imite la dirección en la que el tiempo corre de verdad.

history -> split the sample -> build on one part -> freeze the rules -> test on the hidden part

La palabra importante ahí es congelar (freeze). Si inspeccionas el resultado out-of-sample, no te gusta, y entonces cambias los parámetros, ese segmento ya no es out-of-sample. Se ha unido al conjunto de entrenamiento.

Cinco años de datos pueden seguir siendo 100% in-sample si optimizaste sobre los cinco años. Una muestra enorme no es lo mismo que una muestra no vista.

Por qué una curva in-sample bonita no demuestra casi nada

Una curva in-sample bonita demuestra sobre todo que tu proceso de optimización tuvo bastante libertad para halagarse a sí mismo.

Esta es la mecánica del overfitting. Los mercados contienen estructura real, pero también contienen ruido, coincidencias y secuencias únicas que nunca se repetirán en el mismo orden. Añade suficientes mandos a una estrategia y esos mandos acabarán empezando a ajustar los accidentes en lugar del edge.

Por eso el gráfico que vende un sistema es a menudo el gráfico que más debería preocuparte. Una línea que sube demasiado suave, que recupera cada caída con limpieza y que nunca se ve incómoda puede que sea simplemente un registro de lo agresivamente que se les enseñaron las respuestas a las reglas.

El out-of-sample testing es el primer interrogatorio. Hace una pregunta contundente: ¿sigue comportándose la idea una vez que se le ha quitado la parte que memorizó?

Incluso eso es solo la mitad del trabajo. Un segmento de hold-out todavía necesita costes honestos, porque un sistema puede pasar el test de datos no vistos y aun así fallar el test de la realidad si los fills están idealizados. Ese es el problema detrás de por qué los backtests bonitos mienten cuando los costes son falsos.

Qué necesita un test out-of-sample como es debido

Un test out-of-sample como es debido necesita reglas que se congelaron primero, costes que se mantuvieron honestos, y suficiente adversidad para exponer las debilidades.

La forma más fácil de fingir robustez no es fabricar resultados directamente. Es relajar el test un poco en cada paso hasta que el fallo nunca tenga la oportunidad de aparecer.

Atajo común	Versión honesta	Por qué importa
Afinar sobre todo el histórico	Reservar un segmento limpio que nunca tocas	Solo los datos no vistos pueden falsar el edge
Reoptimizar tras ver el hold-out	Congelar las reglas antes del test	Reafinar convierte el examen en más entrenamiento
Usar fills idealizados en el hold-out	Arrastrar el mismo modelo de coste real a través del test	Los fills baratos crean resiliencia falsa
Juzgar el resultado a partir de una curva ordenada	Estresar la trayectoria con Monte Carlo y análisis de drawdown	Las cuentas de prop fallan en la cola, no en el mes promedio

Tres comprobaciones prácticas importan más que nada:

El segmento out-of-sample debe quedar intacto

Intacto significa intacto. Sin cambios de parámetros, sin sustituciones de indicadores, sin "pequeño refinamiento" porque un régimen pareció injusto. Una vez que usas el hold-out para tomar decisiones, necesitas un nuevo hold-out.

El test debe usar el mismo modelo de coste

Si la ejecución in-sample cobró spread, comisión, swap y slippage, la ejecución out-of-sample debe cobrar el mismo modelo. De lo contrario no estás probando robustez. Estás probando una fantasía más barata.

Al resultado se le debe permitir verse peor

Un resultado out-of-sample que sea un poco peor que el in-sample es normal. Normalmente debería serlo. Lo que importa es si el comportamiento sobrevive con su carácter intacto: lógica similar, perfil de riesgo similar, degradación tolerable. Un colapso es un veredicto, no mala suerte.

Por qué los traders de prop firm deberían preocuparse más que casi nadie

Los traders de prop firm deberían preocuparse más porque las reglas de prop castigan la trayectoria de las rentabilidades, no la historia que cuentas sobre ellas.

Una cuenta fondeada no pregunta si tu estrategia tuvo una fase de optimización persuasiva. Pregunta si la siguiente racha perdedora, el siguiente clúster de días malos, o la siguiente devolución tras un nuevo máximo rompe la regla de pérdida. Eso hace que la validación con datos no vistos sea mucho más importante para el prop trading que para el trasteo casual de estrategias.

Una curva in-sample puede prometer una evaluación tranquila y luego entregar una trayectoria out-of-sample mucho más áspera. Así es como los traders acaban confiando en una estrategia cuya rentabilidad pintaba bien sobre el papel pero cuya secuencia real de ganancias y pérdidas encaja mal con un límite de pérdida diaria o un trailing drawdown. El lado del drawdown lo cubrimos por separado en nuestro explicador del trailing drawdown.

Esa es también la razón por la que el modelo de fondeo importa. Un sistema estilo prop debería juzgarse por cuántas veces sobrevive a la trayectoria de la evaluación, no solo por la rentabilidad media de una única ejecución histórica. La trayectoria es el producto.

Qué quiere decir realbacktesting con "verificado"

realbacktesting quiere decir verificado en un sentido literal: el método se describe, los números son reproducibles, y las partes desagradables se dejan dentro.

realbacktesting publica sistemas de cTrader verificables y listos para prop firm. El motor de investigación corre sobre barras M1 de broker de cTrader más el spread medido por tick de 2021-2026, dimensiona desde una base modelo de 80,000 EUR, cobra spread real por símbolo, comisión y swap más 1 bps de slippage, y luego aplica el techo de drawdown en el percentil 95 de 20,000 trayectorias de Monte Carlo usando el peor entre el remuestreo de operaciones y un bootstrap por bloques diarios de 10 días. Ese techo se confirma después en un 30% de hold-out out-of-sample.

La comprobación de consistencia no se detiene en la curva de equity. La paridad de señales backtest-a-real se mide en 100% en 13 estrategias y 175,401 barras, por encima del requisito del 95% del Store de cTrader. El proceso exacto está en la página de metodología.

Esa advertencia importa más que el titular. Un modelo honesto etiqueta su incertidumbre en lugar de esconderla.

Preguntas frecuentes

¿Basta con un solo segmento out-of-sample?

Un solo segmento out-of-sample es muchísimo mejor que ninguno, pero no es magia. Un único hold-out todavía puede ser afortunado o desafortunado, y por eso el walk-forward testing y el Monte Carlo importan como evidencia de apoyo.

¿Y si el resultado out-of-sample es peor que el in-sample?

Eso es normal. Una degradación pequeña es el aspecto de la honestidad; el colapso total es el aspecto del overfitting.

¿Puedo reoptimizar tras ver el resultado out-of-sample?

Puedes, pero entonces necesitas un nuevo segmento no visto. Una vez que el hold-out influyó en tus decisiones, dejó de ser un test y se convirtió en más datos de entrenamiento.

¿Por qué importa tanto esto para los traders de prop firm?

Porque las reglas de prop firm suspenden cuentas en trayectorias feas, no en notas de investigación elegantes. Una estrategia que solo se comporta dentro de su muestra optimizada no es solo académicamente débil. Es operativamente peligrosa.

La conclusión tozuda

El segmento out-of-sample no es el adorno de un backtest. Es el interrogatorio. Si tu sistema solo pinta bien donde se le enseñaron las respuestas, el mercado cobrará la matrícula más tarde.

Qué es de verdad el out-of-sample testing#

Por qué una curva in-sample bonita no demuestra casi nada#

Qué necesita un test out-of-sample como es debido#

El segmento out-of-sample debe quedar intacto#

El test debe usar el mismo modelo de coste#

Al resultado se le debe permitir verse peor#

Por qué los traders de prop firm deberían preocuparse más que casi nadie#

Qué quiere decir realbacktesting con "verificado"#

Preguntas frecuentes#

¿Basta con un solo segmento out-of-sample?#

¿Y si el resultado out-of-sample es peor que el in-sample?#

¿Puedo reoptimizar tras ver el resultado out-of-sample?#

¿Por qué importa tanto esto para los traders de prop firm?#

La conclusión tozuda#

Qué es de verdad el out-of-sample testing

Por qué una curva in-sample bonita no demuestra casi nada

Qué necesita un test out-of-sample como es debido

El segmento out-of-sample debe quedar intacto

El test debe usar el mismo modelo de coste

Al resultado se le debe permitir verse peor

Por qué los traders de prop firm deberían preocuparse más que casi nadie

Qué quiere decir realbacktesting con "verificado"

Preguntas frecuentes

¿Basta con un solo segmento out-of-sample?

¿Y si el resultado out-of-sample es peor que el in-sample?

¿Puedo reoptimizar tras ver el resultado out-of-sample?

¿Por qué importa tanto esto para los traders de prop firm?

La conclusión tozuda