¿Por qué no se debería dicotomizar el CPS/PD-L1 en ensayos clínicos de inmunoterapia antineoplásica?

Autor: Alberto Carmona-Bayonas

20/09/2024
La dicotomización de PD-L1 es un trastorno obsesivo que daña los ensayos clínicos de inmunooncología
Stephen Senn describía la dicotomanía como un trastorno obsesivo-compulsivo que afecta gravemente la calidad del análisis de ensayos clínicos. La tendencia a la categorización binaria simplifica excesivamente una oncología que, en realidad, es mucho más compleja. Un caso particularmente alarmante es el de Ronnie Wood, un niño de 11 años excluido de un ensayo clínico para glioma con mutación H3 K27M porque a su tumor le faltaba crecer apenas 1 mm para alcanzar el tamaño requerido. La rigidez de este criterio resulta absurda para cualquiera con sentido común. 

Quisiera compartir una reflexión sobre la dicotomización del PD-L1 en ensayos de inmunoterapia, centrándome en el cáncer gástrico, área en la que tengo mayor experiencia. El eje PD-1/PD-L1, principal regulador de la tolerancia inmune y diana de la inmunoterapia, ha sido objeto de intenso estudio. Desde el inicio, se reconocía que el CPS/PD-L1 era un biomarcador imperfecto, susceptible a errores por diversos factores: artefactos técnicos, muestras de tejido insuficientes, variabilidad en la expresión en infiltrados inflamatorios de frentes de invasión, e incluso expresión en lesiones benignas. No obstante, mi percepción es que una parte sustancial de la incertidumbre en torno al valor de PD-L1 como biomarcador proviene de los análisis post hoc deficientes realizados en los ensayos clínicos más relevantes.

En este ámbito, los ensayos pivotales Checkmate-649 y Keynote-859 han sido fundamentales para el desarrollo de la inmunoterapia. El Checkmate-649, al ser el primero en publicarse, ha otorgado a nivolumab una ligera ventaja en cuota de mercado. Ambos estudios seleccionaron su población basándose en umbrales de CPS (Combined Positive Score) establecidos en análisis post hoc de ensayos fase 2. Estos análisis indicaban un incremento de eficacia hasta alcanzar una meseta entre CPS 5 y 10. Esta observación se tradujo en el diseño de los ensayos fase III subsiguientes, como el Checkmate-649. Los resultados de este estudio tuvieron un impacto significativo en la práctica clínica. Por ejemplo, la guía clínica de la SEOM 2024 recomienda el uso de nivolumab en pacientes con CPS ≥5, estableciendo este criterio como un estándar aceptado en la comunidad oncológica.

Los nuevos datos del Keynote-859 causaron sorpresa en muchos círculos al ampliar la indicación de pembrolizumab al grupo con CPS ≥1. Esta expansión planteó una cuestión importante: ¿existía realmente un efecto terapéutico significativo en el rango de CPS entre 1 y 9? Cuando escuché algunas quejas mi sentimiento fue que llovía sobre mojado porque yo mismo llevaba meses preguntándome si nivolumab tendría sólo un efecto marginal en el rango de CPS entre 5-9, dado que los estudios previos como el Keynote-062 habían apuntado a beneficios tangibles sólo con expresión de CPS ≥10. Durante meses pregunté sin éxito sobre el efecto terapéutico de la inmunoterapia basado en niveles de intervalo, porque me parecía una pregunta básica. Por ejemplo, si omitía la inmunoterapia en un paciente con CPS de 1 debido a comorbilidades, ¿cuál sería la pérdida marginal de eficacia respecto al tratamiento combinado? Para responder a esto, lo más complejo que conseguí fueron plots como éste basado en el Checkmate-648, que no era lo que necesitaba porque los biomarcadores estaban dicotomizados:


Es llamativo que ni el artículo del Checkmate-649 en The Lancet ni el del Keynote-859 reportaran análisis continuos o discretizados en intervalos del CPS, ya sea en el cuerpo principal del manuscrito o en los anexos. Esta omisión dejaba un vacío notorio en la descripción de la relación entre CPS y eficacia del tratamiento. Por ello, resultó sorprendente descubrir que los Informes Públicos de Evaluación (EPAR) de la Agencia Europea del Medicamento (EMA) para ambos fármacos contenían análisis de subgrupos mucho más detallados que los publicados en la literatura académica.


La respuesta estaba escondida en mitad de un documento técnico. En el caso de nivolumab, en el subgrupo CPS 5-9, la HR para supervivencia había sido de 0.92 (0.66-1.28), parecida al resultado de pembrolizumab en ese mismo estrato. El resultado favorable en la categoría CPS ≥5 bien podía ser una representación inflada por el efecto más pronunciado en aquellos con puntuaciones CPS significativamente superiores a 5. 

Falacia de los promedios

El beneficio de la inmunoterapia en pacientes con CPS entre 1-9, un grupo frecuentemente no reportado, fue aclarado por Zhao et al. mediante una ingeniosa reconstrucción de curvas de Kaplan-Meier. Sus conclusiones, compatibles con los informes de la EMA, sugerían un beneficio decreciente en este rango de CPS. Es llamativo que hubiera sido necesario el esfuerzo de investigadores independientes, empleando técnicas dignas de Sherlock Holmes, para obtener información que los investigadores principales deberían haber proporcionado de manera directa y transparente desde el inicio del estudio. Es desconcertante que los clínicos se vean obligados a recopilar evidencias de forma tan creativa para desentrañar los efectos reales de los tratamientos, una tarea que no debería ser necesaria si existiera total transparencia en la presentación de los resultados de los ensayos.

Aunque no se dispone de acceso a los datos originales de los dos ensayos pivotales, he optado por realizar simulaciones realistas basadas en conjeturas informadas sobre la enfermedad. Para ello, he diseñado un ensayo clínico simulado con 500 pacientes, incorporando una distribución del biomarcador que refleja la realidad clínica: CPS ≥1 en el 70% de los tumores y CPS ≥5 en el 40% de los casos. Los datos de eficacia en esta simulación se han ajustado para ser coherentes con la información proporcionada en los EPAR.  A continuación, presento la distribución hipotética del biomarcador utilizada en mi simulación:

Distribución de CPS hipotética

La simulación asume por simplicidad tiempos de supervivencia que siguen una distribución exponencial, con medianas de supervivencia de alrededor de 12 meses, y hazard ratio entre 0.65-0.70. El mecanismo generador tiene en cuenta la interacción con CPS, con beneficio creciente a mayor expresión, pero plateau desde el CPS 25 en adelante para evitar un inflado desmesurado. Finalmente, he concedido una cierta posibilidad de efecto deletéreo por hiperprogresión con CPS muy bajo, pero dado que son pocos pacientes, con credibilidad baja. El resultado me parece bastante satisfactorio, posiblemente esté cerca de lo que pasa en realidad:

Hazard ratio según CPS
Un "análisis de subgrupo" ideal en inmunoterapia debería reflejar la complejidad de la interacción entre el biomarcador y la eficacia del tratamiento. Dicho de otra manera, tendría que mostrar algo similar al plot de arriba. Sin embargo, la práctica común de dicotomización de biomarcadores continuos lleva a conclusiones simplificadas. Simulando un diseño jerárquico secuencial, obtendríamos:
  • CPS ≥10: HR 0.49 (IC 95%, 0.39-0.63)
  • CPS ≥5: HR 0.57 (IC 95%, 0.46-0.70)
  • Cohorte completa: HR 0.64 (IC 95%, 0.53-0.77)
Este enfoque, aunque estadísticamente válido, no capturaría:
  • Posibles efectos perjudiciales con CPS = 0
  • Efectos nulos o marginales en rangos bajos de CPS
  • Variaciones de eficacia en intervalos específicos de CPS
Así, la dicotomización puede ocultar información crucial sobre la relación no lineal entre el biomarcador y la respuesta al tratamiento. Nos llevaríamos la impresión de que la terapia funciona en toda la población, cuando en realidad esto no es así.  La discretización de estos análisis, a pesar de no ser el enfoque ideal, al menos sí hubiera contado una historia más real de estas asociaciones, similar a los EPAR de los productos:
  • CPS <1: HR 1.41 (IC 95%, 0.68-2.93), p=0.3509
  • CPS 1-5: HR 0.93 (IC 95%, 0.61- 1.42), p=0.7430
  • CPS 5-10: HR 0.94 (IC 95%, 0.61-1.45), p=0.7976
  • CPS ≥10: HR 0.49 (IC 95%, 0.39-0.62) p<  0.0001

Aunque estos datos son simulados, representan un escenario plausible y ofrecen un ejemplo didáctico sobre las limitaciones de los análisis dicotómicos en ensayos clínicos de inmunoterapia. Esta simulación realista, junto con los datos reales de los EPAR, deberían ser munición para los que piden un cambio en nuestro enfoque analítico. Es necesario que solicitemos análisis descriptivos completos de las interacciones entre efectos terapéuticos y biomarcadores, tratándolos como variables continuas. El modelado no lineal mediante splines, nos permitiría capturar la complejidad de estas relaciones.

En los próximos meses, el panorama terapéutico del cáncer gástrico avanzado se ampliará con la llegada de nuevas alternativas. Entre ellas, destaca el anticuerpo anticlaudina 18.2 (zolbetuximab) y, esperamos, el anticuerpo anti-FGFR2 (bemarituzumab). Esta diversificación de opciones nos enfrentará a un desafío más complejo: el manejo del solapamiento de biomarcadores y la evaluación de beneficios relativos, una situación que se prevé afecte entre el 25% y el 40% de los pacientes. Este escenario implicará la necesidad de refinar la capacidad para predecir el efecto individual de cada alternativa terapéutica. Será esencial desarrollar modelos que incorporen covariables continuas, como el CPS (Combined Positive Score), para realizar predicciones personalizadas. 

2 comentarios

Nombre:
Escribe un comentario:
21/09/2024

Eliana Gonzalez.

Así como en su ejemplo de dicotomización del PD-L1, muchas otras escalas toman puntos de corte basados en elaborados resultados estadísticos o en la experiencia de los investigadores. Concuerdo en la necesidad de desarrollo de modelos.

22/09/2024

Alberto Carmona-Bayonas

El uso de un punto de corte para clasificar a los pacientes en grupos de alto y bajo riesgo es una decisión subjetiva del investigador, no del paciente. Una mejor alternativa es calcular probabilidades continuas de riesgo. Luego, al tomar la decisión final sobre el tratamiento o manejo del paciente, se puede evaluar si ese nivel de riesgo es significativo o no en el contexto específico de cada caso.