R ajustada al cuadrado: aprendamos más al respecto

<p style=”text-align: justify;”>Numerosas regresiones pueden ser un análisis seductor y lleno de tentaciones. Es fácil agregar más variables a medida que las piensa, o incluso si la información es útil. Algunos de los predictores serán significativos. Posiblemente haya una relación, ¿o es solo una coincidencia? Puede agregar polinomios de orden superior para doblar y girar esa línea ajustada como desee. Sin embargo, ¿es adecuado para patrones simples o simplemente para conectar los puntos? Mientras tanto, el valor de la R cuadrado (R2) aumenta, te provoca y te incita a incluir aún más variables. Aprendamos más sobre r cuadrado ajustado.

Anteriormente, mostré cómo R-cuadrado podría desinformar cuando se evalúa la bondad del ajuste para la evaluación de regresión lineal. En este artículo, veremos por qué debe hacer frente a la necesidad de agregar muchos predictores a una versión de regresión y cómo el R-cuadrado ajustado y el R-cuadrado anticipado podrían ayudar.

Índice de contenidos

Algunos problemas con r al cuadrado

En mi última publicación, demostré cómo R-cuadrado no podía identificar si las cotizaciones y predicciones de precios del coeficiente están sesgadas, por lo que debe examinar las historias residuales. No obstante, R-cuadrado tiene problemas adicionales que la R-cuadrada ajustada y la R-cuadrada anticipada están diseñadas para tratar.

Problema 1: Siempre que agrega un pronosticador a un diseño, la R al cuadrado aumenta, incluso si es solo como resultado de la casualidad. Nunca disminuye. En consecuencia, un diseño con incluso más términos puede parecer que se ajusta mejor simplemente porque tiene más términos.

Problema 2: Si un modelo tiene demasiados pronosticadores y polinomios de orden más significativo, comienza a diseñar el ruido aleatorio de la información. Este problema se conoce como sobreajuste del diseño, y también genera valores de R cuadrado engañosamente altos y una capacidad disminuida para hacer pronósticos.

R ajustado al cuadrado

El R-cuadrado ajustado analiza el poder explicativo de los modelos de regresión, que contienen diversas variedades de pronosticadores.

Tiene la intención de comparar un diseño de cinco predictores con un R cuadrado mayor con un plan de un predictor. ¿El modelo de cinco pronosticadores tiene un R cuadrado más alto porque es mucho mejor? ¿O el R cuadrado es mayor ya que tiene más pronosticadores? ¡Simplemente contrasta los valores ajustados de R cuadrado para descubrir!

El r cuadrado ajustado es una variación modificada de R cuadrado que se ha cambiado para el número de pronosticadores en la versión. La R-cuadrada ajustada aumenta solo si el término nuevo mejora el modelo más de lo que seguramente se anticiparía por casualidad. Se reduce cuando un pronosticador mejora la versión menos de lo esperado por casualidad. El R-cuadrado ajustado puede ser negativo, pero normalmente no lo es. Siempre es menor que el R cuadrado.

En el resultado optimizado de Regresión de mejores subconjuntos que se muestra a continuación, puede ver dónde el R-cuadrado ajustado es óptimo y luego disminuye. Mientras tanto, el R-cuadrado sigue aumentando.

Puede tener la intención de incluir solo tres predictores en esta versión. En mi último sitio de blog, vimos cómo una versión subespecificada (básica) podría producir estimaciones sesgadas. Posteriormente, no pretendes constar en el diseño de más términos de los imprescindibles. (Lea una instancia del uso de la regresión de mejores subconjuntos de Minitab).

Por último, el uso variado de la R-cuadrada ajustada proporciona una cotización justa de la R-cuadrada de la población.

Acerca del R-cuadrado predicho

El R-cuadrado pronosticado indica qué tan bien un modelo de regresión predice retroalimentaciones para un monitoreo completamente nuevo. Esta cifra le ayuda a establecer cuándo la versión se ajusta a la información original pero es mucho menor con la capacidad de ofrecer pronósticos válidos para un monitoreo completamente nuevo. (Vea un ejemplo de uso de regresión para hacer pronósticos).

La computadora de Minitab predijo r cuadrado eliminando sistemáticamente cada monitoreo del conjunto de información, aproximando la ecuación de regresión e identificando qué tan bien la versión indica la observación eliminada. Al igual que el R-cuadrado ajustado, el R-cuadrado predicho también puede ser desfavorable, ya que siempre es menor que el R-cuadrado.

Incluso si no se prepara para hacer uso del diseño para las predicciones, el R-cuadrado predicho todavía ofrece detalles críticos.

Un beneficio clave de la r cuadrada anticipada es que puede evitar que se sobreajuste un diseño. Como se mencionó anteriormente, un diseño de sobreajuste consta de demasiados pronosticadores y también comienza a diseñar el ruido aleatorio.

Debido a que es imposible anticipar el ruido aleatorio, el R-cuadrado predicho debe bajar para una versión de sobreajuste. Si anticipó un R cuadrado mucho más bajo que el R cuadrado de rutina, probablemente tenga demasiados términos en el modelo.

Ultimas palabras

Todos los datos tienen una cantidad completamente natural de irregularidades que es inexplicable. Lamentablemente, R-squared no aprecia este techo natural. Ir tras un valor alto de R cuadrado puede presionarnos para que consista en muchos predictores en un intento de describir lo inexplicable.

En estos casos, puede lograr un valor de R cuadrado más alto, sin embargo, a costa de resultados engañosos, menor precisión y menor capacidad para hacer predicciones.

La información de suministro de R cuadrado ajustada y R cuadrada pronosticada le ayuda a evaluar la cantidad de predictores en su versión:

Utilice el cuadrado R ajustado para contrastar versiones con diferentes números de pronosticadores.

Utilice el R-cuadrado anticipado para determinar qué tan bien el diseño predice nuevas observaciones. Y si el modelo es complejo.

La evaluación de regresión es sólida, ¡pero no desea atraer energía y utilizarla imprudentemente!

Dejar un comentario