Regresión Media Móvil De Sas

Los procesos de error promedio móvil (errores ARMA) y otros modelos que implican retrasos de los términos de error pueden ser estimados usando sentencias FIT y simulados o pronosticados usando sentencias SOLVE. Los modelos ARMA para el proceso de error se usan con frecuencia para modelos con residuos autocorrelacionados. La macro AR se puede utilizar para especificar modelos con procesos de error autorregresivo. La macro MA se puede utilizar para especificar modelos con procesos de error de media móvil. Errores auto-regresivos Un modelo con errores autorregresivos de primer orden, AR (1), tiene la forma mientras que un proceso de error AR (2) tiene la forma y así sucesivamente para los procesos de orden superior. Obsérvese que los s son independientes e idénticamente distribuidos y tienen un valor esperado de 0. Un ejemplo de un modelo con un componente AR (2) es y así sucesivamente para procesos de orden superior. Por ejemplo, puede escribir un modelo de regresión lineal simple con MA (2) errores de media móvil, donde MA1 y MA2 son los parámetros de media móvil. Tenga en cuenta que RESID. Y se define automáticamente por PROC MODEL como La función ZLAG debe utilizarse para que los modelos MA trunquen la recursión de los retrasos. Esto asegura que los errores rezagados empiezan a cero en la fase de cebado y no propagan los valores faltantes cuando faltan las variables del período de cebado y aseguran que los errores futuros son cero en lugar de faltar durante la simulación o la predicción. Para obtener más información sobre las funciones de retraso, consulte la sección Lag Logic. El modelo general ARMA (p, q) tiene la siguiente forma Un modelo ARMA (p, q) se puede especificar de la siguiente manera: donde AR i y MA j representan Los parámetros autorregresivos y de media móvil para los diferentes desfases. Puede utilizar cualquier nombre que desee para estas variables, y hay muchas formas equivalentes de que la especificación podría ser escrita. Los procesos ARMA vectoriales también se pueden estimar con PROC MODEL. Por ejemplo, un proceso AR (1) de dos variables para los errores de las dos variables endógenas Y1 e Y2 puede especificarse de la siguiente manera: Problemas de Convergencia con Modelos ARMA Los modelos ARMA pueden ser difíciles de estimar. Si las estimaciones de parámetros no están dentro del intervalo apropiado, los términos residuales de modelos de media móvil crecen exponencialmente. Los residuos calculados para observaciones posteriores pueden ser muy grandes o pueden desbordarse. Esto puede ocurrir ya sea porque se utilizaron valores iniciales incorrectos o porque las iteraciones se alejaron de valores razonables. Se debe tener cuidado al elegir los valores iniciales para los parámetros ARMA. Los valores iniciales de 0,001 para los parámetros ARMA normalmente funcionan si el modelo se ajusta bien a los datos y el problema está bien condicionado. Tenga en cuenta que un modelo de MA a menudo puede ser aproximado por un modelo de AR de alto orden, y viceversa. Esto puede dar como resultado una alta colinealidad en los modelos ARMA mixtos, lo que a su vez puede causar un grave mal acondicionamiento en los cálculos y la inestabilidad de los parámetros estimados. Si tiene problemas de convergencia mientras estima un modelo con procesos de error ARMA, intente estimarlos en pasos. En primer lugar, utilice una sentencia FIT para estimar sólo los parámetros estructurales con los parámetros ARMA mantenidos a cero (o a estimaciones previas razonables si están disponibles). A continuación, utilice otra instrucción FIT para estimar sólo los parámetros ARMA, utilizando los valores de los parámetros estructurales de la primera ejecución. Dado que los valores de los parámetros estructurales es probable que estén cerca de sus estimaciones finales, las estimaciones de los parámetros de ARMA podrían ahora converger. Finalmente, use otra instrucción FIT para producir estimaciones simultáneas de todos los parámetros. Dado que los valores iniciales de los parámetros ahora es probable que estén muy cerca de sus estimaciones conjuntas finales, las estimaciones deben converger rápidamente si el modelo es apropiado para los datos. AR Condiciones iniciales Los retornos iniciales de los términos de error de los modelos AR (p) pueden modelarse de diferentes maneras. Los métodos de arranque de errores autorregresivos soportados por los procedimientos SAS / ETS son los siguientes: mínimos cuadrados condicionales (procedimientos ARIMA y MODEL) mínimos cuadrados incondicionales (procedimientos AUTOREG, ARIMA y MODELO) Yule-Walker (Procedimiento AUTOREG solamente) Hildreth-Lu, que elimina las primeras p observaciones (procedimiento MODEL solamente) Consulte el Capítulo 8, Procedimiento AUTOREG, para una explicación y discusión de los méritos de varios métodos de arranque AR (p). Las inicializaciones CLS, ULS, ML y HL pueden realizarse mediante PROC MODEL. Para errores AR (1), estas inicializaciones se pueden producir como se muestra en la Tabla 18.2. Estos métodos son equivalentes en muestras grandes. Tabla 18.2 Inicializaciones realizadas por PROC MODEL: AR (1) ERRORES Los retornos iniciales de los términos de error de los modelos MA (q) también se pueden modelar de diferentes maneras. Los siguientes paradigmas de inicio de error de media móvil son soportados por los procedimientos ARIMA y MODELO: mínimos cuadrados incondicionales mínimos condicionales condicionales El método de mínimos cuadrados condicionales para estimar los términos de error de media móvil no es óptimo porque ignora el problema de inicio. Esto reduce la eficiencia de las estimaciones, aunque siguen siendo imparciales. Los residuos rezagados iniciales, que se extienden antes del inicio de los datos, se supone que son 0, su valor esperado incondicional. Esto introduce una diferencia entre estos residuales y los residuos de mínimos cuadrados generalizados para la covarianza media móvil, que, a diferencia del modelo autorregresivo, persiste a través del conjunto de datos. Por lo general, esta diferencia converge rápidamente a 0, pero para los procesos de media móvil no inversa la convergencia es bastante lenta. Para minimizar este problema, debe tener un montón de datos, y las estimaciones de parámetros del promedio móvil deberían estar dentro del intervalo invertible. Este problema se puede corregir a expensas de escribir un programa más complejo. Las estimaciones de mínimos cuadrados incondicionales para el proceso MA (1) se pueden producir especificando el modelo como sigue: Los errores de media móvil pueden ser difíciles de estimar. Debe considerar usar una aproximación AR (p) al proceso del promedio móvil. Un proceso de media móvil normalmente puede ser bien aproximado por un proceso autorregresivo si los datos no han sido suavizados o diferenciados. La macro AR La macro AR de SAS genera instrucciones de programación para el MODELO PROC para modelos autorregresivos. La macro AR forma parte del software SAS / ETS y no es necesario configurar ninguna opción especial para utilizar la macro. El proceso autorregresivo puede aplicarse a los errores de la ecuación estructural oa las propias series endógenas. La macro AR puede utilizarse para los siguientes tipos de autorregresión: autorreversión vectorial sin restricciones autorregresión vectorial restringida Autoregresión univariable Para modelar el término de error de una ecuación como un proceso autorregresivo, utilice la siguiente sentencia después de la ecuación: Por ejemplo, supongamos que Y es una Función lineal de X1, X2 y un error AR (2). Escribirías este modelo de la siguiente manera: Las llamadas a AR deben venir después de todas las ecuaciones a las que se aplica el proceso. La invocación de macros anterior, AR (y, 2), produce las declaraciones mostradas en la salida LIST de la Figura 18.58. Figura 18.58 Salida de opción LIST para un modelo AR (2) Las variables prefijadas PRED son variables temporales del programa utilizadas para que los retrasos de los residuos sean los residuos correctos y no los redefinidos por esta ecuación. Tenga en cuenta que esto es equivalente a las declaraciones explícitamente escritas en la sección Formulario General para Modelos ARMA. También puede restringir los parámetros autorregresivos a cero en los retornos seleccionados. Por ejemplo, si desea parámetros autorregresivos en los retornos 1, 12 y 13, puede utilizar las siguientes sentencias: Estas instrucciones generan la salida que se muestra en la Figura 18.59. Figura 18.59 Salida de opción de LIST para un modelo de AR con Lags en 1, 12 y 13 El listado de procedimientos MODEL de la declaración de código de programa compilado como analizado PRED. yab x1 c x2 RESID. y PRED. y - ACTUAL. y ERROR. y PRED. Y - y OLDPRED. y PRED. y yl1 ZLAG1 (y - perdy) yl12 ZLAG12 (y - perdy) yl13 ZLAG13 (y - perdy) RESID. y PRED. y - ACTUAL. y PRED. y - y Hay Variaciones en el método de los mínimos cuadrados condicionales, dependiendo de si las observaciones al comienzo de la serie se utilizan para calentar el proceso de AR. Por defecto, el método de mínimos cuadrados condicionales de AR utiliza todas las observaciones y supone ceros para los retardos iniciales de los términos autorregresivos. Utilizando la opción M, puede solicitar que AR utilice el método de mínimos cuadrados incondicionales (ULS) o de máxima verosimilitud (ML). Por ejemplo, las discusiones de estos métodos se proporcionan en la sección AR Condiciones iniciales. Mediante el uso de la opción MCLS n, puede solicitar que las primeras n observaciones se utilicen para calcular las estimaciones de los retrasos autorregresivos iniciales. En este caso, el análisis comienza con la observación n 1. Por ejemplo: Puede utilizar la macro AR para aplicar un modelo autorregresivo a la variable endógena, en lugar del término de error, mediante la opción TYPEV. Por ejemplo, si desea agregar los cinco retrasos anteriores de Y a la ecuación del ejemplo anterior, podría utilizar AR para generar los parámetros y los retrasos mediante las siguientes sentencias: Las sentencias anteriores generan la salida que se muestra en la Figura 18.60. Figura 18.60 Salida de la opción LIST para un modelo AR de Y Este modelo predice Y como una combinación lineal de X1, X2, una intersección y los valores de Y en los cinco períodos más recientes. Autoregresión vectorial sin restricciones Para modelar los términos de error de un conjunto de ecuaciones como un proceso autorregresivo vectorial, utilice la siguiente forma de la macro AR después de las ecuaciones: El valor del nombre del proceso es cualquier nombre que suministre para que AR utilice para crear nombres para el autorregresivo Parámetros. Puede utilizar la macro AR para modelar varios procesos AR diferentes para diferentes conjuntos de ecuaciones utilizando diferentes nombres de proceso para cada conjunto. El nombre del proceso garantiza que los nombres de variable utilizados sean únicos. Utilice un valor de nombre de proceso corto para el proceso si las estimaciones de parámetros se escriben en un conjunto de datos de salida. La macro AR intenta construir nombres de parámetro menores o iguales a ocho caracteres, pero esto está limitado por la longitud de nombreproceso. Que se utiliza como prefijo para los nombres de parámetro AR. El valor de variablelist es la lista de variables endógenas para las ecuaciones. Por ejemplo, supongamos que los errores de las ecuaciones Y1, Y2 e Y3 son generados por un proceso autorregresivo vectorial de segundo orden. Puede utilizar las siguientes sentencias: que generan lo siguiente para Y1 y código similar para Y2 e Y3: Sólo el método de mínimos cuadrados condicionales (MCLS o MCLS n) se puede utilizar para procesos vectoriales. También puede usar el mismo formulario con restricciones de que la matriz de coeficientes sea 0 en retrasos seleccionados. Por ejemplo, las siguientes afirmaciones aplican un proceso vectorial de tercer orden a los errores de ecuación con todos los coeficientes con retraso 2 restringido a 0 y con los coeficientes en los retornos 1 y 3 sin restricciones: Puede modelar las tres series Y1Y3 como un proceso autorregresivo vectorial En las variables en lugar de en los errores mediante la opción TYPEV. Si desea modelar Y1Y3 como una función de valores pasados de Y1Y3 y algunas variables o constantes exógenas, puede usar AR para generar las sentencias para los términos de retraso. Escriba una ecuación para cada variable para la parte no autorregresiva del modelo, y luego llame a AR con la opción TYPEV. Por ejemplo, la parte no autorregresiva del modelo puede ser una función de variables exógenas, o puede ser parámetros de intercepción. Si no hay componentes exógenos en el modelo de autorregresión vectorial, incluyendo no intercepciones, entonces asigne cero a cada una de las variables. Debe haber una asignación a cada una de las variables antes de que AR se llame. Este ejemplo modela el vector Y (Y1 Y2 Y3) como una función lineal solamente de su valor en los dos períodos anteriores y un vector de error de ruido blanco. El modelo tiene 18 (3 3 3 3) parámetros. Sintaxis de la macro AR Hay dos casos de la sintaxis de la macro AR. Cuando no se necesitan restricciones en un proceso AR vectorial, la sintaxis de la macro AR tiene la forma general especifica un prefijo para que AR utilice en la construcción de nombres de variables necesarios para definir el proceso AR. Si el endolist no se especifica, la lista endógena tiene por defecto el nombre. Que debe ser el nombre de la ecuación a la que se va a aplicar el proceso de error AR. El valor de nombre no puede superar los 32 caracteres. Es el orden del proceso AR. Especifica la lista de ecuaciones a las que se va a aplicar el proceso AR. Si se da más de un nombre, se crea un proceso vectorial sin restricciones con los residuos estructurales de todas las ecuaciones incluidas como regresores en cada una de las ecuaciones. Si no se especifica, endolist toma el nombre por defecto. Especifica la lista de rezagos en los que se van a agregar los términos AR. Los coeficientes de los términos a intervalos no listados se ponen a 0. Todos los desfases enumerados deben ser menores o iguales a nlag. Y no debe haber duplicados. Si no se especifica, el laglist se ajusta por defecto a todos los retornos 1 a nlag. Especifica el método de estimación a implementar. Los valores válidos de M son CLS (estimaciones de mínimos cuadrados condicionales), ULS (estimaciones de mínimos cuadrados incondicionales) y ML (estimaciones de máxima verosimilitud). MCLS es el valor predeterminado. Sólo se permite MCLS cuando se especifica más de una ecuación. Los métodos ULS y ML no son compatibles con modelos AR vectoriales por AR. Especifica que el proceso AR debe aplicarse a las variables endógenas en lugar de a los residuos estructurales de las ecuaciones. Autoregresión vectorial restringida Puede controlar qué parámetros se incluyen en el proceso, restringiendo a 0 aquellos parámetros que no incluye. Primero, use AR con la opción DEFER para declarar la lista de variables y definir la dimensión del proceso. A continuación, utilice llamadas AR adicionales para generar términos para las ecuaciones seleccionadas con variables seleccionadas en retrasos seleccionados. Por ejemplo, las ecuaciones de error producidas son las siguientes: Este modelo establece que los errores para Y1 dependen de los errores de Y1 y Y2 (pero no de Y3) en ambos rezagos 1 y 2 y que los errores para Y2 y Y3 dependen de Los errores anteriores para las tres variables, pero sólo con retraso 1. AR Macro Sintaxis para AR Restringido AR Un uso alternativo de AR se permite imponer restricciones en un proceso AR vector llamando a AR varias veces para especificar diferentes términos de AR y rezagos para diferentes Ecuaciones. La primera llamada tiene la forma general especifica un prefijo para que AR utilice en la construcción de nombres de variables necesarias para definir el proceso vector AR. Especifica el orden del proceso AR. Especifica la lista de ecuaciones a las que se va a aplicar el proceso AR. Especifica que AR no es para generar el proceso AR, sino que es esperar la información adicional especificada en las llamadas AR posteriores para el mismo valor de nombre. Las llamadas siguientes tienen la forma general es la misma que en la primera llamada. Especifica la lista de ecuaciones a las que deben aplicarse las especificaciones de esta llamada AR. Sólo los nombres especificados en el valor endolist de la primera llamada para el valor de nombre pueden aparecer en la lista de ecuaciones en eqlist. Especifica la lista de ecuaciones cuyos residuos estructurales rezagados se incluyen como regresores en las ecuaciones de eqlist. Solamente los nombres en el endolist de la primera llamada para el valor del nombre pueden aparecer en varlist. Si no se especifica, varlist por defecto es endolist. Especifica la lista de rezagos en los que se van a agregar los términos AR. Los coeficientes de los términos en retrasos no enumerados se establecen en 0. Todos los retornos enumerados deben ser inferiores o iguales al valor de nlag. Y no debe haber duplicados. Si no se especifica, laglist se ajusta por defecto a todos los retornos 1 a nlag. La macro MA La macro MA SAS genera instrucciones de programación para MODELO PROC para modelos de media móvil. La macro MA forma parte del software SAS / ETS y no se necesitan opciones especiales para utilizar la macro. El proceso de error de media móvil puede aplicarse a los errores de la ecuación estructural. La sintaxis de la macro MA es la misma que la macro AR excepto que no hay ningún argumento TYPE. Cuando está utilizando las macros MA y AR combinadas, la macro MA debe seguir la macro AR. Las siguientes instrucciones SAS / IML producen un proceso de error ARMA (1, (1 3)) y lo guardan en el conjunto de datos MADAT2. Las siguientes instrucciones PROC MODEL se usan para estimar los parámetros de este modelo usando la estructura de error de máxima verosimilitud: Las estimaciones de los parámetros producidos por esta ejecución se muestran en la Figura 18.61. Figura 18.61 Estimaciones de un proceso ARMA (1, (1 3)) Hay dos casos de la sintaxis para la macro MA. Cuando no se necesitan restricciones en un proceso MA vectorial, la sintaxis de la macro MA tiene la forma general especifica un prefijo para que MA utilice en la construcción de nombres de variables necesarias para definir el proceso MA y es el endolist predeterminado. Es el orden del proceso MA. Especifica las ecuaciones a las que se aplica el proceso de MA. Si se da más de un nombre, la estimación CLS se utiliza para el proceso vectorial. Especifica los rezagos en los que se van a agregar los términos MA. Todos los desfases enumerados deben ser inferiores o iguales a nlag. Y no debe haber duplicados. Si no se especifica, el laglist se ajusta por defecto a todos los retornos 1 a nlag. Especifica el método de estimación a implementar. Los valores válidos de M son CLS (estimaciones de mínimos cuadrados condicionales), ULS (estimaciones de mínimos cuadrados incondicionales) y ML (estimaciones de máxima verosimilitud). MCLS es el valor predeterminado. Sólo se permite MCLS cuando se especifica más de una ecuación en el endolist. MA Sintaxis de macros para movimientos restringidos de medios móviles Un uso alternativo de MA permite imponer restricciones a un proceso de MA vectorial llamando a MA varias veces para especificar diferentes términos de MA y rezagos para diferentes ecuaciones. La primera llamada tiene la forma general especifica un prefijo para que MA utilice en la construcción de nombres de variables necesarias para definir el proceso MA vector. Especifica el orden del proceso MA. Especifica la lista de ecuaciones a las que se aplicará el proceso de MA. Especifica que MA no es para generar el proceso MA sino que es esperar a que la información adicional especificada en las llamadas MA más recientes para el mismo valor de nombre. Las llamadas siguientes tienen la forma general es la misma que en la primera llamada. Especifica la lista de ecuaciones a las que se aplicarán las especificaciones de esta llamada MA. Especifica la lista de ecuaciones cuyos residuos estructurales rezagados se incluyen como regresores en las ecuaciones de eqlist. Especifica la lista de los retrasos en los que se van a agregar los términos de la AM. SAS /ETS Uso de SAS en la investigación financiera Por Ekkehart Boehmer, John Broussard y Juha Pekka Kallunki Para más libros SAS / ETS, visite la librería. Guía del usuario de SAS / ETS 14.1 - Procedimientos Para obtener la Guía completa del usuario de SAS / ETS 14.1. Vaya a la página de documentación del producto SAS / ETS. El Procedimiento ARIMA Analiza y pronostica datos de series temporales univariadas, datos de la función de transferencia y datos de intervención espaciados equitativamente utilizando el modelo de media móvil (ARIMA) o el modelo de media móvil autorregresiva (ARMA) autoregresivo. PDF HTML El procedimiento AUTOREG Estimar y pronosticar modelos de regresión lineal para datos de series de tiempo cuando los errores son autocorrelados o heteroscedásticos. PDF HTML El procedimiento COMPUTAB Produce informes tabulares generados mediante una tabla de datos programable. PDF HTML El procedimiento COPULA Permite al usuario ajustar distribuciones multivariadas o copulas de un conjunto de datos de muestra dado. PDF HTML El procedimiento COUNTREG Analiza los modelos de regresión en los que la variable dependiente toma números enteros negativos o valores de recuento. PDF HTML El procedimiento DATASOURCE Extrae series temporales y datos de eventos de muchos tipos diferentes de archivos de datos distribuidos por varios proveedores de datos y los almacena en un conjunto de datos SAS. PDF HTML El procedimiento ENTROPY (Experimental) Implementa un método paramétrico de estimación lineal basado en entropía máxima generalizada. PDF HTML El procedimiento ESM Genera pronósticos utilizando modelos de suavizado exponencial con pesos de suavizado optimizados para muchas series de tiempo o datos transaccionales. PDF HTML El procedimiento EXPAND Convierte series temporales de un intervalo de muestreo o frecuencia a otro e interpola valores faltantes en series de tiempo. PDF HTML El procedimiento FORECAST Proporciona una forma rápida y automática de generar pronósticos para muchas series de tiempo en un solo paso. PDF HTML Los Modelos de Procedimientos HPCDM componen distribuciones que se forman combinando modelos de la frecuencia de eventos y la gravedad de esos eventos. PDF HTML El procedimiento HPCOPULA Modelos de distribuciones multivariantes mediante el uso de métodos de copulación. PDF HTML El procedimiento HPCOUNTREG Se ajusta a modelos de regresión para analizar y predecir los recuentos del número de eventos. PDF HTML El procedimiento HPPANEL Ajustar modelos de regresión para analizar y predecir los datos del panel donde las variables se registran tanto en casos como en el tiempo. PDF HTML El procedimiento HPQLIM Se ajusta a modelos de regresión para analizar y predecir variables dependientes cualitativas y limitadas donde las limitaciones o selección de los valores observados deben ser modeladas. PDF HTML El procedimiento HPSEVERITY Se ajusta a modelos de regresión para analizar y predecir la gravedad de los eventos utilizando una variedad de distribuciones de probabilidad. PDF HTML El Proceso de PRÉSTAMO Analiza y compara los préstamos de tasa fija, de tasa ajustable, de construcción y de pago con balón. PDF HTML El procedimiento MDC Analiza modelos en los que el conjunto de opciones consta de múltiples alternativas. PDF HTML El MODELO Procedimiento Analiza modelos en los que las relaciones entre las variables comprenden un sistema de una o más ecuaciones no lineales. PDF HTML El Procedimiento PANEL Analiza una clase de modelos econométricos lineales que suelen surgir cuando se combinan series temporales y datos transversales. PDF HTML El procedimiento PDLREG Estima modelos de regresión para datos de series temporales en los que los efectos de algunas de las variables regresivas se distribuyen a lo largo del tiempo. PDF HTML El Procedimiento QLIM Analiza los modelos univariados y multivariados de variables dependientes limitadas en los que las variables dependientes toman valores discretos o variables dependientes se observan solamente en un rango limitado de valores. PDF HTML El procedimiento SEVERITY Calcula los parámetros de cualquier distribución de probabilidad continua arbitraria que se usa para modelar la magnitud (gravedad) de un evento de interés de valor continuo. PDF HTML El procedimiento SIMILARITY Calcula las medidas de similitud asociadas con los datos con fecha y hora, las series temporales y otros datos numéricos ordenados secuencialmente. PDF HTML El procedimiento SIMLIN Lee los coeficientes para un conjunto de ecuaciones estructurales lineales, que normalmente se producen mediante el procedimiento SYSLIN. PDF HTML El procedimiento SPECTRA Realiza análisis espectral y espectral cruzado de series temporales. PDF HTML El procedimiento SSM Realiza modelos de espacio estatal de series de tiempo univariante y multivariante y datos longitudinales. PDF HTML El procedimiento STATESPACE Usa el modelo de espacio de estado para analizar y pronosticar series temporales multivariadas. PDF HTML El procedimiento SYSLIN Estima los parámetros en un sistema interdependiente de ecuaciones de regresión lineal. PDF HTML El procedimiento TIMEDATA Analiza los datos transaccionales con fecha y hora con respecto al tiempo y acumula los datos en un formato de series temporales. PDF HTML El procedimiento TIMEID Evalúa una variable en un conjunto de datos de entrada para su idoneidad como variable ID de tiempo en los procedimientos y soluciones SAS que se utilizan para el análisis de series de tiempo. PDF HTML El procedimiento TIMESERIES Analiza los datos transaccionales con fecha y hora con respecto al tiempo y acumula los datos en un formato de series temporales. PDF HTML El procedimiento TSCSREG Analiza una clase de modelos econométricos lineales que comúnmente surgen cuando se combinan series temporales y datos de corte transversal. PDF HTML El Procedimiento UCM Analiza y pronostica datos de series de tiempo univariados igualmente espaciados usando un modelo de componentes no observados (UCM). PDF HTML El procedimiento VARMAX Estima los parámetros del modelo y genera pronósticos asociados con los procesos de media móvil móvil autorregresivos con modelos de regresores exógenos (VARMAX). PDF HTML El procedimiento X11 Realiza ajustes aditivos o multiplicativos y crea un conjunto de datos de salida que contiene la serie temporal y los cálculos intermedios ajustados. PDF HTML El procedimiento X12 Realiza ajustes aditivos o multiplicativos y crea un conjunto de datos de salida que contiene las series temporales ajustadas y los cálculos intermedios. PDF HTML El procedimiento X13 Realiza ajustes aditivos o multiplicativos y crea un conjunto de datos de salida que contiene la serie temporal ajustada y los cálculos intermedios. PDF HTML Más sobre este producto Libros relacionados para la compra Uso de SAS en la investigación financiera Por Ekkehart Boehmer, John Broussard, y Juha Pekka Kallunki Para más libros SAS / ETS, visite la librería. Guía del usuario de SAS / ETS 13.2 - Procedimientos Para obtener la guía completa del usuario de SAS / ETS 13.2. Vaya a la página de documentación del producto SAS / ETS. El Procedimiento ARIMA Analiza y pronostica datos de series temporales univariadas, datos de la función de transferencia y datos de intervención espaciados equitativamente utilizando el modelo de media móvil (ARIMA) o el modelo de media móvil autorregresiva (ARMA) autoregresivo. PDF (9.44MB) HTML El procedimiento AUTOREG Estima y pronostica modelos de regresión lineal para datos de series de tiempo cuando los errores son autocorrelados o heteroscedásticos. PDF (11.3MB) HTML El procedimiento COMPUTAB Produce informes tabulares generados utilizando una tabla de datos programable. PDF (3.67MB) HTML El procedimiento COPULA Permite al usuario ajustar distribuciones multivariadas o copulas de un conjunto de datos de muestra dado. PDF (5MB) HTML El procedimiento COUNTREG Analiza los modelos de regresión en los que la variable dependiente toma valores enteros o negativos. PDF (5.52MB) HTML Procedimiento DATASOURCE Extrae series de tiempo y datos de eventos de muchos tipos diferentes de archivos de datos distribuidos por varios proveedores de datos y los almacena en un conjunto de datos SAS. PDF (5.08MB) HTML El procedimiento ENTROPY (Experimental) Implementa un método paramétrico de estimación lineal basado en entropía máxima generalizada. PDF (5.15MB) HTML El procedimiento ESM Genera pronósticos utilizando modelos de suavizado exponencial con pesos de suavizado optimizados para muchas series de tiempo o datos transaccionales. PDF (3.23MB) HTML El procedimiento EXPAND Convierte series temporales de un intervalo de muestreo o frecuencia a otro e interpola los valores faltantes en series temporales. PDF (3.28MB) HTML El procedimiento FORECAST Proporciona una forma rápida y automática de generar pronósticos para muchas series de tiempo en un solo paso. PDF (4.44MB) HTML Los Modelos de Procedimiento HPCDM (Experimental) compuestos distribuciones que se forman mediante la combinación de modelos de la frecuencia de los eventos y la gravedad de esos eventos. PDF (5.22MB) HTML El procedimiento HPCOPULA Modelos de distribuciones multivariantes mediante el uso de métodos de copulación. PDF (2.79MB) HTML El procedimiento HPCOUNTREG Se ajusta a modelos de regresión para analizar y predecir los conteos del número de eventos. PDF (3.12MB) HTML El procedimiento HPPANEL Ajustar los modelos de regresión para analizar y predecir los datos del panel donde las variables se registran tanto en casos como en el tiempo. PDF (2.99MB) HTML El procedimiento HPQLIM Se ajusta a modelos de regresión para analizar y predecir variables dependientes cualitativas y limitadas donde las limitaciones o selección de los valores observados deben ser modeladas. PDF (3.88MB) HTML El procedimiento HPSEVERITY Se ajusta a modelos de regresión para analizar y predecir la gravedad de los eventos usando una variedad de distribuciones de probabilidad. PDF (8.73MB) HTML El Proceso de PRÉSTAMO Analiza y compara los préstamos de tasa fija, de tasa ajustable, buydown y de pago por globo. PDF (4.02MB) HTML El procedimiento MDC Analiza modelos en los que el conjunto de opciones consta de múltiples alternativas. PDF (5.31MB) HTML El MODEL Procedimiento Analiza modelos en los que las relaciones entre las variables comprenden un sistema de una o más ecuaciones no lineales. PDF (22.3MB) HTML Procedimiento PANEL Analiza una clase de modelos econométricos lineales que comúnmente surgen cuando se combinan series temporales y datos de corte transversal. PDF (6.15MB) HTML Procedimiento PDLREG Estima modelos de regresión para datos de series temporales en los que los efectos de algunas de las variables regresivas se distribuyen a lo largo del tiempo. PDF (3.41MB) HTML El procedimiento QLIM Analiza los modelos univariados y multivariados de variables dependientes limitadas en los que las variables dependientes toman valores discretos o variables dependientes se observan solamente en un rango limitado de valores. PDF (6.14MB) HTML El procedimiento SEVERITY Calcula los parámetros de cualquier distribución de probabilidad continua arbitraria que se usa para modelar la magnitud (gravedad) de un evento de interés de valor continuo. PDF (10.1MB) HTML El procedimiento de SIMILARITY Calcula las medidas de similitud asociadas con los datos de fecha y hora, series temporales y otros datos numéricos ordenados secuencialmente. PDF (4.47MB) HTML El procedimiento SIMLIN Lee los coeficientes para un conjunto de ecuaciones estructurales lineales, que normalmente se producen mediante el procedimiento SYSLIN. PDF (3.78MB) HTML El procedimiento SPECTRA Realiza análisis espectral y espectral cruzado de series temporales. PDF (3.09MB) HTML El procedimiento SSM Realiza el modelado de espacio de estados de series de tiempo univariante y multivariante y datos longitudinales. PDF (11.9MB) HTML Procedimiento STATESPACE Usa el modelo de espacio de estado para analizar y pronosticar series temporales multivariadas. PDF (5.39MB) HTML El procedimiento SYSLIN Estima los parámetros en un sistema interdependiente de ecuaciones de regresión lineal. PDF (8.63MB) HTML El procedimiento TIMEDATA Analiza los datos transaccionales con fecha y hora con respecto al tiempo y acumula los datos en un formato de series temporales. PDF (2.49MB) HTML El procedimiento TIMEID Evalúa una variable en un conjunto de datos de entrada para su idoneidad como variable de ID de tiempo en procedimientos y soluciones SAS que se utilizan para el análisis de series de tiempo. PDF (3.09MB) HTML El procedimiento TIMESERIES Analiza los datos transaccionales con fecha y hora con respecto al tiempo y acumula los datos en un formato de series temporales. PDF (3.91MB) HTML El TSCSREG Procedimiento Analiza una clase de modelos econométricos lineales que comúnmente surgen cuando se combinan series temporales y datos de corte transversal. PDF (2.39MB) HTML El Procedimiento UCM Analiza y pronostica datos de series de tiempo univariados igualmente espaciados usando un modelo de componentes no observados (UCM). PDF (8.08MB) HTML El procedimiento VARMAX Estimar los parámetros del modelo y generar pronósticos asociados con los procesos de media móvil móvil autorregresivos con modelos VARMAX (regresores exógenos). PDF (10.3MB) HTML Procedimiento X11 Realiza ajustes aditivos o multiplicativos y crea un conjunto de datos de salida que contiene la serie temporal y los cálculos intermedios ajustados. PDF (3.62MB) HTML Procedimiento X12 Realiza ajustes aditivos o multiplicativos y crea un conjunto de datos de salida que contiene la serie temporal y los cálculos intermedios ajustados. PDF (8.45MB) HTML Más sobre este producto Libros relacionados para la compraBienvenido al Instituto de Investigación y Educación Digital Regresión con SAS Capítulo 1 - Regresión Simple y Múltiple Capítulo 1.0 Introducción 1.1 Un primer análisis de regresión 1.2 Examen de datos 1.3 Regresión lineal simple 1.4 Múltiple Regresión 1.5 Transformar variables 1.6 Resumen 1.7 Para más información Este libro web está compuesto de cuatro capítulos que abarcan una variedad de temas sobre el uso de SAS para la regresión. Debemos enfatizar que este libro trata sobre el análisis de quotdata y que demuestra cómo SAS puede ser utilizado para el análisis de regresión, en oposición a un libro que cubre la base estadística de la regresión múltiple. Suponemos que ha tenido por lo menos un curso de estadística que cubre el análisis de regresión y que tiene un libro de regresión que puede usar como referencia (consulte la página Regresión con SAS y nuestra página Libros de estadísticas para préstamos para obtener libros de análisis de regresión recomendados). Este libro está diseñado para aplicar sus conocimientos de regresión, combinarlo con la instrucción en SAS, para realizar, comprender e interpretar los análisis de regresión. Este primer capítulo cubrirá temas de regresión simple y múltiple, así como las tareas de apoyo que son importantes para preparar el análisis de sus datos, p. La comprobación de datos, familiarizarse con su archivo de datos y examinar la distribución de sus variables. Ilustraremos los fundamentos de la regresión simple y múltiple y demostraremos la importancia de inspeccionar, verificar y verificar sus datos antes de aceptar los resultados de su análisis. En general, esperamos demostrar que los resultados de su análisis de regresión pueden ser engañosos sin una exploración adicional de sus datos, lo que podría revelar relaciones que un análisis casual podría pasar por alto. En este capítulo, y en los capítulos siguientes, usaremos un archivo de datos que fue creado al muestrear aleatoriamente 400 escuelas primarias del conjunto de datos del Departamento de Educación de California, API 2000. Este archivo de datos contiene una medida del desempeño académico de la escuela, así como otros atributos de las escuelas primarias, tales como tamaño de la clase, inscripción, pobreza, etc. Puede acceder a este archivo de datos a través de la Web haciendo clic en elemapi. sas7bdat. O visitando la página Regresión con SAS donde puede descargar todos los archivos de datos utilizados en todos los capítulos de este libro. Los ejemplos asumirán que usted ha almacenado sus archivos en una carpeta llamada c: sasreg. Pero en realidad puede almacenar los archivos en cualquier carpeta que elija, pero si ejecuta estos ejemplos, asegúrese de cambiar c: sasreg al nombre de la carpeta que ha seleccionado. 1.1 Un primer análisis de regresión Permite realizar un análisis de regresión utilizando las variables api00. Acsk3. Comidas y completo. Estas medidas miden el rendimiento académico de la escuela (api00), el tamaño promedio de la clase en el jardín de infancia a tercer grado (acsk3), el porcentaje de estudiantes que reciben comidas gratis - que es un indicador de pobreza y el porcentaje de maestros que tienen Credenciales de enseñanza completa (completa). Esperamos que un mejor rendimiento académico se asocie con un menor número de alumnos por clase, menos estudiantes recibiendo comidas gratis y un porcentaje más alto de maestros con credenciales de enseñanza completas. A continuación, utilizamos proc reg para ejecutar este modelo de regresión seguido de la salida SAS. Vamos a enfocarnos en los tres predictores, si son estadísticamente significativos y, si es así, la dirección de la relación. El tamaño promedio de la clase (acsk3.b-2.68), no es significativo (p0.0553), pero sólo así, y el coeficiente es negativo, lo que indicaría que el mayor tamaño de las clases está relacionado con un menor rendimiento académico. Esperaría. A continuación, el efecto de las comidas (b-3.70, plt.0001) es significativo y su coeficiente es negativo indicando que cuanto mayor es la proporción de estudiantes que reciben comidas gratuitas, menor es el rendimiento académico. Tenga en cuenta que no estamos diciendo que las comidas gratis están causando un menor rendimiento académico. La variable comidas está altamente relacionada con el nivel de ingresos y funciona más como un indicador de la pobreza. Por lo tanto, niveles más altos de pobreza están asociados con un menor rendimiento académico. Este resultado también tiene sentido. Finalmente, el porcentaje de maestros con credenciales completas (full b0.11, p.2321) parece no estar relacionado con el desempeño académico. Esto parecería indicar que el porcentaje de maestros con credenciales completas no es un factor importante en la predicción del rendimiento académico - este resultado fue algo inesperado. De estos resultados, podríamos concluir que el menor tamaño de las clases está relacionado con un mayor rendimiento, que un menor número de estudiantes que reciben comidas gratis está asociado con un mayor rendimiento y que el porcentaje de maestros con credenciales completas fue No relacionados con el rendimiento académico en las escuelas. Antes de escribir esto para la publicación, debemos hacer una serie de controles para asegurarnos de que podemos apoyar firmemente estos resultados. Comenzamos familiarizándonos con el archivo de datos, realizando la comprobación preliminar de datos, buscando errores en los datos. 1.2 Examinar los datos En primer lugar, vamos a utilizar el contenido proc para obtener más información sobre este archivo de datos. Podemos verificar cuántas observaciones tiene y ver los nombres de las variables que contiene. No entraremos en todos los detalles de este resultado. Tenga en cuenta que hay 400 observaciones y 21 variables. Tenemos variables sobre el rendimiento académico en 2000 y 1999 y el cambio en el rendimiento, api00. Api99 y crecimiento respectivamente. También tenemos varias características de las escuelas, p. El tamaño de la clase, la educación de los padres, el porcentaje de maestros con credenciales completas y de emergencia, y el número de estudiantes. Tenga en cuenta que cuando hicimos nuestro análisis de regresión original, dijo que había 313 observaciones, pero la salida del contenido proc indica que tenemos 400 observaciones en el archivo de datos. Si desea obtener más información sobre el archivo de datos, puede utilizar proc print para mostrar algunas de las observaciones. Por ejemplo, a continuación, proc print para mostrar las primeras cinco observaciones. Esto ocupa mucho espacio en la página, pero no nos da mucha información. Listar nuestros datos puede ser muy útil, pero es más útil si se enumeran sólo las variables que le interesan. Permite enumerar las primeras 10 observaciones para las variables que examinamos en nuestro primer análisis de regresión. Vemos que entre las primeras 10 observaciones, tenemos cuatro valores faltantes para las comidas. Es probable que los datos que faltan para las comidas tuvieran algo que ver con el hecho de que el número de observaciones en nuestro primer análisis de regresión fue 313 y no 400. Otra herramienta útil para aprender acerca de sus variables es proc means. A continuación, utilizamos proc means para aprender más sobre las variables api00. Acsk3. Comidas Y lleno. Vemos que las puntuaciones api00 no tienen valores faltantes (porque el N es 400) y las puntuaciones van desde 369-940. Esto tiene sentido ya que las puntuaciones api pueden variar de 200 a 1000. Vemos que el tamaño promedio de la clase (acsk3) tenía 398 valores válidos que van desde -21 a 25 y 2 están desaparecidos. Parece extraño que el tamaño de una clase sea -21. El porcentaje de comidas gratuitas (comidas) oscila entre 6 y 100, pero sólo hay 315 valores válidos (faltan 85). Esto parece un gran número de valores perdidos. El porcentaje con credenciales completas (completo) oscila entre .42 a 100 sin falta. También podemos usar proc freq para aprender más sobre cualquier variable categórica, como yrrnd. Como se muestra abajo. La variable yrrnd está codificada como 0No (no durante todo el año) y 1Yes (durante todo el año). De las 400 escuelas, 308 no son de todo el año y 92 son todo el año, y no faltan ninguno. Las órdenes anteriores han descubierto una serie de peculiaridades dignas de examen adicional. Por ejemplo, echemos un vistazo al tamaño promedio de la clase obteniendo estadísticas de resumen más detalladas para acsk3 usando proc univariante. Observando en la sección denominada Observaciones extremas, vemos que algunos tamaños de clase son -21 y -20, por lo que parece que algunos tamaños de las clases se volvieron negativos, como si un signo negativo estuviera mal escrito delante de ellos. Vamos a hacer un proc freq para el tamaño de la clase para ver si esto parece plausible. De hecho, parece que algunos de los tamaños de las clases de alguna manera tienen signos negativos puestos delante de ellos. Veamos el número de la escuela y el distrito para estas observaciones para ver si provienen del mismo distrito. De hecho, todos ellos provienen del distrito 140. Obsérvese que cuando observamos las observaciones donde (acsk3 lt 0) esto también incluía observaciones donde falta acsk3 (representado como un período). Para ser más precisos, el comando anterior debe excluir tales observaciones como ésta. Ahora, veamos todas las observaciones para el distrito 140. Todas las observaciones del distrito 140 parecen tener este problema. Cuando encuentre tal problema, desee volver al origen original de los datos para verificar los valores. Tenemos que revelar que fabricamos este error con fines ilustrativos, y que los datos reales no tenían tal problema. Vamos a fingir que comprobamos con el distrito 140 y hubo un problema con los datos allí, un guión fue puesto accidentalmente delante de los tamaños de la clase haciéndolos negativos. Vamos a hacer una nota para corregir esto Vamos a continuar la comprobación de nuestros datos. Echemos un vistazo a algunos métodos gráficos para inspeccionar los datos. Para cada variable, es útil inspeccionarlas utilizando un histograma, un diagrama de cajas y un diagrama de tallo y hoja. Estos gráficos pueden mostrarle información sobre la forma de sus variables mejor que las estadísticas numéricas simples. Ya sabemos sobre el problema con acsk3. Pero permite ver cómo estos métodos gráficos habría revelado el problema con esta variable. En primer lugar, mostramos un histograma para acsk3. Esto nos muestra las observaciones donde el tamaño promedio de la clase es negativo. Del mismo modo, un diagrama de caja y parcela de tallo y hoja habría llamado estas observaciones a nuestra atención también. En SAS puede usar la opción plot con proc univariante para solicitar un diagrama de bloques y de tallo y hoja. A continuación mostramos sólo el diagrama de bloques combinado y de tallo y hoja de esta salida. Puede ver la forma de observaciones negativas periféricas en la parte inferior de la caja. Recomendamos trazar todos estos gráficos para las variables que analizaremos. Omitiremos, debido a consideraciones de espacio, mostrando estos gráficos para todas las variables. Sin embargo, al examinar las variables, el diagrama de tallo y hoja para llenar parecía bastante inusual. Hasta ahora, no hemos visto nada problemático con esta variable, pero mira el diagrama del tallo y de la hoja para lleno abajo. Muestra 104 observaciones donde el porcentaje con una credencial completa que es mucho menor que todas las demás observaciones. Esto es más de 25 de las escuelas y parece muy inusual. Echemos un vistazo a la distribución de frecuencia completa para ver si podemos entender esto mejor. Los valores van de 0,42 a 1,0, luego saltar a 37 y subir desde allí. Parece que algunos de los porcentajes se introducen realmente como proporciones, p. 0.42 se introdujo en lugar de 42 o 0.96 que realmente debería haber sido 96. Veamos de qué distrito (s) estos datos provienen. Observamos que todas las 104 observaciones en las que el pleno fue menor o igual a uno vinieron del distrito 401. Veamos si esto explica todas las observaciones que vienen del distrito 401. Todas las observaciones de este distrito parecen ser registradas como proporciones En lugar de porcentajes. Una vez más, señalemos que este es un problema de fingimiento que insertamos en los datos para fines ilustrativos. Si esto fuera un problema de la vida real, verificaríamos con la fuente de los datos y verificaríamos el problema. Haremos una nota para corregir este problema en los datos también. Otra técnica gráfica útil para cribar sus datos es una matriz de dispersión gráfica. Si bien esto es probablemente más relevante como una herramienta de diagnóstico buscando no linealidades y valores atípicos en sus datos, también puede ser una útil herramienta de cribado de datos, posiblemente revelando información en la distribución conjunta de sus variables que no sería evidente al examinar las distribuciones univariadas . Veamos la matriz del diagrama de dispersión para las variables en nuestro modelo de regresión. Esto revela los problemas que ya hemos identificado, es decir, los tamaños de clase negativos y el porcentaje de credenciales completas que se introducen como proporciones. Hemos identificado tres problemas en nuestros datos. Existen numerosos valores faltantes para las comidas. Hubo negativos insertados accidentalmente antes de algunos de los tamaños de clase (acsk3) y más de una cuarta parte de los valores de full fueron proporciones en lugar de porcentajes. La versión corregida de los datos se llama elemapi2. Vamos a utilizar ese archivo de datos y repetir nuestro análisis y ver si los resultados son los mismos que nuestro análisis original. En primer lugar, vamos a repetir nuestro análisis de regresión original a continuación. Ahora, vamos a usar el archivo de datos corregido y repetir el análisis de regresión. En el análisis original (arriba), acsk3 fue casi significativo, pero en el análisis corregido (a continuación) los resultados muestran que esta variable no es significativa, tal vez debido a los casos en que el tamaño de la clase fue dado un valor negativo. Del mismo modo, el porcentaje de maestros con credenciales completas no fue significativo en el análisis original, pero es significativo en el análisis corregido, tal vez debido a los casos en que el valor fue dado como la proporción con credenciales completas en lugar del porcentaje. Además, tenga en cuenta que el análisis corregido se basa en 398 observaciones en lugar de 313 observaciones, debido a la obtención de los datos completos de la variable comidas que tenía muchos valores faltantes. A partir de este punto, utilizaremos el corregido, elemapi2. archivo de datos. Hasta ahora hemos cubierto algunos temas en la verificación / verificación de datos, pero en realidad no hemos hablado del análisis de regresión. Permite ahora hablar más sobre la realización de análisis de regresión en SAS. 1.3 Regresión lineal simple Comencemos mostrando algunos ejemplos de regresión lineal simple usando SAS. En este tipo de regresión, sólo tenemos una variable predictora. Esta variable puede ser continua, lo que significa que puede asumir todos los valores dentro de un rango, por ejemplo, edad o altura, o puede ser dicotómica, lo que significa que la variable puede asumir sólo uno de dos valores, por ejemplo, 0 o 1. El uso de variables categóricas con más de dos niveles se tratará en el Capítulo 3. Sólo hay una respuesta o variable dependiente, y es continua. En SAS, la variable dependiente aparece inmediatamente después de la instrucción model seguida por un signo igual y luego una o más variables predictoras. Examinemos la relación entre el tamaño de la escuela y el rendimiento académico para ver si el tamaño de la escuela está relacionado con el rendimiento académico. Para este ejemplo, api00 es la variable dependiente y register es el predictor. Permite revisar esta salida un poco más cuidadosamente. En primer lugar, vemos que la prueba F es estadísticamente significativa, lo que significa que el modelo es estadísticamente significativo. El R-cuadrado es .1012 significa que aproximadamente 10 de la varianza de api00 es contabilizado por el modelo, en este caso, inscribirse. La prueba t para la inscripción es igual a -6,70. Y es estadísticamente significativo, lo que significa que el coeficiente de regresión para inscribirse es significativamente diferente de cero. Tenga en cuenta que (-6,70) 2 44,89, que es el mismo que el estadístico F (con algunos errores de redondeo). El coeficiente de inscripción es de -19987, o aproximadamente -0,2, lo que significa que para un aumento de una unidad en matricularse. Esperamos una disminución de 0.2 unidades en api00. En otras palabras, se espera que una escuela con 1100 estudiantes tenga una puntuación api 20 unidades más baja que una escuela con 1000 estudiantes. La constante es 744.2514, y este es el valor predicho cuando matrícula es igual a cero. En la mayoría de los casos, la constante no es muy interesante. Hemos preparado una salida anotada que muestra la salida de esta regresión junto con una explicación de cada uno de los elementos en ella. Además de obtener la tabla de regresión, puede ser útil ver un diagrama de dispersión de las variables predichas y de resultado con la línea de regresión trazada. SAS hace esto muy fácil para usted mediante el uso de la declaración de trazado como parte de proc reg. Por ejemplo, a continuación mostramos cómo hacer un diagrama de dispersión de la variable de resultado, api00 y el predictor, inscribirse. Obsérvese que el gráfico también incluye los valores predichos en la forma de la línea de regresión. Como se ve, este comando produce un diagrama de dispersión y una línea de regresión, e incluye también el modelo de regresión con la correlación de las dos variables en el título. Podríamos incluir un intervalo de predicción de 95 utilizando la opción pred en la declaración de gráfico como se ilustra a continuación. Otra clase de gráfico que usted puede ser que quiera hacer es una trama residual contra cabida. Como se muestra a continuación, podemos usar la sentencia plot para hacer este gráfico. Las palabras clave residual. Y predijo. En este contexto se refieren al valor residual y al valor predicho del análisis de regresión y se pueden abreviar como r. y P. . La siguiente tabla muestra una serie de otras palabras clave que se pueden utilizar con la declaración de gráfico y las estadísticas que muestran. Límite superior del intervalo de confianza para la media de las variables dependientes 1.4 Regresión múltiple Ahora, veamos un ejemplo de regresión múltiple, en el que tenemos una variable de resultado (dependiente) y múltiples predictores. Para este ejemplo de regresión múltiple, vamos a regresar la variable dependiente, api00. En todas las variables predictoras en el conjunto de datos. Examinemos la salida de este análisis de regresión. Al igual que con la regresión simple, buscamos el valor p de la prueba F para ver si el modelo general es significativo. Con un valor p de cero a cuatro decimales, el modelo es estadísticamente significativo. El R-cuadrado es 0.8446, lo que significa que aproximadamente 84 de la variabilidad de api00 se explica por las variables en el modelo. En este caso, el R-cuadrado ajustado indica que aproximadamente 84 de la variabilidad de api00 se explica por el modelo, incluso después de tener en cuenta el número de variables predictoras en el modelo. Los coeficientes para cada una de las variables indican la cantidad de cambio que se podría esperar en api00 dado un cambio de una unidad en el valor de esa variable, dado que todas las otras variables en el modelo se mantienen constantes. Por ejemplo, considere la variable ell. Se esperaría una disminución de 0,86 en la puntuación api00 para cada aumento de unidad en ell. Suponiendo que todas las demás variables del modelo se mantienen constantes. La interpretación de gran parte de la salida de la regresión múltiple es la misma que para la regresión simple. Hemos preparado una salida anotada que explica más a fondo la salida de este análisis de regresión múltiple. You may be wondering what a 0.86 change in ell really means, and how you might compare the strength of that coefficient to the coefficient for another variable, say meals . To address this problem, we can use the stb option on the model statement to request that in addition to the standard output that SAS also display a table of the standardized values, sometimes called beta coefficients. Below we show just the portion of the output that includes these standardized values. The beta coefficients are used by some researchers to compare the relative strength of the various predictors within the model. Because the beta coefficients are all measured in standard deviations, instead of the units of the variables, they can be compared to one another. In other words, the beta coefficients are the coefficients that you would obtain if the outcome and predictor variables were all transformed to standard scores, also called z-scores, before running the regression. Because these standardized coefficients are all in the same standardized units you can compare these coefficients to assess the relative strength of each of the predictors. In this example, meals has the largest Beta coefficient, -0.66, and acsk3 has the smallest Beta, 0.013. Thus, a one standard deviation increase in meals leads to a 0.66 standard deviation decrease in predicted api00 . with the other variables held constant. And, a one standard deviation increase in acsk3 . in turn, leads to a 0.013 standard deviation increase api00 with the other variables in the model held constant. In interpreting this output, remember that the difference between the regular coefficients (from the prior output) and the standardized coefficients above is the units of measurement. For example, to describe the raw coefficient for ell you would say quotA one-unit decrease in ell would yield a .86-unit increase in the predicted api00.quot However, for the standardized coefficient (Beta) you would say, quotA one standard deviation decrease in ell would yield a .15 standard deviation increase in the predicted api00.quot So far, we have concerned ourselves with testing a single variable at a time, for example looking at the coefficient for ell and determining if that is significant. We can also test sets of variables, using the test command, to see if the set of variables are significant. First, lets start by testing a single variable, ell . using the test statement. Note that the part before the test command, test1: . is merely a label to identify the output of the test command. This label could be any short label to identify the output. If you compare this output with the output from the last regression you can see that the result of the F-test, 16.67, is the same as the square of the result of the t-test in the regression (-4.0832 16.67). Note that you could get the same results if you typed the following since SAS defaults to comparing the term(s) listed to 0. Perhaps a more interesting test would be to see if the contribution of class size is significant. Since the information regarding class size is contained in two variables, acsk3 and acs46 . so we include both of these separated by a comma on the test command. Below we show just the output from the test command. The significant F-test, 3.95, means that the collective contribution of these two variables is significant. One way to think of this, is that there is a significant difference between a model with acsk3 and acs46 as compared to a model without them, i. e. there is a significant difference between the quotfullquot model and the quotreducedquot models. Finally, as part of doing a multiple regression analysis you might be interested in seeing the correlations among the variables in the regression model. You can do this with proc corr as shown below. We can see that the strongest correlation with api00 is meals with a correlation in excess of -0.9. The variables ell and emer are also strongly correlated with api00 . All three of these correlations are negative, meaning that as the value of one variable goes down, the value of the other variable tends to go up. Knowing that these variables are strongly associated with api00 . we might predict that they would be statistically significant predictor variables in the regression model. Note that the number of cases used for each correlation is determined on a quotpairwisequot basis, for example there are 398 valid pairs of data for enroll and acsk3 . so that correlation of .1089 is based on 398 observations. 1.5 Transforming Variables Earlier we focused on screening your data for potential errors. In the next chapter, we will focus on regression diagnostics to verify whether your data meet the assumptions of linear regression. Here, we will focus on the issue of normality. Some researchers believe that linear regression requires that the outcome (dependent) and predictor variables be normally distributed. We need to clarify this issue. In actuality, it is the residuals that need to be normally distributed. In fact, the residuals need to be normal only for the t-tests to be valid. The estimation of the regression coefficients do not require normally distributed residuals. As we are interested in having valid t-tests, we will investigate issues concerning normality. A common cause of non-normally distributed residuals is non-normally distributed outcome and/or predictor variables. So, let us explore the distribution of our variables and how we might transform them to a more normal shape. Lets start by making a histogram of the variable enroll . which we looked at earlier in the simple regression. We can use the normal option to superimpose a normal curve on this graph and the midpoints option to indicate that we want bins with midpoints from 100 to 1500 going in increments of 100. Histograms are sensitive to the number of bins or columns that are used in the display. An alternative to histograms is the kernel density plot, which approximates the probability density of the variable. Kernel density plots have the advantage of being smooth and of being independent of the choice of origin, unlike histograms. You can add a kernel density plot to the above plot with he kernel option as illustrated below. Not surprisingly, the kdensity plot also indicates that the variable enroll does not look normal. There are two other types of graphs that are often used to examine the distribution of variables quantile-quantile plots and normal probability plots. A quantile-quantile plot graphs the quantiles of a variable against the quantiles of a normal (Gaussian) distribution. Such plots are sensitive to non-normality near the tails, and indeed we see considerable deviations from normal, the diagonal line, in the tails. This plot is typical of variables that are strongly skewed to the right. The normal probability plot is also useful for examining the distribution of variables and is sensitive to deviations from normality nearer to the center of the distribution. We will use SAS proc capability to get the normal probability plot. Again, we see indications non-normality in enroll . Given the skewness to the right in enroll . let us try a log transformation to see if that makes it more normal. Below we create a variable lenroll that is the natural log of enroll and then we repeat some of the above commands to see if lenroll is more normally distributed. Now lets try showing a histogram for lenroll with a normal overlay and a kernel density estimate. We can see that lenroll looks quite normal. We could then create a quantile-quantile plot and a normal probability plot to further assess whether lenroll seems normal, as well as seeing how lenroll impacts the residuals, which is really the important consideration. In this lecture we have discussed the basics of how to perform simple and multiple regressions, the basics of interpreting output, as well as some related commands. We examined some tools and techniques for screening for bad data and the consequences such data can have on your results. Finally, we touched on the assumptions of linear regression and illustrated how you can check the normality of your variables and how you can transform your variables to achieve normality. The next chapter will pick up where this chapter has left off, going into a more thorough discussion of the assumptions of linear regression and how you can use SAS to assess these assumptions for your data. In particular, the next lecture will address the following issues. Checking for points that exert undue influence on the coefficients Checking for constant error variance (homoscedasticity) Checking for linear relationships Checking model specification Checking for multicollinearity Checking normality of residuals 1.7 For more information The content of this web site should not be construed as an endorsement of any particular web site, book, or software product by the University of California.

Forex san carlos de bariloche

Search This Blog

Regresión Media Móvil De Sas

Comments

Post a Comment

Popular posts from this blog

Pokemon Y Sistema De Comercio

Forex Sin Depósito Bono Agosto 2017

Los Candeleros Japoneses Explicados