Wednesday 9 November 2016

Proceso Medio Móvil En Series De Tiempo


Un tutorial completo sobre la serie de tiempo de modelado en R Introducción 8216Time8217 es el factor más importante que asegura el éxito en un negocio. Es difícil mantener el paso del tiempo. Pero, la tecnología ha desarrollado algunos métodos poderosos con los cuales podemos ver cosas 8217 antes de tiempo. No se preocupe, no estoy hablando de Time Machine. Sería realista aquí hablar de los métodos de predicción y predicción de amplificadores. Uno de estos métodos, que se ocupa de datos basados ​​en el tiempo, es Modelado en Serie de Tiempo. Como sugiere su nombre, implica trabajar en datos basados ​​en el tiempo (años, días, horas, minutos) para obtener ideas ocultas para tomar decisiones informadas. Los modelos de series temporales son modelos muy útiles cuando se tienen datos correlacionados en serie. La mayoría de las casas comerciales trabajan en datos de series de tiempo para analizar el número de ventas para el próximo año, el tráfico del sitio web, la posición de la competencia y mucho más. Sin embargo, es también una de las áreas, que muchos analistas no entienden. Por lo tanto, si no está seguro sobre el proceso completo de modelado de series de tiempo, esta guía le presentará a varios niveles de modelado de series de tiempo y sus técnicas relacionadas. Los siguientes temas se tratan en este tutorial como se muestra a continuación: Tabla de contenidos Conceptos básicos 8211 Modelado de series temporales Exploración de series de tiempo Datos en R Introducción a ARMA Modelos de series de tiempo Modelado y aplicación de modelos de series temporales ARIMA Tiempo de inicio 1. Conceptos básicos 8211 Tiempo Series Modeling Let8217s comienzan desde lo básico. Esto incluye series estacionarias, paseos aleatorios. Rho Coeficiente, Dickey Fuller Prueba de estacionariedad. Si estos términos ya le están asustando, no se preocupe 8211 se harán claros en un poco y apuesto a que comenzará a disfrutar el tema como lo explico. Serie estacionaria Hay tres criterios básicos para que una serie sea clasificada como serie estacionaria: 1. La media de la serie no debe ser una función del tiempo sino una constante. La imagen de abajo tiene el gráfico de la mano izquierda que satisface la condición, mientras que el gráfico en rojo tiene una media dependiente del tiempo. 2. La varianza de la serie no debe ser una función del tiempo. Esta propiedad es conocida como homoscedasticity. El siguiente gráfico representa lo que es y lo que no es una serie estacionaria. (Obsérvese la distribución variable de la distribución en el gráfico de la derecha) 3. La covarianza del i-ésimo término y del (i m) término no debe ser una función del tiempo. En el siguiente gráfico, notará que el spread se hace más cercano a medida que aumenta el tiempo. Por lo tanto, la covarianza no es constante con el tiempo para la serie 8217. Por qué me importa 8216stationarity8217 de una serie de tiempo La razón por la que tomé esta sección primero fue que hasta que a menos que su serie de tiempo es estacionario, no se puede construir un modelo de series de tiempo. En los casos en que el criterio estacionario es violado, el primer requisito se convierte en estacionarizar la serie temporal y luego intentar modelos estocásticos para predecir esta serie temporal. Hay múltiples maneras de traer esta stationaridad. Algunos de ellos son Detrending, Differencing, etc Random Walk Este es el concepto más básico de la serie de tiempo. Es posible que conozcas bien el concepto. Pero, encontré a mucha gente en la industria que interpreta el paseo al azar como un proceso estacionario. En esta sección con la ayuda de algunas matemáticas, voy a hacer que este concepto sea claro para siempre. Tomemos un ejemplo. Ejemplo: Imagina a una chica moviéndose al azar en un tablero de ajedrez gigante. En este caso, la posición siguiente de la muchacha es solamente dependiente en la última posición. Ahora imagine, usted está sentado en otra habitación y no son capaces de ver a la chica. Usted quiere predecir la posición de la niña con el tiempo. Cuán preciso será usted? Por supuesto que se volverá cada vez más inexacto a medida que cambia la posición de la niña. En t0 sabes exactamente dónde está la chica. La próxima vez, ella sólo puede moverse a 8 cuadrados y por lo tanto su probabilidad de inmersiones a 1/8 en lugar de 1 y sigue bajando. Ahora vamos a intentar formular esta serie: donde Er (t) es el error en el punto temporal t. Esta es la aleatoriedad que la chica trae en cada momento. Ahora, si recurrimos de forma recursiva en todas las X, finalmente terminaremos con la siguiente ecuación: Ahora, probemos validando nuestras suposiciones de series estacionarias sobre esta formulación de caminata aleatoria: 1. Es la constante media? Sabemos que la Expectativa de cualquier Error Será cero, ya que es aleatorio. Por lo tanto, obtenemos EX (t) EX (0) Constante. 2. Es la variación constante? Por lo tanto, inferimos que la caminata aleatoria no es un proceso estacionario ya que tiene una varianza variante en el tiempo. Además, si comprobamos la covarianza, vemos que también depende del tiempo. Let8217s picante las cosas un poco, Ya sabemos que un paseo al azar es un proceso no estacionario. Vamos a introducir un nuevo coeficiente en la ecuación para ver si podemos hacer la formulación estacionaria. Coeficiente introducido. Rho Ahora, vamos a variar el valor de Rho para ver si podemos hacer que la serie estacionaria. Aquí interpretaremos la dispersión visualmente y no haremos ninguna prueba para verificar la estacionariedad. Let8217s comienzan con una serie perfectamente estacionaria con Rho 0. Aquí está el diagrama para la serie de tiempo: Aumentar el valor de Rho a 0.5 nos da el siguiente gráfico: Usted puede notar que nuestros ciclos se han vuelto más amplios, pero esencialmente no parece ser un Grave violación de los supuestos estacionarios. Let8217s ahora tomar un caso más extremo de Rho 0.9 Todavía vemos que la X regresa de valores extremos a cero después de algunos intervalos. Esta serie tampoco está violando significativamente la no estacionariedad. Ahora, vamos a echar un vistazo a la caminata aleatoria con rho 1. Esto obviamente es una violación a las condiciones estacionarias. Lo que hace rho 1 un caso especial que sale mal en la prueba estacionaria Vamos a encontrar la razón matemática para esto. Los resultados obtenidos en la ecuación 8220X (t) Rho X (t-1) Er (t) 8221 Esta ecuación es muy perspicaz. La siguiente X (o en el punto de tiempo t) se está reduciendo a Rho último valor de X. Por ejemplo, si X (t 8211 1) 1, EX (t) 0,5 (para Rho 0,5). Ahora, si X se mueve a cualquier dirección desde cero, se tira de nuevo a cero en el paso siguiente. El único componente que puede conducir aún más es el término de error. El término de error es igualmente probable que vaya en cualquier dirección. Qué sucede cuando el Rho se convierte en 1? Ninguna fuerza puede tirar de la X en el siguiente paso. Dickey Fuller Test of Stationarity Lo que acabas de aprender en la última sección es formalmente conocido como Dickey Fuller. Aquí está un pequeño ajuste que se hace para que nuestra ecuación lo convierta a una prueba de Dickey Fuller: Tenemos que probar si Rho 8211 1 es significativamente diferente de cero o no. Si la hipótesis nula es rechazada, obtendremos una serie temporal fija. Las pruebas estacionarias y la conversión de una serie en una serie estacionaria son los procesos más críticos en un modelo de series temporales. Es necesario memorizar cada detalle de este concepto para pasar al siguiente paso de modelado de series de tiempo. Let8217s ahora consideran un ejemplo para mostrar cómo es una serie de tiempo. 2. Exploración de datos de series temporales en R Aquí we8217ll aprenderemos a manejar datos de series temporales sobre R. Nuestro alcance se limitará a la exploración de datos en un tipo de serie de series de datos y no a modelos de series temporales de construcción. He utilizado un conjunto de datos incorporado de R llamado AirPassengers. El conjunto de datos se compone de los totales mensuales de los pasajeros de las líneas aéreas internacionales, 1949 a 1960. Loading the Data Set A continuación se muestra el código que le ayudará a cargar el conjunto de datos y derramar algunas métricas de nivel superior. Importantes Inferencias La tendencia de año a año muestra claramente que los pasajeros han ido creciendo sin falta. La varianza y el valor medio en julio y agosto es mucho mayor que el resto de los meses. Aunque el valor medio de cada mes es bastante diferente, su varianza es pequeña. Por lo tanto, tenemos fuerte efecto estacional con un ciclo de 12 meses o menos. La exploración de datos se hace más importante en un modelo de series de tiempo 8211 sin esta exploración, usted no sabrá si una serie es estacionaria o no. Como en este caso, ya conocemos muchos detalles sobre el tipo de modelo que estamos buscando. Let8217s ahora toman algunos modelos de series temporales y sus características. También tomaremos este problema adelante y haremos algunas predicciones. 3. Introducción al modelo de series temporales ARMA Los modelos ARMA se usan comúnmente en el modelado de series temporales. En el modelo ARMA, AR significa auto-regresión y MA significa promedio móvil. Si estas palabras suenan intimidantes para ti, no te preocupes por simplificar estos conceptos en los próximos minutos para ti Vamos a desarrollar ahora una habilidad para estos términos y entender las características asociadas con estos modelos. Pero antes de comenzar, debe recordar, AR o MA no son aplicables a las series no estacionarias. En caso de que obtenga una serie no estacionaria, primero necesita estampar la serie (tomando la diferencia / transformación) y luego elegir entre los modelos de series de tiempo disponibles. En primer lugar, explicaré cada uno de estos dos modelos (AR amp MA) individualmente. A continuación, examinaremos las características de estos modelos. Modelo de la serie de tiempo auto-regresiva Let8217s comprensión de los modelos de AR utilizando el caso a continuación: El PIB actual de un país decir x (t) es dependiente del último año 8217s PIB, es decir, x (t 8211 1). La hipótesis es que el costo total de producción de productos y servicios en un país en un año fiscal (conocido como PIB) depende de la creación de plantas / servicios de fabricación en el año anterior y de las nuevas industrias / plantas / servicios En el presente año. Pero el componente primario del PIB es el primero. Por lo tanto, podemos formalmente escribir la ecuación del PIB como: Esta ecuación se conoce como AR (1) formulación. El número uno (1) indica que la siguiente instancia depende únicamente de la instancia anterior. El alfa es un coeficiente que buscamos para minimizar la función de error. Obsérvese que x (t 1) está de hecho unido a x (t-2) de la misma manera. Por lo tanto, cualquier choque a x (t) gradualmente desaparecerá en el futuro. Por ejemplo, let8217s decir x (t) es el número de botellas de jugo que se venden en una ciudad en un día en particular. Durante los inviernos, muy pocos vendedores compraron botellas de jugo. De repente, en un día en particular, la temperatura subió y la demanda de botellas de jugo se elevó a 1000. Sin embargo, después de unos días, el clima se volvió a enfriar. Pero, sabiendo que la gente se acostumbró a beber jugo durante los días calurosos, había 50 personas todavía bebiendo jugo durante los días fríos. En los días siguientes, la proporción bajó a 25 (50 de 50) y luego gradualmente a un número pequeño después de un número significativo de días. El siguiente gráfico explica la propiedad de inercia de la serie AR: Moving Average Time Series El modelo Let8217s toma otro caso para entender el modelo de serie de tiempo medio móvil. Un fabricante produce un cierto tipo de bolsa, que estaba fácilmente disponible en el mercado. Siendo un mercado competitivo, la venta de la bolsa se mantuvo cero durante muchos días. Por lo tanto, un día hizo algunos experimentos con el diseño y produjo un tipo diferente de bolsa. Este tipo de bolsa no estaba disponible en ninguna parte del mercado. Por lo tanto, fue capaz de vender todo el stock de 1000 bolsas (vamos a llamar esto como x (t)). La demanda se hizo tan alta que la bolsa se agotó. Como resultado, unos 100 clientes extraños no pudieron comprar esta bolsa. Vamos a llamar a esta brecha como el error en ese punto de tiempo. Con el tiempo, la bolsa había perdido su factor woo. Pero aún quedaban pocos clientes que salieron con las manos vacías el día anterior. A continuación se presenta una formulación sencilla para representar el escenario: Si tratamos de trazar este gráfico, se verá algo como esto: Notó la diferencia entre el modelo MA y AR En el modelo MA, el ruido / shock rápidamente desaparece con el tiempo. El modelo AR tiene un efecto muy duradero del choque. Diferencia entre modelos AR y MA La diferencia primaria entre un modelo AR y MA se basa en la correlación entre objetos de series temporales en diferentes puntos temporales. La correlación entre x (t) y x (t-n) para n orden gt de MA es siempre cero. Esto fluye directamente del hecho de que la covarianza entre x (t) y x (t-n) es cero para los modelos MA (algo que nos referimos del ejemplo tomado en la sección anterior). Sin embargo, la correlación de x (t) y x (t-n) disminuye gradualmente con n cada vez mayor en el modelo de AR. Esta diferencia se explota independientemente de tener el modelo AR o modelo MA. El diagrama de correlación puede darnos el orden del modelo MA. Explotación de las parcelas ACF y PACF Una vez que tenemos la serie temporal estacionaria, debemos responder a dos preguntas principales: Q1. Es un proceso AR o MA Q2. Qué orden de AR o MA proceso que tenemos que utilizar El truco para resolver estas preguntas está disponible en la sección anterior. Didn8217t notar La primera pregunta puede ser respondida usando la Tabla de Correlación Total (también conocida como Función de Correlación Auto 8211 / ACF). ACF es una gráfica de la correlación total entre diferentes funciones de retraso. Por ejemplo, en el problema del PIB, el PIB en el momento t es x (t). Estamos interesados ​​en la correlación de x (t) con x (t-1). X (t-2) y así sucesivamente. Ahora vamos a reflexionar sobre lo que hemos aprendido anteriormente. En una serie de promedio móvil de retraso n, no obtendremos ninguna correlación entre x (t) y x (t 8211 n -1). Por lo tanto, el gráfico de correlación total corta en nth lag. Por lo tanto, es fácil encontrar el retraso para una serie de MA. Para una serie AR esta correlación disminuirá gradualmente sin ningún valor de corte. Entonces, qué hacemos si se trata de una serie AR Aquí está el segundo truco. Si descubrimos la correlación parcial de cada lag, se cortará después del grado de la serie AR. Por ejemplo, si tenemos una serie de AR (1), si excluimos el efecto del 1er lag (x (t-1)), nuestro segundo retraso (x (t-2)) es independiente de x (t). Por lo tanto, la función de correlación parcial (PACF) bajará bruscamente después del primer retardo. Los siguientes son ejemplos que aclararán cualquier duda que tenga sobre este concepto: La línea azul anterior muestra valores significativamente diferentes de cero. Claramente, el gráfico anterior tiene un corte en la curva PACF después del segundo retraso, lo que significa que esto es principalmente un proceso AR (2). Claramente, el gráfico anterior tiene un corte en la curva ACF después del segundo retraso, lo que significa que esto es principalmente un proceso de MA (2). Hasta ahora, hemos cubierto sobre cómo identificar el tipo de serie estacionaria utilizando parcelas ACF amp PACF. Ahora, le presentaré un marco completo para construir un modelo de series de tiempo. Además, we8217ll también discutirán sobre las aplicaciones prácticas del modelado de series temporales. 4. Marco y aplicación del modelo de series temporales ARIMA Una revisión rápida, Hasta aquí hemos aprendido los fundamentos del modelado en series de tiempo, series de tiempo en modelos R y ARMA. Ahora es el momento de unir estas piezas y hacer una historia interesante. Descripción del Marco Este marco (que se muestra a continuación) especifica el enfoque paso a paso en 8216 Cómo realizar un Análisis de Series Temporales 8216: Como sabrás, los tres primeros pasos ya se han discutido anteriormente. Sin embargo, lo mismo se ha delineado brevemente a continuación: Paso 1: Visualizar las series temporales Es esencial analizar las tendencias antes de construir cualquier tipo de modelo de serie temporal. Los detalles que nos interesan pertenecen a cualquier tipo de tendencia, estacionalidad o comportamiento aleatorio en la serie. Hemos cubierto esta parte en la segunda parte de esta serie. Paso 2: estacionarizar la serie Una vez que conozcamos los patrones, tendencias, ciclos y estacionalidad. Podemos comprobar si la serie es estacionaria o no. Dickey 8211 Fuller es una de las pruebas populares para comprobar lo mismo. Hemos cubierto esta prueba en la primera parte de esta serie de artículos. Esto doesn8217t termina aquí Qué pasa si la serie se encuentra a ser no estacionaria Hay tres técnicas comúnmente utilizadas para hacer una serie de tiempo estacionario: 1. Detrending. Aquí, simplemente eliminamos el componente de tendencia de la serie de tiempo. Por ejemplo, la ecuación de mi serie de tiempo es: Simplemente quite la parte entre paréntesis y construya el modelo para el resto. 2. Diferencia. Esta es la técnica comúnmente utilizada para eliminar la no estacionariedad. Aquí tratamos de modelar las diferencias de los términos y no el término real. Por ejemplo, esta diferenciación se llama como parte de la integración en AR (I) MA. Ahora, tenemos tres parámetros 3. Estacionalidad. La estacionalidad puede incorporarse fácilmente en el modelo ARIMA directamente. Más sobre esto se ha discutido en la parte de aplicaciones a continuación. Paso 3: Encontrar parámetros óptimos Los parámetros p, d, q se pueden encontrar usando gráficos ACF y PACF. Una adición a este enfoque puede ser, si tanto ACF y PACF disminuye gradualmente, indica que tenemos que hacer la serie temporal estacionaria e introducir un valor a 8220d8221. Paso 4: Construir Modelo ARIMA Con los parámetros en mano, ahora podemos intentar construir el modelo ARIMA. El valor encontrado en la sección anterior podría ser una estimación aproximada y necesitamos explorar más (p, d, q) combinaciones. El que tiene el menor BIC y AIC debe ser nuestra elección. También podemos probar algunos modelos con un componente estacional. Por si acaso, observamos cualquier estacionalidad en las parcelas ACF / PACF. Paso 5: Hacer predicciones Una vez que tengamos el modelo final de ARIMA, ahora estamos listos para hacer predicciones sobre los puntos de tiempo futuros. También podemos visualizar las tendencias para validar si el modelo funciona bien. Aplicaciones del modelo de series de tiempo Ahora, usamos el mismo ejemplo que hemos utilizado anteriormente. Luego, usando series de tiempo, haremos predicciones futuras. Le recomendamos que revise el ejemplo antes de continuar. Dónde empezamos? Sigue es la trama del número de pasajeros con años. Trate de hacer observaciones sobre esta trama antes de avanzar en el artículo. Aquí están mis observaciones: 1. Hay un componente de la tendencia que crece el pasajero año por año. 2. Parece que hay un componente estacional que tiene un ciclo menor de 12 meses. 3. La variación en los datos sigue aumentando con el tiempo. Sabemos que tenemos que abordar dos cuestiones antes de probar series estacionarias. Una, necesitamos eliminar variaciones desiguales. Hacemos esto usando el registro de la serie. Dos, necesitamos abordar el componente de tendencia. Hacemos esto tomando la diferencia de la serie. Ahora, vamos a probar la serie resultante. Prueba aumentada de Dickey-Fuller Vemos que la serie es bastante estacionaria para hacer cualquier clase de modelado de la serie del tiempo. El siguiente paso es encontrar los parámetros correctos que se utilizarán en el modelo ARIMA. Ya sabemos que el componente 8216d8217 es 1, ya que necesitamos una diferencia para hacer que la serie esté inmóvil. Lo hacemos utilizando los gráficos de Correlación. A continuación se muestran las gráficas ACF de la serie: Qué se ve en la tabla mostrada arriba? Claramente, la desintegración del gráfico ACF es muy lenta, lo que significa que la población no es estacionaria. Ya hemos discutido anteriormente que ahora tenemos la intención de retroceder en la diferencia de registros en lugar de registro directamente. Vean cómo la curva ACF y PACF salen después de regresar sobre la diferencia. Claramente, el corte ACF se corta después del primer retraso. Por lo tanto, entendemos que el valor de p debe ser 0 como el ACF es la curva de obtener un corte. Mientras que el valor de q debe ser 1 o 2. Después de algunas iteraciones, encontramos que (0,1,1) como (p, d, q) sale a ser la combinación con menos AIC y BIC. Let8217s caben un modelo de ARIMA y predicen los 10 años futuros. Además, intentaremos ajustar un componente estacional en la formulación ARIMA. Luego, vamos a visualizar la predicción junto con los datos de entrenamiento. Puede utilizar el siguiente código para hacer lo mismo: End Notes Con esto, llegamos a este final del tutorial sobre Modelado de series de tiempo. Espero que esto le ayudará a mejorar sus conocimientos para trabajar en datos basados ​​en el tiempo. Para obtener los máximos beneficios de este tutorial, I8217d sugiere que practique estos códigos R al lado y compruebe su progreso. Encontraste el artículo útil? Comparte con nosotros si has hecho un análisis similar antes. Háganos saber sus pensamientos acerca de este artículo en el cuadro de abajo. Si te gusta lo que acabas de leer, quieres continuar con tu aprendizaje analítico, suscríbete a nuestros correos electrónicos. Síganos en twitter o como nuestra página de Facebook. Compartir esto: Hola Tavish. En primer lugar, felicidades por su trabajo por aquí. Ha sido muy útil. Gracias, una duda y espero que me pueda ayudar. Realizé una prueba de Dickey-Fuller en la serie AirPassengers y diff (log (AirPassengers)) Aquí los resultados: Augmented Dickey-Fuller Datos de la prueba: diff (log (AirPassengers)) Dickey-Fuller -9.6003, orden Lag 0, valor-p 0.01 hipótesis alternativa: estacionaria Densidad aumentada Dickey-Fuller Datos de la prueba: diff (log) (AirPassengers) Dickey-Fuller -9.6003, orden Lag 0, p-value 0.01 hipótesis alternativa: En ambas pruebas obtuve un pequeño p-valor que me permite rechazar la hipótesis no estacionaria. Tengo razón? Si es así, la primera serie ya está estacionaria. Esto significa que si hubiera realizado una prueba estacionaria en la serie original, habría pasado al siguiente paso. Gracias de antemano. Ahora con los resultados correctos. Dickey-Fuller -9.6003, Orden Lag 0, p-value 0.01 hipótesis alternativa: estacionaria Dickey-Fuller aumentada Datos de la prueba: AirPassengers Dickey-Fuller -4.6392, P-value 0.01 hipótesis alternativa: estacionaria Sí, el adf. test (AirPassengers) indica que la serie es estacionaria. Esto es un poco engañoso. Motivo: Esta prueba primero hace una tendencia de tendencia en la serie, (es decir, elimina el componente de tendencia), luego comprueba la estacionariedad. Por lo tanto, señala la serie como estacionaria. Hay otra prueba en el paquete fUnitRoots. Por favor, pruebe este código: Inicie install. packages (8220fUnitRoots8221) Si ya ha instalado este paquete, puede omitir esta biblioteca de líneas (fUnitRoots) adfTest (AirPassengers) adfTest (log (AirPassengers)) adfTest Ayuda .. gracias Ram, tuve la misma pregunta que Hugo y su explicación me ayudó sólo quería señalar para el beneficio de cualquier otra persona mirando a esto que R es cap sensible, no se olvide de capitalizar el T en adfTest más su función no trabajará. Afortunadamente, la función auto. arima nos permite modelar series de tiempo bastante bien aunque es muy útil conocer los fundamentos. He aquí un código que escribí en los mismos datos Hola, después de ejecutar este pred lt - predicen (APmodel, n. ahead1012) echar un vistazo a 039pred039 Es una lista de 2 (pred y se 8211 supongo que son predicciones y errores .) Yo sugeriría usar un nombre que no sea pred en la función de predicción para evitar la confusión. Utilicé el siguiente APforecast lt - predict (APmodel, n. ahead1012) Así que APforecast es una lista de pred y se y necesitamos trazar los valores pred. Es decir APforecastpred También hicimos el arima en el registro de AirPassengers, por lo que el pronóstico que tenemos es en realidad registro de la verdadera previsión. Por lo tanto, necesitamos encontrar el log inverso de lo que tenemos. es decir. 2.718 Si encuentras esa confusión, sugeriría leer en logaritmos naturales y su inverso el log quoty039 es trazar en una escala logarítmica 8211 esto no es necesario, intenta la función sin ella y Con y observar los resultados. El lty bit que no he descubierto todavía. Suéltalo y pruebe el ts. plot, funciona bien. Hey Amy, ts. plot () representará varias series de tiempo en la misma parcela. Las dos primeras entradas son las dos series de tiempo he8217s que trazan. Las dos últimas entradas son buenos parámetros visuales (we8217ll volver a eso). Claramente, esto traza la serie de tiempo AirPassengers en una línea oscura, continua. La segunda entrada es también una serie de tiempo, pero es un poco más confuso: 8221 2.718predpred8221. En primer lugar, usted tiene que saber lo que predpred es. La función predict () aquí es una función genérica que funcionará de manera diferente para diferentes clases conectadas a ella (lo dice si escribe predecir). La clase con la que trabajamos es una clase de Arima. Si escribe predict. Arima encontrará una buena descripción de la función. Predict. Arima () escupe algo con una parte 8220pred8221 (para predecir) y una 8220se8221 parte (para error estándar). Queremos la parte 8220pred8221, por lo tanto predpred. Así, predpred es una serie de tiempo. Ahora, 2.718predpred es también. Tienes que recordar que 2.718 es aproximadamente la constante e, y entonces esto tiene sentido. He8217s acaba de deshacer el registro que colocó en los datos cuando creó 8220fit8221. En cuanto a los dos últimos parámetros, el registro 8220y8221 establece el eje y para estar en una escala logarítmica. Y finalmente, lty c (1,3) establecerá el LineTYpe a 1 (para sólidos) para la serie temporal original y 3 (para punteado) para la serie temporal prevista. Hey Tavish, realmente disfrutó el contenido, Sólo una pequeña duda: Puede por favor ebaorate la covarianza en términos estacionarios. Entiendo el término de covarianza, pero aquí en la serie de tiempo, no viene a mi mente. Puede por favor ayudarme a entender la tercera condición de la serie estacionaria, es decir, 8220La covarianza del i-ésimo término y el (im) término th no debe ser una función del tiempo.8221 Por favor, ayúdame a entender desde la perspectiva de los datos, por ejemplo, si tengo datos de ventas para Cada fecha. Cómo se puede explicar la convivencia en el ejemplo de la vida real con datos de ventas diarias. Parth Gera dice: Hola Tavish, muchas gracias. Este artículo fue de gran ayuda. Acabo de tener una edición pequeña. Después del último paso, si quiero extraer los valores previstos de la curva. Cómo lo hacemos? Usted obtiene los valores predichos de la variable pred. Pred es una lista con dos elementos: pred y se. (Predicción y error estándar). Para ver las predicciones, utilice este comando: print (predpred) Parth Gera dice: Hola Ram, Gracias por su ayuda. Sí, print (predpred) nos daría un registro de los valores predichos. Print (2.718predpred) nos daría los valores reales previstos. Gracias Sí, si usas 8216log8217 al crear el modelo, usarás antilog o exponente para obtener los valores predichos. Si crea un modelo sin la función de registro, no utilizará exponente para obtener los valores predichos cómo extraer los datos de los valores previstos y reales de R hello, los datos que utilizó en su tutorial, AirPassengers, ya son una serie de tiempo objeto. Mi pregunta es: CÓMO puedo hacer / preparar mi propia serie de tiempo. Actualmente tengo un conjunto de datos históricos de cambio de divisas, siendo la primera columna la fecha y el resto 20 columnas están tituladas por país y sus valores son el tipo de cambio. Después de convertir mi columna de fecha en objeto de fecha, cuando utilizo los mismos comandos utilizados en su tutorial, los resultados son divertidos. Por ejemplo, start (dataDate) me dará un resultado de: 1 1 1 y la frecuencia (dataDate) volverá: 1 1 puede explicar por favor cómo preparar nuestros datos en consecuencia para que podamos utilizar las funciones gracias Si escribe ts Entonces usted debe estar en su camino. Sólo necesita una serie de tiempo (única), una frecuencia y una fecha de inicio. Los ejemplos en la parte inferior de la documentación deben ser muy útiles. Por ejemplo, si sus datos comenzaron el 153 día de 1980.2.1 Modelos de media móvil (modelos MA) Los modelos de series de tiempo conocidos como modelos ARIMA pueden Incluyen términos autorregresivos y / o términos de media móvil. En la semana 1, aprendimos un término autorregresivo en un modelo de series de tiempo para la variable x t es un valor retrasado de x t. Por ejemplo, un término autorregresivo de retardo 1 es x t-1 (multiplicado por un coeficiente). Esta lección define los términos del promedio móvil. Un término medio móvil en un modelo de serie temporal es un error pasado (multiplicado por un coeficiente). Dejamos (wt desbordamiento N (0, sigma2w)), lo que significa que los w t son idéntica, independientemente distribuidos, cada uno con una distribución normal que tiene la media 0 y la misma varianza. El modelo de media móvil de primer orden, denotado por MA (1) es (xt mu wt theta1w) El modelo de media móvil de segundo orden, denotado por MA (2) es (xt mu wt theta1w theta2w) , Denotado por MA (q) es (xt mu wt theta1w theta2w puntos thetaqw) Nota. Muchos libros de texto y programas de software definen el modelo con signos negativos antes de los términos. Esto no cambia las propiedades teóricas generales del modelo, si bien cambia los signos algebraicos de los valores estimados de los coeficientes y los términos (no cuadrados) en las fórmulas para ACF y las varianzas. Usted necesita comprobar su software para verificar si los signos negativos o positivos se han utilizado con el fin de escribir correctamente el modelo estimado. R utiliza signos positivos en su modelo subyacente, como lo hacemos aquí. Propiedades teóricas de una serie temporal con un modelo MA (1) Tenga en cuenta que el único valor distinto de cero en el ACF teórico es para el retardo 1. Todas las demás autocorrelaciones son 0. Por lo tanto, una muestra de ACF con una autocorrelación significativa sólo con el retardo 1 es un indicador de un posible modelo MA (1). Para los estudiantes interesados, las pruebas de estas propiedades son un apéndice a este folleto. Ejemplo 1 Supongamos que un modelo MA (1) es x t 10 w t .7 w t-1. Donde (wt overset N (0,1)). Así, el coeficiente 1 0,7. El ACF teórico se da por un diagrama de esta ACF sigue. La gráfica que se muestra es la ACF teórica para una MA (1) con 1 0,7. En la práctica, una muestra no suele proporcionar un patrón tan claro. Utilizando R, simulamos n 100 valores de muestra utilizando el modelo x t 10 w t .7 w t-1 donde w t iid N (0,1). Para esta simulación, sigue un diagrama de series de tiempo de los datos de la muestra. No podemos decir mucho de esta trama. A continuación se muestra el ACF de muestra para los datos simulados. Observamos un pico en el retraso 1 seguido por valores generalmente no significativos para los retrasos de 1. Obsérvese que la muestra ACF no coincide con el patrón teórico del MA subyacente (1), que es que todas las autocorrelaciones para los retrasos de 1 serán 0.Una muestra diferente tendría una ACF de muestra ligeramente diferente mostrada abajo, pero probablemente tendría las mismas características amplias. Propiedades Terapéuticas de una Serie de Tiempo con un Modelo MA (2) Para el modelo MA (2), las propiedades teóricas son las siguientes: Obsérvese que los únicos valores distintos de cero en la ACF teórica son para los retornos 1 y 2. Las autocorrelaciones para retardos mayores son 0 . Por lo tanto, una muestra de ACF con autocorrelaciones significativas en los intervalos 1 y 2, pero autocorrelaciones no significativas para retardos mayores, indica un posible modelo MA (2). Iid N (0,1). Los coeficientes son 1 0,5 y 2 0,3. Dado que se trata de una MA (2), la ACF teórica tendrá valores distintos de cero sólo en los retornos 1 y 2. Los valores de las dos autocorrelaciones distintas de cero son: Un gráfico de la ACF teórica sigue. Como casi siempre es el caso, los datos de la muestra no se comportarán tan perfectamente como la teoría. Se simularon 150 valores de muestra para el modelo x t 10 w t .5 w t-1 .3 w t-2. Donde w t iid N (0,1). A continuación se muestra el gráfico de la serie de tiempo de los datos. Al igual que con el gráfico de la serie de tiempo para los datos de la muestra MA (1), no se puede decir mucho de ella. A continuación se muestra el ACF de muestra para los datos simulados. El patrón es típico para situaciones donde un modelo MA (2) puede ser útil. Hay dos picos estadísticamente significativos en los intervalos 1 y 2, seguidos de valores no significativos para otros desfases. Tenga en cuenta que debido al error de muestreo, la muestra ACF no coincide exactamente con el patrón teórico. ACF para modelos MA (q) Una propiedad de los modelos MA (q) en general es que hay autocorrelaciones no nulas para los primeros q retrasos y autocorrelaciones 0 para todos los retrasos gt q. No unicidad de la conexión entre los valores de 1 y (rho1) en MA (1) Modelo. En el modelo MA (1), para cualquier valor de 1. El 1/1 recíproco da el mismo valor para. Por ejemplo, use 0.5 para 1. Y luego utilice 1 / (0,5) 2 para 1. Youll get (rho1) 0.4 en ambos casos. Para satisfacer una restricción teórica llamada invertibilidad. Limitamos los modelos MA (1) a tener valores con valor absoluto menor que 1. En el ejemplo dado, 1 0,5 será un valor de parámetro permisible, mientras que 1 1 / 0,5 2 no. Invertibilidad de los modelos MA Se dice que un modelo MA es invertible si es algebraicamente equivalente a un modelo de orden infinito convergente. Al converger, queremos decir que los coeficientes de AR disminuyen a 0 a medida que retrocedemos en el tiempo. Invertibilidad es una restricción programada en el software de la serie de tiempo usado para estimar los coeficientes de modelos con términos de MA. No es algo que buscamos en el análisis de datos. En el apéndice se proporciona información adicional sobre la restricción de la invertibilidad para los modelos MA (1). Nota de Teoría Avanzada. Para un modelo MA (q) con un ACF especificado, sólo hay un modelo invertible. La condición necesaria para la invertibilidad es que los coeficientes tienen valores tales que la ecuación 1- 1 y-. - q y q 0 tiene soluciones para y que caen fuera del círculo unitario. Código R para los Ejemplos En el Ejemplo 1, se representó la ACF teórica del modelo x $ _ {t} $ w $ _ {t} $. 7w t - 1. Y luego se simularon 150 valores de este modelo y se representaron las series de tiempo de muestra y la muestra ACF para los datos simulados. Los comandos R utilizados para trazar el ACF teórico fueron: acfma1ARMAacf (mac (0.7), lag. max10) 10 retardos de ACF para MA (1) con theta1 0.7 lags0: 10 crea una variable llamada lags que oscila entre 0 y 10. plot Abline (h0) añade un eje horizontal al diagrama El primer comando determina el ACF y lo almacena en un objeto (a0) Llamado acfma1 (nuestra elección de nombre). El comando plot (el 3er comando) traza retrasos en comparación con los valores ACF para los retornos 1 a 10. El parámetro ylab etiqueta el eje y y el parámetro principal coloca un título en la gráfica. Para ver los valores numéricos de la ACF simplemente utilice el comando acfma1. La simulación y las parcelas se realizaron con los siguientes comandos. Xcarzim. sim (n150, lista (mac (0.7))) Simula n 150 valores de MA (1) xxc10 agrega 10 para hacer la media 10. La simulación predeterminada significa 0. plot (x, typeb, mainSimulated MA (1) data) (X, xlimc (1,10), mainACF para datos de muestra simulados) En el Ejemplo 2, se representó el ACF teórico del modelo xt 10 wt. 5 w t-1 .3 w t-2. Y luego se simularon 150 valores de este modelo y se representaron las series de tiempo de muestra y la muestra ACF para los datos simulados. Los comandos R utilizados fueron acfma2ARMAacf (mac (0.5.0.3), lag. max10) acfma2 lags0: 10 trama (lags, acfma2, xlimc (1,10), ylabr, typeh, ACF principal para MA (2) con theta1 0,5, (X, typeb, principal serie MA simulado) acf (x, xlimc (1,10), x2) (1) Para los estudiantes interesados, aquí hay pruebas de las propiedades teóricas del modelo MA (1). Cuando x 1, la expresión anterior 1 w 2. Para cualquier h 2, la expresión anterior 0 (x) La razón es que, por definición de independencia del peso. E (w k w j) 0 para cualquier k j. Además, debido a que w t tiene una media 0, E (w j w j) E (w j 2) w 2. Para una serie de tiempo, aplique este resultado para obtener la ACF indicada anteriormente. Un modelo inversible MA es uno que puede ser escrito como un modelo de orden infinito AR que converge para que los coeficientes AR convergen a 0 a medida que avanzamos infinitamente en el tiempo. Bien demostrar invertibilidad para el modelo MA (1). A continuación, sustituimos la relación (2) de wt-1 en la ecuación (1) (3) (zt wt theta1 (z-theta1w) wt theta1z - theta2w) En el momento t-2. La ecuación (2) es entonces sustituimos la relación (4) por w t-2 en la ecuación (3) (zt wt theta1 z - theta21w wt theta1z - theta21 (z - theta1w) wt theta1z - theta12z theta31w) Si continuáramos Sin embargo, si 1 1, los coeficientes que multiplican los retrasos de z aumentarán (infinitamente) en tamaño a medida que retrocedemos hacia atrás hora. Para evitar esto, necesitamos 1 lt1. Esta es la condición para un modelo de MA (1) invertible. Infinite Order MA model En la semana 3, veamos bien que un modelo AR (1) puede convertirse en un modelo de orden infinito MA: (xt - mu wt phi1w phi21w puntos phik1 w dots sum phij1w) Esta suma de términos de ruido blanco pasado es conocida Como la representación causal de un AR (1). En otras palabras, x t es un tipo especial de MA con un número infinito de términos remontándose en el tiempo. Esto se llama un orden infinito MA o MA (). Una orden finita MA es un orden infinito AR y cualquier orden finito AR es un orden infinito MA. Recordemos en la semana 1, observamos que un requisito para un AR estacionario (1) es que 1 lt1. Vamos a calcular el Var (x t) utilizando la representación causal. Este último paso utiliza un hecho básico sobre series geométricas que requiere (phi1lt1) de lo contrario la serie diverge. En la segunda columna de esta tabla, se muestra una media móvil de orden 5, proporcionando una estimación del ciclo de tendencias. El primer valor en esta columna es el promedio de las cinco primeras observaciones (1989-1993), el segundo valor en la columna 5-MA es el promedio de los valores 1990-1994 y así sucesivamente. Cada valor en la columna 5-MA es el promedio de las observaciones en el período de cinco años centrado en el año correspondiente. No hay valores para los dos primeros años o los últimos dos años porque no tenemos dos observaciones a cada lado. En la fórmula anterior, la columna 5-MA contiene los valores de hat con k2. Para ver cómo se ve la estimación de tendencia-ciclo, lo trazamos junto con los datos originales en la Figura 6.7. Parcela 40 elecsales, principal quotResidential ventas de electricidad, ylab quotGWhquot. Observe cómo la tendencia (en rojo) es más suave que los datos originales y captura el movimiento principal de la serie temporal sin todas las fluctuaciones menores. El método del promedio móvil no permite estimaciones de T donde t está cerca de los extremos de la serie, por lo tanto la línea roja no se extiende a los bordes de la gráfica en cualquier lado. Posteriormente utilizaremos métodos más sofisticados de estimación de tendencia-ciclo que permiten estimaciones cerca de los puntos finales. El orden de la media móvil determina la suavidad de la estimación de tendencia-ciclo. En general, una orden más grande significa una curva más lisa. El siguiente gráfico muestra el efecto de cambiar el orden de la media móvil para los datos de ventas de electricidad residencial. Esto es así que son simétricos: en una media móvil de orden m2k1, hay k observaciones anteriores, k observaciones posteriores y la observación media Que se promedian. Pero si m era igual, ya no sería simétrico. Promedios móviles de promedios móviles Es posible aplicar una media móvil a una media móvil. Una de las razones para hacer esto es hacer una media móvil de orden uniforme simétrica. Por ejemplo, podríamos tomar una media móvil de orden 4, y luego aplicar otra media móvil de orden 2 a los resultados. En la Tabla 6.2, esto se ha hecho para los primeros años de los datos trimestrales australianos sobre la producción de cerveza. Beer2 lt - window 40 ausbeer, inicio 1992 41 ma4 ltm 40 beer2, order 4. center FALSO 41 ma2x4 ltm 40 cerveza2, orden 4. center TRUE 41 La notación 2times4-MA en la última columna significa un 4-MA Seguido por un 2-MA. Los valores de la última columna se obtienen tomando una media móvil de orden 2 de los valores de la columna anterior. Por ejemplo, los dos primeros valores en la columna 4-MA son 451,2 (443410420532) / 4 y 448,8 (410420532433) / 4. El primer valor en la columna 2times4-MA es el promedio de estos dos: 450.0 (451.2448.8) / 2. Cuando un 2-MA sigue una media móvil de orden par (como 4), se llama una media móvil centrada de orden 4. Esto se debe a que los resultados son ahora simétricos. Para ver que este es el caso, podemos escribir el 2times4-MA de la siguiente manera: begin hat amp frac Bigfrac (y y y y) frac (y y y y) Big frac fray frac14y frac14y frac14y frac18y. Final Es ahora un promedio ponderado de observaciones, pero es simétrico. También son posibles otras combinaciones de promedios móviles. Por ejemplo, a menudo se utiliza una MA 3 x 3 y consiste en una media móvil de orden 3 seguida por otra media móvil de orden 3. En general, un orden par MA debe ir seguido de un orden par MA para hacerlo simétrico. Similarmente, un orden impar MA debe ser seguido por un orden impar MA. Estimación del ciclo de tendencias con datos estacionales El uso más común de promedios móviles centrados consiste en estimar el ciclo de tendencias a partir de datos estacionales. Considere el caso 2 x 4-MA: fractura de sombrero frac14y frac14y frac14y frac18y. Cuando se aplica a los datos trimestrales, cada trimestre del año se le da el mismo peso como el primer y último términos se aplican al mismo trimestre en años consecutivos. En consecuencia, se promediará la variación estacional y los valores resultantes del sombrero t tendrán poca o ninguna variación estacional restante. Se obtendría un efecto similar usando una 2-8 MA o una 2-12 MA. En general, una m-MA de 2 veces es equivalente a una media móvil ponderada de orden m1 con todas las observaciones tomando peso 1 / m excepto para el primer y último término que toman pesos 1 / (2m). Por lo tanto, si el período estacional es uniforme y de orden m, utilice una m-MA de 2 veces para estimar el ciclo de tendencia. Si el período estacional es impar y de orden m, use un m-MA para estimar el ciclo de tendencias. En particular, se puede usar un 2-12 MA para estimar el ciclo de tendencias de los datos mensuales y un 7-MA se puede utilizar para estimar el ciclo de tendencias de los datos diarios. Otras opciones para el orden de la MA por lo general resultarán en estimaciones de tendencia-ciclo que están contaminadas por la estacionalidad en los datos. Ejemplo 6.2 Fabricación de equipos eléctricos La Figura 6.9 muestra una aplicación de 2 x 12 mA aplicada al índice de pedidos de equipos eléctricos. Obsérvese que la línea lisa no muestra estacionalidad, es casi la misma que la tendencia-ciclo que se muestra en la Figura 6.2 que se estimó usando un método mucho más sofisticado que los promedios móviles. Cualquier otra opción para el orden de la media móvil (excepto 24, 36, etc.) habría resultado en una línea suave que muestra algunas fluctuaciones estacionales. Plot 40 elecequip, ylab quotNuevo índice de órdenes. Col quotgrayquot, main Quot 41, 40 ma 40 elecequip, order 12 41. col quotredquot 41 Promedios móviles ponderados Las combinaciones de promedios móviles resultan en promedios móviles ponderados. Por ejemplo, el 2x4-MA discutido anteriormente es equivalente a un 5-MA ponderado con pesos dados por frac, frac, frac, frac, frac. En general, una m-MA ponderada se puede escribir como hat t sum k aj y, donde k (m-1) / 2 y los pesos están dados por a, dots, ak. Es importante que los pesos se suman a uno y que sean simétricos de modo que aj a. El m-MA simple es un caso especial donde todos los pesos son iguales a 1 / m. Una ventaja importante de las medias móviles ponderadas es que producen una estimación más suave del ciclo de tendencias. En lugar de las observaciones que entran y salen del cálculo a peso completo, sus pesos aumentan lentamente y luego disminuyen lentamente, dando como resultado una curva más lisa. Algunos conjuntos específicos de pesos son ampliamente utilizados. Algunos de ellos se dan en la Tabla 6.3.

No comments:

Post a Comment