Application research of time series analysis in the cpi

Page 1

Scientific Journal of Information Engineering April 2015, Volume 5, Issue 2, PP.39-45

Application Research of Time Series Analysis in the CPI Wei Kong, Zhe Yin # Mathematics Department, Yanbian University, Yanji 133002, China #

Email:yinzhe@ybu.edu.cn

Abstract In the analysis of financial data, the consumer price index CPI is an important measure of the price level, especially to measure the extent of a country’s inflation, thus accurately predicts the future trend of CPI is very important. Through the study of the classical time series analysis method and found to be built on the basis of certain assumptions, while the CPI data usually does not meet these assumptions, the Fourier transform and wavelet analysis is introduced to the time series data processing, data decomposition and reconstruction, combined with classical time series forecasting model, and compared the fore-and-aft introduction of wavelet analysis, and then come to a high prediction accuracy of the model. Keywords: Wavelet Analysis; CPI; Fourier Transforming; Wavelet Analysis; Predicate

时间序列分析在 CPI 中的应用研究 孔威,尹哲

#

延边大学 理学院数学系,吉林 延吉,133002 摘 要:在金融数据分析中,居民消费物价指数 CPI,是衡量物价水平的重要指标,特别是衡量一国通货膨胀的程度,因 此准确预测 CPI 未来的走势就非常重要。本文通过对经典时间序列分析方法的研究,发现是建立在一定的假设的基础 上,而 CPI 数据通常不能完全满足这些假设,把傅里叶变换和小波分析引入到对时间序列数据的处理上,对数据进行分 解和重构,结合经典的时间序列模型进行预测,并对引入后与不引入进行比较,进而得出预测精度较高的模型。 关键词:时间序列分析;CPI 傅里叶变换;小波分析;预测

引言 CPI,居民消费物价指数,是反映一组代表性商品和服务项目价格水平变化趋势和变动幅度的统计指 标,以零售量或居民消费量为权数,反映居民家庭生活消费品和服务价格水平的情况[1]。CPI 可以观察和分 析价格水平变动对货币工资的影响,按年度计算的变动率通常作为衡量通货膨胀的指标。一般来说,以百分 比为表达形式,当 CPI  3% 的增速时称为通货膨胀,而当 CPI  5% 的增速时称为严重的通货膨胀。通货膨 胀是经济学研究的重要问题之一,也是影响现实生活的重要因素[2]。通货膨胀的高低,直接关系着经济政策 的方向、公司决策和人民的方方面面。基于 CPI 对我们经济生活的重要性,准确预测 CPI 未来的走势成为很 多学者研究的目标[3]。 本文主要从经典的时间序列分析模型入手,介绍了相关的理论知识,从这些理论知识中,找到经典模型 的不足之处,主要是数据的随机性、不满足正态性、不平稳性导致了经典模型预测的精度不高。本文采用傅 里叶变换和小波分析对时间序列数据进行分解重构,进而再结合经典的模型,建立相应的时间序列分析模 型。最后,以吉林省为例,利用这些模型,建立吉林省 CPI 时间序列模型,进而优化出最佳模型,分析 CPI #

通讯作者 - 39 http://www.sjie.org


变化的规律。

1

经典的时间序列分析模型 拿到一个观察序列后,首先要对他的平稳性和纯随机性进行检验,这两个主要的检验称之为数据的预

处理。根据检验的结果可以将序列分为不同的类型,对不同类型的序列会采用不同的分析方法[4]。

1.1

数据的预处理 平稳性是某些时间序列具有的一种统计特征,得到一个观察值之后,首先要对他进行平稳性检验。 定义 1 设  X t  满足如下三个条件: 对 t  T  X t  ,有 EX t2   ;

对 t  T ,有 EX t   ,  为常数;

对 t , s, k T ,且 k  s  t T ,有  (t , s)   (k , k  s  t ) ;则称  X t  为平稳时间序列。 对序列的平稳性有两种检验方法,一种是根据时序图和自相关图显示的特征做出判断的图检验方法,一 种是构造检验统计量进行假设检验的方法。通常我们都选用图检验方法检验序列平稳性并用单位根统计检 验法加以辅助[5]。 定义 2 若时间序列  X t  满足如下性质: 任取 t  T ,有 EX t   ;  2 , t  s 任取 t , s  T ,有  ( s, t )    0, t  s

则称序列  X t  为纯随机序列,也称为白噪声序列,简记为 X t

WN ( , 2 ) 。

纯随机性检验也称为白噪声检验,是专门用来检验序列是否为纯随机序列的一种方法。一般都是通过 构造检验统计量来检验序列的纯随机性。假设条件[3]如下: H0 : 1  2 

 m  0, m  0

H1 : 至少存在某个k  0, m  1, k  m

为了检验这个联合假设,Box 和 Ljung 提出了 LB 统计量[4],也称为 QLB 统计量: m ˆ 2 QLB  n(n  2) ( k )  2 (m), m  0 k 1 n  k

1.2

平稳时间序列分析 当一个序列经过与处理被识别为平稳非白噪声序列,那就说明该序列是一个蕴含着相关信息的平稳序

列。ARMA 模型是目前最常用的平稳序列拟合模型[4]。 定义 3 把具有下列结构的模型称为自回归移动平均模型,简记为 ARMA( p, q) :  x  0  1 xt 1    p xt  p   t  1 t 1    q t  q   p  0, q  0   E ( t )  0,Var ( t )   2 , E ( t  s )  0, s  t   E ( xs  t )  0, s  t 引进延迟算子,则 ARMA( p, q) 模型可简记为: ( B) xt  ( B) t 式中, ( B)  1  1 B  ( B)  1  1 B 

  p B p ,为 p 阶自回归系数多项式。  q Bq ,为 q 阶移动平均系数多项式。

显然,当 q  0 时, ARMA( p, q) 模型就退化成了 AR( p) 模型,当 p  0 时, ARMA( p, q) 模型则退化成了 MA(q) 模型。

如果某个观察值序列通过预处理判定为平稳非白噪声序列,那么就可以利用模型对该序列建模,建模 - 40 http://www.sjie.org


的基本步骤如下:1)求出该观察值序列的样本自相关系数和样本偏自相关系数的值。2)依据样本自相关 系数和偏自相关系数的性质,选择阶数适当的 ARMA( p, q) 模型进行拟合。3)估计模型中未知参数的值。 4)检验模型的有效性。如果拟合模型通不过检验,转向步骤(2),重新选择模型进行拟合。5)模型优 化。如果拟合模型通过检验,仍然转向步骤(2),充分考虑各种可能,建立多个拟合模型,从所有通过检 验的拟合模型中选择最优模型。6)利用拟合模型,预测序列的将来走势。

1.3

非平稳时间序列分析 实际应用中大多数序列是非平稳的,常使用的模型是 ARIMA 模型。 设 X t 为随机序列,若满足一下条件:对任意 t , E X t   ;存在正整数 d ,使得 2

Ed X t  0 ,令 zt  d X , t  d

其中, zt 为 ARMA  p, q  序列,既满足   B  zt    B   t 。则 X t 满足

  B  d X t    B   t

则称此模型为自回归求和移动平均模型,记为 ARIMA  p, d , q  模型。其中  表示差分算子。

2

傅里叶分析与小波理论[6] 对于给定的实数或复数序列  f0 , f1 , f2 ,

, f N 1 ,称序列 Dn  :

N 1

Dn   f k e

2 ink N

n  0,1, 2,

, N 1

k 0

为序列  f k  的离散 Fourier 变换。相应的,有 fn 

1 N 1 2 ink  Dn e N N n 0

k  0,1,

, N 1

即序列 Dn  的逆离散 Fourier 变换。 定义 4 设 (t )  L2 ( R) , L2 ( R) 为平方可积实数空间,ˆ ( ) 是其傅里叶变换,若ˆ ( ) 满足容许性条件

ˆ ( ) d   R  2

C  

则 (t ) 被称为母小波函数。把母小波函数 (t ) 伸缩 a 尺度和 b 平移后可得, 1 t b  a ,b (t )   a , b  R, a  0  a  a  这就是一个小波序列。 离散小波分析就是提取重要的离散尺度点,就可以既保证大部分原始信息的提取,又可以减少计算量 和信息冗余。 尺度离散化最常用的是对尺度进行幂级数离散,幂级数离散化是非常高效的离散方法。即令尺度 a  a0m , m  1, 2,

a  a0m , m  1, 2, 。由于尺度和频率成反比,频率与抽样间隔成反比,则尺度增大 a0m 倍

时,频率降低 a0m 倍,故而抽样间隔扩大 a0m 倍。则设定平移因子 bn  nb0 a0m , n  Z ,于是有 m   t  nb0 a0m  m  a  0 2  a0 t  nb0  m a 0   其中, a0  1, b0  0 ,则根据小波变换的定义,任意信号 f (t ) 离散小波变换为 

m

 m,n (a, b)  a0 2 

m

W f (m, n)  a0 2  f (t ) m, n  a0 mt  nb0  dt 

R

离散小波的重构公式为 

f (t )  cW f (m, n) m,n (t )  

其中, c 为常数。 - 41 http://www.sjie.org


多分辨分析是指在函数空间 L2 ( R) 内,在不同尺度上把函数 f 变换为一系列近似函数的极限,每个近似 函数都是 f 的平滑,并且具有越来越细的近似函数,反过来,可以通过一定方式重构原信号。 定义 5 空间 L2 ( R) 内的多分辨分析是指 L2 ( R) 空间中满足如下条件的空间序列 U i iZ ; (1)一致单调性: Ui  Ui 1 , i  Z ; (2)逼近性:

iZ

U i  0,

iZ

U i  L2 ( R) ;

(3)伸缩性: f (t ) U i ,当且仅当 f (2t ) Ui 1 , i  Z ;

(4)平移不变性:对 i  Z ,有  2i /2 t  U i ,则  2i /2 t  n  U i ;

(5)存在函数  U 0 ,对所有 m  Z ,m,n (t )  2 m/2   2 m/2 t  n  构成 U i 的无条件基。其中,  (t ) 为尺度 函数,且函数 m.n (t ) 是规范正交基。 基于多分辨分析,可把信号分解成近似部分和细节部分。近似部分是信号的粗略、低频的成分,细节 部分是信号局部、高频的成分。然后,近似部分在不断的分解,就形成信号的多层分解 [7]。若用 A 表示近 似, D 表示细节部分,数字表示分解层数, S 表示原信号,则分解具体关系如下: S  A1  D1

 A2  D2  D1

第一层分解 第二层分解

 A3  D3  D2  D1 第三层分解

小波分解是为了研究信号的特性,但分解只是研究手段而不是研究目的。小波分析的另一个重要方面 是在分析、比较和处理小波变换系数后,根据新的系数去重构信号,实现研究目的。这个过程叫小波变 换,一般而言就是逃离散小波变换。重构过程是分解过程的还原,即通过对小波分解后得到的系数进行重 构。小波重构主要对小波变换系数进行插值和滤波,正好和小波分解相反。还以三层为例,重构的基本关 系如下: D1  D2  D3  A3  S

小波分解的层数增多,小波分解的特性是越往下分解,信号的频率段划分就越细,细节信号和逼近信 号的平滑性和平稳性也越好。但是由于在分解过程中必然会存在计算上的误差,分解层数越多,误差越 大,计算上的误差会带到预测的误差中,使预测精度下降,所以分解层数一般可以选择 3 到 5 层。

3

吉林省 CPI 数据的实证研究 下面选取吉林省近 20 年的 CPI 数据分别建立相应的模型,然后比较各模型预测的准确性。

3.1

模型预测的评价指标 对于时间序列模型,预测结果的指标很多,常用三个指标来比较模型预测结果的误差大小。用 yi 表示

真实值, g i 表示预测值,则三个常用指标表示如下: 均方根误差 RMSE: RMSE  平均绝对误差 MAE: MAE 

Theil 不相等系数: U 

1 N 2   yi  gi  N i 1 1 N  yi  gi N i 1

1 N 2   yi  gi  N i 1 1 N 2  yi  N i 1

1 N 2  gi N i 1

对于 RMSE 结果越小,表示预测值 g i 和真实值 yi 越接近,预测准确度越高,但是其和预测值 g i 和真实 值 yi 本身的大小有关;MAE 结果越小,表示预测值 g i 和真实值 yi 越接近,预测准确度越高,但是其和预测 值 g i 和真实值 yi 本身的大小有关;当 U  1 时,表示预测值 g i 和真实值 yi 相差很大,即模型预测准确度最 - 42 http://www.sjie.org


差;当 U  0 时,表示预测值 g i 和真实值 yi 相等,即模型预测最准确。故 U 的结果越接近 0 ,模型预测准 确。

3.2

建立经典的时间序列模型 在建立模型之前,首先检验 CPI 序列的平稳性,选择自相关函数图形检验和单位根 ADF 检验法来检验

序列的平稳性。

图 1 CPI 序列时序图 表 1 单位根检验结果 类型

 检验统计量的值

Pr  

-0.60

0.4542

1

-0.52

0.4899

2

-0.46

0.5133

-3.02

0.0351

1

-3.41

0.0117

2

-2.99

0.0380

-3.36

0.0591

1

-3.77

0.0203

2

-3.35

0.0611

延迟阶数 0

无均值、无趋势项模型

0 有均值、无趋势项模型

0 有均值、有趋势项模型

检验结果显示,无论考虑何种类型的模型,  检验统计量的 P 值均显著大于  (  0.05) ,所以可以认 为 CPI 序列显著非平稳。 对序列进行差分运算,经过反复的实验运算,发现一阶差分运算的平稳性和白噪声检验比较的显著, CPI 序列通过上述差分后,可以建立平稳的时间序列模型了。最终建立 ARIMA(2, 2) 型,具体形式为: X t  0.62868 X t 1  0.93017 X t 2  0.84773 t 2  0.52001 t 1   t

模型 ARIMA(2, 2) 参数估计及有效性检验后,利用其进行预测,得到 3 期的 CPI 预测值。 表 2 预测结果 年月

预测值

Dec-13 Jan-14 Feb-14

95%置信区间 下限

上限

102.8718

101.253

104.4905

102.956

100.5391

105.3729

102.9422

99.9455

105.939

- 43 http://www.sjie.org


3.3

基于傅里叶变换的 CPI 序列分析 本节首先对 CPI 数据进行傅里叶变换,得到一个复数的序列,提取复数序列各个数据的实部部分和虚

部部分分别用经典的时间序列去分析预测,得到预测数据,再使用傅里叶变换的逆变换对预测数据进行逆 处理,进而得到预测值。 使用 matlab 软件[8]对原 CPI 序列进行快速傅里叶变换,提取出复数序列的实部和虚部的建立经典的时间 序列模型如下,其中: 实部建立的是 ARMA(3,3)模型, Rt  109.7649  1.12504Rt 1  0.40145Rt 2  0.27246Rt 3  0.43704 t 3  0.0526 t 2  0.98051 t 1   t

虚部建立的是 ARMA(4,4)模型, It  0.68687It 1  0.7741It 2  0.59759It 3  0.7251It 4  0.47695 t 4  0.70639 t 3  0.86298 t 2  0.58273 t 1   t

把预测的数据和原来的数据组合在一起,进行傅里叶的逆变换,得到逆变换序列,再对逆变换序列分 别计算模长,作为 CPI 的预测数据。具体结果如下表: 表 3 预测结果预测结果及置信区间

3.4

年月

预测值

Dec-13 Jan-14 Feb-14

95%置信区间 下限

上限

101.8805

98.2750

102.7534

102.4888

97.6538

103.9523

102.1381

99.2576

103.5234

基于小波分析的 CPI 序列分析 首先确定小波分解的层数和选用小波基函数。根据分解和再次重构所产生的最大绝对误差,将分解层

数定为一层。在 matlab 软件中对数据进行一层小波分解,得到各尺度下的近似系数和细节系数的时序图, 如图所示:

图 1 似分量 A1 和细节分量 D1 的时序图 - 44 http://www.sjie.org


对于近似分量 A1,建立 ARMA(2,3) 模型为: X t  1.3789 X t 1  0.72799 X t 2  0.81777 t 3  2.40691 t 2  2.57332 t 1   t

对于细节分量 D1 估计出的 ARMA(4,3) 模型为: X t  1.3789 X t 1  0.72799 X t 2  0.81777 t 3  2.40691 t 2  2.57332 t 1   t

基于小波分析和 ARMA 模型对 CPI 进行分解,并对分解的各部分分别预测,然后对各部分的预测值进 行重构得到 CPI 的预测值,通过 MATLAB 软件计算,得出 CPI 的 3 期的预测值。 表 4 CPI 的预测值及置信区间 年月

预测值

13-Dec

95%置信区间 下限

上限

102.337

101.5737

104.0992

14-Jan

102.0255

100.2829

105.7682

14-Feb

101.812

99.2922

106.3319

把各个模型预测值分别和对应的真实值放在一起,分别计算出评价模型预测的三个指标值,结果见表 5。 表 5 三个评价指标值 RMSE

MAE

U

0.9975

0.1691

0.0253

傅里叶变换模型

0.393

0.3155

0.01

小波分析模型

0.3129

0.3078

0.008

经典模型

根据这三个指标,很明显的可以看出傅里叶变换模型和小波分析模型比经典的时间序列分析模型预测要 精确,而对于傅里叶变换模型和小波分析模型,从评价指标来看,小波分析模型要优于傅里叶变换模型。

4

结论 通过研究发现,引入傅里叶变换和小波分析后,CPI 数据预测的效果明显优于经典的时间序列分析模型,

预测效果更好。而对于傅里叶变换和小波分析之间的比较,在笔者预测的 3 期内,显示出小波分析优于傅里 叶变换。但是不能有足够的证据说明小波分析模型一定优于傅里叶变换,还需进一步的研究。 在时间序列分析中,对于前期数据的处理有很多方法,本文只是引入傅里叶变换和小波分析来预测,并 和经典的时间序列分析模型进行比较,得出小波分析的预测比较准确。作者在将来会继续引入一些数据的预 处理方法,来对经典的时间序列模型进行优化,研究出预测 CPI 数据比较精确的模型。

REFERENCES [1]

张雪慧. 对我国 CPI 构成的探讨[J]. 价值工程, 2010, 02: 130-131

[2]

张权. 通货膨胀的测度及其影响因素的实证分析——兼论我国现阶段的通货膨胀形势[J]. 华东经济管理, 2011,06: 35-38+48

[3]

张丽, 牛惠芳. 时间序列分析方法在居民消费价格指数预测中的应用[J]. 洛阳师范学院学报, 2008, 02: 29-31

[4]

王燕. 应用时间序列分析(第二版). 北京: 中国人民大学出版社, 2008

[5]

Johnstone, I.M. and Silverman.B.W. Wavelet threshold estimators for data with correlated noise[J]. J. Roy. Statist. Soc. Ser. B, 1997, (59): 319-351

[6]

彭玉华. 小波变换与工程应用[M], 科学出版社, 1999

[7]

Daubeehiesl: Ten leetureon wavelets[M], Philade1Phia Capital City Press, 1992

[8]

张善文, 雷英杰, 等. MATLAB 在时间序列分析中的应用[M], 西安电子科技大学出版社, 2007

【作者简介】 1

孔威,男,汉族,毕业于延边大学,硕士,研究方向:统计分析 - 45 http://www.sjie.org


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.