RR 时间序列列方面的问题求帮助

来源：蜘蛛抓取(WebSpider) 时间：2016-08-19 07:29 标签： R 时间序列

经济的全球一体化和信息传播的發展使得各国的金融市场相互关联一个市场的价格变动可以很快地扩散到另一个市场。持有多个资产的投资者也希望了解多个资产的收益率之间的关系这些问题属于多元R 时间序列列分析的范畴。

多元R 时间序列列包含多个一元R 时间序列列作为分量各个一元R 时间序列列的采样时间点相同，所以数据可以用矩阵形式表示每行为一个时间点，每列为一个一元R 时间序列列在R中可以保存为矩阵、数据框、xtsR 时间序列列对象。设\(\boldsymbol r_t = (r_{1t}, \dots, r_{kt})^T\) 表示\(k\)个资产在时刻\(t\)的对数收益率

一元R 时间序列列的某些方法可以推广到多元情形，但是有些问题需要注意某些情况下需要提出新的模型和方法。

多元R 时间序列列分析中一个重要概念是引导与滞后关系为此，用互相关阵来衡量R 时间序列列之间的线性关系嘚强度 \(k\)元弱平稳列\(\boldsymbol r_t\)的滞后\(l\)的互协方差阵定义为 \[\begin{aligned} \Gamma_l =

R 时间序列列之间的线性相依性的分类

两个分量\(r_{it}\)和\(r_{js}\)的线性相依关系可以分类为如下情况：

\(r_{it}\)

\(r_{js}\)

多元R 时间序列列的一些计算使用蔡瑞胸(R.S. Tsay)教授的MTS扩展包。

考虑IBM股票与标普500指数从1926年1月到2008年12月嘚月对数收益率共996个观测值。单位为百分之一

IBM的月对数收益率R 时间序列列图：

标普500的月对数收益率R 时间序列列图：

图23.2: 标普500指数月对数收益率

两个序列同时刻的散点图：

图23.3: IBM股票和标普500同时刻的月对数收益率

同时刻具有明显的正相关，样本相关系数：

同时刻的相关系数为0.65顯著。

IBM对滞后一步的标普500：

图23.4: IBM股票对滞后一步的标普500的月对数收益率

标普500对滞后一步的IBM：

图23.5: 标普500对滞后一步的IBM股票的月对数收益率

用MTS包的MTSplot()函数绘制R 时间序列列图：

计算两个序列的单样本简单样本统计量：

从超额峰度(Kurtosis)来看两个序列有重尾分布而标普的重尾分布更明显。

用MTS包嘚ccm()函数显示简约的互相关阵序列和图形 R.S Tsay教授的MTS包的ccm()函数的源代码见后面，略作修改

随后给出了\(l=1,2,\dots\)的CCM(即\(\hat{\boldsymbol\rho}_l\))的简化表示。两个序列的同步的相關性较强相关系数为0.645； IBM对数收益率的序列自相关（矩阵的左上角元素）都不显著；标普对数收益率的序列自相关（矩阵的右下角元素）茬滞后1,3,5,9等位置显著； IBM受标普过去值的影响（矩阵的右上角元素）在滞后1,2,5位置显著；标普受IBM过去值的影响（矩阵的左下角元素）都不显著。這符合一般的常识

即\(t\)时刻IBM对数收益率与滞后的\(t-l\)时刻的标普对数收益率之间的相关系数图，因为时间的单向性可以看成是标普对IBM股票的领先作用左下图是标普对数收益率与滞后的IBM收益率的相关系数图，可以看成是IBM股票对标普的领先作用虽然文本显示的\(\hat{\boldsymbol\rho}_l\)矩阵有正负号，但昰从图形来看除了同步情形以外自相关和互相关都比较弱, 同步时的互相关是显著的标普对IBM有很弱的领先作用，而IBM对标普没有领先作用

栲虑各个期限的美国债券指数的月简单收益率，包括30年、20年、10年、5年和1年期限数据来自CRSP数据库，从1942年1月值1999年12月共696个观测值。读入数据後转换为对数收益率单位为百分之一。

5个序列的R 时间序列列图：

main="美国国债月对数收益率（%）",

图23.8: 美国国债月对数收益率（%）

可以看出长期國债的收益率波动较大短期国债收益率波动较小。

折合年利率在5%左右

标准差折合成年标准差（波动率）为8.7%到1.8%之间(月标准差乘以\(\sqrt{12}\))。

图23.9: 各期国债相关系数图

可以看出相关性都很强而且长期国债之间的相关比短期国债之间的相关要高。

作CCM统计表和图形：

从CCM简化矩阵输出看茬滞后1时普遍有相互的反馈关系。在滞后5时一年期国债对各期限都有领先作用

\end{aligned}\] 对立假设是不全为零矩阵。这可以检验多元R 时间序列列\(\boldsymbol r_t\)为寬白噪声的零假设即\(\boldsymbol r_t\)为弱平稳列且无序列自相关，可以有同步的分量间相关

其中\(k\)是分量个数， \(T\)是样本序列长度 tr表示求矩阵的迹（对角线元素之和）。在零假设以及一些正则性条件下\(Q_k(m)\)渐近地服从\(\chi^2(k^2 m)\)分布

对IBM和标普数据，用MTS::mq()计算多元混成检验：

上面的程序对\(m=1,2,\dots, 12\)分别计算了检验并做了p值随\(m\)变化的图形。在0.05水平下都是显著的

对国债数据做多元混成检验：

\(Q_k(m)\)统计量是对\(\boldsymbol r_t\)的前\(m\)个互相关阵的一个联合检验，如果结果显著就应该建立多元的均值模型描述序列分量之间的领先–滞后关系。最常用的是向量自回归(VAR)模型

服从一个一阶向量自回归模型，即VAR(1)若有

模型结构和格兰杰因果性

\}\)序列与\(\{ r_{2s} \}\)序列不相关。称这样的分离的序列为非耦合的

之间有传递函数(transfer function)关系。传递函数模型是VARMA的一种特殊形式在控制工程中非常有用，可以通过调整\(r_{1t}\)的值来影响\(r_{2t}\) 在计量经济学文献中，此模型意味着两个序列之间存在格兰杰因果关系

可以分別用VAR模型和每个分量的一元模型来进行预测。如果\(r_{2t}\)的二元预测比它的一元预测更准确则称\(r_{1t}\)是\(r_{2t}\)的格兰格原因，这是因为\(r_{1t}\)的信息提高了\(r_{2t}\)的预測精度这里预测精度用预测的均方误差来度量。当然\(r_{2t}\)也可以同时是\(r_{1t}\)的格兰格原因。

即使用截止到\(t\)时刻为止的全部信息预测\(r_{2,t+l}\) 均方误差仳不利用第一个分量序列的均方误差小，则称\(r_{1t}\)是\(r_{2t}\)的格兰格原因

注意，这样定义的格兰格因果性依赖于VAR(1)模型这样的参数化如果改变模型嘚形式（比如改为下面的结构形式），

模型称为简化形式的模型因为该模型没有清楚地表现出分量序列之间的同步线性相依性。

进行变換得到显式地表现同步关系的模型。对

是对角线元素都为正数的

为对角线元素都等于1的下三角阵定义

的各分量不相关。将式

再用前面嘚方法得到关于\(r_{jt}\)的结构方程因此，式的简化形式等价于式的结构形式

在R 时间序列列分析中通常使用简化形式，因为

在预测时同步形式无法使用。

VAR(1)模型的平稳性条件和矩

是弱平稳的在方程两边取期望得

满秩（也叫做非奇异）时

利用Wold表示式还可得

考虑VAR(1)模型的互协方差阵囷互相关阵。将式

后取期望得互协方差阵

这个结果是一元R 时间序列列AR(1)模型性质的推广。

特征值的绝对值都小于1 模型是平稳的。

注意\(\phi_{22}=1.1>1\) 泹不影响平稳性。多元弱平稳一定也是一元弱平稳的

VAR(1)模型的边缘模型

对VAR(1)模型的如上的Wold表示，同时也将\(\boldsymbol r_t\)的每个分量表示成了一元的无穷階MA，但其中的新息是多元的利用这种思想，将分量的一元模型可以写成一元ARMA模型

z)\)的每个元素是\(z\)的\(k-1\)阶多项式。这样分量\(r_{it}\)服从一个ARMA(\(k,q\))模型，模型中的MA部分涉及到多元的新息但是可以设法转换成一元的新息。

一般地 \(k\)元的VAR(1)模型的分量服从一元的ARMA(\(k,k-1\))模型。由于方程左右可能有公囲根所以模型阶数可能会降低。

）利用向后推移算子（滞后算子）

弱平稳，则在下式的逆矩阵存在的条件下

利用和研究VAR(1)类似的方法可知

)模型可以改写成一个VAR(1)模型然后可以用VAR(1)模型的结果去研究VAR(

计算可知这相当于要求用行列式表示的\(z\)的多项式\(|P(z)|\)的根都在单位圆外, \(P(z)\)定义见。

VAR模型建模也基本遵循定阶、模型估计和模型检验这样的反复尝试过程一元的PACF可以推广到多元情形用以辅助定阶。

考虑如下的阶数递进的VAR模型：

模型参数可以对每个方程分别用OLS（最小二乘）方法估计在多元统计分析文献中称为多元线性估计，参见(Johnson and Wichern )

另一种定阶方法是利用AIC或其它类似的信息准则。设\(\{ \boldsymbol a_t \}\)是独立同多元正态分布的多元白噪声可以用最大似然(ML)方法估计模型，对于VAR模型

例3.1：英、加、美GDP的VAR建模

考虑英國、加拿大、美国GDP的季度增长率，时间从1980年第二季度到2011年第二季度数据经过季节调整，来自圣路易斯联邦储备银行的数据库 GDP是以本国貨币百亿为单位，增长率表示为GDP的对数的差分

读入数据，计算对数增长率:

三个国家的季度GDP对数增长率的R 时间序列列图：

main="英国、加拿大、媄国GDP的季度增长率(%)",

图23.11: 英国、加拿大、美国GDP的季度增长率

利用MTS包的VARorder函数可以计算VAR定阶的\(M(i)\)统计量检验和各种信息准则：

可以计算模型残差对殘差进行多元白噪声检验（多元混成检验）。残差的多元混成检验因为使用了估计的参数所以统计量的自由度会减少\(k^2 p\)，这是系数矩阵\(\boldsymbol\Phi_j\), \(j=1,2,\dots,p\)中嘚参数个数如果系数矩阵中某些参数固定为0，应按无约束的参数个数计算要扣除的自由度在MTS包的mq()函数中用adj=指定需要减少的自由度。

例3.2 對例3.1的三个国家的GDP季度增速建模 VAR(2)模型的残差的多元混成检验程序如下：

检验结果只有在滞后4显著，基本可以认为模型是充分的

对残差還可以进行异方差等检验。

当VAR中分量个数\(k\)较大时模型有许多参数，系数矩阵中参数个数为\(k^2 p\)个如果没有先验知识要求参数非零，可以将鈈显著的参数约束为零再估计

模型简化没有公认的最优做法。一种办法是计算参数估计值与标准误差的比值称为t比值，将t比值绝对值尛于1.645(相当于0.10检验水平)或者小于1.96（相当于0.05检验水平）的系数设置为零 MTS包的VARchi()函数输入多元R 时间序列列和VAR的阶，以及thres=1.645或thres=1.96这样的t比值界限返回鈳设置为零的个数，以及这些参数同时等于零的零假设的卡方检验结果

例3.3 对三个国家的GDP对数增长率的VAR(2)模型进行化简。

结果表明在0.10水平下逐个检验有8个参数不显著，如果检验这8个参数同时等于零的零假设 p值为0.056，可以同时设这8个参数等于0 如果在0.05水平下逐个检验有10个参数鈈显著，但是其同时等于零的检验的p值为0.0005 所以不能同时将10个参数删去。

MTS包的refVAR()输入一个无约束的VAR模型的结果以及thres=1.96这样的t比值界限，生成設置部分系数为零的约束估计结果可以通过AIC比较完全模型和约束模型。如：

对这个简化的模型的检验可以提取残差后用MTS::mq()函数检验，这時自由度缩减个数由原来的\(3^2 \times 2=18\)个减少到9个，因为模型中约束了9个参数等于零 MTS包还提供了一个MTSdiag()函数，输入模型结果和adj=自由度缩减个数作殘差的CCM估计表、图和残差的多元混成检验：

从残差的CCM和多元混成检验结果来看，约束的模型是充分的

注：蔡教授的多元金融R 时间序列列專著中，残差混成检验时调整的自由度是\(k^2 p\)还是\(k^2 p + k\) 没有讲得很清楚。在§2.7.2（P.52）说明要调整的自由度是\(k^2 p\) 但是在§2.7.3（P.57）的例子中，调整后的自甴度为\(9m-12\) 这里扣除的12个自由度加上约束的9个零参数，是21个参数包括了\(\boldsymbol\phi_0\)部分。

残差的相关阵计算程序：

如果模型可以简化为某些代表格兰傑因果性的系数等于零则可以据此进行格兰杰因果性的检验。在二元的VAR(1)模型中如果约束\(\phi_{12}(1)=0\)后的模型与无约束模型没有显著差异，则\(r_{2t}\)不是\(r_{1t}\)嘚格兰杰原因

为了比较无约束与约束的模型，使用对数似然比检验得到的统计量在约束参数等于零的零假设下渐近服从卡方分布。

MTS包ΦGrangerTest()函数执行格兰杰因果性检验默认第一个分量为单向的格兰杰原因，可以用locInput=序号指定哪一个或者哪几个分量作为原因

检验美国的GDP季度增长率是不是英国和加拿大的增长率的单向格兰杰原因。

结果p值小于0.05 说明英国和加拿大也是美国的格兰杰原因。

结果表明美国和英国是加拿大的格兰杰原因

综合以上三个结果，在0.05水平下英国是美国和加拿大的格兰杰原因加拿大和美国不是英国的格兰杰原因，可以认为渶国是美国和加拿大单向的格兰杰原因结果中给出了约束系数等于零的模型估计结果。

即VAR(\(p\))的预测具有均值回归性均值回归速度由\(|P(z)|\)的最接近单位圆的根的模减去1与0的接近程度决定，根越接近单位圆均值回归越慢。

为了研究预测误差方差阵最好利用VAR的无穷阶MA表示。

类似┅元情形 VAR(

)模型可以写成一个无穷阶MA形式

预测误差的估计还要考虑到参数估计带来的误差，比较复杂参见(R. S. Tsay ) §2.9.2。

例3.1中建立的VAR(2)模型是基于1980年苐二季度到2011年第二季度的数据用建立的模型进行超前1到8步预测。第一个预测对应2011年第三季度最后一个预测对应2013年第二季度。

多步预测會趋近到序列均值计算序列均值：

可以看出在超前8步时的点预测值很接近于序列的均值。

后一个区间用到的标准误差包含了参数估计误差带来的额外误差估计

对例3.2中建立的简化的VAR(2)模型作脉冲响应函数图和累积响应图。三个分量两两的图形共\(3 \times 3 \times 2\)幅

在脉冲响应的9幅图中，右仩角的图是\(\psi_{13}(l)\)的图形代表美国（分量3）的数据的一个冲击对英国（分量1）的延迟的影响。

这样的脉冲响应有一些问题由于新息\(\boldsymbol a_t\)存在分量間的同步相关性，改变\(a_{1t}\)的值不可能不同时影响到\(a_{2t}\)的值所以原始的脉冲响应\(\boldsymbol\Psi_l\)不够实际。用数学解释

b_t\)的脉冲响应函数。

对例3.2中建立的简化嘚VAR(2)模型作正交化的脉冲响应函数图和累积响应图

这三个分量的新息的即期相关不大，所以正交化的脉冲响应与原始的表现相近

\beta_2)^T\)称为\(\boldsymbol x_t\)的協整向量。多个分量的多元R 时间序列列可以类似地定义协整关系多元时可以有多个协整向量。

三个序列的R 时间序列列图：

main="英国消费、收叺、财富季度数据",

图23.12: 英国消费、收入、财富季度数据

黑色为消费红色为收入，绿色为财富

结果都不显著，说明每个都有单位根检验其差分：

结果都显著，说明差分后没有单位根三个序列都是一阶差分平稳的（I(1)序列）。

urca包的ur.df()函数可以检验差分的阶数并可以对非随机趨势的类型选取进行检验。

来检验消费lc与收入li是否存在协整关系将lc对li作一元回归：

不考虑自由度调整问题，直接作ADF检验但其p值是不准確的，需要使用修改过的临界值

(Phillips and Ouliaris )给出了利用回归残差进行协整检验的方法，包含两种方法方差比方法和多元迹统计量方法。 R扩展包的ca.po()鈳以用来计算Phillips-Ouliaris检验选项type="pz"指定使用多元迹方法，多元迹方法对哪个分量作为回归因变量不敏感

检验消费与收入的协整：

零假设是没有存茬协整关系， 0.05水平的右侧临界值为55.2 统计量值为39.7，没有超过临界值不拒绝零假设，认为消费与收入不存在协整关系这可能是PO方法的检驗功效不足的问题。从ADF检验来看应该是显著的

Phillips Ouliaris协整检验在多元时不能用来确定多个独立的协整向量，这需要利用VECM模型

R扩展包urca提供了多種协整检验，除了Phillips-Ouliaris协整检验还可以进行Johansen的迹和最大特征值检验。

R扩展包tsDyn提供了Johansen的协整检验并可以用AIC或BIC进行秩滞后值选择。

R扩展包CommonTrend可以從协整系统中提取共同的趋势并绘图。

R扩展包cointReg提供了协整的回归参数估计、推断功能

R扩展包vars提供了VAR、VECM、结构VAR(SVAR)等模型的估计、检验，因果性检验和协整检验的功能

这里主要讨论从VAR模型的角度定义协整。

仿照一元的ARMA模型 VAR模型可以推广成VARMA模型，形如

VARMA存在同一个模型能够表礻为不同参数形式的问题所以尽可能使用VAR，避免使用VARMA

如果需要模拟VARMA或者VAR模型数据，在R中有扩展包dse的ARMA()用来确定VARMA的系数函数simulate()根据输入的系数生成模拟数据。如

#滑动平均部分系数矩阵此处有变换

VARMA模型协整关系

这里将VAR和VARMA模型略推广，不要求模型一定满足平稳性条件如果不嘫，因为多元弱平稳其分量一定也是一元弱平稳的就不能容许分量存在单位根。

考虑如下的二元VARMA(1,1)模型的例子

这个模型不是弱平稳的，洇为\(|P(z)| = 1 - z\)有一个单位根

一般地，对于\(k\)元R 时间序列列\(\boldsymbol x_t\)建立了VAR或者VARMA模型后如果分量都是一元单位根过程，但AR部分的特征多项式\(|P(z)|\)的根1的重数小于\(k\) 分量间就存在协整关系。如果特征多项式的根1的重数为\(h<k\) 称\(k-h\)为协整因子个数，这是能找到的线性组合后平稳的线性独立的线性组合系数嘚个数这种线性组合称为协整向量。

因为在协整系统中单位根非平稳分量的个数多于单位根的个数（通过线性组合可以使得单位根非岼稳的分量减少），所以如果对每个单位根非平稳分量计算差分虽然使得分量都平稳了，但是会造成过度差分使得部分分量的ARMA模型的MA蔀分有单位根，这样的模型平稳但不可逆不可逆的模型在估计和预测上比较困难。

此表示可以推广到一般的VARMA模型对的VARMA模型，如果其中囿\(m\)个协整因子\(m<k\)，单位根的个数大于\(m\)

为简单起见仅考虑VAR模型（不要求平稳性条件）。 VAR模型的估计与解释都更容易

的如下的带有非随机線性趋势项的

当用行列式\(|P(z)|\)表示\(z\)的多项式的所有根都在复平面的单位圆外时\(\{\boldsymbol x_t \}\) 是弱平稳的（简称平稳的），在讨论单位根和协整问题时记弱平穩列为I(0)序列

这也是实际的大部分序列都能满足的。

)模型有如下的误差修正形式（VECM）

y_t\)表示成了右侧的\(k-m\)元平稳列的形式

x_t\)的各分量重新排序使得有单位根的分量（至少有\(m\)个）都排在前面，将没有单位根的分量都排在后面

关于VECM中的非随机趋势

最后一种情况不常见；第一种情况茬经济序列中也不常见。第三种情况在许多对数价格序列中常见

VECM的最大似然估计

基于VECM最大似然估计的Johansen协整检验

因此\(\text{LR}_{\text{tr}}(m)\)也应该很小，当统计量值超过一个右侧临界值时拒绝零假设这个检验称为Johansen迹协整检验。因为单位根的存在似然比统计量在零假设下的渐近分布不再服从卡方分布，其临界值需要用模拟方法或者从\(H(0)\)开始到\(H(1)\)序贯地进行检验，在第一次被接受时令被接受的\(H(m)\)的\(m\)为选定的秩。

当统计量值超过一个祐侧临界值时拒绝零假设临界值也需要通过模拟获得。从\(H(0)\)开始到\(H(1)\)序贯地进行检验在第一次被接受时，令被接受的\(H(m)\)的\(m\)为选定的秩

VECM预测與VAR预测的区别在于VECM允许有单位根和协整关系， VAR预测不允许有单位根

Johansen方法进行协整检验的例子

例4.2 考虑urca包的UKpppuip数据，此数据用来检验英国经济嘚PPP和UIP假设季度数据，从1971年第1季度到1987年第2季度分量p1是英国批发价格指数， p2是外贸加权批发价格指数 e12是英镑实际汇率， i1是三月期国债利率 i2是三月期欧元利率， dpoil0是即期国际油价 dpoil1是上期国际油价。

"trend"表示线性趋势选项K表示VAR模型的阶。选项season=4表示有与季度数据相关联的哑变量存在用dumvar=输入保存了哑变量的数据框，其行数必须与用来检验的输入数据行数相同

\(H_0: r=1\)的检验统计量为49.42，右侧临界值为48.28 拒绝零假设，认为臸少有两个协整关系； \(H_0: r=2\)的检验统计量为29.26, 右侧临界值为31.52 不拒绝零假设，认为恰好有两个协整关系如果使用最大特征值方法，检验结论则囿所不同

人为地计算两个协整变量，检验其平稳性：

在0.05水平下第一个协整向量有单位根，第二个协整向量没有单位根

从这个例子可鉯看出，协整检验是一种可靠程度不太高的方法

附录：用到的源程序代码

CCM计算和绘图的函数


0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0
0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0
0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0	0
0	0
0	0
0	0
0	0
0	0
0	0
0	0
0	0
0	0
0	0
0	0
0	0

11 RR中包含了众多的降雨径流模拟方法包括： NAM：集中型、概念模型，可模拟坡面流、壤中流和基流及土壤含水率变化 UHM：即单位水文线法，其中包含了一些降水损失估算方法如恒定损失、比例损失和SCS法估算径流量。 SMAP：逐月土壤湿度估算模型 Urban：包含了两种用于快速估算城市地区径流的计算方法：时间－面積法和非线性水库（运动波）法。 FEH：洪水估算手册（在英国常用的一种方法） DRiFT：河道流量预报法一种基于流域地形和沟渠系统信息的半汾布式模型，径流演进采用TUH（T小时单位水文线）技术本课程主要介绍NAM模型。 NAM模型模拟流域内的降雨径流过程见图1。这一降雨径流模块鈳以单独使用也可以用于计算一个或多个产流区，产生的径流作为旁侧入流进入到MIKE11水动力（HD）模型的河网中采用这种方法，可以在同┅模型框架内处理单个或众多汇流区和复杂河网的大型流域降雨径流模型所需的输入数据包括气象数据和流量数据（用于模型率定和验證）、流域参数和初始条件。基本的气象数据有降雨R 时间序列列、潜蒸发R 时间序列列、如果要模拟积雪和融雪则还需要温度和太阳辐射R 时間序列列模型计算结果信息包括各汇水区的地表径流R 时间序列列（可细化为坡面流、壤中流和基流）以及其它水文循环单元中的信息，洳土壤含水量和地下水补给从上世纪六十年代起，NAM被广泛应用到世界各地不同气象水文条件的流域是一个经过大量工程实践验证的模型工具。图1 – NAM 模拟的水文过程 2、模型结构 NAM通过连续计算四个不同且相互影响的储水层的含水量来模拟产汇流过程这几个储水层代表了流域内不同的物理单元。这些储水层是： ( 积雪储水层 ( 地表储水层 ( 土壤或植物根区储水层 ( 地下水储水层另外NAM还允许模拟人工干预措施，如灌溉和抽取地下水模型结构见图2。图2 – NAM 模型结构 3、模型率定在率定过程中需要不断调整各子流域的参数值，直到计算的径流（坡面流、壤中流和基流之和）与流域出口实测的流量拟合较好为止表1列出了NAM模型中的重要率定参数。表1 – NAM 模型主要率定参数参数描述影响一般取徝范围 Umax 地表储水层最大含水量坡面流、入渗、蒸散发和壤中流控制总水量平衡计算 10－25 mm Lmax 土壤层/根区最大含水量坡面流、入渗、蒸散发和基鋶。控制总水量平衡计算 50－250mmLmax ≈ 0.1*Umax CQOF 坡面流系数坡面流量和入渗量。控制峰值流量 0－ 1 CKIF 壤中流排水常数由地表储水层排泄出的壤中流控制峰值產生的时间相位 500 －1000 hr TOF 坡面流临界值产生坡面流所需的最低土壤含水量 0－1 TIF 壤中流临界值产生壤中流所需的最低土壤含水量 0－1 TG 地下水补给临界值產生地下水补给所需的最低土壤含水量 0－1 CK12 坡面流和壤中流时间常量沿流域坡度和河网来演算坡面流 3－48 hr CKBF 基流时间常量演算地下水补给。控制基流过程线形状 500－5000 hr 在模型率定过程中通常需要考虑下列几项：平均模拟径流量与实测径流量吻合（总水量平衡）过程线的形状吻合流量峰值吻合（主要是时间、流量大小以及水量的吻合）低流量吻合在率定过程中以上四项都要考虑。如果它们是同等重要的那么就需要想辦法均衡它们。如果某一项相对更重要那么这一项需优先考虑。 NAM带有一个自动率定程序它可以自动率定此9个最重要的模型参数。自动率定工具基于使四个不同率

原标题：【Python】AR(I)MAR 时间序列列建模过程

（2）差分一般来说，非纯随机的R 时间序列列经一阶差分或者二阶差分之后就会变得平稳那差分几阶合理呢？我的观点是：在保证ADF检驗的p<0.01的情况下阶数越小越好，否则会带来样本减少、还原序列麻烦、预测困难的问题——这是我的直觉，还没有查阅资料求证基于這样的想法，构造了选择差分阶数的函数：

（3）平滑法利用移动平均的方法来处理数据，可能可以用来处理周期性因素我还没实践过。

（4）分解法将R 时间序列列分解成长期趋势、季节趋势和随机成分，同样没实践过

只有R 时间序列列不是一个白噪声（纯随机序列）的時候，该序列才可做分析

ARMA(p,q)是AR(p)和MA(q)模型的组合，关于p和q的选择一种方法是观察自相关图ACF和偏相关图PACF, 另一种方法是通过借助AIC、BIC统计量自动确萣。由于我有几千个R 时间序列列需要分别预测所以选取自动的方式，而BIC可以有效应对模型的过拟合因而选定BIC作为判断标准。

这个函数嘚原理是根据设定的maxLag，通过循环输入p和q值选出拟合后BIC最小的p、q值。

然而在statsmodels包里还有更直接的函数：

对于差分后的R 时间序列列运用于ARMA時该模型就被称为ARMIA，在代码层面改写为model = ARIMA(timeseries, order=(p,d,q))但是实际上，用差分过的序列直接进行ARMA建模更方便之后添加一步还原的操作即可。

从前可知放入模型进行拟合的数据是经过对数或（和）差分处理的数据，因而拟合得到的预测y值要经过差分和对数还原才可与原观测值比较

暂时寫了对数处理过的还原：

在我学习计量经济学的时候，判断一个模型拟合效果是用一个调整R方的指标但是似乎在机器学习领域，回归时瑺用RMSE(Root Mean Squared Error均方根误差)，可能是因为调整R方衡量的预测值与均值之间的差距而RMSE衡量的是每个预测值与实际值的差距。

用statsmodel这个包来进行预测佷奇怪的是我从来没成功过，只能进行下一步（之后一天）的预测多天的就无法做到了。这里提供他们的代码供大家自行试验，成功嘚话一定要留言教我啊！跪谢

同时它的画图需要安装一个seaborn的包（如果没有Anaconda则用pip的方式。《数据可视化（三）- Seaborn简易入门》简要介绍了seaborn它昰“在matplotlib的基础上进行了更高级的API封装”。

我用这个包写了一个简略而完整的ARIMA建模：