ESN笔记_IT分享知识网

大家好，欢迎来到IT知识分享网。

组成

输入层，储备层，输出层

和RNN的联系和区别

相同点

隐藏状态及输出表达式相同。ESN是RNN的一种，前面时刻输入的信息会通过连接权重回荡在储备池中（所以叫回声状态网络），相当于RNN中该时刻的隐藏状态会再次循环输入，生成下一时刻的隐藏状态。

不同点

构造过程

初始化

确定储备池大小

确定储备池的大小，即神经元的个数。节点数越多，拟合能力越强。由于ESN仅仅通过调整输出权值(我们最终就是利用储备池的状态信息来确定这个W)来线性拟合输出结果，所以一般ESN需要远大于一般神经网络的节点规模。

生成输入权重矩阵

型号为（神经元个数，输入特征维度数+1）

每一行表示一个神经元，每一列表示一个输入维度并且最后一列是表示偏置值

偏置值允许拟合的函数进行平移操作，能拟合复杂的数据分布，灵活地适应不同数据模式，降低欠拟合的风险

随机生成连接矩阵

这个矩阵表示了神经网络随机的内部初始结构，即哪些神经元之间是有连接的，以及连接的方向和权值，实际上就是有向图（神经网络图）的矩阵表示。

缩放矩阵

将矩阵缩放为谱半径<1

方法

1、用一个缩放因子乘初始矩阵

构建一个与初始矩阵相同维度的对角矩阵，对角线上的元素为缩放因子

2、使用特征值缩放

标准化（将特征值缩放为均值为0、方差为1的分布）：缩放矩阵的对角线元素为个征值的标准差的倒数

目的

初始化结果

但是，增强记忆能力的同时，这种操作也造成了网络对“快速变化”系统的建模能力下降。

网络内部的动态性主要受到内部矩阵的影响，而输入权值较小可能会导致网络对输入的响应较为迟缓。

训练

初始化储备池

方法

空转：将输入数据送入储备池中，但不会利用储备池的输出，储备池内部的状态会逐渐达到稳定状态。

目的

储备池的内部连接是随机的，最开始的输入序列得到储备池状态的噪声会比较大，所以会先使用一些数据来初始化储备池的状态，从而降低噪声的影响。确保网络的内部状态能够适应输入数据的动态特性，并且不受随机初始状态的影响。

使用线性回归确定输出权重

计算输出权重

优化：正则化方法防止过拟合

L1L2正则化详解

正则化

正则化指all减少过拟合的方法。

范数

将权重W看作高维向量空间的一个点，其到源点的距离看作欧氏距离（高维勾股定理），则记为L2范数；若为曼哈顿距离（坐标绝对值相加），则记为L1范数。

过拟合的原因

对于相同的损失函数值，可能会得到不同的输出权重值（有大有小），如果权重值过大，在变换过程中会放大测试数据中的噪声误差，造成较大的判断误差。

正则化方法

此处使用正则化方法本质就是控制参数（输出权重 $W_{out}$ 的范数）的大小，就是给一个可行域范围（ $W_{out}$ 范数大小），在范围内求最值（只控制 $W_{out}$ 不管b是因为b只是控制了图像的平移位置）

可行域范围为 $W_{out}||_2^2<C$
Lagrange乘数法求最值 $min||WX-Y||_2^2-\lambda(||W_{out}||_2^2-C)$

L1正则化和L2正则化的区别

L1正则化的切点会在坐标轴上，即 $W_{out}$ 的某些维度被置为0，即去除了某些特征的影响，实现了特征之间的去耦合化。
L2正则化就是把 $W_{out}$ 的绝对值缩小。

正则化前后最值的的误差（？）

求解：岭回归（带L2范数惩罚项的最小二乘回归）

岭回归和L2正则化干的是同一件事

岭回归适用场景

在使用最小二乘法计算矩阵乘法结果 $\beta=(X^TX)Xy$ 时，系数矩阵 $X^TX$ 在大多数情况下不满秩，即参数之间存在多重共线性，特征之间有高度相关性，使用最小二乘法估计会出现回归模型中的参数估计不准确的问题（因为回归模型假设自变量之间不存在完全相关）

形式

实现原理

添加罚项用来约束模型参数的大小，从而减少模型对自变量之间高度相关性的敏感度，从而缓解多重共线性。

L1正则化对应的最小二乘方式：Lasso回归

套索回归在目标函数中引入了一个额外的L1惩罚项，它通过对参数进行稀疏化（将某些参数缩小至零）来减少模型的复杂性。套索回归的一个重要特点是可以自动进行特征选择，即将某些不相关的自变量的系数收缩为零，从而剔除了一些可能导致多重共线性问题的自变量。

代码

from numpy import * from matplotlib.pyplot import * import scipy.linalg import matplotlib.pyplot as plt import numpy as np import math # 加载数据 # 前1000个数据用来训练，1001-2000的数据用来测试。训练数据中，前100项用来初始化储备池，以让储备池中形成良好的回声之后再开始训练。 trainLen = 1000 testLen = 1000 initLen = 100 # 前100项用来初始化储备池 # 生成ESN储层 inSize = outSize = 1 # inSize 输入维数 K resSize = 1000 # 储备池规模 N a = 0.3 # 可以看作储备池更新的速度，可不加，即设为1. random.seed(42) # 随机初始化 Win 和 W，且使随机数的范围置为 -0.5 到 0.5 之间（为了避免权重值过大或过小，从而减少训练过程中的梯度爆炸或梯度消失问题。） Win = (random.rand(resSize, 1 + inSize) - 0.5) # 输入矩阵 N * 1+K W = random.rand(resSize, resSize) - 0.5 # 储备池连接矩阵 N * N # 对W进行缩放，以满足稀疏的要求。 # 方案 1 - 直接缩放 (快且有脏数据, 特定储层): W *= 0.135 # 方案 2 - 归一化并设置谱半径 (正确, 慢): print('计算谱半径...') rhoW = max(abs(linalg.eig(W)[0])) # linalg.eig(W)[0]:特征值 linalg.eig(W)[1]:特征向量 W *= 1.25 / rhoW # 乘一个缩放因子1.25 / rhoW，权重矩阵的谱范数（即最大特征值的绝对值）归一化为 1.25（？） # 为设计（收集状态）矩阵分配内存 X = zeros((1+inSize+resSize,trainLen-initLen)) # 储备池的状态矩阵x(t)：每一列是每个时刻的储备池状态。后面会转置 #状态矩阵每一行的意义 1：偏置值；insize:每一时刻输入值；ressize：每一时刻各神经元的状态 # 直接设置相应的目标矩阵 data_array = data.split('\n') # 将读入数据（字符串类型）按回车分割为数组 Yt = data_array[initLen + 1:trainLen + 1]# 输入矩阵:每一行是一个时刻的输入 print(Yt) # 输入所有的训练数据，然后得到每一时刻的输入值和储备池状态。 x = zeros((resSize, 1)) for t in range(trainLen): u = Yt[t] print(u) # 计算每个t的状态值 # a为更新率，控制了新旧信息的相对重要性，较大的 a 值会更加强调新信息，而较小的 a 值则更加保留先前状态的信息，即控制状态更新速度 x = (1 - a) * x + a * tanh(dot(Win, vstack((1, u))) + dot(W, x)) # vstack((1, u)):将偏置量1加入输入序列 if t >= initLen: # 空转100次后，开始记录储备池状态 X[:, t - initLen] = vstack((1, u, x))[:, 0] # 对初始化之后的时刻赋值该时刻的状态；vstack将每个t的偏置值、输入值、状态值堆叠成列赋值给X的每一列 # 使用Wout根据输入值和储备池状态去拟合目标值，这是一个简单的线性回归问题，这里使用的是岭回归(Ridge Regression)。 reg = 1e-8 # 正则化系数lambda # 对X转置 X_T = X.T # Wout: 1 * 1+K+N Wout = dot(dot(Yt, X_T), linalg.inv(dot(X, X_T) + \ reg * eye( 1 + inSize + resSize))) # linalg.inv矩阵求逆；numpy.eye()生成对角矩阵，规模:1+inSize+resSize，默认对角线全1，其余全0 # Wout = dot( Yt, linalg.pinv(X) ) # 使用训练数据进行前向处理得到结果 # run the trained ESN in a generative mode. no need to initialize here, # because x is initialized with training data and we continue from there. Y = zeros((outSize, testLen)) u = data[trainLen] for t in range(testLen): x = (1 - a) * x + a * tanh(dot(Win, vstack((1, u))) + dot(W, x)) y = dot(Wout, vstack((1, u, x))) # 输出矩阵(1 * 1+K+N)*此刻状态矩阵(1+K+N * 1)=此刻预测值 Y[:, t] = y # t时刻的预测值 Y: 1 * testLen # 生成模型 u = y # 预测模型 # u = data[trainLen+t+1] # 计算第一个errorLen时间步长的MSE errorLen = 500 mse = sum(square(data[trainLen + 1:trainLen + errorLen + 1] - Y[0, 0: errorLen])) / errorLen print('MSE = {0}'.format(str(mse))) # 绘制测试集的真实数据和预测数据 figure(1).clear() plot(data[trainLen + 1:trainLen + testLen + 1], 'g') plot(Y.T, 'b') title('Target and generated signals $y(n)$ starting at $n=0$') legend(['Target signal', 'Free-running predicted signal']) # 绘制储备池中前200个时刻状态(x(t))的前20个储层结点值 figure(2).clear() plot(X[0:20, 0:200].T) title('Some reservoir activations $\mathbf{x}(n)$') # 绘制在各神经元上的输出权重值 figure(3).clear() # bar(np.arange(1 + inSize + resSize), Wout.T, 8) plot(np.arange(1 + inSize + resSize), Wout.T) title('Output weights $\mathbf{W}^{out}$') show()

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://haidsoft.com/133379.html

ESN笔记

组成