归一化
归一化后加快了梯度下降求最优解的速度;归一化有可能提高精度。
- min-max 标准化 (Min-max normalization)
- x = (x - min)/(max - min)
from sklearn import preprocessing scaler = preprocessing.MinMaxScaler() x_train_minmax = scaler.fit_transform(x_train)
- x = (x - min)/(max - min)
- z-score 0均值标准化(zero-mean normalization)
- x = (x - u)/σ ,其中 u 为所有样本数据的均值,σ: 为所有样本数据的标准差。
from sklearn import preprocessing scaler = preprocessing.scale(X) x_scaler = scaler.fit_transform(x)
除此之外还有另一个函数 StandardScaler 。使用该类的好处在于可以保存训练集中的参数(均值、方差)直接使用其对象转换测试集数据。
from sklearn import preprocessing scaler = preprocessing.StandardScaler() x_train_scaled = scaler.fit_transform(x_train) # fit_transform 等同于 fit + transform 两个函数的结合 x_test_scaled = scaler.transform(x_test)
- x = (x - u)/σ ,其中 u 为所有样本数据的均值,σ: 为所有样本数据的标准差。
文档信息
- 本文作者:Joeat1
- 本文链接:https://joeat1.github.io/wiki/sklearn/
- 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证)