- sklearn.preprocessing .Normalizer¶
- Как нормализовать данные в Python
- Когда нужно нормализовать данные в Python?
- Шаги по нормализации данных
- Использование normalize() из sklearn
- Полный код
- Как нормализовать столбцы в наборе данных с помощью normalize()?
- Как нормализовать набор данных без преобразования столбцов в массив?
- Использование MinMaxScaler() для нормализации данных
sklearn.preprocessing .Normalizer¶
Each sample (i.e. each row of the data matrix) with at least one non zero component is rescaled independently of other samples so that its norm (l1, l2 or inf) equals one.
This transformer is able to work both with dense numpy arrays and scipy.sparse matrix (use CSR format if you want to avoid the burden of a copy / conversion).
Scaling inputs to unit norms is a common operation for text classification or clustering for instance. For instance the dot product of two l2-normalized TF-IDF vectors is the cosine similarity of the vectors and is the base similarity metric for the Vector Space Model commonly used by the Information Retrieval community.
Parameters : norm , default=’l2’
The norm to use to normalize each non zero sample. If norm=’max’ is used, values will be rescaled by the maximum of the absolute values.
copy bool, default=True
Set to False to perform inplace row normalization and avoid a copy (if the input is already a numpy array or a scipy.sparse CSR matrix).
Attributes : n_features_in_ int
Number of features seen during fit .
Names of features seen during fit . Defined only when X has feature names that are all strings.
Equivalent function without the estimator API.
This estimator is stateless and does not need to be fitted. However, we recommend to call fit_transform instead of transform , as parameter validation is only performed in fit .
For a comparison of the different scalers, transformers, and normalizers, see examples/preprocessing/plot_all_scaling.py .
>>> from sklearn.preprocessing import Normalizer >>> X = [[4, 1, 2, 2], . [1, 3, 9, 3], . [5, 7, 5, 1]] >>> transformer = Normalizer().fit(X) # fit does nothing. >>> transformer Normalizer() >>> transformer.transform(X) array([[0.8, 0.2, 0.4, 0.4], [0.1, 0.3, 0.9, 0.3], [0.5, 0.7, 0.5, 0.1]])
Only validates estimator’s parameters.
Fit to data, then transform it.
Get output feature names for transformation.
Get metadata routing of this object.
Get parameters for this estimator.
Set the parameters of this estimator.
Request metadata passed to the transform method.
Scale each non zero row of X to unit norm.
Only validates estimator’s parameters.
This method allows to: (i) validate the estimator’s parameters and (ii) be consistent with the scikit-learn transformer API.
Parameters : X of shape (n_samples, n_features)
The data to estimate the normalization parameters.
Not used, present here for API consistency by convention.
Returns : self object
Fit to data, then transform it.
Fits transformer to X and y with optional parameters fit_params and returns a transformed version of X .
Parameters : X array-like of shape (n_samples, n_features)
y array-like of shape (n_samples,) or (n_samples, n_outputs), default=None
Target values (None for unsupervised transformations).
**fit_params dict
Additional fit parameters.
Returns : X_new ndarray array of shape (n_samples, n_features_new)
get_feature_names_out ( input_features = None ) [source] ¶
Get output feature names for transformation.
Parameters : input_features array-like of str or None, default=None
- If input_features is None , then feature_names_in_ is used as feature names in. If feature_names_in_ is not defined, then the following input feature names are generated: [«x0», «x1», . «x(n_features_in_ — 1)»] .
- If input_features is an array-like, then input_features must match feature_names_in_ if feature_names_in_ is defined.
Get metadata routing of this object.
Please check User Guide on how the routing mechanism works.
Returns : routing MetadataRequest
A MetadataRequest encapsulating routing information.
Get parameters for this estimator.
Parameters : deep bool, default=True
If True, will return the parameters for this estimator and contained subobjects that are estimators.
Returns : params dict
Parameter names mapped to their values.
See Introducing the set_output API for an example on how to use the API.
Parameters : transform , default=None
Configure output of transform and fit_transform .
- «default» : Default output format of a transformer
- «pandas» : DataFrame output
- None : Transform configuration is unchanged
Set the parameters of this estimator.
The method works on simple estimators as well as on nested objects (such as Pipeline ). The latter have parameters of the form __ so that it’s possible to update each component of a nested object.
Parameters : **params dict
Returns : self estimator instance
Request metadata passed to the transform method.
Note that this method is only relevant if enable_metadata_routing=True (see sklearn.set_config ). Please see User Guide on how the routing mechanism works.
The options for each parameter are:
- True : metadata is requested, and passed to transform if provided. The request is ignored if metadata is not provided.
- False : metadata is not requested and the meta-estimator will not pass it to transform .
- None : metadata is not requested, and the meta-estimator will raise an error if the user provides it.
- str : metadata should be passed to the meta-estimator with this given alias instead of the original name.
The default ( sklearn.utils.metadata_routing.UNCHANGED ) retains the existing request. This allows you to change the request for some parameters and not others.
This method is only relevant if this estimator is used as a sub-estimator of a meta-estimator, e.g. used inside a pipeline.Pipeline . Otherwise it has no effect.
Parameters : copy str, True, False, or None, default=sklearn.utils.metadata_routing.UNCHANGED
Metadata routing for copy parameter in transform .
Returns : self object
Scale each non zero row of X to unit norm.
Parameters : X of shape (n_samples, n_features)
The data to normalize, row by row. scipy.sparse matrices should be in CSR format to avoid an un-necessary copy.
copy bool, default=None
Returns : X_tr of shape (n_samples, n_features)
Как нормализовать данные в Python
В этом руководстве мы узнаем, как нормализовать данные в Python. При нормализации меняется масштаб данных. Чаще всего масштабирование данных изменяется в диапазоне от 0 до 1.
Когда нужно нормализовать данные в Python?
Алгоритмы машинного обучения, как правило, работают лучше или сходятся быстрее, когда различные функции (переменные) имеют меньший масштаб. Поэтому общепринятой практикой является нормализация данных перед обучением на них моделей машинного обучения.
Нормализация также делает процесс обучения менее чувствительным к масштабу функций. Это приводит к улучшению коэффициентов после тренировки.
Этот процесс повышения пригодности функций для обучения путем изменения масштаба называется масштабированием функций.
Формула нормализации приведена ниже:
Мы вычитаем минимальное значение из каждой записи, а затем делим результат на диапазон. Где диапазон – это разница между максимальным значением и минимальным значением.
Шаги по нормализации данных
Мы собираемся обсудить два разных способа нормализации данных в Python.
Первый – с помощью метода normalize() в sklearn.
Использование normalize() из sklearn
Начнем с импорта обработки из sklearn.
from sklearn import preprocessing
Теперь давайте создадим массив с помощью Numpy.
import numpy as np x_array = np.array([2,3,5,6,7,4,8,7,6])
Теперь мы можем использовать метод normalize() для массива. Этот метод нормализует данные по строке. Давайте посмотрим на метод в действии.
normalized_arr = preprocessing.normalize([x_array]) print(normalized_arr)
Полный код
Вот полный код из этого раздела:
from sklearn import preprocessing import numpy as np x_array = np.array([2,3,5,6,7,4,8,7,6]) normalized_arr = preprocessing.normalize([x_array]) print(normalized_arr)
[0.11785113, 0.1767767 , 0.29462783, 0.35355339, 0.41247896, 0.23570226, 0.47140452, 0.41247896, 0.35355339]
Мы видим, что все значения теперь находятся в диапазоне от 0 до 1. Так работает метод normalize() в sklearn.
Вы также можете нормализовать столбцы в наборе данных, используя этот метод. Посмотрим, как это сделать дальше.
Как нормализовать столбцы в наборе данных с помощью normalize()?
Поскольку normalize() нормализует только значения по строкам, нам нужно преобразовать столбец в массив, прежде чем применять метод.
Чтобы продемонстрировать, мы собираемся использовать набор данных California Housing.
Начнем с импорта набора данных.
import pandas as pd housing = pd.read_csv("/content/sample_data/california_housing_train.csv")
Затем нам нужно выбрать столбец и преобразовать его в массив. Мы собираемся использовать столбец total_bedrooms.
from sklearn import preprocessing x_array = np.array(housing['total_bedrooms']) normalized_arr = preprocessing.normalize([x_array]) print(normalized_arr)
[[0.01437454 0.02129852 0.00194947 . 0.00594924 0.00618453 0.00336115]]
Как нормализовать набор данных без преобразования столбцов в массив?
Давайте посмотрим, что произойдет, когда мы попытаемся нормализовать набор данных без преобразования функций в массивы для обработки.
from sklearn import preprocessing import pandas as pd housing = pd.read_csv("/content/sample_data/california_housing_train.csv") d = preprocessing.normalize(housing) scaled_df = pd.DataFrame(d, columns=names) scaled_df.head()
Здесь значения нормализованы по строкам, что может быть очень неинтуитивно. Нормализация по строкам означает, что нормализуется каждая отдельная выборка, а не признаки.
Однако вы можете указать ось при вызове метода для нормализации по элементу (столбцу).
Значение параметра оси по умолчанию установлено на 1. Если мы изменим значение на 0, процесс нормализации произойдет по столбцу.
from sklearn import preprocessing import pandas as pd housing = pd.read_csv("/content/sample_data/california_housing_train.csv") d = preprocessing.normalize(housing, axis=0) scaled_df = pd.DataFrame(d, columns=names) scaled_df.head()
Вы можете видеть, что столбец для total_bedrooms в выходных данных совпадает с тем, который мы получили выше после преобразования его в массив и последующей нормализации.
Использование MinMaxScaler() для нормализации данных
Когда дело доходит до нормализации данных, Sklearn предоставляет еще один вариант: MinMaxScaler.
Это более популярный выбор для нормализации наборов данных.
Вот код для нормализации набора данных жилья с помощью MinMaxScaler:
from sklearn import preprocessing import pandas as pd housing = pd.read_csv("/content/sample_data/california_housing_train.csv") scaler = preprocessing.MinMaxScaler() names = housing.columns d = scaler.fit_transform(housing) scaled_df = pd.DataFrame(d, columns=names) scaled_df.head()
Вы можете видеть, что значения на выходе находятся между (0 и 1).
MinMaxScaler также дает вам возможность выбрать диапазон функций. По умолчанию диапазон установлен на (0,1). Посмотрим, как изменить диапазон на (0,2).
from sklearn import preprocessing import pandas as pd housing = pd.read_csv("/content/sample_data/california_housing_train.csv") scaler = preprocessing.MinMaxScaler(feature_range=(0, 2)) names = housing.columns d = scaler.fit_transform(housing) scaled_df = pd.DataFrame(d, columns=names) scaled_df.head()
Значения на выходе теперь находятся в диапазоне (0,2).