Skip to content

BatchNormND

Описание

Info

Родительский класс: Module

Производные классы: BatchNorm1D, BatchNorm2D, BatchNorm3D

Общая информация

Этот модуль выполняет операцию N-мерной батч-нормализации. Выбор размерности операции зависит от размерности входных данных.

Слой батч-нормализации призван, в первую очередь, решать проблему ковариационного сдвига. Понять ковариационный сдвиг проще всего на примере: допустим, есть сеть, которая должна распознавать изображения кошек. В обучающей выборке присутствуют изображения только чёрных кошек, так что, когда мы попытаемся во время тестов прогнать картинки кошек других цветов, нежели чёрный, качество предсказания модели будет заметно хуже, чем на сете из чёрных кошек. Другими словами, ковариационный сдвиг — это ситуация, когда распределения значений признаков в обучающей и тестовой выборке имеют разные параметры (математическое ожидание, дисперсия и т.д.).

Когда мы говорим о ковариационном сдвиге в рамках глубокого обучения, мы в большей мере имеем в виду ситуацию разного распределения признаков не на входе сети, как в примере выше, а в слоях внутри модели - внутренний ковариационный сдвиг. Нейронная сеть меняет свои веса с каждым пройденным мини-батчем (если мы применяем соответствующий оптимизационный механизм, естественно), и так как выходы текущего слоя являются входными признаками для следующего, то каждый слой в сети попадает в ситуацию, когда распределение входных признаков меняется каждый шаг, т.е. каждый пройденный мини-батч.

Базовая идея батч-нормализации - ограничить внутренний ковариационный сдвиг путём нормализации выхода каждого слоя, преобразуя его в распределениу с нулевым математическим ожиданием и единичной дисперсией.

Из рисунка 1 видно, что батч-нормализация получает среднее и дисперсию по батчу.

Виды нормализации
Рисунок 1. Демонстрация принципов действия различных видов нормализации

Рассмотрим случай батч-нормализации двумерных карт. Тогда тензор данных имеет размерность (N, C, H, W), где N - размер батча, C - количество карт (каналов), H - высота карты, W - ширина карты. Условимся насчёт индексов: t - номер элемента батча, i - номер карты, m - номер элемента карты признаков по высоте, n - номер элемента карты признаков по ширине. Тогда для каждой отдельно взятой i-ой карты признаков:

\begin{equation} \mu_i = \frac{1}{NHW}\sum_{t=1}^{N} \sum_{m=1}^{H} \sum_{m=1}^{W}x_{timn} \end{equation}
\begin{equation} \sigma_i^2 = \frac{1}{NHW}\sum_{t=1}^{N} \sum_{m=1}^{H} \sum_{m=1}^{W}(x_{timn} - \mu_i)^2 \end{equation}
\begin{equation} \hat{x}_{timn} = \frac{x_{timn} - \mu_i}{\sqrt{\sigma_i^2 + \epsilon}} \end{equation}
\begin{equation} y_{timn} = \gamma\hat{x}_{timn} + \beta \end{equation}

где

\mu_i - математическое ожидание распределения признаков в батче для i-ой карты признаков;
\sigma_i^2 - дисперсия распределения признаков в батче для i-ой карты признаков;
x_{timn} - элемент карты признаков;
\hat{x}_{timn} - нормализованный элемент карты признаков;
\epsilon - стабилизирующая константа, предотвращающая деление на ноль;
\gamma - аффинный параметр масштаба;
\beta - аффинный параметр сдвига.

Для параметров \mu_i и \sigma_i^2 слои батч-нормализации запоминают среднее значение по всей выборке за время обучения. Во время инференса эти параметры замораживаются.

На практике ограничение в лице нулевого мат ожидания и единичной дисперсии может сильно ограничить предсказательную способность сети, поэтому добавляются ещё два обучаемых аффинных параметра: масштаб и сдвиг, чтобы алгоритм мог подстроить под себя значения среднего и дисперсии.

Дополнительные источники

Подробнее о батч-нормализации можно почитать в следующих источниках:

Инициализация

def __init__(self, nd, maps, epsilon=1e-5, initFactor=1.0, minFactor=0.1, sscale=0.01, affine=True, name=None, empty=False, inplace=False):

Параметры

Параметр Возможные типы Описание По умолчанию
nd int Размерность операции -
size int Количество входных признаков -
epsilon float Стабилизирующая константа 1e-5
initFactor float Начальное значение коэффициента сохранения в скользящем среднем 1.0
minFactor float Минимальное значение коэффициента сохранения в скользящем среднем 0.1
sscale float Дисперсия гауссовского распределения для масштабов scale batch нормализации 0.01
affine bool Если True, слой будет иметь обучаемые аффинные параметры scale и bias True
name str Имя слоя None
empty bool Если True, то тензоры параметров модуля не инициализируются False
inplace bool Если True, то выходной тензор будет записан в памяти на место входного False

Пояснения

См. классы потомки.