Embedder

Danger

Документирование модуля не завершено и может содержать неточности.

Описание

Info

Родительский класс: Module

Производные классы: -

Данный модуль реализует слой вычисления эмбеддинга. В данном случае под эмбеддингом подразумевается векторное представление слов.

Подробнее о слоях эмбеддинга можно почитать здесь, здесь и здесь.

Инициализация

def __init__(self, vocabulary, sentlength, embsize, onVocabulary=None, initscheme="uniform", wscale=1.0,
                 learnable=True, name=None):

Параметры

Параметр Возможные типы Описание По умолчанию
vocabulary int Размер словаря -
sentlength int Длина входной последовательности текста -
embsize int Размерность эмбеддинга -
onVocabulary object Параметр, отвечающий за формирование эмбеддинга готовому словарю None
initscheme Union[tuple, str] Указывает схему инициализации весов слоя (см. createTensorWithScheme). None -> ("xavier_uniform", "in")
wscale float Дисперсия случайных весов слоя 1.0
learnable bool Возможность дообучения слоя True
name str Имя слоя None

Пояснения

sentlength - максимальная длина входной последовательности. Фиксированное число, обычно выбирается по длине максимального предложения. Предложения с меньшим количеством символов обычно перед подачей в слой эмбеддинга дозаполняются паддинговыми значениями до максимальной длины.

Примеры

Необходимые импорты.

import numpy as np
from PuzzleLib.Backend import gpuarray
from PuzzleLib.Modules import Embedder

Инициализируем входные параметры и тензор данных.

Important

gpuarray необходим для правильного размещения тензора на GPU.

np.random.seed(123)
batchsize, sentlength, embsize = 1, 2, 4
vocabsize = 7

data = gpuarray.to_gpu(np.random.randint(low=-1, high=vocabsize, size=(batchsize, sentlength), dtype=np.int32))

print(data)
[[5 4]]
Сформировали строку, состоящую из двух слов (заданной длины последовательности).

Теперь инициализируем экземпляр класса с заданными параметрами и подаем ему на вход данные.

embedder = Embedder(vocabsize, sentlength, embsize)
print(embedder(data))
[[[ 0.69886357  0.44891065  0.22204702  0.44488677]
  [-0.6490965   0.06310274  0.06365518  0.26880193]]]
Получили векторные представления сформированных слов. Каждое слово кодируется 4 действительными числами - согласно указанному размеру эмбеддинга.