chainer.functions.slstm

`chainer.functions.slstm`(c_prev1, c_prev2, x1, x2)[source]¶

活性化関数としてのS-LSTM units。

この関数はS-LSTM unitを実装しています。これは、木構造が用いられる LSTM unit の拡張です。

この関数は二分木に用いられます。（＊訳注：入力が二分木ということ）。各ノードは。２つの子ノードを持ちます。これは、４つの引数を取得します。前回のセル状態 c_prev1 と c_prev2、そして入力配列 x1 と x2です。

はじめの２つの x1 と x2 は両方、８つの配列へ分割されます。 $a_{1}, i_{1}, f_{1}, o_{1}$ , と $a_{2}, i_{2}, f_{2}, o_{2}$ です。これらは第２軸に添って、同じ形（shape）になります。つまり x1 と x2 の第２軸は、c_prev1 と c_prev2.の４倍の長さでなければなりません。

分割された配列はそれぞれ、下記に相当します。:

$a_{i}$ : sources of cell input

$i_{i}$ : sources of input gate

$f_{i}$ : sources of forget gate

$o_{i}$ : sources of output gate

更新されたセル状態 c と出力シグナル h を下記のように演算します。:

c h = tanh (a 1 + a 2) σ (i 1 + i 2) + c prev 1 σ (f 1) + c prev 2 σ (f 2), = tanh (c) σ (o 1 + o 2),

ただし、 $σ$ は要素ごとのシグモイド関数。この関数は c と h をタプルとして返します。

Parameters:	c_prev1 (`Variable` or `numpy.ndarray` or `cupy.ndarray`) – １つ目の子ノードの以前のセルの状態を保持するVariable . セル状態は、ゼロ配列か、もしくは以前に呼び出されたLSTMの出力でなければならない。 c_prev2 (`Variable` or `numpy.ndarray` or `cupy.ndarray`) – ２つ目の子ノードの胃炎のセル状態を保持するVariable。 x1 (`Variable` or `numpy.ndarray` or `cupy.ndarray`) – １つ目の子ノードからのcell input、input gate、 forget gate、 output gateのソースを保持するVariable。２番めの次元は、セル状態の4倍のサイズでなければならない。 x2 (`Variable` or `numpy.ndarray` or `cupy.ndarray`) –２つ目の子ノードからの入力ソースを持つ Variable。
Returns:	２つの `Variable` オブジェクト、 `c` と `h`。`c` はセル状態、 `h` は出力シグナルを示す。
Return type:	tuple

詳細はこちらの論文でお読みください: Long Short-Term Memory Over Tree Structures.

Example

c1、c2 は子ノードの以前のセル状態であり、 h1、 h2 は子ノードからの以前の出力シグナルであるとします。それぞれ c1、 c2、 h1 、 h2 は n_units チャンネルを持ちます。大多数の場合、 x1, x2 は、下記のように記述されます。:

>>> n_units = 100

>>> h1 = chainer.Variable(np.zeros((1, n_units), 'f'))

>>> h2 = chainer.Variable(np.zeros((1, n_units), 'f'))

>>> c1 = chainer.Variable(np.zeros((1, n_units), 'f'))

>>> c2 = chainer.Variable(np.zeros((1, n_units), 'f'))

>>> model1 = chainer.Chain()

>>> with model1.init_scope():

...   model1.w = L.Linear(n_units, 4 * n_units)

...   model1.v = L.Linear(n_units, 4 * n_units)

>>> model2 = chainer.Chain()

>>> with model2.init_scope():

...   model2.w = L.Linear(n_units, 4 * n_units)

...   model2.v = L.Linear(n_units, 4 * n_units)

>>> x1 = model1.w(c1) + model1.v(h1)

>>> x2 = model2.w(c2) + model2.v(h2)

>>> c, h = F.slstm(c1, c2, x1, x2)

これは入力配列 x1の演算、もしくは、１つ目の子ノード c1の以前のセル状態と１つ目の子ノード h1からの以前の出力シグナルから、入力ソース $a_{1}, i_{1}, f_{1}, o_{1}$ を演算することに相当します。異なる入力ソースには異なるパラメータが用いられます。

chainer.functions.slstm(c_prev1, c_prev2, x1, x2)[source]¶

`chainer.functions.slstm`(c_prev1, c_prev2, x1, x2)[source]¶