\(^1\)静岡県立大学, \(^2\)クラーク病院, \(^3\)北海道大学, \(^4\)イムス板橋リハビリテーション病院, \(^5\)国際交流基金, \(^6\)目白大学, \(^7\)東京女子大学
要約 物品呼称課題,あるいは,絵画命名課題 (PNT) に関する従来モデルは,(当然のことながら)未だ多くの問題点を抱えている。 たとえば,WEAVER++ や DIVA などのモデルには,語彙表象の選択から音韻出力に至る過程に,内的もしくは外的な制御構造(ループあるいはフィードバック)を仮定する必要があると考えられる。 また,扱える語彙は単音節語に限られるなど,対象とする語彙数の制約が存在するモデルもある。 さらに,従来モデルは一般に,健常者や失語症者の言い誤りを直接的に生成することができない。 我々は,柔軟な制御構造の実装と多音節語への拡張を企図し,加えて言い誤りの機序としてゲートを仮定した LSTM (Long Short-Term Memory) モデルを用いた新規モデルを作成した。 目標語の音韻表象と表出される単語表象としてLSTM の中間層表現を利用し,かつ,LSTM のゲート開閉の不具合として言い誤りを算出させることを試みた。本発表では,提案モデルのシミュレーション結果について報告する。
従来モデルを下図に示した。 語彙形態が十分に活性化し,発話プログラムに指令が伝達される状況を仮定する。
従来モデルの問題点としては,以下の点が指摘できる。
図 1 従来モデルの概観。 左図: 2 段階相互活性化モデル (Dell et al. 1997) Fig.1 より。 右図: SLAM モデル(Walker and Hickok 2016) Fig. 3 より。 20 年以上の伝統のあるモデルであるが,現代的な視点からは問題点が指摘できる。
たとえば,上図左では,語彙と語形とを結ぶネットワークが示されている (Dell 1988) 意図したフレーズは deal back
であり, 単語ノード上の番号付きフラグで示されている。 単語 deal
は現在の単語である。 語彙ネットワークのノード間の接続はすべて興奮性で双方向である。 点線は、語彙ネットワークと語形ネットワークの間の接続を示す。 語形ネットワークの音素カテゴリーノード間の矢印は, その活性化の順序を示す。
図 2 図左: WEAVER++ モデルの概念図 (Roelofs 2005) Fig. 1 より。 図右: カルマンフィルター (Kalman 1960) Fig. 4 より。 2 重ループによる発話制御は,最適フィルタによる制御理論と相同である。
長=短期記憶 (Long Short-Term Memory: LSTM, henceforth) は Shumithuber らにより提案された長距離依存解消のためのニューラルネットワークモデルである(Hochreiter and Schmidhuber 1997; Greff et al. 2015)。 長距離依存を解消するためには, ある内容を保持し続けて必要に応じてその内容を取り出すことができなければならない。 このことを実現するために,ニューロンへの入力に gate を設置することが LSTM の特徴である。 下図に長=短期記憶モデルの概念図を示した。
図 LSTM の概念図 左図: (浅川 2016) を改変。 右図: ゲートを制御する信号は 3 種類である。
上図 LSTM は一つのニューロンに該当する。 このニューロンには 3 つの gate が付いている。 3 つのゲートは,それぞれ,入力, 出力, 忘却ゲートと呼ばれる。 入力ゲートと出力ゲートが閉じていれば,中央のセルの内容が保持されることになる。 出力ゲートが開いている場合には,セル内容が出力される。 一方出力ゲートが閉じていればそのセル内容は出力されない。 このように入力ゲートと出力ゲートはセル内容の入出力に関与する。 忘却ゲートはセル内容の保持に関与する。 忘却ゲートが開いていれば一時刻前のセル内容が保持されることを意味する。 反対に忘却ゲートが閉じていれば一時刻前のセル内容は破棄される。 全セルの忘却ゲートが全閉ならば通常の多層ニューラルネットワークであることと同義である。 すなわち記憶内容を保持しないことを意味する。 エルマンネットなどの,単純再帰型ニューラルネットワークでフィードバック信号がが存在しない場合に相当する。
以上をまとめると,セルへの入力は,1) 下層からの信号,2) 上層からの信号 (Jordan ネットの帰還信号) 3) 自分自身の内容,(Elman ネットの帰還信号) が用いられる。 これら入力信号が,1) 入力信号そのもの, 2) 入力ゲートの開閉制御用信号, 3) 出力ゲートの開閉制御用信号, 4) 忘却ゲートの開閉制御用信号 という 4 種類に用いられる。 すなわち,LSTM のパラメータ数は SRN に比べて 4 倍となる。
セルの出力関数として ハイパーボリックタンジェント関数 (\(\tanh\)) が,ゲートの出力関数にはシグモイド関数 \([1/(1+e(-x)]^{-1}\) が持ちいられる。 その理由はハイパーボリックタンジェント関数の方が収束が早いこと,シグモイド関数は値域が \([0,1]\) であるためゲートの開閉に直接対応しているからである。
LSTM のゲートは,前シナプス抑制と関連すると考えられる (McComas 2016)。 また,ウミウシのエラ引っ込め反応時に,ニューロンへの入力信号ではなく,入力信号を修飾する結合が存在する(下図)。 運動野,感覚野に見られる神経機構であるので,ニューラルネットワークへの生物学的対応物であると考えられる。
前シナプス抑制の概念図 左上: 入力された 1 次求心性線維(A), 2 次ニューロン(運動ニューロンまたは感覚リレーニューロン C), 制御性シナプス前線維(B) の間のシナプス配置の模式図。
左下: 一次求心性線維 (A) と二次ニューロン(C) を, 求心性線維のみの刺激 (A) とシナプス前抑制性線維との刺激 (A \(\pm\) B) によって誘発される反応を仮想的に記録したもの。 (McComas 2016) Fig. 2 より。
右: 画像 http://kybele.psych.cornell.edu/~edelman/Psych-3140/shunting-inhibition.jpg
画像はそれぞれ http://kybele.psych.cornell.edu/~edelman/Psych-2140/C87-fig2.24.jpg http://kybele.psych.cornell.edu/~edelman/Psych-2140/C87-fig2.25.jpg より
Dell, Gary S. 1988. “The Retrieval of Phonological Forms in Production: Tests of Predictions from a Connectionist Model.” Journal of Memory and Language 27: 124–42.
Dell, Gary S., Myrna F. Schwartz, Nadine Martin, Eleanor M. Saffran, and Deborah A. Gagnon. 1997. “Lexical Access in Aphasic and Nonaphasic Speakers.” Psychological Review 104 (4): 801–38.
Greff, Klaus, Rupesh Kumar Srivastava, Jan Koutník, Bas R. Steunebrink, and Jürgen Schmidhuber. 2015. “LSTM: A Search Space Odyssey.” ArXiv:1503.04069.
Hochreiter, Sepp, and Jürgen Schmidhuber. 1997. “Long Short-Term Memory.” Neural Computation 9: 1735–80.
Kalman, Richard E. 1960. “A New Approach to Linear Filtering and Prediction Problems.” Transactions of the ASME–Journal of Basic Engineering 82 (Series D): 35–45.
McComas, Alan J. 2016. “Hypothesis: Hughlings Jackson and Presynaptic Inhibition: Is There a Big Picture?” Journal of Neurophysiology 116: 41–50. https://doi.org/10.1152/jn.00371.2015.
Roelofs, Ardi. 2005. “Spoken Word Planning, Comprehending, and Self-Monitoring: Evaluation of Weaver++.” In Phonological Encoding and Monitoring in Normal and Pathological Speech, edited by R. J. Hartsuiker, R. Bastiaanse, A. Postma, and F. Wijnen, 42–63. Psychology Press.
Walker, Grant M., and Gregory Hickok. 2016. “Bridging Computational Approaches to Speech Production: The Semantic–Lexical–Auditory–Motor Model (SLAM).” Psychonomic Bulletin and Review 23: 339–52. https://doi.org/10.3758/s13423-015-0903-7.
浅川伸一. 2016. “リカレントニューラルネットワーク.” In 人工知能学事典新版. 東京: 共立出版.