Bayes for CCAP

\[\newcommand{\bs}[1]{\boldsymbol{#1}} \newcommand{\mb}[1]{\boldsymbol{#1}} % \newcommand{\mb}[1]{\mathbf{#1}} \newcommand{\Brc}[1]{\left(#1\right)} \newcommand{\BRc}[1]{\left[#1\right]} \newcommand{\Rank}{\text{rank}\;} \newcommand{\Hat}[1]{\widehat{#1}} \newcommand{\Prj}[1]{\mb{#1}\Brc{\mb{#1}^{\top}\mb{#1}}^{-1}\mb{#1}^{\top}} \newcommand{\RegP}[2]{\Brc{\mb{#1}^{\top}\mb{#1}}^{-1}\mb{#1}^{\top}\mb{#2}} \newcommand{\NSQ}[1]{\left|\mb{#1}\right|^2} \newcommand{\Norm}[1]{\left|#1\right|} \newcommand{\IP}[2]{\left({#1}\cdot{#2}\right)} \newcommand{\Bar}[1]{\overline{\;#1\;}} \newcommand{\of}[1]{\left(#1\right)} \newcommand{\Of}[1]{\left[#1\right]} \newcommand{\OF}[1]{\left\{#1\right\}} \newcommand{\widebar}[1]{\overline{#1}}\]

言語材料を固定効果として扱う誤謬 (Language as fixed effect fallacy, Clark, 1973)
CCAP の参加者の諸兄姉が Bayes を知りたいと思う理由について浅川の邪推

そもそも,というか歴史的な文脈としては,言語材料を固定効果として扱う誤謬 (Language as fixed effect fallacy, Clark, 1973) が出発点なのだろう。 Clark (1973) は、心理学研究において、言語材料を固定効果として扱うことの誤謬を指摘し、これが統計的推論の根本的な問題であると主張した。彼は、言語材料が無数に存在する中から「たまたま」選ばれた一部であることを考慮せずに分析を行うことが、研究結果の一般化可能性を損なうと警告した。

このように Clark は (札幌農学校で,「青年よ大志を抱け」と言っただけでなく ^^;),言語材料を安易に固定効果として扱った分析の危うさを指摘した。

Clark (1973) の指摘した Language as fixed effect fallacy は、被験者と刺激の両方をランダム効果として扱う 線形混合効果モデル (LME: Linear Mixed Effect Modeling, 文献によっては LMEM とも表記される) の発展につながった。LME は、被験者と言語材料の両方のバラツキを考慮することで、より一般化可能な結論を導くことができるようになった。 線形混合効果モデルは、被験者と刺激の両方をランダム効果として扱う。Clark (1973) の指摘した language-as-fixed-effect fallacy を回避する方法としては,最も知られた方法であろう。 CCAP メンバとしては,玉岡 (2022),あるいは,橋本,上間,三盃 (2022) の文献の親密度が高いだろう。

近年の発展としては,Yarkoni (2022) の Generalizability Crisis が挙げられる。Yarkoni (2022) は Clark (1973) の指摘した問題をさらに拡大して、心理学研究全体の一般化可能性の危機を論じている。Yarkoni は、研究者が特定のサンプルや条件に過度に依存する傾向があることを指摘し、これが研究結果の再現性や一般化可能性を損なう原因となっていると主張している。

それでも,なお,ベイズを知りたいという動機は,LME では限界があるということを感じているからではないかと邪推してみた。たとえば、LME では、モデルの構造をあらかじめ決めておく必要がある(例:ランダム効果の構造)。しかし、ベイズ統計学では、モデルの構造をデータから学習することができる。また、ベイズ統計学では、モデルの不確実性を自然に扱うことができる。これらの理由から、CCAP の参加者の皆様は、ベイズ統計学に興味を持っているのではないかと邪推する。

  • Language as fixed effect fallacy: Clark, H. H. (1973) The language-as-fixed-effect fallacy: A critique of language statistics in psychological research. Journal of Verbal Learning and Verbal Behavior, 12(4), 335–359.
  • Generalizability Crisis: Yarkoni (2022) The Generalizability Crisis, Behavioral and Brain Sciences, 45, e1, 1–37, DOI:10.1017/S0140525X2000168X
  • 玉岡 (2022) チュートリアル:線形混合効果モデル(LME)による分析法,
  • 橋本,上間,三盃 (2022) 線形混合効果モデリングによる解析例 - 成人・子どもを対象にした読み処理に関する研究から -
  • lme4 パッケージのドキュメント

ベイズの定理

ちなみになぜベイズの定理が重要かというと、ベイズ統計学の基礎となるからです。ベイズの定理は、ある事象 A が起こる確率を、別の事象 B が起こる確率を用いて計算する方法を提供します。これにより、データから未知のパラメータや仮説の確率を更新することができる。 日本語版ウィキペディアでは,次式がベイズの定理として紹介されていまる:

\[P\of{A\vert B} = \frac{P\of{B\vert A}P\of{A}}{P\of{B}}\]

上式は,次のように発音する: ピー オブ エー ギブン ビー イコール ピー オブ ビー ギブン エー タイムズ ピー オブ エー オーバー ピー オブ ビー

上式は,次のように考えた方が後々の考え方に馴染むかもしれない:

$\displaystyle P\of{A\vert B} = \frac{P\of{B\vert A}P\of{A}}{P\of{B}} = \frac{P\of{B\vert A}P\of{A}}{P\of{B\vert A}P\of{A}+P\of{B\vert\neg A}P\of{\neg A}}$, すなわち,上式最右辺の分母は,$p\of{A} + p\of{\neg A} = 1$ を利用して,$P\of{B} = P\of{B\vert A}P\of{A}+P\of{B\vert\neg A}P\of{\neg A}$ と書き換えられることを示している。 このようにしておけば,事象 $A$ とその補事象 $\neg A$ の両方だけでなく,取りうる状態が $n$ であっても,$p\of{A_i}, i\in{1, \dots, n}$ を考慮して,事象 $B$ が起こる確率を計算することができる。


See also:

Language as fixed effect はなぜ問題なのか?

たまたま選んだその単語リストでうまくいったからといって、すべての単語で同じことが言えると思うな という警告。

1. なぜ「固定(Fixed)効果」だとダメなのか?

統計学において、要因の扱いには大きく分けて 2 種類:

  • 固定効果 (Fixed Effect): その実験で選んだ項目そのものに興味がある場合。(例:男性と女性の比較、投与量 0 mgと10 mg の比較)
  • 変量効果 (Random Effect): 無数にある候補の中から「たまたま」抽出された一部にすぎない場合。(例:実験に参加したAさん、Bさん……といった「個人」)

従来の心理言語学では、参加者(人間) については「人によってバラツキがある」として変量効果(サンプリングの不確実性)を考慮していたが、刺激(単語) については「固定されたもの」として扱っていた。

しかし、本来「単語」も辞書にある膨大な数の中から抽出されたサンプルに過ぎない。特定の単語だけで見られた傾向を、言語全体に広げてしまうのは、10 人の日本人の意見を聞いて、日本国民全員がそう思っていると結論づける のと同じミスにあたる。

2. クラーク(1973)の批判の本質

1973年 に Clark がこの問題を指摘するまで、多くの研究者が誤った分散分析を行っていた。 Clark は、結果が一般化可能であると言うためには、以下の 両方のバラツキ を同時に乗り越えなければならないと主張した。

  1. 人によるバラツキ(たまたまこの被験者群だったからではないか?)
  2. 単語群によるバラツキ(たまたまこの単語リストだったからではないか?)

これを解決するために、彼は $F^\prime$ という統計量を導入し、人と言葉の両方の不確実性を合算して計算することを提唱した。

3. 現代における解決策

現在、この問題はさらに進化した 線形混合モデル LMM:Linear Mixed Effects Models によって処理。 論文中に Random intercepts for Subjects and Items(被験者と言葉の両方にランダム切片を設定した)という記述があれば、それはまさにこの「言語固定効果の誤謬」を回避するための処理を行っていることを意味する。

3.1 語彙研究への適用(2020年代)

最近の語彙研究では、線形混合効果モデルが理想的だとされながらも、固定効果のみのモデルに依存する研究者が多いことが問題視されている。 Nicklin & Vitta (2025) の研究では、固定効果のみの分析が真の効果量を過大評価する可能性を示唆。

3.2 神経科学への展開

EEG や MEG 研究にも混合効果モデルを適用する lmeEEG DOI:10.1016/j.jneumeth.2023.109991 などの新しい手法が開発されており、心理言語学以外の分野にも広がっている。

混合効果モデルの複雑さが障壁となっており、データシミュレーションを通じた理解促進やチュートリアルが公開 されている。

4. LME は福音なのか?それとも徒花(あだばな)なのか

  • でも LME って,結局,頻度論統計学の枠組みの中での解決策の提案でしかないよね?
  • LME だって正しいとは限らないのでは?
  • 知りたいことは,有意差ではなくて,言語活動を行っている人間の頭の中では何が起こっているのか,であろう。
  • Spieler & Balota (1997) 基準 を考えてモデル化

Kruschke(2013) Bayesian Estimation Supersedes the t Test 要約

ベイズモデルに関するレクチャ(案)

  1. 推測統計学における帰無仮説検定 (NHST: Null Hypothesis Statistical Tests) と ベイズ統計学におけるベイズ因子
  2. 回帰分析の違い
    1. 推測統計学における回帰分析
    2. ベイズ回帰分析
    3. ガウス過程
  3. パス解析 (構造方程式モデル) とグラフィカルモデルとの相違

実際 Gelman の教科書 では、21 章に GP モデルの記述が認められる。 ガウス過程まで含めて考えることによって,Clark (1973) の指摘した language-as-fixed-effect fallacy の抜本的解決策とみなせることになる。

逆に言えば,線形混合効果モデルの枠組みは,いわゆる頻度論的統計学による拡張であり,本質的な解決策になっていないとも言えるからである。 とは言え,固定量効果を用いた分散分析では,いわゆる p 値のインフレが起こる可能性があり,このままでは行き詰まるという危機感をお持ちの諸兄姉も多いのではないかと邪推する。

LMM vs. Bayesian Regression vs. Gaussian Process Regression

1. 線形混合効果モデル (LMM)

Clark (1973) の “Language-as-fixed-effect fallacy” に対して最も直接的に応える、現代心理言語学の標準的な分析手法。R の lme4 パッケージなどで実装。

  • 構造: 固定効果(平均的な傾向)+ ランダム効果(個人差や項目差)
  • 一般化へのアプローチ: 被験者や刺激を「特定の母集団からのランダムサンプリング」と見なし、その 分散 を推定。
  • 特徴: 刺激間・個人間の相関構造を「分散成分」としてモデル化。
  • 限界: 基本的に線形な関係(またはリンク関数を介した線形性)を仮定するため、複雑な非線形反応(時間の経過による学習効果など)を捉えるには、基底関数の選定などに工夫が必要。

2. ベイズ回帰 (Bayesian Regression)

LMM をさらに拡張・柔軟化した枠組。R のbrms パッケージなどで実装。

  • 構造: LMMの構造を包含しつつ、すべてのパラメータに 事前の分布(Prior) を仮定。
  • 一般化へのアプローチ: Yarkoni (2020) が指摘した「不確実性」を、点推定ではなく分布全体 として扱う。
  • Clark, Yarkoni 的視点: サンプルサイズが小さい刺激項目に対しても、情報共有(収縮推定/Shrinkage)によって安定した推定が可能。
  • 帰無仮説の棄却ではなく効果量の存在確率 を議論できるため、一般化の度合いを直感的に評価。
  • 相違点: LMM が最大尤度法(または REML)で「最もらしい値」を探すのに対し、ベイズは「起こりうる値の範囲」すべてを探索。

3. ガウス過程回帰 (GPR:Gaussian Process Regression)

LMM や標準的なベイズ回帰が「パラメータ(切片や傾き)」を推定するのに対し、GP は 関数そのもの を推定。

  • 構造: 無限次元の基底を持つカーネル法による回帰。機械学習との関連では RKHS(Reproducing Kernel Hilbert Space)上の関数を推定する。
  • 一般化へのアプローチ: データの「近さ(類似性)」をカーネル関数で定義し、未知の入力地点での反応を予測。
  • Clark/Yarkoni 的視点: 非線形な一般化: Yarkoni が懸念した「文脈や課題による複雑な交互作用」を、特定の関数形(直線など)を仮定せずにデータから直接学習できる。
  • カーネルによる構造化: 刺激間の類似性(例:意味的類似度や音韻的類似度)をカーネルに組み込むことで、「ある単語での結果が、似た特徴を持つ別の未学習単語にどう波及するか」を厳密にモデル化。
  • 相違点: LMM が「項目 ID」という離散的なラベルでランダム効果を扱つのに対し、GPは「項目の特徴量空間」における連続的な変化として一般化を捉えることが得意。

三者比較

特徴 線形混合モデル (LMM) ベイズ回帰 (brms等) ガウス過程回帰 (GP)
主な目的 固定効果の検定と分散推定 パラメータの不確実性の評価 柔軟な非線形予測と不確実性
項目の扱い ランダムな「ラベル」 分布を持つ「パラメータ」 空間上の「点(類似性)」
一般化の根拠 母集団の分散 事後分布の広がり カーネルによる共分散構造
Clarkへの回答 の現代的解決 収縮推定による小サンプル保護 特徴量ベースの類似性一般化

Yarkoni (2020) の言う「一般化の危機」を克服するには、単なるラベルとしてのランダム効果(LMM)を超えて、GP のように なぜその刺激とこの刺激は似た反応を引き起こすのかという構造的類似性 をモデルに組み込む方向性が、一つの有力な回答になるかもしれない。

線形混合効果モデルとベイズ線形回帰の比較

根本的な哲学の違い

  線形混合効果モデル(頻度論) ベイズ線形回帰
パラメータの扱い 固定された未知の定数 確率変数(事前分布を持つ)
推論の基礎 尤度の最大化(ML/REML) 事後分布の計算
不確実性の表現 信頼区間 事後分布・信用区間
データ以外の情報 原則として使わない 事前分布として明示的に組み込む

変量効果の扱いの違い

線形混合効果モデルでは、変量効果 $b_i \sim N(0, \Sigma)$ という分布の仮定は「モデルの構造」であり、$\Sigma$(分散共分散行列)自体は点推定されます。変量効果は推定の対象というより、「積分消去すべき厄介者」として扱われる。

ベイズ線形回帰では、すべてのパラメータ(固定効果・分散も含む)に事前分布を設定し、観測データと組み合わせて事後分布を求めます。不確実性がパラメータ全体にわたって一貫して伝播します。

具体的なイメージ

sleepstudyの例で考えると、

  • 線形混合効果モデルのアプローチ: 「各被験者の切片と傾きのばらつきの大きさ(分散)」を点推定し、その推定値を所与として各被験者のランダム効果を条件付き最頻値(conditional mode)として求める。
  • ベイズアプローチ: 「分散パラメータ自体にも不確実性がある」として、分散の事後分布ごと求めます。結果として「被験者Aの切片はどれくらいの確率でどの範囲にあるか」という完全な確率的記述を得る。

線形混合効果モデルの変量効果の推定(BLUP)は、ベイズ線形回帰においてパラメータの事前分布が正規分布の場合の事後平均と数学的に一致する。 すなわち 混合効果モデルはベイズ的な構造を内包しながらも、頻度論的に推定していると言える。

実用上の使い分け

  • 線形混合効果モデルが向いている場面: 大規模データで計算速度が重要な場合、事前知識が特になく客観的な推定をしたい場合、lme4のような成熟したソフトウェアを使いたい場合が挙げられます。
  • ベイズアプローチが向いている場面: サンプルサイズが小さく事前知識を活用したい場合、パラメータの不確実性を完全に伝播させたい場合、複雑な階層モデルや非標準的なモデルを柔軟に組みたい場合が挙げられます。

まとめ

線形混合効果モデルは「変量効果という確率的構造を持ちながらも、パラメータを点推定する頻度論的手法」、ベイズ線形回帰は「すべてのパラメータを確率変数として扱い、事後分布という形で不確実性ごと推定する手法」。 両者は数学的に関連する、推論の哲学と不確実性の扱い方に本質的な違いがある。