1973Clark

Clark (1973) の language-as-fixed-effect fallacy

language-as-fixed-effect fallacy(言語材料を固定効果として扱う誤謬)は、心理言語学で典型的な「刺激(単語・文など)のサンプルを、あたかも母集団の全刺激を代表する“固定された集合であるかのように扱い、その結果を「言語一般」に一般化してしまう統計上の誤りを指す。Clark (1973) が、当時の実験(特に語・文材料を使う研究)が、刺激集合のサンプリング不確実性を誤差に入れていないことを批判して定式化した。

同じ問題を、2 群差(条件差)の実験で具体化する。被験者 (s)、刺激(項目)(i)、条件 ($c\in{0,1}$) の反応を ($y_{sic}$) とする。現実には「被験者によるばらつき」と同様に「刺激によるばらつき」がある。たとえば単語頻度や形態・意味の癖で、刺激ごとにベースラインが違うし、条件効果(差の出やすさ)も刺激ごとに違い得る。

ところが古典的な解析でよくやるのが次のどちらか:

  1. 被験者平均に潰して t 検定(F1)
    各被験者で刺激を平均し、被験者をサンプル単位として t 検定する。これは「刺激集合は固定(誤差に入れない)」になりやすい。結論は「この刺激集合に関しては差がある」止まりで、本来言いたい「刺激一般に一般化できる差か」は保証されない。
  2. 刺激平均に潰して t 検定(F2)
    逆に刺激をサンプル単位にして被験者を平均して t 検定すると、今度は被験者集合を固定効果として扱う。

Clark の指摘「刺激(言語材料)も被験者と同様に母集団からのサンプルであるのに、そこを固定効果として扱うと、有意性や一般化が過大評価され得る」 歴史的には、これを避けるために心理言語学では “F1(被験者解析)と F2(項目解析)を両方やる” という慣行が生まれた。しかしこれも根本解決ではなく、被験者×刺激の交差(crossed)構造を同時に扱えない 現代的な解決が「被験者と刺激を同時にランダム効果として入れる混合効果モデル(LMM/GLMM)」。最小形は以下:

\[y_{sic} = \alpha + \beta c + u_s + v_i + \varepsilon_{sic},\]

ここで $u_s$ は被験者ランダム切片、$v_i$ は刺激ランダム切片です。さらに「条件差の出やすさが被験者/刺激で違う」まで入れるなら(重要)、

\[y_{sic} = \alpha + (\beta + b_s + b_i)c + u_s + v_i + \varepsilon_{sic},\]

のようにランダム傾きも入れる。こうすると $\beta$ の推定と不確実性は、「被験者母集団」と「刺激母集団」の両方に一般化した形で評価される。 Baayen らの “crossed random effects” の流れや、その後の「ランダム効果構造が一般化性能に直結する」という議論(Barr+(2013) の “keep it maximal” 論点)は、この延長線上にある。([PubMed] 要点だけ言うと、fallacy の中身は以下:

  • 刺激(言語材料)を固定効果扱いにすると、「刺激サンプリングの不確実性」が誤差に入らない。
  • その結果、標準誤差が小さくなりやすく、p 値が過小(偽陽性増加)になり得る。
  • だから「言語一般」への一般化が危うい。これが language-as-fixed-effect fallacy