6. 感度分析
第6章 多変量正規分布の仮定とその問題点および、感度分析
6.1 多変量正規分布の仮定
6.1.1 仮定の意味と背景
多変量正規分布の仮定とは、各観測ベクトル \(\mathbf{x}\) が、平均 \(\boldsymbol{\mu}\)(多くの場合、分析前に中心化されゼロと仮定される)および分散共分散行列 \(\Sigma\) を持つ多変量正規分布に従うという前提です。
数学的には、次のように表現されます。
この仮定の下で、因子分析の基本モデル
が成立し、最尤法などの推定手法はこの前提に基づいてパラメータ(因子負荷行列 \(\Lambda\) と特有分散 \(\Psi\))を推定します。
6.1.2 非正規性が疑われる具体的なケース
実際のデータでは、以下のような具体的なケースで多変量正規分布の仮定が成立しないことがよくあります。
-
心理学的検査データ:
例えば、性格や感情を測定するためのリッカート尺度では、回答が「非常に当てはまる」や「全く当てはまらない」に偏ることが多く、分布が左右非対称(歪度が大きい)となる場合があります。また、ほとんどの回答が中央付近に集中し、裾が軽い場合もあります。 -
マーケティング調査データ:
消費者の購買頻度や製品評価(例えば、0~10のスケール)において、特定の評価に極端に偏ったり、非常に高いまたは低い評価が散見されたりする場合、正規分布の仮定が疑われます。たとえば、価格に対して非常に敏感な消費者がごく一部存在する場合、データが右側に長い尾を持つ可能性があります。 -
医療・生物学的データ:
バイオマーカーや血液検査の値は、正常値の範囲に集中する一方で、一部の異常な値が極端に高い場合があります。たとえば、特定の酵素の値がほとんどの被験者で低い値に集中し、一部で異常に高い値が観測されると、分布が右に歪むことがあり得ます。 -
順序尺度やカテゴリカルデータ:
リッカート尺度のような順序データは、離散的な値しか取り得ず、連続的な正規分布の仮定から大きく逸脱します。
6.2 非正規性がもたらす影響とその対処法
6.2.1 推定結果への影響
非正規性が存在する場合、以下のような影響が考えられます。
-
パラメータ推定の偏り:
多変量正規分布の仮定に基づく最尤法では、正規性が成立している場合に効率的で一貫した推定が得られます。しかし、非正規性が存在すると、因子負荷量や特有分散の推定にバイアスが生じる可能性があります。
例: マーケティングデータにおいて、右に長い尾(アウトライヤー)の存在が平均や分散を引き上げ、因子構造が実際よりも強調されることがある。 -
検定統計量の信頼性低下:
カイ二乗検定など、モデル適合度の検定は正規性の仮定に依存しています。非正規性が強いと、これらの検定結果が実際の適合度を正しく反映しなくなる可能性があります。
6.2.2 非正規性に対する対処法
非正規性の影響を軽減するために、次のような方法が用いられます。
- ロバスト推定法の採用:
-
ロバスト最尤法 (Robust ML) や Satorra-Bentler 補正:
これらは正規性の逸脱を補正するための方法で、標準誤差や検定統計量を補正することにより、より信頼性のある結果を提供します。
実例: 心理学の大規模なアンケート調査で、回答の分布が著しく歪んでいる場合、Satorra-Bentler 補正を用いることで、因子数の決定に用いられるカイ二乗検定の信頼性を向上させることができます。 -
データ変換:
-
対数変換、平方根変換、Box-Cox変換:
これらの変換は、データの歪度や裾の重さを改善し、分布を正規分布に近づけることを目的としています。
実例: 医療データで、右に大きく歪んだバイオマーカーの値に対して対数変換を行うと、データの対称性が改善され、因子分析の前提条件に近づけることが可能になります。 -
代替相関行列の使用:
-
ポリコリック相関:
順序尺度データの場合、ピアソン相関ではなくポリコリック相関を用いることで、実際の変数間の関係をより正確に反映させることができます。
実例: リッカート尺度で評価された消費者の意見データに対して、ポリコリック相関行列を計算し、因子分析を実施することで、測定尺度の離散性を考慮した結果が得られます。 -
外れ値の処理:
- 外れ値検出と除外、または頑健な統計手法の採用:
外れ値が推定に及ぼす影響を低減するため、外れ値を特定し除外するか、外れ値に対して頑健な推定方法を用いることが有効です。
実例: マーケティング調査で、一部の極端な高評価や低評価が全体の推定に強く影響している場合、これらのデータ点を検出し、除外した上で因子分析を再実施し、結果の変化を確認することができます。
6.3 感度分析
感度分析は、因子分析において前提条件やデータ前処理の違いが推定結果にどの程度影響を与えるかを評価するための重要な手法です。ここでは、実際の具体例を交えて、感度分析の手法とその効果について詳しく説明します。
6.3.1 感度分析の目的
-
モデル仮定の検証:
多変量正規分布の仮定やその他の前提条件が、因子負荷量や因子得点に与える影響を確認します。 -
推定結果の安定性評価:
サンプルの一部を除外、または異なるデータ前処理方法を適用した場合に、推定結果がどの程度変動するかを評価します。
6.3.2 ブートストラップ法による評価
具体例:心理学的検査データの場合
ある心理学的検査のデータセットに対して因子分析を実施し、初期の因子負荷行列が得られたとします。次の手順でブートストラップ法を適用します。
-
再標本抽出:
データ全体からランダムに再標本(例えば1000回)を抽出します。各ブートストラップサンプルは、元のデータと同じサイズに設定します。 -
因子分析の実施:
各再標本について因子分析を実施し、因子負荷量や因子得点を推定します。 -
信頼区間の算出:
各変数の因子負荷量について、ブートストラップサンプルから得られた推定値の95%信頼区間を計算します。
解釈:
- もし、元の推定値がこれらの信頼区間内に収まっていれば、結果のロバスト性が高いと判断できます。
- 逆に、信頼区間が非常に広い場合は、推定結果がサンプルの変動に敏感であることを示しており、結果の信頼性に疑問が生じます。
6.3.3 サンプル分割法による検証
具体例:マーケティング調査データの場合
消費者アンケートデータを用いて因子分析を実施する際、以下の手順でサンプル分割法を適用します。
-
データの分割:
全体のサンプルを、例えば地域別や年代別に分割します(例:都市部と地方、または20代と50代)。 -
個別の因子分析:
各サブサンプルに対して独立に因子分析を実施し、因子負荷行列や因子得点を推定します。 -
結果の比較:
各サブサンプルで得られた因子構造が一致しているか、因子の命名や解釈が同様であるかを確認します。
解釈:
- もし異なるサブサンプルで類似した因子構造が確認できれば、全体の結果の安定性が支持されます。
- 逆に、サブサンプルごとに大きく異なる構造が現れる場合は、サンプルの特性や外部要因が因子構造に影響を与えている可能性があり、さらなる検討が必要です。
6.3.4 前処理の変更による感度分析
具体例:医療データにおける変数変換の影響
医療データの例では、ある酵素の値が右に歪んだ分布を示しているとします。ここでは、以下の手法で前処理の影響を検証します。
-
変数変換前の因子分析:
生の酵素値を用いて因子分析を実施し、因子負荷行列および因子得点を推定します。 -
変数変換後の因子分析:
対数変換やBox-Cox変換を行った後、同じデータに対して因子分析を実施します。 -
結果の比較:
変換前後の因子負荷行列や因子得点、さらには因子の解釈にどのような違いがあるかを比較します。
解釈:
- 変換後のデータで、因子負荷量がより極性を明確に示し、解釈しやすい単純構造が得られた場合、変数変換が有効であったと判断できます。
- 逆に、大きな違いが生じず、結果がほぼ同一であれば、元のデータの非正規性が因子分析に与える影響は限定的と考えられます。
6.3.5 異なる推定法の比較
具体例:同一データに対する最尤法と主軸因子法の比較
同じ心理学的検査データを用いて、次の手順で異なる推定法の結果を比較します。
-
最尤法による因子分析:
多変量正規分布の仮定に基づき、最尤法を用いて因子負荷行列を推定します。 -
主軸因子法による因子分析:
別の手法として、主軸因子法を用いて因子負荷行列を推定します。 -
結果の比較:
両手法で得られた因子構造、因子負荷量、および因子得点の類似性や違いを評価します。
解釈:
- 両手法で同様の因子構造が得られる場合、正規性の仮定に依存しない堅牢な結果と判断できます。
- もし大きく異なる結果が得られる場合、どちらの推定法がデータの特性に適しているか、再検討する必要があります。
6.4 まとめ
-
多変量正規分布の仮定:
因子分析では多変量正規分布に従うという前提が基本ですが、実際のデータ(心理学、マーケティング、医療など)では非正規性が頻繁に認められます。 -
非正規性の影響:
非正規性は、推定結果のバイアスや検定統計量の誤差を招くため、注意が必要です。 -
対処法:
ロバスト推定法、データ変換、代替相関行列の利用、外れ値処理などの方法で、非正規性の影響を軽減できます。 -
感度分析:
ブートストラップ法、サンプル分割法、前処理の変更、異なる推定法の比較など、具体的な手法を用いて、結果の安定性やロバスト性を評価することが重要です。