コンテンツにスキップ

7. 因子分析の手順

第7章 因子分析実践のステップ:全体の流れと各段階の注意点

本章では、因子分析を実際に行う際のステップを、データ収集から最終的な解釈に至るまで、順を追って詳細に解説します。各ステップで注意すべき点や、前提条件の確認、解析結果のロバスト性を確保するための方法についても説明します。

7.1 全体の流れ

因子分析のプロセスは大きく以下の段階に分けられます。

  1. データ収集と前処理
  2. データの収集方法
  3. 欠損値・外れ値の処理
  4. 標準化などの前処理

  5. 因子抽出(因子分析)

  6. モデルの定式化
  7. 適切な因子抽出法(最尤法、主軸因子法、最小残差法など)の選択
  8. 因子数の決定

  9. 回転

  10. 直交回転と斜交回転の選択
  11. 回転後の因子負荷行列の確認
  12. 回転行列の数学的背景の理解

  13. 非正規性への対処

  14. 分布の検討(歪度、裾の重さ)
  15. ロバスト推定やデータ変換の実施

  16. 感度分析

  17. ブートストラップ、サンプル分割、前処理変更などによる結果の安定性の評価

  18. 解釈と報告

  19. 因子負荷量の意味付け
  20. 因子の命名と理論との整合性の検証
  21. 結果の視覚化(ヒートマップ、スクリープロットなど)

7.2 データ収集と前処理

7.2.1 データ収集

  • 目的に応じたデータ選定:
    分析対象となる変数は、理論的背景や先行研究に基づいて決定します。たとえば、心理学では知能や性格、マーケティングでは消費者行動や製品評価などが対象となります。

  • サンプルサイズ:
    十分なサンプルサイズを確保することで、因子分析の結果の安定性が向上します。一般に、観測変数の数に対して十分なケース数が必要です(例:ケース数が変数数の10倍以上など)。

7.2.2 前処理

  • 欠損値処理:
    欠損データがある場合、リストワイズ削除、平均補完、または高度な多重代入法などを検討します。

  • 外れ値の検出と処理:
    外れ値は因子抽出結果に大きな影響を与えるため、検出して除外するか、頑健な手法で対処します。

  • 標準化:
    各変数が異なるスケールで測定されている場合、Z変換などを用いて標準化し、変数間の比較が可能な状態にします。

  • 分布の検査:
    各変数のヒストグラム、Q-Qプロット、歪度、裾の重さなどを確認し、非正規性の有無を評価します。


7.3 因子抽出(因子分析)の実施

7.3.1 モデルの定式化

  • 基本モデル:
    観測変数 $ \mathbf{x} $ は、以下のような線形モデルで表されます。
    $$ \mathbf{x} = \Lambda \mathbf{f} + \boldsymbol{\epsilon} $$ ここで、\(\Lambda\) は因子負荷行列、\(\mathbf{f}\) は潜在因子、\(\boldsymbol{\epsilon}\) は特有因子です。

  • 分散共分散の分解:
    \(\Sigma = \Lambda \Lambda^\top + \Psi\) という形で、共通因子と特有因子の寄与が分解されます。

7.3.2 因子抽出法の選択

  • 最尤法 (Maximum Likelihood):
    多変量正規分布を仮定し、対数尤度を最大化してパラメータを推定します。
  • 主軸因子法 (Principal Axis Factoring):
    初期の共通性の推定に基づいて因子負荷量を導出します。
  • 最小残差法 (Minimum Residual):
    サンプル共分散行列とモデルで再現される共分散行列の差を最小化する方法です。

7.3.3 因子数の決定

  • 固有値基準(Kaiser基準)やスクリープロット:
    固有値が1以上の因子数や、スクリープロットの折れ曲がり点を用いて因子数を決定します。

7.4 回転

7.4.1 回転の目的

  • 解釈の向上:
    初期の因子負荷行列は、統計的に最適な解であっても解釈が難しい場合があります。回転により「単純構造」を実現し、各変数がどの因子に強く寄与しているかを明確にします。

7.4.2 直交回転と斜交回転

  • 直交回転:
    因子間の独立性を保つ(例:Varimax)。
    注意点: 因子間の相関が理論上必要な場合には不適切。

  • 斜交回転:
    因子間の相関を許容する(例:Promax)。
    注意点: 因子相関が存在するため、各因子の独立した解釈が難しくなる可能性があるが、現実のデータ構造をより忠実に反映します。


7.5 非正規性への対処

7.5.1 非正規性の検証

  • 分布のチェック:
    ヒストグラム、Q-Qプロット、歪度・裾の重さの統計量を確認し、各変数の分布が正規分布に従っているかを評価します。

7.5.2 対処法

  • ロバスト推定:
    正規性の逸脱を補正するために、Robust ML や Satorra-Bentler 補正などを用います。
  • データ変換:
    対数変換、平方根変換、Box-Cox変換を適用して、データの分布を正規に近づけます。
  • 代替相関行列:
    リッカート尺度などの場合、ポリコリック相関行列を利用することで、適切な共分散構造を反映させます。

7.6 感度分析

7.6.1 感度分析の目的

  • モデル仮定の検証:
    前提条件(正規性、外れ値の有無など)が因子分析結果に与える影響を評価します。
  • 推定結果の安定性の確認:
    前処理やサンプルの変更が、因子負荷量や因子得点にどのように影響するかを検証します。

7.6.2 感度分析の手法と具体例

  • ブートストラップ法:
  • 例: 心理学的検査データに対して1000回のブートストラップを実施し、各変数の因子負荷量の95%信頼区間を算出。
  • ポイント: 信頼区間が狭いほど結果が安定していると判断できます。

  • サンプル分割法:

  • 例: マーケティング調査データを地域別または年代別に分割し、各グループで因子分析を実施。
  • ポイント: 各サブグループで同様の因子構造が確認できれば、全体の結果の信頼性が担保されます。

  • 前処理の変更:

  • 例: 医療データにおいて、対数変換前後で因子分析を行い、因子負荷行列の変化を比較。
  • ポイント: 変換後に単純構造が明瞭になる場合、変換が有効であったと判断できます。

  • 異なる推定法の比較:

  • 例: 同一心理学的検査データに対して、最尤法と主軸因子法で因子分析を実施し、結果の一貫性を評価。
  • ポイント: 似た結果が得られる場合、推定のロバスト性が確認できます。

7.7 結果の解釈と報告

7.7.1 因子負荷量の解釈

  • 高い負荷量と低い負荷量の判断:
    数値基準(例:0.70以上は強い寄与、0.30未満は弱い寄与)を基に、各変数がどの因子に主に関連しているかを判断します。

  • 因子の命名と理論的検証:
    回転後の因子負荷行列から、各因子に意味のある名称を付け、先行研究や理論と照らし合わせて妥当性を検証します。

7.7.2 結果の視覚化と報告

  • 視覚的ツール:
    ヒートマップ、スクリープロット、因子負荷量の棒グラフなどを用いて、結果を直感的に理解できるようにします。

  • 報告のポイント:

  • 使用した前処理方法、因子抽出法、回転手法、非正規性への対処法、感度分析の結果を明記する。
  • 結果の解釈において、現実的な懸念点(外れ値の影響、サンプルサイズ、分布の偏り)についても議論する。

7.8 まとめ

この章では、因子分析の実践的な流れを以下のように整理しました。

  1. データ収集と前処理:
    欠損値、外れ値の処理、標準化、分布の検査などを適切に行い、解析に適したデータを用意します。

  2. 因子抽出:
    適切な抽出法を選び、因子数を決定し、因子負荷行列を得ます。抽出法の選択や因子数の判断には、理論と実データの両方を考慮します。

  3. 回転:
    直交回転または斜交回転を用いて、因子負荷行列の単純構造を実現し、解釈しやすい形に変換します。

  4. 非正規性への対処:
    データ変換やロバスト推定、代替相関行列の利用により、非正規性の影響を軽減します。

  5. 感度分析:
    ブートストラップ、サンプル分割、前処理の変更、異なる推定法の比較などで結果の安定性とロバスト性を検証し、解析結果の信頼性を確保します。

  6. 解釈と報告:
    得られた因子負荷量や因子得点の意味を十分に検討し、理論的な背景や実際のデータの特性を踏まえた上で、結果を視覚化・報告します。