コンテンツにスキップ

研究

概要

私たちの研究室では、統計的機械学習の理論と応用に関する研究を行っています。特に、ツリーベースの機械学習手法(ランダムフォレスト、BART)の理論的性質の解明と、それらを因果推論や生存分析などの複雑な統計的問題に応用する方法の開発に力を入れています。理論と実践の両面からアプローチし、高次元データ解析、変数選択、モデル解釈可能性などの現代的課題に対する新たな方法論の確立を目指しています。

研究テーマ

1. ツリーベース機械学習手法の理論的解析

ランダムフォレストやベイズ加法回帰樹(BART)などのツリーベースモデルは優れた予測性能を示しますが、その数学的性質は完全には解明されていません。私たちは以下のような理論的側面の研究に取り組んでいます:

  • ランダムフォレストの一致性と漸近正規性: 予測値の漸近分布や信頼区間構築のための理論的基盤の確立
  • ランダムフォレストカーネルの漸近的性質: 点間の距離と標本サイズに応じたカーネルの挙動を数学的に特徴づけ
  • BARTの拡張手法と理論的性質: Posterior Consistency, 高次元データへの対応、平滑性の向上、MCMCアルゴリズム改善などの理論的側面

これらの研究を通じて、実用的に成功している機械学習手法の理論的理解を深め、より信頼性の高い応用を可能にします。

2. 因果推論のための機械学習手法の開発

因果関係の推定は科学的発見や政策決定において重要ですが、従来の統計的手法では複雑な非線形効果や異質効果を捉えることが困難でした。私たちは機械学習を活用した新しい因果推論手法を開発しています:

  • 一般化ランダムフォレスト(GRF): 局所推定方程式の枠組みでランダムフォレストを拡張し、条件付き平均処置効果の推定を可能にする手法
  • 因果効果推定のためのスパースBART: MFM(Mixture of Finite Mixtures)とGibbsプライアを組み合わせたベイズ的アプローチによる変数選択と因果効果推定
  • 操作変数法や傾向スコア法との統合: 観測研究における交絡に対処するための手法開発

これらの手法により、個別化医療や政策評価など、様々な応用分野での因果効果推定の精度と信頼性の向上を目指しています。

3. 生存分析への機械学習の応用

生存時間解析は医学研究やリスク評価において重要ですが、伝統的なCoxモデルなどでは複雑な非線形効果や時間依存効果を捉えることが困難です。私たちは機械学習を用いた新しい生存分析手法を開発しています:

  • BART for Survival: ベイズ加法回帰樹を生存時間データに拡張した手法
  • 生存ランダムフォレスト: 条件付き生存関数や累積ハザード関数を柔軟に推定するためのランダムフォレストベースのアプローチ
  • 競合リスクとの統合: 複数の潜在的イベントが存在する場合の生存分析手法

これらの研究を通じて、臨床予測モデルやリスク評価の精度向上を目指しています。

4. 変数選択と変数重要度に関する方法論

高次元データにおいて、どの変数が予測や意思決定に重要かを特定することは大きな課題です。私たちは変数選択と変数重要度評価の新たな方法論を研究しています:

  • スパースBARTによる変数選択: 適応的スパース性を持つベイズ的アプローチによる高次元変数選択
  • ランダムフォレストにおける変数重要度: MDI(Mean Decrease Impurity)やMDA(Mean Decrease Accuracy)のバイアス問題とその解決法
  • 変数間相関問題への対処: シャープレー値や条件付き重要度など、相関構造下での公平な変数評価手法

これらの研究は、生物医学データや金融データなど、高次元・高相関データにおける変数選択の信頼性向上に貢献します。

5. 計算効率と数値アルゴリズムの改善

理論的に優れた手法も、計算効率が悪ければ実用的ではありません。私たちは計算効率と数値アルゴリズムの改善にも取り組んでいます:

  • 効率的なMCMCアルゴリズム: BARTなどのベイズモデルのための高速なMCMCサンプラーの開発
  • 大規模データ向けの並列化手法: 分散計算環境でのツリーベースモデルの効率的な実装
  • 近似アルゴリズム: シャープレー値計算など計算コストの高い手法のための効率的近似アルゴリズム

これらの研究により、理論的に優れた手法をより大規模なデータセットに適用可能にします。

研究アプローチ

私たちの研究室では、以下のアプローチを重視しています:

  1. 理論と実践の橋渡し: 数学的厳密性を保ちつつ、実際の問題解決に役立つ方法論の開発
  2. 計算効率と統計的効率のバランス: 理論的に最適でありながら計算効率の良い手法の設計
  3. 解釈可能性と予測精度の両立: 高い予測性能を持ちつつ解釈可能な機械学習手法の開発
  4. 学際的アプローチ: 統計学、機械学習、因果推論、計算科学の知見を統合した研究