4  分析手法

ヒント書き方ガイド:分析手法

何を書くか: 使用する分析手法の理論的背景と、なぜその手法を選んだかの根拠を述べる章です。

書き方のコツ:

  • 手法の選定理由 を比較表で示すと説得力が増します
  • 数学的な定義 は LaTeX 数式で正確に記述します
  • パイプライン全体を図解すると読者の理解が深まります
  • 評価指標は定義を明示し、なぜその指標を使うのかを説明します

Quartoの機能:

  • LaTeX 数式は $$ で囲みます。{#eq-label} で式番号を付与し、@eq-label で参照します
  • Mermaid 記法でパイプライン図やフロー図を描けます
  • #| label: tbl-xxx#| tbl-cap: で表番号とキャプションを自動付与します

4.1 手法の選定

本研究では、以下の2手法を比較する。ベースラインとして線形回帰を用い、高精度な予測手法として勾配ブースティングの一種である LightGBM (Ke ほか 2017年) を採用する。

表 4.1: 手法の比較
手法 特徴 利点 欠点
線形回帰 線形モデル 解釈が容易、計算が高速 非線形関係を捉えにくい
LightGBM 勾配ブースティング決定木 高精度、非線形対応 過学習リスク、解釈が複雑

4.2 線形回帰(ベースライン)

線形回帰モデルは、目的変数 \(y\) を説明変数 \(\mathbf{x} = (x_1, x_2, \ldots, x_p)\) の線形結合で表現する。

\[ y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_p x_p + \varepsilon \tag{4.1}\]

ここで \(\beta_0\) は切片、\(\beta_1, \ldots, \beta_p\) は回帰係数、\(\varepsilon\) は誤差項である (James ほか 2023年)

James, Gareth, Daniela Witten, Trevor Hastie, Robert Tibshirani, と Jonathan Taylor. 2023年. An Introduction to Statistical Learning: with Applications in R. 2nd 版. Springer. https://doi.org/10.1007/978-3-031-38747-0.

4.3 LightGBM

LightGBM は、勾配ブースティング決定木(GBDT)の高速な実装である (Ke ほか 2017年)。複数の弱学習器(決定木)を逐次的に構築し、残差を学習することで高い予測精度を実現する。

Ke, Guolin, Qi Meng, Thomas Finley, ほか. 2017年. LightGBM: A Highly Efficient Gradient Boosting Decision Tree」. Advances in Neural Information Processing Systems 30 (NeurIPS 2017), 3146–54.

勾配ブースティングの概要

勾配ブースティングでは、\(M\) 本の決定木 \(f_m\) を逐次的に加えることで予測関数 \(F\) を構築する。

\[ F_M(\mathbf{x}) = F_0(\mathbf{x}) + \sum_{m=1}^{M} \eta \cdot f_m(\mathbf{x}) \tag{4.2}\]

ここで \(\eta\) は学習率(learning rate)であり、各ステップの寄与を制御する。各ステップ \(m\) では、損失関数 \(L\) の負の勾配(擬似残差)に対して決定木 \(f_m\) を適合させる。

\[ r_{im} = -\frac{\partial L(y_i, F_{m-1}(\mathbf{x}_i))}{\partial F_{m-1}(\mathbf{x}_i)} \tag{4.3}\]

決定木の構造

flowchart TD
    A["気温 ≥ 20°C ?"] -->|Yes| B["時間帯 ∈ 通勤時間 ?"]
    A -->|No| C["降雨あり ?"]
    B -->|Yes| D["予測: 150台"]
    B -->|No| E["予測: 90台"]
    C -->|Yes| F["予測: 25台"]
    C -->|No| G["予測: 55台"]
図 4.1: 決定木による分岐のイメージ

LightGBM の特徴

LightGBM は以下の工夫により高速化を実現している。

  1. Gradient-based One-Side Sampling (GOSS): 勾配の大きいサンプルを重点的に使用
  2. Exclusive Feature Bundling (EFB): 相互排他的な特徴量をまとめて計算量を削減
  3. Leaf-wise (Best-first) 成長: Level-wise よりも効率的な木の成長戦略

4.4 説明変数の設計

表 4.2: 説明変数一覧
変数名 説明 変換
hour integer 時間帯 そのまま使用
temperature numeric 気温 そのまま使用
humidity numeric 湿度 そのまま使用
wind_speed numeric 風速 そのまま使用
is_rain integer 降雨フラグ factor 変換
is_weekend logical 休日フラグ factor 変換
month integer factor 変換

4.5 分析パイプライン

flowchart LR
    A[データ生成] --> B[前処理<br>recipe]
    B --> C[訓練/テスト分割<br>80:20]
    C --> D[モデル学習]
    D --> E1[線形回帰]
    D --> E2[LightGBM]
    E1 --> F[精度評価<br>MAE/RMSE/R²]
    E2 --> F
    F --> G[変数重要度<br>分析]
図 4.2: 分析パイプライン

4.6 精度評価指標

モデルの予測精度を評価するため、以下の3指標を使用する。

平均絶対誤差(MAE)

\[ \text{MAE} = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_i| \tag{4.4}\]

二乗平均平方根誤差(RMSE)

\[ \text{RMSE} = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2} \tag{4.5}\]

決定係数(R²)

\[ R^2 = 1 - \frac{\sum_{i=1}^{n}(y_i - \hat{y}_i)^2}{\sum_{i=1}^{n}(y_i - \bar{y})^2} \tag{4.6}\]

ここで \(y_i\) は実測値、\(\hat{y}_i\) は予測値、\(\bar{y}\) は実測値の平均、\(n\) はサンプル数である。

式 4.4 は外れ値に頑健な指標、式 4.5 は大きな誤差をより重く評価する指標、式 4.6 はモデルの説明力を0〜1で表す指標である。