| モデル | MAE | RMSE | R² |
|---|---|---|---|
| LightGBM | 12.41 | 15.56 | 0.92 |
| 線形回帰 | 39.59 | 48.94 | 0.19 |
5 結果と考察
何を書くか: モデルの学習結果・精度評価・分析結果を客観的に示し、その意味を考察する章です。報告書の中核となる最も重要な章です。
書き方のコツ:
- 結果 と 考察 を分けて書きます。結果は客観的事実、考察は解釈と意味づけです
- 精度は表で比較し、どの手法が優れているかを明確にします
- グラフは複数の観点から作成します(時系列、誤差分布、変数重要度など)
- 考察では「なぜそうなったか」の仮説を示し、先行研究との関連を述べます
Quartoの機能:
plotlyでインタラクティブなグラフを作成できます::: {.panel-tabset}でタブ切替パネルを使い、複数の図を整理できますknitr::kable()で R の結果をきれいな表として出力できます
5.1 モデル学習
第2章と同一のデータを読み込み、訓練データ(80%)とテストデータ(20%)に分割した。tidymodels フレームワーク (Kuhn と Silge 2024年) を用いて、線形回帰と LightGBM の2モデルを学習させた。
5.2 精度比較
表 5.1 に各モデルのテストデータに対する精度評価結果を示す。
LightGBM は全ての指標で線形回帰を上回っており、特に RMSE の改善が顕著である。
5.3 予測結果の可視化
図 5.1 にテストデータの先頭200件における実測値と予測値の比較を示す。
5.4 誤差分析
図 5.2 より、LightGBM の誤差分布は線形回帰と比べて中心(誤差ゼロ付近)に集中しており、予測のばらつきが小さいことが確認できる。
5.5 変数重要度
図 5.3 より、hour(時間帯)と temperature(気温)が予測への寄与度が最も高い変数であることがわかる。
5.6 曜日別精度
5.7 考察
本章の分析結果から、以下の考察が得られる。
モデル性能について
LightGBM は線形回帰と比較して全ての評価指標で優れた性能を示した(表 5.1)。これは、シェアサイクルの利用パターンが時間帯や気象条件と非線形な関係を持つためと考えられる。例えば、通勤時間帯(7-9時、17-19時)に利用数が集中するパターンは、線形モデルでは捉えにくい。
影響要因について
変数重要度分析(図 5.3)から、以下の知見が得られた。
- 時間帯(hour) が最も重要な変数であり、シェアサイクルの利用は通勤・通学の移動パターンに強く依存している
- 気温(temperature) が2番目に重要であり、気象条件がシェアサイクルの利用判断に大きく影響する。先行研究 (Eren と Uz 2020年) の知見とも一致する
- 降雨(is_rain) は利用数を大きく減少させる要因であり、需要予測において重要な変数である
先行研究との比較
Fanaee-T と Gama (2014年) が示したバイクシェアリングデータにおけるイベント検出の知見と同様に、気象条件と時間帯が利用パターンの主要な決定要因であることが確認された。また、Singhvi ほか (2015年) が報告した NYC Citi Bike の予測事例と比較しても、勾配ブースティング手法の有効性は同様の傾向を示している。