| variable | 平均 | 標準偏差 | 最小 | 中央値 | 最大 |
|---|---|---|---|---|---|
| count | 63.8 | 54.0 | 0.0 | 48.0 | 277.0 |
| humidity | 60.0 | 13.4 | 20.0 | 60.0 | 100.0 |
| temperature | 15.0 | 9.0 | -6.1 | 15.1 | 36.0 |
| wind_speed | 2.5 | 1.8 | 0.0 | 2.1 | 15.3 |
3 データ
ヒント書き方ガイド:データ
何を書くか: 分析に使用するデータの全体像を示す章です。データの出典・構造・基本統計量・可視化を通じて、読者がデータを十分に理解できるようにします。
書き方のコツ:
- データ概要 では、取得元・期間・サンプル数・変数の一覧を明示します
- 基本統計量 は表形式で整理し、データの分布を把握できるようにします
- 可視化 は目的を明確にして(例:「時系列の傾向を確認する」)、図にキャプションと番号を付けます
- 前処理の手順はフロー図で示すと理解しやすくなります
Quartoの機能:
- R コードブロック
```{r}でデータ処理と可視化を実行できます #| label: fig-xxxと#| fig-cap:で図番号とキャプションを自動付与します@fig-xxxで本文中からクロスリファレンスできます::: {.panel-tabset}でタブ切替パネルを作成できます- Mermaid 記法でフロー図を描けます
3.1 データの出典
| 項目 | 内容 |
|---|---|
| 利用データ | 東京都シェアサイクル事業オープンデータ(※実際の出典に置き換えてください) |
| 気象データ | 気象庁 過去の気象データ検索(※実際の出典に置き換えてください) |
| 取得日 | 2025年○月○日 |
| 前処理スクリプト | src/generate_data.R |
3.2 データの準備
3.3 データ概要
本研究では、東京都内のシェアサイクル利用数と気象データを組み合わせた合成データセットを使用する。
| 項目 | 内容 |
|---|---|
| 対象期間 | 2024年1月1日 〜 2024年12月31日(365日間) |
| 時間粒度 | 1時間単位 |
| レコード数 | 8,760件(365日 × 24時間) |
| 目的変数 | 1時間あたりの利用数(count) |
| 説明変数 | 気温、湿度、風速、降雨有無、曜日、時間帯 |
変数一覧
| 変数名 | 型 | 説明 | 単位 |
|---|---|---|---|
date |
Date | 日付 | - |
hour |
integer | 時間帯(0–23) | 時 |
temperature |
numeric | 気温 | °C |
humidity |
numeric | 相対湿度 | % |
wind_speed |
numeric | 風速 | m/s |
is_rain |
integer | 降雨フラグ(0/1) | - |
count |
integer | 利用数(目的変数) | 台 |
3.4 基本統計量
3.5 時系列の可視化
図 3.1 は日別の平均利用数の推移を示す。夏季に利用数が増加し、冬季に減少する季節パターンが確認できる。
3.6 気象データとの関係
図 3.2 は気温と利用数の関係を示す散布図である。気温が高いほど利用数が増加する正の相関が認められる。
3.7 曜日・時間帯パターン
3.8 前処理パイプライン
flowchart LR
A[元データ取得] --> B[欠損値処理]
B --> C[特徴量生成]
C --> D[時間帯・曜日<br>ダミー変数化]
D --> E[訓練/テスト分割]
E --> F[モデル入力]