3  データ

ヒント書き方ガイド:データ

何を書くか: 分析に使用するデータの全体像を示す章です。データの出典・構造・基本統計量・可視化を通じて、読者がデータを十分に理解できるようにします。

書き方のコツ:

  • データ概要 では、取得元・期間・サンプル数・変数の一覧を明示します
  • 基本統計量 は表形式で整理し、データの分布を把握できるようにします
  • 可視化 は目的を明確にして(例:「時系列の傾向を確認する」)、図にキャプションと番号を付けます
  • 前処理の手順はフロー図で示すと理解しやすくなります

Quartoの機能:

  • R コードブロック ```{r} でデータ処理と可視化を実行できます
  • #| label: fig-xxx#| fig-cap: で図番号とキャプションを自動付与します
  • @fig-xxx で本文中からクロスリファレンスできます
  • ::: {.panel-tabset} でタブ切替パネルを作成できます
  • Mermaid 記法でフロー図を描けます

3.1 データの出典

表 3.1: データの出典
項目 内容
利用データ 東京都シェアサイクル事業オープンデータ(※実際の出典に置き換えてください)
気象データ 気象庁 過去の気象データ検索(※実際の出典に置き換えてください)
取得日 2025年○月○日
前処理スクリプト src/generate_data.R

3.2 データの準備

3.3 データ概要

本研究では、東京都内のシェアサイクル利用数と気象データを組み合わせた合成データセットを使用する。

表 3.2: データセットの概要
項目 内容
対象期間 2024年1月1日 〜 2024年12月31日(365日間)
時間粒度 1時間単位
レコード数 8,760件(365日 × 24時間)
目的変数 1時間あたりの利用数(count)
説明変数 気温、湿度、風速、降雨有無、曜日、時間帯

変数一覧

表 3.3: 変数一覧
変数名 説明 単位
date Date 日付 -
hour integer 時間帯(0–23)
temperature numeric 気温 °C
humidity numeric 相対湿度 %
wind_speed numeric 風速 m/s
is_rain integer 降雨フラグ(0/1) -
count integer 利用数(目的変数)

3.4 基本統計量

表 3.4: 基本統計量
variable 平均 標準偏差 最小 中央値 最大
count 63.8 54.0 0.0 48.0 277.0
humidity 60.0 13.4 20.0 60.0 100.0
temperature 15.0 9.0 -6.1 15.1 36.0
wind_speed 2.5 1.8 0.0 2.1 15.3

3.5 時系列の可視化

図 3.1 は日別の平均利用数の推移を示す。夏季に利用数が増加し、冬季に減少する季節パターンが確認できる。

図 3.1: 日別平均利用数の推移

3.6 気象データとの関係

図 3.2 は気温と利用数の関係を示す散布図である。気温が高いほど利用数が増加する正の相関が認められる。

図 3.2: 気温と利用数の関係

3.7 曜日・時間帯パターン

図 3.3: 時間帯別の平均利用数
図 3.4: 曜日別の平均利用数

3.8 前処理パイプライン

flowchart LR
    A[元データ取得] --> B[欠損値処理]
    B --> C[特徴量生成]
    C --> D[時間帯・曜日<br>ダミー変数化]
    D --> E[訓練/テスト分割]
    E --> F[モデル入力]
図 3.5: データ前処理パイプライン