3 データ

書き方ガイド：データ

何を書くか： 分析に使用するデータの全体像を示す章です。データの出典・構造・基本統計量・可視化を通じて、読者がデータを十分に理解できるようにします。

書き方のコツ：

Quartoの機能：

3.1 データの出典

表 3.1: データの出典

項目	内容
利用データ	東京都シェアサイクル事業オープンデータ（※実際の出典に置き換えてください）
気象データ	気象庁過去の気象データ検索（※実際の出典に置き換えてください）
取得日	2025年○月○日
前処理スクリプト	`src/generate_data.R`

本研究では、東京都内のシェアサイクル利用数と気象データを組み合わせた合成データセットを使用する。

表 3.2: データセットの概要

表 3.3: 変数一覧

表 3.4: 基本統計量

variable	平均	標準偏差	最小	中央値	最大
count	63.8	54.0	0.0	48.0	277.0
humidity	60.0	13.4	20.0	60.0	100.0
temperature	15.0	9.0	-6.1	15.1	36.0
wind_speed	2.5	1.8	0.0	2.1	15.3

図 3.1 は日別の平均利用数の推移を示す。夏季に利用数が増加し、冬季に減少する季節パターンが確認できる。

図 3.1: 日別平均利用数の推移

図 3.2 は気温と利用数の関係を示す散布図である。気温が高いほど利用数が増加する正の相関が認められる。

図 3.2: 気温と利用数の関係

図 3.3: 時間帯別の平均利用数

図 3.4: 曜日別の平均利用数

flowchart LR
    A[元データ取得] --> B[欠損値処理]
    B --> C[特徴量生成]
    C --> D[時間帯・曜日<br>ダミー変数化]
    D --> E[訓練/テスト分割]
    E --> F[モデル入力]

図 3.5: データ前処理パイプライン