著者 とある経済学部生のデータ分析ログ
※本記事の文章・構成・分析の解釈は筆者によるオリジナルの研究成果です。
引用・紹介を行う場合は、出典(記事URLまたは著者名)を明記してください。
無断転載および無断での再配布はご遠慮ください。
※ 本記事は、note「とある経済学部生のデータ分析ログ」に公開されている「箱根駅伝 総合タイムを左右する区間は何区? ~決定木分析を用いて~ 上位校ver」と同一のものとなっております。
noteはこちら⇒とある経済学部生のデータ分析ログ|note
皆さん、こんにちは!
今回の記事も、お正月の風物詩、箱根駅伝についてです!
毎年1月2日、3日と箱根駅伝が開催されます。
多くの大学生ランナーが箱根駅伝に向けて、努力を積み重ねてきました。
第102回大会は、青山学院大学の優勝で幕を閉じました。
どの選手の走りも素晴らしかったですね。
今回は、データ分析を学んでいる私が、過去の箱根駅伝のデータを用いて、分析を行っていきたいと思います!
分析テーマ
箱根駅伝 総合タイムを左右するのは何区?
分析手法
・区間別の記述統計分析
各区間の平均タイムと標準偏差を算出し、差が生じやすい区間を特定する。
・決定木分析(回帰)による総合タイム分析
区間タイムを説明変数、総合タイムを被説明変数として回帰決定木分析を行い、総合タイムを左右する区間構造を可視化する。
※本分析は総合タイムを各区間タイムで説明する構造のため、因果関係ではなく関連性の分析である
使用データ
読売新聞オンラインの箱根駅伝特集ページ
(箱根駅伝2026最新ニュース コース・出場校など特集サイト : 読売新聞)より、第96回~第102回大会の上位10チームの総合タイムおよび各区間タイムを収集。
複数大会に出場した同一大学は大会ごとに別チームとして扱い、
全70チーム分のデータを手作業でCSV化し、分析に用いた。
分析の枠組みは上記のとおりです。
前回の分析では、第96回~第101回大会に出場した全チーム(関東学生連合含む)を対象としましたが、今回は上位チームのみに絞った最新版です!
以下が目次となります!
目次
1. 区間別の記述統計分析
1.1 使用した指標と計算方法
1.1.1 区間タイムの平均値
1.1.2 区間タイムの標準偏差
1.2 分析結果:区間別 平均タイムとばらつき(標準偏差)
1.3 記述統計分析の解釈
2. 決定木分析(回帰)による総合タイム分析
2.1 決定木分析の概要
2.2 ノードと分岐の考え方
2.3 分岐条件と True / False の意味
2.4 value・samples・squared error の意味
2.5 CARTアルゴリズムとコスト関数
2.6 本研究におけるモデル設定
3. 決定木分析の結果およびその解釈
3.1 区間タイムの特徴量重要度
3.2 決定木の分岐構造 ― 上位校同士の分水嶺
3.3 3区が速いチームの内部構造
3.4 3区が基準を超えたチームの分岐構造
3.5 分岐構造から見える区間の役割
3.6 上位校限定データにおける区間の安定性
3.7 全チーム分析との比較
3.8 上位校限定データが示すレースの段階構造
3.9 本章の分析結果の総括
4. 総合的結論と今後の展望
おわりに
付録
付録A squared errorを表示している木
付録B ルートノードにおける分岐結果の可視化
それでは、お楽しみください!
1.区間別の記述統計分析
まず、各区間のタイムについて、平均値および標準偏差を算出し、
区間ごとの特徴を把握する記述統計分析を行った。
1.1 使用した指標と計算方法
1.1.1 区間タイムの平均値
各区間における平均タイムは、次式で定義される。

ここで、

である。
1.1.2 区間タイムの標準偏差
区間ごとのタイムのばらつきを測るため、標準偏差 σkを以下の式で算出した。

標準偏差は「その区間でどれだけ差が付きやすいか」を示す指標として解釈できる。
標準偏差が大きい区間ほど、差が生じやすく、標準偏差が小さい区間ほど、差が生じにくいと言える。
1.2 分析結果:区間別 平均タイムとばらつき(標準偏差)
まずは、各区間の平均タイムと標準偏差を確認する。
今回の分析対象は、第96回〜第102回大会における各大会上位10チーム(計70チーム)である。
優勝争い・シード争いレベルに限定したデータであり、全出場チーム対象の分析とは性質が異なる。
区間別 平均タイムと標準偏差

1.3 記述統計分析の解釈
ばらつきが大きい区間
標準偏差が最も大きいのは**5区(1:44)**である。
上位校限定であっても、山上り区間では依然としてタイム差が生じていることが分かる。
続いて、
- 6区(1:15)
- 4区(1:12)
- 3区(1:09)
- 8区(1:09)
といった区間が比較的ばらつきの大きい区間として現れている。
山区間に加えて、往路・復路の中盤区間でも一定の差が存在している点が特徴的である。
ばらつきが小さい区間
一方で、標準偏差が小さいのは
- 1区(0:56)
- 7区(0:58)
- 9区(1:00)
である。
上位校同士では、これらの区間で極端な差が生じにくいことが分かる。
特に1区はレースの流れを作る区間であるが、上位10チーム内ではタイム水準が比較的収束している。
上位校限定データの特徴
全チーム対象の分析と比較すると、
- 山での極端な崩れは少ない
- 全体的にタイム水準が高く安定している
という傾向が見られる。
しかし、その中でも3区や8区などの中盤区間では一定のばらつきが確認できる。
上位校同士の戦いでは、
大差というよりも小さな差の積み重ねが総合結果につながっている可能性がある。
次節では、これらの区間が総合タイムとどのように関係しているのかを、決定木分析を用いて検証する。
2.決定木分析(回帰)による総合タイム分析
本章では、各区間のタイムが箱根駅伝の総合タイムにどのような影響を与えているのかを明らかにするため、回帰決定木(Decision Tree Regression)を用いた分析を行う。
本研究の主な関心は、
- どの区間が総合タイムを最も大きく左右しているのか
- どの区間を、どの程度のタイムで走ることが総合成績に影響するのか
という点にある。
決定木分析は、これらの問いに対して
重要な区間と、その分岐点(閾値)を明示的に示すことができる
という特徴を持ち、本研究の目的に適した手法である。
2.1 決定木分析の概要
決定木分析とは、説明変数の値に基づいてデータを段階的に分割し、被説明変数を予測する手法である。
本研究では、被説明変数が連続値であるため、回帰決定木を用いる。
回帰決定木は、各区間のタイムを条件としてチームのデータを分割し、その分割を繰り返すことで、最終的に総合タイムの代表値を予測する構造を持つ。
決定木の特徴として、
- 分析結果を図として可視化できること
- 「どの区間が」「どの水準で」重要かを直感的に理解できること
が挙げられる。
2.2 ノードと分岐の考え方
決定木は、複数の ノード(node) から構成される。
- ルートノード
すべてのチームを含む最上位のノードであり、
総合タイムを最もよく分割する区間と閾値が配置される。 - 内部ノード
「○区のタイムが◯分◯秒以下かどうか」といった条件により、
データをさらに分割するための分岐点となるノードである - リーフノード(終端ノード)
これ以上分割されないノードであり、
その条件を満たすチーム群における 総合タイムの平均値 が示される。
各ノードは、
「それまでの分岐条件をすべて満たすチームの集合」を表している。
以上を踏まえ、以下に本研究で推定した回帰決定木の一部を示す。

画像の四角が、ノードである。
2.3 分岐条件と True / False の意味
各ノードの上部には、次のような分岐条件が表示されている。
3区 ≤ 1:02:46
これは、
「3区の区間タイムが1時間2分46秒以下であるかどうか」
を意味する。
- 条件を満たす場合 → True(左側の枝)
- 条件を満たさない場合 → False(右側の枝)
という形で各チームが分割される。
2.4 value ・ samples・ squared error の意味
決定木の各ノードには、以下の情報が表示されている。
- value
そのノードに属するチーム群の 総合タイムの平均値 を表す。
これは予測値(代表値)であり、個別チームの記録ではない。 - samples
そのノードに含まれるチーム数を表す。 - squared error
ノード内における総合タイムのばらつきを示す指標であり、
平均二乗誤差に対応する。
2.5 CARTアルゴリズムとコスト関数
本研究では、回帰決定木アルゴリズムとして
CART( Classification and Regression Trees) を用いる。
CART回帰木では、各ノードに属するチーム集合における
被説明変数(本研究では総合タイム)のばらつきを、
squared error(平均二乗誤差)によって評価する。
あるノード R に含まれるチーム集合に対し、
ノード内の squared error は次式で定義される。

ここで、

を表す。
CARTでは、単一ノードの誤差ではなく、
分割後の左右ノードにおける誤差の加重平均を評価基準として用いる。

ここで、

を表す。
CARTは、各ノードにおいて
このコスト関数 J が最小となるような
区間(説明変数)および閾値を自動的に選択し,
決定木を逐次的に構築する。
2.6 本研究におけるモデル設定
本研究では、
- 被説明変数:総合タイム
- 説明変数:1区〜10区の各区間タイム
を用いて回帰決定木を構築した。
また、結果の解釈性を重視し、
過度に複雑な分岐による過学習を避けるため、
決定木の深さは最大4に制限している。
3. 決定木分析の結果およびその解釈
3.1 区間タイムの特徴量重要度
ここでは、決定木モデルによって算出された区間タイムの特徴量重要度を確認する。
特徴量重要度とは、各区間タイムが総合タイムの予測にどれだけ寄与したかを示す指標であり、値が大きいほどその区間の影響が大きいことを意味する。
本分析は、第96回〜第102回大会における各大会上位10チーム(計70チーム)を対象としている。
つまり、優勝争い・シード争いレベルのチーム同士に限定したデータである。
特徴量重要度の結果

分析の結果、重要度の高い区間は以下の通りであった。
1位:3区
2位:8区
3位:1区
4位:5区
5位:4区
(以下、9区・7区 など)
最も重要度が高かったのは3区であり、他区間と比較しても明確に大きな値を示している。
対象を上位10チームに限定しても、3区が最も強く総合タイムと関連しているという結果になった。
3区の影響
3区は往路の中盤に位置し、距離も比較的長い区間である。
上位校同士では極端な失速は少ないが、その中でも3区のタイム差は総合タイムの差と強く結びついている。
わずか数十秒〜1分程度の差であっても、それが積み重なることで総合順位に影響している可能性がある。
8区の存在感
今回の分析で2位となったのは8区である。
8区は復路中盤にあたり、優勝争いやシード争いが具体化してくる局面で走る区間である。
重要度が高いということは、8区のタイム差が総合タイムの差と連動していることを意味する。
上位校限定データにおいて、復路中盤の区間がここまで高い重要度を示した点は注目に値する。
1区・5区の位置づけ
1区と5区も上位に位置している。
1区は序盤区間でありながら、上位校同士でも一定の影響力を持つことが確認された。
5区(山上り)も依然として重要であるが、重要度としては3区・8区に次ぐ位置にある。
山での大崩れが少ない上位校限定データでは、山単体よりも中盤区間の影響が相対的に強く表れている可能性がある。
今回の特徴量重要度からは、
上位校同士の総合タイムを説明する上で、3区と8区が中心的な役割を果たしていることが示唆された。
次節では、これらの区間がどのように総合タイムを分けているのか、決定木の分岐構造をもとに詳しく見ていく。
3.2 決定木の分岐構造 ― 上位校同士の分水嶺
特徴量重要度では3区が最も高い値を示したが、
実際にどのような条件で総合タイムが分かれているのかを確認するために、決定木の分岐構造を見ていく。
今回の分析対象は、第96回〜第102回大会の各大会上位10チーム(計70チーム)である。
まず、木構造を可視化する。
以降、ノードのオレンジ色が濃いほど、value値が小さい、つまり総合タイムが速いノードである。
今回、squared errorは結果を解釈する上で重要ではないので、木構造を見やすくするために、squared errorを取り除いた。
(squared errorを表示している木は、付録へ)
分析結果がこちら。

最初の分岐条件付近を拡大したものはこちら。

分析結果より、決定木の最初の分岐は、次の条件で行われた。
3区 ≤ 1:02:22
この条件が、上位校同士の総合タイムを最初に分ける基準となっている。
最初の分岐
全70チームの平均総合タイムは約10時間53分台であった。
ここから、
● 3区が1:02:22以内のグループ(36チーム)
平均総合タイム:約10時間50分台前半
● 3区が1:02:22を超えるグループ(34チーム)
平均総合タイム:約10時間57分台後半
という2つのグループに分かれる。
両グループの平均総合タイムには、約7分以上の差が生じている。
上位10チーム限定という条件下でも、
3区のタイムが総合タイムの水準を大きく分けていることが確認できる。
分岐条件の意味
1時間2分22秒という基準は、極端に速いタイムというわけではない。
しかしこのラインを境に、総合タイムの水準が明確に分かれている。
これは、
- 3区で大きな遅れを取らないこと
- 往路中盤で流れを維持できること
が、上位校同士の戦いにおいて重要であることを示している。
この時点ではまだ、
- 8区や5区がどのように関わるのか
- 3区が速いグループの中でさらに差が生まれるのか
までは分からない。
次節では、3区が速いグループと遅いグループそれぞれの内部構造を詳しく見ていく。
3.3 3区が速いチームの内部構造
前節では、最初の分岐が
3区 ≤ 1:02:22
であることを確認した。
ここでは、3区がこの基準を満たした36チームに着目し、その内部で総合タイムがどのように分かれているのかを見ていく。
木構造の左側を拡大したものはこちら。

次の分岐は8区
3区が速いグループの中で、次に現れた分岐条件は次の通りである。
8区 ≤ 1:04:50
つまり、3区で一定水準をクリアした後、
総合タイムをさらに分けているのは8区である。
ここでも2つのグループに分かれ、
- 8区も速いグループ
- 8区でややタイムを要したグループ
で平均総合タイムに差が生じている。
上位校同士のデータにおいて、往路中盤(3区)の次に復路中盤(8区)が登場している点は興味深い。
8区が速い場合のさらに細かい分岐
8区が速いグループでは、さらに次の条件が現れる。
5区 ≤ 1:11:41
ここで山上り区間が分岐要因として登場する。
さらに、
5区 ≤ 1:10:18
という条件を満たすグループでは、
平均総合タイムが10時間40分台前半まで下がる。
これは今回のデータの中でも、特に速い水準である。
分岐の並びから見えるもの
3区が速いチームの内部構造を整理すると、
- 3区
- 8区
- 5区
という順番で分岐が行われている。
これは、
- 往路中盤
- 復路中盤
- 山上り
という区間が、段階的に総合タイムを引き下げていることを示している。
ここではまだ「勝敗を決める」と断定することはできないが、
3区で一定水準を確保した後、8区と5区が総合タイムの水準をさらに押し下げている
という構造が確認できる。
次節では、3区が基準を超えたグループ(やや遅れたチーム)が、どのような分岐構造を示すのかを見ていく。
3.4 3区が基準を超えたチームの分岐構造
ここでは、最初の分岐で
3区 ≧ 1:02:22
となった34チームについて見ていく。
このグループは、3区で基準タイムを上回っている、つまり往路中盤でややタイムを要したチーム群である。
この内部で、総合タイムはどのように分かれているのだろうか。
木構造の右側を拡大したものはこちら。

次の分岐は1区
3区が基準を超えたグループでは、次の分岐条件として
1区 ≤ 1:03:16
が現れる。
ここで1区が登場する点は注目に値する。
つまり、3区でやや遅れた場合でも、
- 1区で良い位置につけているかどうか
- 序盤で流れを維持できていたかどうか
が、総合タイムの水準と関係している可能性がある。
再び現れる3区と8区
さらに分岐を追うと、
3区 ≤ 1:02:40
や
8区 ≤ 1:04:52
といった条件が現れる。
これは、最初の分岐ほど明確ではないものの、
- 3区のわずかな差
- 8区のタイム水準
が、引き続き総合タイムと連動していることを示している。
失速が重なるケース
一方で、
- 3区が基準を超え
- 8区も基準を超え
- 7区でもタイムを要する
といった条件が重なる場合、平均総合タイムは11時間台前半に達する。
上位10チーム限定のデータであっても、
複数区間で基準を超えると、総合タイムは明確に押し上げられる。
この分岐が示すこと
3区で基準を超えたグループでは、
- 1区
- 再度の3区条件
- 8区
といった区間が組み合わさることで、総合タイムが分かれている。
つまり、
3区で完璧でなくても、他区間の水準によって総合タイムは変動する
という構造が見て取れる。
次節では、ここまでの分岐を踏まえて、全体としてどのような傾向が読み取れるのかを整理していく。
3.5 分岐構造から見える区間の役割
ここまで、決定木の分岐構造を確認してきた。
最初の分岐は3区であり、その後は
- 8区
- 5区
- 1区
といった区間が段階的に現れている。
ここでは、これらの分岐の並びから読み取れる区間の役割について整理する。
3区は“水準を分ける区間”
最初の分岐が3区であったことは重要である。
3区 ≤ 1:02:22
この条件によって、総合タイムの水準が大きく分かれた。
これは、3区のタイムが
- 単なる区間タイムの一部ではなく
- 総合タイム全体の水準と強く結びついている
ことを示している。
特に上位校限定のデータにおいて、この分岐が現れた点は特徴的である。
8区は“水準をさらに分ける区間”
3区をクリアしたグループでは、次に8区が現れた。
8区 ≤ 1:04:50
これは、往路で一定の水準を確保した後、復路中盤で総合タイムがさらに分かれていることを示している。
8区の条件を満たすグループでは、平均総合タイムがさらに低い水準へと移行していた。
分岐の順番から見ても、8区は3区の次に総合タイムと強く関連している区間と考えられる。
5区は“上位層を分ける区間”
さらに細かい分岐では、5区が登場した。
5区 ≤ 1:10:18
という条件を満たすグループでは、平均総合タイムが最も低い水準に達している。
これは、一定以上の水準を満たしたチーム同士の中で、山上り区間がさらに総合タイムを押し下げている可能性を示している。
全体を分ける区間というよりも、上位層内部で差を生む区間として機能しているように見える。
1区の役割
3区が基準を超えたグループでは、1区が分岐条件として現れた。
これは、
- 序盤の位置取り
- レース展開の安定性
といった要素が、総合タイムの水準と関連している可能性を示している。
特に上位校同士では、大きな失速は少ないため、序盤の数十秒の差が後半まで影響していることも考えられる。
分岐の並びから見える全体像
決定木の構造を通して見ると、
- 3区で大きく水準が分かれ
- 8区でさらに細分化され
- 5区や1区で内部差が生まれる
という段階的な構造が確認できた。
これは、上位10チーム限定という条件下においても、
- 特定の区間が繰り返し分岐に現れ
- 総合タイムと連動している
ことを示している。
次章では、ここまでの分析結果を踏まえ、全体としてどのような意味を持つのかを考察していく。
3.6 上位校限定データにおける区間の安定性
ここでは、重要度や分岐構造とは別の視点から、
**各区間の安定性(ばらつき)**に着目する。
標準偏差が小さい区間は、上位校同士ではタイム差が生まれにくい区間と考えられる。


今回のデータでは、標準偏差が比較的小さかった区間は以下である。
- 1区(0:56)
- 7区(0:58)
- 9区(1:00)
これらの区間では、上位10チーム間のタイム差は比較的限定的であった。
1区の特徴
1区は特徴量重要度では上位に位置していたが、標準偏差は最も小さい。
これは、
- 大きな差がつく区間ではない
- しかし総合タイムとの関連は無視できない
という状態を示している。
上位校同士では極端な遅れは発生しにくいが、
序盤のわずかな差がその後の展開と連動している可能性がある。
7区・9区の位置づけ
7区と9区も標準偏差は比較的小さい。
これらの区間では、
- 極端な失速が起きにくい
- タイム水準が収束しやすい
傾向が見られる。
決定木の分岐でも、これらの区間は上位の分岐条件としては現れていない。
そのため、総合タイムを大きく分ける主因というよりは、
一定の水準に収まる区間と考えられる。
安定区間と変動区間の対比
一方で、標準偏差が大きかったのは
- 5区
- 6区
- 4区
- 3区
- 8区
であった。
特に3区と8区は、ばらつきが大きいだけでなく、
決定木の分岐でも繰り返し登場している。
このことから、
- ばらつきが大きい区間の中でも
- 総合タイムとの関連が強い区間とそうでない区間がある
ことが分かる。
次節では、全チーム対象分析との比較を通して、
今回の上位校限定データの特徴をより明確にしていく。
3.7 全チーム分析との比較
ここでは、以前行った「全出場チーム対象分析」と、今回の「上位10チーム限定分析」を比較する。
対象が異なることで、区間の役割にどのような違いが生じているのかを確認する。
共通して現れた区間
まず、両分析に共通して重要度が高かったのは3区である。
全チーム対象でも、上位校限定でも、
最初の分岐は3区であった。
これは、サンプルの範囲に関わらず、
- 3区のタイム水準が、総合タイムの水準と強く連動している
ことを示している。
8区の重要度の上昇
今回の上位校限定分析では、8区の重要度が上位に位置した。
全チーム対象では、8区はここまで強くは現れていなかった。
これは、
- 上位校同士では大差がつきにくい
- その中で復路中盤のタイム差が総合タイムと結びつきやすい
という構造を反映している可能性がある。
分析対象の違いが示すもの
全チーム対象では、
- 崩れやすい区間
- 極端な失速
が総合タイムに強く影響していた。
一方、上位校限定では、
- 水準の高いチーム同士の微差
- 中盤区間でのタイムの積み重ね
が総合タイムと連動している。
対象を絞ることで、
区間の「役割」の見え方が変化していることが確認できた。
次節では、今回の分析結果を踏まえて、上位校限定データにおける全体像を整理する。
3.8 上位校限定データが示すレースの段階構造
ここまでの分析を通じて、上位10チーム限定データには、ある特徴的な構造が見えてきた。
それは、総合タイムが段階的に分かれているという点である。
決定木の分岐は、
- 3区
- 8区
- 5区・1区
という順で現れた。
この並びは、単なる重要度の順番ではなく、
レースの流れに沿った構造を反映している可能性がある。
第1段階:往路中盤(3区)
最初に総合タイムの水準を大きく分けるのは3区である。
ここで一定水準を満たすかどうかが、その後の分岐の前提条件になっている。
つまり、3区は「レース全体の水準を決める段階」と見ることができる。
第2段階:復路中盤(8区)
次に現れるのが8区である。
これは往路の結果を受けて、復路で水準がさらに細分化される段階である。
上位校同士では大崩れが少ないため、
中盤区間のタイム差が総合タイムと強く結びつく構造になっている可能性がある。
第3段階:内部差の発生(5区・1区)
さらに細かい分岐では、5区や1区が登場する。
これは、
- すでに一定水準にあるチーム同士の中で
- さらに差が生まれている
ことを示している。
全体を分ける区間というより、
同じ層の内部差を生む区間として機能しているように見える。
分岐順が示す意味
今回の決定木は、
「どの区間が重要か」
だけでなく、
「どの順番で水準が分かれるか」
も示している。
上位校限定データでは、
- 往路中盤で水準が決まり
- 復路中盤で細分化され
- その他区間で内部差が生まれる
という段階構造が確認できた。
これは、単一の区間がすべてを決めるというよりも、
レースが段階的に形成されている可能性を示している。
3.9 本章の分析結果の総括
本章では、上位10チーム限定データを対象に、
- 特徴量重要度
- 決定木の分岐構造
- 区間のばらつき
- 全チーム分析との比較
を順に確認してきた。
ここでは、分析結果として確認できた事実を整理する。
繰り返し現れた区間
決定木の構造を通して、複数回分岐に現れた区間は
- 3区
- 8区
- 5区
- 1区
であった。
特に3区は最初の分岐として登場し、
総合タイムの水準を大きく分けていた。
8区もその後の分岐で繰り返し現れ、
総合タイムとの関連が強いことが確認された。
区間の役割の違い
分析結果からは、区間ごとに異なる役割が見えている。
- 3区は水準を分ける区間
- 8区は水準をさらに細分化する区間
- 5区や1区は内部差を生む区間
また、7区や9区は標準偏差が比較的小さく、
大きな分岐要因としては現れていない。
これは、上位校同士ではタイム水準が収束しやすい区間が存在することを示している。
上位校限定という条件の意味
対象を上位10チームに限定したことで、
- 極端な失速の影響は小さくなり
- 微差が総合タイムと連動する構造
がより明確に現れた。
その結果、
山単体の影響というよりも、
往路・復路の中盤区間が総合タイムと強く結びついている様子が確認された。
本章では、上位校同士の総合タイムがどのような区間構造によって形成されているのかを、データに基づいて確認した。
次章では、これらの結果を踏まえ、総合的な結論と今後の展望について述べる。
4. 総合的結論と今後の展望
本研究では、第96回〜第102回箱根駅伝における**各大会上位10チーム(計70チーム)**を対象に、決定木分析を用いて総合タイムと各区間タイムの関係を検証した。
3章では、区間ごとの役割や分岐構造を確認してきたが、ここではその結果が持つ意味を考える。
上位校同士では「崩れ」よりも「積み重ね」が支配する
全チーム対象分析では、山での失速や極端なタイム差が総合結果に強く影響していた。
しかし今回の上位校限定分析では、構造がやや異なる。
上位校同士では、
- 極端な崩れは少ない
- 各区間の水準は比較的安定している
その中で、総合タイムを分けているのは
- 往路中盤
- 復路中盤
といった、レースの“流れ”を左右する区間であった。
つまり、
大崩れではなく、微差の積み重ねが総合タイムを決めている
という構造が浮かび上がる。
3区と8区の意味
3区は最初の分岐として総合タイムの水準を大きく分けた。
8区は、その水準の中でさらに差を生んでいた。
これは単に「重要区間」であるという以上に、
- レースの中盤で流れが固定化される
- 接戦の中でわずかな差が拡大する
という、箱根駅伝の競技特性を反映している可能性がある。
その中でのタイム差は、心理面・展開面の両方に影響を及ぼすと考えられる。
山の役割の再定義
山(5区)は依然として重要な区間である。
しかし今回の分析では、
- 山がすべてを決めるというよりも
- ある水準に達したチーム同士の中で差を広げる区間
として機能しているように見える。
これは、上位校が山対策を徹底していることの裏返しとも考えられる。
今後の展望
本分析は区間タイムのみを用いたモデルである。
今後は、以下のような拡張が考えられる。
① 区間順位変動の導入
タイムだけでなく順位推移を分析すれば、流れの固定化がどこで起きるのかをより明確にできる。
② レース展開要因の考慮
気象条件、単独走・集団走などの情報を加えることで、区間の難易度や影響力をより精緻に測定できる可能性がある。
③ 上位5校限定分析
優勝争い水準にさらに絞ることで、より微細な構造が見えるかもしれない。
おわりに
箱根駅伝は感情とドラマに満ちた競技である。
しかし同時に、データで見ると明確な構造を持っている。
今回の上位校限定分析では、
- レースが段階的に形成されていること
- 中盤区間が水準を決めていること
が確認できた。
もちろん、データは過去の結果に基づくものであり、未来を保証するものではない。
それでも、
レースを「構造」として見る視点は、
新しい観戦の楽しみ方を与えてくれる。
次の箱根駅伝では、
- 往路中盤
- 復路中盤
で何が起きているのかに注目してみてほしい。
そこに、勝負の輪郭が現れているかもしれない。
今後もさまざまなデータを用いて、分析を行っていきます。
興味を持っていただけた方は、ぜひ引き続きチェックお願いします!
付録
付録A squared errorを表示している木

左側を拡大

右側を拡大

(被って見えない部分があります。ご了承ください。)
付録B ルートノードにおける分岐結果の可視化

