- QUESTION 4 -

第4問 解説 (25点)

OVERVIEW

第4問はデータ分析に関する問題です。旅行者数のデータを題材に、尺度水準、グラフの読み取り、散布図と相関係数、箱ひげ図を用いた分析について問われます。

01. 尺度水準とグラフの読み取り

SUMMARY

データ分析における尺度水準とグラフから読み取れる情報に関する問題

ANSWER

3(名義尺度)
0(比例尺度)
0(帰省等を目的とする旅行者数がすべての地方の中で最も多い地方は関東である)
2(地方ごとの旅行者数の合計に対する出張等の旅行者数の割合は、関東よりも東北の方が高い)

EXPLANATION

尺度水準の理解

データの尺度水準には4つのレベルがあります:

  1. 名義尺度(Nominal Scale):単なるカテゴリーの区別。順序や大小関係がない。例:郵便番号、地方名、性別、色
  2. 順序尺度(Ordinal Scale):カテゴリー間に順序関係がある。間隔は等しくない。例:満足度(低・中・高)、成績(A・B・C)
  3. 間隔尺度(Interval Scale):順序関係があり、間隔も等しい。絶対的な原点(真の0)がない。例:温度(摂氏・華氏)、西暦
  4. 比例尺度(Ratio Scale):間隔が等しく、絶対的な原点がある。比率に意味がある。例:長さ、重さ、人数、金額

ア:番号の尺度水準

表1の「番号」は、単に地方を識別するためのラベルです。番号1が番号2より「小さい」とか「半分」という意味はありません。郵便番号と同じく、名義尺度です。

ア = 3(名義尺度)

イ:旅行者数の尺度水準

旅行者数(人数)は:

  • 0人が絶対的な原点(誰もいない状態)
  • 間隔が等しい(1人の差は常に1人)
  • 比率に意味がある(2,000人は1,000人の2倍)

したがって、比例尺度です。

イ = 0(比例尺度)

ウ・エ:グラフから読み取れる情報

図1には2つのグラフがあります:

  • (a) 棒グラフ:各地方の目的別旅行者数(絶対値)
  • (b) 帯グラフ:各地方の目的別旅行者数の割合(相対値)

選択肢⓪「帰省等を目的とする旅行者数がすべての地方の中で最も多い地方は関東である」

図1(a)の棒グラフで帰省等(斜線部分)を確認すると、関東が最も多いことがわかります。これは正しいです。

選択肢②「地方ごとの旅行者数の合計に対する出張等の旅行者数の割合は、関東よりも東北の方が高い」

図1(b)の帯グラフを見ると:

  • 東北:出張等(黒い部分)の割合が比較的大きい(約22%)
  • 関東:出張等の割合は比較的小さい(約18%)

これも正しいです。

ウ = 0、エ = 2

KEY POINTS

  • 尺度水準の理解:データの性質に応じた適切な分析方法を選択
  • グラフの使い分け:棒グラフは絶対値、帯グラフは割合の比較に適している
  • データの読み取り:グラフから正確に情報を抽出する能力が重要

02. 散布図と相関係数

SUMMARY

散布図と相関係数から読み取れる情報を選択する問題

ANSWER

1(すべての都道府県で、出張等の旅行者数は帰省等の旅行者数の1.5倍を下回る)
3(ある目的の旅行者数が多い都道府県ほど、他の目的の旅行者数も多くなる傾向にある)

EXPLANATION

散布図と相関係数の基礎

図2には3つの散布図があり、それぞれ相関係数が示されています:

  • 左上:帰省等 vs 出張等(相関係数 0.84)
  • 右上:観光等 vs 出張等(相関係数 0.67)
  • 下:観光等 vs 帰省等(相関係数 0.79)

相関係数の意味

  • +1に近い:強い正の相関(一方が増えると他方も増える)
  • 0に近い:相関なし
  • -1に近い:強い負の相関(一方が増えると他方は減る)

各選択肢の検討

選択肢①「すべての都道府県で、出張等の旅行者数は帰省等の旅行者数の1.5倍を下回る」

図2の左上の散布図(帰省等 vs 出張等)を確認します。もし「出張等 = 帰省等 × 1.5」なら、傾き1.5の直線になります。散布図を見ると、すべての点がこの仮想的な直線より下にあります。

つまり、すべての都道府県で「出張等 < 帰省等 × 1.5」が成り立っています。正しいです。

選択肢③「ある目的の旅行者数が多い都道府県ほど、他の目的の旅行者数も多くなる傾向にある」

3つの散布図すべてで相関係数が正(0.67〜0.84)であり、右上がりの傾向が見られます。これは「ある目的が多い都道府県は、他の目的も多い傾向がある」ことを示しています。正しいです。

選択肢④「観光等の旅行者数を増やすことができれば、帰省等と出張等の旅行者数も増える」

相関関係は因果関係を意味しません。散布図と相関係数から読み取れるのは「関連性」であり、「原因と結果」ではありません。誤りです。

オ = 1、カ = 3

KEY POINTS

  • 相関係数の解釈:相関の強さと方向を理解する
  • 散布図の読み取り:点の分布から傾向を把握
  • 相関と因果の区別:相関関係があっても因果関係があるとは限らない
  • 「必ず」「すべて」:こうした強い表現には注意が必要

03. 原点からの直線の傾きと正規化

SUMMARY

散布図における原点からの直線の傾きの意味と、図3と図4の関係を理解する問題

ANSWER

0(両方の図で同じ二つの都道府県を示している)
3(人口が少ない)

EXPLANATION

原点からの直線の傾きの意味

これは問3の核心となる重要な概念です。

図3(出張等 vs 観光等)の場合:

ある点(x, y)と原点(0, 0)を結んだ直線の傾き:

傾き = y / x = 出張等の旅行者数 / 観光等の旅行者数

これは「出張等と観光等の比率」を表します。

図4(出張/人口 vs 観光/人口)の場合:

傾き = y' / x' = (出張等/人口) / (観光等/人口) = 出張等 / 観光等

人口で割っても比率は変わらないため、図3と図4で原点からの直線の傾きは同じ意味を持ちます。

キ:目立つ点の対応関係

「座標の上側に目立つ点」とは、原点からの直線の傾きが大きい点、つまり出張等/観光等の比率が高い点を指します。

図3と図4で原点からの傾きが同じ意味を持つため、「傾きが大きい点」は両方の図で同じ二つの都道府県を示しています。

キ = 0

ク:点XとYの位置関係の理由

図3(絶対値)と図4(人口あたり)で、点XとYの位置関係が逆転している理由を考えます。

人口で割ると、人口が少ない都道府県ほど値が大きくなります

例:

  • 都道府県X:観光等10,000人、人口100,000人 → 観光/人口 = 0.1
  • 都道府県Y:観光等10,000人、人口10,000人 → 観光/人口 = 1.0

同じ絶対値でも、人口が少ない方が「人口あたり」の値は大きくなります。したがって、Yの方が人口が少ないため、人口で割ったときに値が大きくなり、図4で上位に来ます。

ク = 3(人口が少ない)

KEY POINTS

  • 比率の不変性:分子と分母を同じ値で割っても比率は変わらない
  • 原点からの傾き:散布図において原点からの直線の傾きは比率を表す
  • 正規化の効果:人口で割ることで、規模の異なる都道府県を公平に比較できる
  • 相対化による順位変動:絶対値と相対値では順位が変わることがある

04. 箱ひげ図を用いた分析

SUMMARY

箱ひげ図を用いて、第3四分位数を基準に都道府県を分類し、特定の領域を識別する問題

ANSWER

2(2個)
3(出張等も観光等も多めではない都道府県)
2(Cの都道府県)
4(Eの都道府県)

EXPLANATION

箱ひげ図の読み取り

図5には、横軸と縦軸それぞれに箱ひげ図が付いています:

  • 横軸(観光/人口)の箱ひげ図:第3四分位数は約3.0
  • 縦軸(出張/人口)の箱ひげ図:第3四分位数は約0.8

ケ:観光/人口が4.0以上の都道府県

問題文:「観光等の旅行者が人口の4倍以上訪れる都道府県を表す点の数」

横軸で4.0以上の位置を確認すると、右側に外れ値として◯印が2つあります。

ケ = 2(2個)

コ:最も多い分類

「出張等が多め」= 出張/人口 > 0.8(第3四分位数より大きい)

「観光等が多め」= 観光/人口 > 3.0(第3四分位数より大きい)

図5の散布図を4つの領域に分けると:

  • 右上(出張多め、観光多め):点が少ない
  • 右下(出張少なめ、観光多め):点がそこそこある
  • 左上(出張多め、観光少なめ):点がそこそこある
  • 左下(出張少なめ、観光少なめ):点が最も多い

大部分の都道府県は、出張/人口も観光/人口も第3四分位数以下、つまり「多めではない」に該当します。

コ = 3(出張等も観光等も多めではない都道府県)

サ:出張等も観光等も多めの都道府県

「出張等も観光等も多め」= 図5の右上領域

図5でA〜Fの領域を確認すると、C領域が右上(出張/人口 > 0.8、観光/人口 > 3.0)に位置しています。

サ = 2(Cの都道府県)

シ:傾きが最も小さい都道府県

「出張等は多めではないが観光等は多め」= 図5の右下領域(D、E領域)

「出張/人口を観光/人口で割った値が最も小さい」= 原点からの直線の傾きが最も小さい = 最も右下にある点

図5を見ると、E領域の点が最も右下に位置しています。

シ = 4(Eの都道府県)

KEY POINTS

  • 箱ひげ図の活用:データの分布を視覚的に把握
  • 四分位数:データを4等分する基準値
  • 領域分割:基準値で平面を分割し、データを分類
  • 傾きの解釈:原点からの傾きは比率を表す

SUPPLEMENTARY INFO

箱ひげ図の構成要素

STRATEGY

データ分析問題を解く際のポイント: