前回に引き続き、ランキングデータを実際に解析していく。
今回は、年齢、ポイント、年齢とポイントの関係、国籍とポイントの関係について調べる。
ランキングデータの読み込み
library(tidyverse) library(ggrepel) rank <- read.csv("20211228_atp_year_end_rank_2021_all_after.csv", header=TRUE)
年齢
年齢の最小値は16で最大値は43である。
そこで、15歳から45歳まで1歳刻みの階級でヒストグラムを描いた。
ggplot(data=rank, aes(x=age)) + geom_histogram(breaks=seq(15,45,1))
21歳~23歳にピークがあり、右の裾野が長い分布である。
ポイント
ggplot(data=rank, aes(x=points)) + geom_histogram(breaks=seq(0, 12500, 100)) + ggtitle("ATP選手のランキングポイント分布")
2218人のATPランカーのうち、1750人強の選手はポイントが100ポイント未満である。
ポイントが低い選手が大勢いる一方、一握りの選手が多くのポイントを独占している。
ggplot(data=rank, aes(x=points)) + geom_histogram(breaks=seq(100, 12500, 100)) + ggtitle("ATP選手のランキングポイント分布(100ポイント以上)")
100ポイント以上の選手に限定してヒストグラムを描くと、このようになる。
ここでも、選手間のポイント格差が現れている。
年齢とポイントの関係
ggplot(data=rank, aes(x=age, y=points)) + geom_point(colour="salmon") + labs(title="年齢別 ATPランキングポイント(2021年末)")
23歳~25歳にランキングポイントのピークがある。
このことから、2021年は24歳前後の選手が活躍したと言える。
ggplot(data=rank, aes(x=age, y=points, group=age)) + geom_boxplot(colour="salmon") + labs(title="年齢別 ATPランキングポイント(2021年末)")
ラベルを付した。34歳のジョコビッチ、35歳のナダル、40歳のフェデラーが外れ値として存在していることが確認できる。
ggplot(data=rank, aes(x=age, y=points, label=player)) + geom_point(colour="salmon") + labs(title="年齢別 ATPランキングポイント(2021年末)") + geom_text_repel()
各年齢でポイントの箱ひげ図を描いた。30歳以下では、選手の大多数が非常に低いランキングであることが分かる。
一方、31歳以上では、集団のポイントレベルが上っている。ランキングが非常に低い選手は30代になる前に引退する一方、ある程度のポイントを維持できている選手は、30代になっても現役を続けるためと考えられる。
国籍とポイント
g <- ggplot(data=rank, aes(x=country, y=points, group=country)) + geom_boxplot(colour="salmon") + # scale_x_reverse() + ylim(c(0, 12500)) + labs(title="ATP ranking points by country (2021 year end)") + coord_flip()
選手の国ごとにポイントの箱ひげ図を描いた。
ロシア(RUS)は、高ポイントの選手を4人擁していることが確認できる。
まとめ
今回は、年齢、ポイント、年齢とポイントの関係、国籍とポイントの関係について調べた。
おまけ(年長選手)
ATPランカーの最高年齢は43歳である。43歳の選手は2人いる。
- 松井俊英(日本、1978年4月19日生)
- Oh-Hee Kwon(韓国、1978年6月18日生)