上場インターネット関連企業125社の平均年収と年齢からRで相関分析してみた
Excelで速効計算できることを、勉強がてらRで分析しました。
先に結果から。
平均年収が高く、年齢が若いのは
・ディー・エヌ・エー(750万円,32才)
・グリー(742万円、31.4才)
・サイバーエージェント(720万円、30.7才)
平均年収が低く、年齢も若いのは
・Aiming(341万円、30才)
・Appbank(344万円、31.3才)
・オウチーノ(346万円、32才)
・メディア工房(356万円、30.6才)
・ブランジスタ(399万円、30.3才)
元ネタはこちら
【保存版】上場インターネット関連企業125社の平均年収ランキングをまとめました
今度は上場インターネット関連企業の平均年齢ランキングを調べてみました
データ前処理
「平均年収」の記載されたExcelのシートに年齢を追加したい。平均年齢のシートからvlookupを使って年齢を取ってくる。
=VLOOKUP(B2,age!$B$2:$C$126,2,FALSE)
↓年収ランキングのシートに年齢を追加
↓平均年齢のシート
企業名と年収、年齢がまとまったので、CSV形式(UTF8)に書き出す。
ファイル名をsaraly_age.csvとする。
データはgithubに置いておきます。
r_average_salary_age/saraly_age.csv at master · akihiromukae/r_average_salary_age · GitHub
Rで分析
CSVを読みこむ
sample <- read.csv("saraly_age.csv",header = T)
要約統計量をsummaryで確認
summary(sample[,2:3])
salary | age |
---|---|
最小値Min. :341.0 | 最小値Min. :28.1 |
1st Qu.:475.0 | 1st Qu.:31.8 |
中央値Median :534.0 | 中央値Median :33.2 |
平均Mean :543.7 | 平均Mean :33.6 |
3rd Qu.:609.0 | 3rd Qu.:35.5 |
最大値Max. :845.0 | 最大値Max. :43.9 |
平均年収のヒストグラム
hist(sample$salary,col="lightblue",main="平均年収",xlab="年収",family = "HiraKakuProN-W3",label=T)
450万円〜600万円が多い。
平均年齢のヒストグラム
hist(sample$age,col="violet",main="平均年齢",xlab="年齢",family = "HiraKakuProN-W3",label=T)
年収と年齢の相関を調べる
cor(sample$salary,sample$age)
[1] 0.3497918
年齢が上がれば年収も上がるという、正の相関があるようだ。
ggplot2で散布図と近似曲線を出力
library(ggplot2)
ex <- data.frame(Salary=sample$salary,Age=sample$age)
p <- ggplot(ex,aes(x=Salary,y=Age))
p + geom_point() + geom_smooth(method = "lm")
plotでのチャート作図コマンドは以下
plot(sample$salary,sample$age,pch=20,xlab="給与",ylab="年齢",family = "HiraKakuProN-W3",main="散布図")
sample.lm <- lm(age~salary,data=sample)
abline(sample.lm , lwd=1 , col="blue")
これだけだと傾向がわかっただけで面白く無いので、
平均年収が700万以上の高い起業と、400万以下の起業をチャートに名前を追加してみる。
※オリコンだけは突出して平均年齢が高かったので、追加してます。