R 에서 각 변수간 그룹의 평균값을 계산하여 새로운 열에 삽입해 보자

January 1, 2020 JK

아래와 같은 데이터가 있습니다.

treatment=rep(c("A","B","C","D","E"), each=3)
rep=rep(c("I","II","III"), time=5)
yield=c(10,11,21,13,23,23,13,13,5,33,21,13,42,12,13)
dataA=data.frame(treatment,rep, yield)

dataA
   treatment rep yield
1          A   I    10
2          A  II    11
3          A III    21
4          B   I    13
5          B  II    23
6          B III    23
7          C   I    13
8          C  II    13
9          C III     5
10         D   I    33
11         D  II    21
12         D III    13
13         E   I    42
14         E  II    12
15         E III    13

이 데이터에서 treatment 별로 평균값을 계산하여 새로운 열에 삽입하고 싶습니다. 그래서 아래와 같은 코드를 사용해 보겠습니다.

dataA$mean= NA #to create an empty column

dataA$mean[dataA$treatment=="A"]=mean(dataA$yield[dataA$treatment=="A"], na.rm=TRUE)
dataA$mean[dataA$treatment=="B"]=mean(dataA$yield[dataA$treatment=="B"], na.rm=TRUE)
dataA$mean[dataA$treatment=="C"]=mean(dataA$yield[dataA$treatment=="C"], na.rm=TRUE)
dataA$mean[dataA$treatment=="D"]=mean(dataA$yield[dataA$treatment=="D"], na.rm=TRUE)
dataA$mean[dataA$treatment=="E"]=mean(dataA$yield[dataA$treatment=="E"], na.rm=TRUE)

dataA
   treatment rep yield     mean
1          A   I    10 14.00000
2          A  II    11 14.00000
3          A III    21 14.00000
4          B   I    13 19.66667
5          B  II    23 19.66667
6          B III    23 19.66667
7          C   I    13 10.33333
8          C  II    13 10.33333
9          C III     5 10.33333
10         D   I    33 22.33333
11         D  II    21 22.33333
12         D III    13 22.33333
13         E   I    42 22.33333
14         E  II    12 22.33333
15         E III    13 22.33333

하지만 이 코드는 너무 길어 보입니다. 아주 간편하게 위와 동일한 계산을 수행하는 코드가 있으면 아주 편할것 같습니다. tapply() 코드는 위와 동일한 계산을 가능하게 하는 코드입니다. mean2 라는 열을 생성해서 그곳에 각 변수의 평균값을 계산하여 삽입하고 싶습니다.

library(base)
dataA$mean2=tapply(dataA$yield, dataA$treatment, mean, na.rm=TRUE)[dataA$treatment]

dataA
   treatment rep yield     mean    mean2
1          A   I    10 14.00000 14.00000
2          A  II    11 14.00000 14.00000
3          A III    21 14.00000 14.00000
4          B   I    13 19.66667 19.66667
5          B  II    23 19.66667 19.66667
6          B III    23 19.66667 19.66667
7          C   I    13 10.33333 10.33333
8          C  II    13 10.33333 10.33333
9          C III     5 10.33333 10.33333
10         D   I    33 22.33333 22.33333
11         D  II    21 22.33333 22.33333
12         D III    13 22.33333 22.33333
13         E   I    42 22.33333 22.33333
14         E  II    12 22.33333 22.33333
15         E III    13 22.33333 22.33333

첫번째 일일이 계산했던 방법과 동일한 값을 얻을 수 있습니다. 즉, 아래와 같이 길었던 코드와 동일한 계산식을 제공하는 코드가 tapply() 입니다.

dataA$mean[dataA$treatment=="A"]=mean(dataA$yield[dataA$treatment=="A"], na.rm=TRUE)
dataA$mean[dataA$treatment=="B"]=mean(dataA$yield[dataA$treatment=="B"], na.rm=TRUE)
dataA$mean[dataA$treatment=="C"]=mean(dataA$yield[dataA$treatment=="C"], na.rm=TRUE)
dataA$mean[dataA$treatment=="D"]=mean(dataA$yield[dataA$treatment=="D"], na.rm=TRUE)
dataA$mean[dataA$treatment=="E"]=mean(dataA$yield[dataA$treatment=="E"], na.rm=TRUE)
                                       ↓
dataA$mean2=tapply(dataA$yield, dataA$treatment, mean, na.rm=TRUE)[dataA$treatment]

만일 변수가 하나가 아니라 여러개일 경우 그 변수간 조합의 평균을 계산하고 싶을 때는 어떻게 해야 할까요?

treatment=rep(rep(c("A","B","C","D","E"), each=3),2)
rep=rep(rep(c("I","II","III"), time=5),2)
environment=rep(c("East","West","North"), each=10)
yield=c(10,11,21,13,23,23,13,13,5,33,21,13,42,12,13,10,11,54,45,39,33,29,43,55,33,24,32,42,28,43)
dataA=data.frame(treatment,rep, environment, yield)

dataA
   treatment rep environment yield     mean
1          A   I        East    10 14.00000
2          A  II        East    11 14.00000
3          A III        East    21 14.00000
4          B   I        East    13 19.66667
5          B  II        East    23 19.66667
6          B III        East    23 19.66667
7          C   I        East    13 10.33333
8          C  II        East    13 10.33333
9          C III        East     5 10.33333
10         D   I        East    33 33.00000
11         D  II        West    21 17.00000
12         D III        West    13 17.00000
13         E   I        West    42 22.33333
14         E  II        West    12 22.33333
15         E III        West    13 22.33333
16         A   I        West    10 25.00000
17         A  II        West    11 25.00000
18         A III        West    54 25.00000
19         B   I        West    45 42.00000
20         B  II        West    39 42.00000
21         B III       North    33 33.00000
22         C   I       North    29 42.33333
23         C  II       North    43 42.33333
24         C III       North    55 42.33333
25         D   I       North    33 29.66667
26         D  II       North    24 29.66667
27         D III       North    32 29.66667
28         E   I       North    42 37.66667
29         E  II       North    28 37.66667
30         E III       North    43 37.66667

이제는 treatment 와 environment 간 조합 (i.e., A and East) 의 평균을 구하고 싶습니다. 아래와 같이 코드를 작성합니다.

library(base)
dataA$mean=tapply(dataA$yield, list(dataA$treatment, dataA$environment), mean, na.rm=TRUE)[cbind(dataA$treatment, dataA$environment)]

dataA
   treatment rep environment yield mean
1          A   I        East    10 14.00000
2          A  II        East    11 14.00000
3          A III        East    21 14.00000
4          B   I        East    13 19.66667
5          B  II        East    23 19.66667
6          B III        East    23 19.66667
7          C   I        East    13 10.33333
8          C  II        East    13 10.33333
9          C III        East     5 10.33333
10         D   I        East    33 33.00000
11         D  II        West    21 17.00000
12         D III        West    13 17.00000
13         E   I        West    42 22.33333
14         E  II        West    12 22.33333
15         E III        West    13 22.33333
16         A   I        West    10 25.00000
17         A  II        West    11 25.00000
18         A III        West    54 25.00000
19         B   I        West    45 42.00000
20         B  II        West    39 42.00000
21         B III       North    33 33.00000
22         C   I       North    29 42.33333
23         C  II       North    43 42.33333
24         C III       North    55 42.33333
25         D   I       North    33 29.66667
26         D  II       North    24 29.66667
27         D III       North    32 29.66667
28         E   I       North    42 37.66667
29         E  II       North    28 37.66667
30         E III       North    43 37.66667

treatment A 와 West 에서의 평균이 과연 25가 맞는지 검증해 보겠습니다.

mean (dataA$yield[dataA$treatment=="A" & dataA$environment=="West"], na.rm=TRUE)
# 25

평균값은 25 라고 합니다. 위에서 tapply() 코드로 계산된 값과 동일한 값 입니다.

Agronomy4future

Stories about cereals and statistics (plus coding). We aim to develop open-source code for agronomy.

R 에서 각 변수간 그룹의 평균값을 계산하여 새로운 열에 삽입해 보자

January 1, 2020 JK

□ Step-by-Step Guide to Calculating and Adding Variable Means in R