기술통계(descriptive statistics)는 데이터를 이해하기 쉽게 요약하는 통계방법론의 한 범주입니다. 크게 데이터의 중심적인 경향을 나타내는 중심경향성(central tendency), 퍼져있는 정도를 나타내는 산포(dispersion), 데이터의 분포형태와 대칭정도를 설명하는 분포(distribution), 데이터를 크기 순으로 배열해 100등분하였을 때 각 등분점인 백분위수(percentile) 등으로 나눕니다. 우리가 잘 알고 있다고 생각하는 대표적인 통계량 '평균(mean)'에 대해 알아보겠습니다.
읽기 전에 추천 한 번!
블로거에겐 큰 힘입니다
지난 포스팅에서 100대 기업 등기임원의 (산술)평균연봉에 대해 이야기 했습니다. 눈치가 빠르신 분들은 알아차리셨겠지만 평균에는 함정이 있습니다. 삼성전자의 임원평균연봉과 같이 이상치(outlier)가 존재하는 경우 평균이 그 역할을 하지 못한다는 것이 가장 큰 함정입니다. 또한 산술평균만으로는 모든 평균 값을 정확히 표현할 수 없습니다. 이번에는 상장기업 1,059곳의 시가총액(1/23일 종가기준) - 주가에 상장주식수를 곱한 값 - 으로 평균의 함정과 올바른 평균의 계산방법에 대해 정리했습니다.
평균(mean)의 함정
자료를 보시면, 상장기업 1,059곳 전체의 시가총액의 평균은 1조 천억원 규모입니다. 여기서 삼성전자와 현대자동차 단 두 곳의 시가총액을 제외하면 평균은 8,700억원 규모로 약 21%가 하락하게 됩니다. 이렇듯 이상치(outlier)가 존재하는 경우 평균은 대표성을 띄지 못합니다. 이 외에도 국회 공직자윤리위원회의 자료에 따르면 19대 국회의원 299명의 평균재산은 95억6천만원인데, 2조원이 넘는 재산을 지닌 정몽준 의원을 포함한 500원 이상의 국회의원 4명을 제외하면 평균재산이 18억3천만원으로 줄어듭니다.
이런 경우에 대안으로 중심경향을 나타내는 다른 값인 중앙값(median)을 사용하는 것이 좋습니다. 중앙값은 데이터를 크기 순으로 나열하였을 때, 중앙에 위치하는 값입니다. 시가총액의 평균은 1조 천억원 이지만, 중앙값은 530번째 KC코트렐의 925억원입니다. 어느 것이 중심을 더 잘 표현하는 값인지는 데이터를 바라보는 관찰자의 시각에 달려있습니다. 데이터를 커보이게 하려면 평균을 이용하고, 반대로 작아보이게 하려면 중앙값을 이용하면 됩니다. 둘다 '중간 값'을 나타내기 때문에 정보제공자의 의도에 따라 왜곡된 정보를 제공할 수도 있습니다.
산술평균만으로는 모든 평균 값을 올바르게 계산하지 못한다는 것 또한 평균이 가진 함정 중의 하나입니다. 일정기간동안 발생한 연평균 수익률, 일정 시간동안 이동한 거리의 평균속도, 주식 포트폴리오의 평균수익률 등은 모두 평균을 나타내는 지표이지만 산술평균으로 계산하면 그릇된 결과를 가져옵니다. 이것이 기하평균, 조화평균, 가중평균과 같이 평균을 다른 방식으로 계산해야 할 이유입니다.
올바른 평균의 계산방법에 대해 알아보겠습니다.
올바른 평균의 계산방법
기하평균(geometric mean)
지금 1억원을 3년간 투자를 한다고 가정하겠습니다. 첫 해에 20%의 수익률을 올렸고, 둘째 해에 다시 30%의 수익률을 올렸습니다. 마지막 해에 -10%의 수익률을 얻었습니다. 그럼 평균수익률은 얼마가 될까요? 산술평균으로 계산하면 약 13.3%가 나옵니다. 올바른 결과인가요? 그렇지 않습니다. 이런 경우 평균수익률은 기하평균을 이용해 계산해야 합니다.
기하평균은 일정기간의 성장률과 같이 성장성을 분석할 때 사용하는 방법으로 n개의 양수 a1, a2, a3... 가 있을 때, 이 수들의 곱을 수치의 개수로 제곱근을 취해 계산합니다. 투자수익률을 기하평균으로 계산하면 약 12%로 산술평균했을 때 보다 1.3%정도 작게 나옵니다.
> (0.3+0.2-0.1)/3 # 수익률을 산술평균 [1] 0.1333333 > ((1+0.2)*(1+0.3)*(1-0.1))^(1/3) - 1 # 수익률의 기하평균 [1] 0.1197533
조화평균(harmonic mean)
서울에서 부산까지 기차를 타고 여행한다고 가정하겠습니다. 총 여행거리가 약 400km 정도인데 열차표가 없어 약 300km 지점인 동대구역까지는 시속 300km의 KTX를 타고가고, 동대구역에서 부산역까지 약 100km는 시속 120km의 새마을호로 환승했다고 하면 평균시속은 얼마일까요? 산술평균으로 평균시속을 계산하면 210km가 됩니다. 이 역시 옳지 않습니다. 거리와 시간이 계산에 포함되지 않았기 때문입니다. 조화평균으로 평균시속을 다시 계산해 보겠습니다.
조화평균은 평균시속 등을 계산할 때 사용하는 방법으로 n개의 양수에 a1, a2, a3... 가 있을 때, 그 역수들을 산술평균한 것의 역수를 말합니다. 조화평균으로 서울에서 부산까지의 평균시속을 구하면 약 171km로 산술평균에 피해 40km정도 작게 나옵니다.
> (300+120)/2 # 평균시속의 산술평균 [1] 210 > 2/(1/300 + 1/120) # 평균시속의 조화평균 [1] 171.4286
가중평균(weighted average)
보너스를 받아 여유자금 1,000만원으로 삼성전자, 현대자동차, 포스코에 각각 50%, 30%, 20%를 투자한 주식 포트폴리오를 구성한다고 가정하겠습니다. 각각의 투자금은 500만원, 300만원, 200만원입니다. 1년 뒤 수익률이 각각 20%, 15%, 10%라고 하면 평균수익률은 얼마일까요? 산술평균으로 계산하면 15%가 됩니다. 이 경우 투자금의 비중이 포함되지 않았기 때문에 올바른 평균 값을 계산했다고 할 수 없습니다. 가중평균을 이용해야 하는 경우 입니다.
가중평균은 주식 포트폴리오의 기대수익률, 소주와 맥주로 만든 폭탄주의 도수 등을 계산할 때 사용하며, 각각의 수치에 가중치를 곱해 계산한 값의 합을 가중치의 합으로 나누어 계산합니다. 가중평균으로 투자금의 기대수익률을 계산하면 16.5%로 산술평균에 비해 1.5% 높게 나옵니다. 투자비중이 높은 삼성전자의 수익률이 높기 때문입니다.
> (0.2 + 0.15 + 0.10)/3 # 포트폴리오 수익률의 산술평균 [1] 0.15 > (0.5*0.2 + 0.3*0.15 + 0.2*0.1) #포트폴리오 수익률의 가중평균 [1] 0.165
우리는 일상생활에서 수많은 평균에 관한 정보를 접합니다. 진짜 중요한 것은 숫자 자체가 아니라 숫자에 담긴 의미와 올바른 판단입니다. 숫자에 현혹되지 않고 숫자를 보는 안목을 키우는 것이 중요합니다.<사진: hugovk>