본문 바로가기

전체 글

(71)
평균의 함정과 올바른 평균의 계산방법 기술통계(descriptive statistics)는 데이터를 이해하기 쉽게 요약하는 통계방법론의 한 범주입니다. 크게 데이터의 중심적인 경향을 나타내는 중심경향성(central tendency), 퍼져있는 정도를 나타내는 산포(dispersion), 데이터의 분포형태와 대칭정도를 설명하는 분포(distribution), 데이터를 크기 순으로 배열해 100등분하였을 때 각 등분점인 백분위수(percentile) 등으로 나눕니다. 우리가 잘 알고 있다고 생각하는 대표적인 통계량 '평균(mean)'에 대해 알아보겠습니다. 읽기 전에 추천 한 번! 블로거에겐 큰 힘입니다 지난 포스팅에서 100대 기업 등기임원의 (산술)평균연봉에 대해 이야기 했습니다. 눈치가 빠르신 분들은 알아차리셨겠지만 평균에는 함정이 있습..
잘 나가는 임원들은 왜 그렇게 돈을 많이 받을까? 최근에 읽은 두 개의 칼럼이 여러가지 생각을 하게 만들었습니다. 동아일보 소비자경제부 김용석 차장의 '사장님 월급, 얼마면 됩니까'와 에세이스트라는 필명으로 김준이라는 회사원이 조선비즈에 기고한 '엑셀의 '엑'字도 모르는 J과장… 후배가 만든 보고서로 부장 총애 독차지' 입니다. 자본시장법 개정안이 국회를 통과함에 따라 이제 연봉 5억원 이상의 등기임원은 연봉을 공개해야 합니다. 12월 결산법인의 사업보고서 제출이 끝나는 3월 말이면 확인이 가능합니다. 지금은 등기임원의 인원수와 총보수액만 공개하고 있습니다. 문득 이런 생각이 들었습니다. 우리나라 100대 기업의 등기임원 연봉은 일반직원에 비해서 얼마나 많을까? 100대 기업 등기임원, 직원에 비해 평균 17.5배 많아 한국경제매거진에서 공개한 '201..
[R프로그래밍] R을 계산기로 사용하는 방법 읽기 전 클릭↑ 한 번! 블로거에겐 큰 힘입니다 R은 뉴질랜 오클랜드 대학의 로스이하카(Ross Ihaka)와 로버트 젠틀맨(Robert Gentleman)에 의해 시작된 통계계산과 그래픽을 위한 프로그래밍 언어입니다. GNU GPL을 따르고 있어 누구나 자유롭게 사용할 수 있고, 윈도우, 리눅스, OS X등 멀티 플랫폼에서 소스코드의 변형없이 재사용이 가능해 통계연구에 널리 쓰입니다. R은 프로그래밍 언어로써의 통계계산과 패키지 개발 용도 외에도 다양한 계산이 용이하고 탁월한 성능을 발휘합니다. 여기서는 R을 계산기로 사용하는 방법에 대해 이야기 합니다. 연산자, 연산의 우선순위와 데이터 할당 계산기는 다양합니다. 사칙연산, 간단한 무리수의 계산, 메모리기능을 가지고 있는 일명 쌀집계산기에서 부터 화폐..
빅데이터, 사용자에서 시작하자 '21세기의 원유'로 불리는 빅데이터가 크게 화두가 된지 채 1년이 되지 않습니다. 하지만 올해 IT분야를 관통할 핵심단어임을 부인하는 사람은 없습니다. 민간, 공공, 학계 구분없이 빅데이터에 대한 관심을 크게 내비치고 있습니다. 삼성전자가 "소비자의 생각을 읽겠다"며 지난 정기 조직개편시 미디어솔루션센터 산하에 빅데이터 센터를 신설하겠다고 밝혔고, 현대자동차 역시 차량의 품질과 서비스 향상을 위해 빅데이터 사업을 본격화하기로 했습니다. 공공부문 역시 빅데이터를 창조경제 및 정부 3.0의 핵심동력으로 육성하기로 하며 빅데이터 산업 발전전략을 발표했습니다. 학계는 서울대 빅데이터 센터 등을 중심으로 빅데이터에 대한 연구를 활발히 진행하고 있습니다. 초점은 기술에 맞춰져 있습니다. 빅데이터는 수억건에서 수백..
KB국민카드, 저도 털렸습니다. 농협, KB국민, 롯데카드의 1억 400만 건의 개인정보가 유출되었다고 합니다. 신용평가사 개발자가 빼돌려 판매했다고 하는데요. 확인해보니 저도 엄청나게 털렸네요. 이에 따라 각 카드사는 향후 1년간 결제내역을 알려주는 월 300원짜리 문자서비스를 무료로 제공한다고 합니다. 이런 미친! 만약 내가 다른 사람의 저런 정보를 가지고 있다고 하면 무슨 짓을 할 수 있을까요? 기본적으로 웹에서 공인인증을 필요로 하지 않는 모든 사이트에 내 신용정보가 도용될 수 있을 것입니다. 휴대전화로 교묘하게 위장된 문자메시지를 발송하거나 직장이나 가족의 정보를 분석해서 보이스피싱에 이용할 수도 있겠지요. 실제로 있지도 않은 하나은행 계좌가 불법 자금세탁 계좌로 사용되었다고 검사로 사칭해 송금을 하라는 보이스피싱을 당해본 적..
사물인터넷이 미래를 지배하게 될까? 읽기 전에 추천 한 번! 블로거에겐 큰 힘입니다 전세계 3200여개의 업체가 참여한 세계최대의 가전전시회 CES 2014가 성황리에 폐막했습니다. CES 2014의 화두 중의 하나가 사물인터넷(Internet of Things)인데요. 과연 사물 인터넷이 미래를 지배하게 될까요? 상상의 나래를 한 번 펼쳐보도록 하죠. 잠을 자고 있는 동안 내 몸속의 센서를 통해 집안의 실내온도를 적절하게 유지합니다. 아침에 눈을 뜨면 TV가 내가 즐겨보는 채널을 찾아서 보여주고, 샤워를 마치고 나오는 동안 따뜻한 밥이 지어져 있습니다. 출장을 가면 집안의 전자기기들이 통신을 해 자동으로 절전모드로 변하고, TV에 달려있는 카메라는 집안을 감시하고 칩입자가 발생하면 스스로 신고를 하고 나에게 알려줍니다. 이런 일들을 사물..
데이터 분석을 위한 파이썬 필수라이브러리 데이터 분석을 위해서는 분석할 문제를 정의하는 단계에서 분석결과를 보고하는 단계까지 여러단계가 이루어진다고 포스팅했습니다. 이 중 첫 4단계는 컴퓨터의 도움없이 연필과 종이로 충분히 할 수 있습니다. 하지만, 실제 데이터를 수집하고, 가공해서, 보여주는 단계에 이르면 수작업만으로는 한계가 있습니다. 파이썬은 데이터 분석을 위한 다양한 라이브러리를 제공합니다. 데이터를 수집하고, 가공하고, 시각화하는 데 필수적인 파이썬 라이브러리를 소개하도록 하겠습니다. 데이터 수집 - Beautiful Soup Beautiful Soup 라이브러리는 강력한 HTML 파싱 라이브러리입니다. 우리가 분석을 위해 수집하는 데이터의 대부분은 웹 상에 존재합니다. 웹페이지는 태그가 포함된 HTML파일을 브라우저가 해석해 우리에게..
Beautiful Soup 라이브러리로 기온데이터 수집하기 작년 한 해 서울의 기온은 어떻게 변했을까요? 이런 작업을 하려면 날씨정보가 어디있는지 알아야 하고, 그 정보를 활용해서 우리가 보고싶은 모습으로 표현할 수 있어야 합니다. Weather Underground에서는 전세계의 날씨 데이터를 일자별, 주별, 월별, 기간별로 제공하고 있습니다. 한 가지 문제가 있습니다. 우리가 원하는 것은 일별 데이터인데 모두 확인하려면 대단한 노가다(?)를 해야한다는 것입니다. 파이썬의 Beautiful Soup 라이브러리를 활용하면 이 작업을 쉽게 처리할 수 있습니다. Beautiful Soup라이브러리는 html과 xml로 부터 데이터를 뽑아내기 위한 라이브러리 입니다. Beautiful Soup Document를 보시면 자세한 내용을 확인 할 수 있습니다. 이 라이브러..