본문 바로가기

전체 글

(71)
분석, 어떻게 할 것인가? - (5) 데이터 수집하기 우리가 어떤 문제를 분석한다는 것은 대단히 어려운 분석방법을 사용해서 멋진 결과를 도출해야 한다는 것을 의미하는 것은 아닙니다. 단지 주어진 사실들을 면밀히 검토해서 그 속에 숨어있는 진실을 이해하면 되는 것입니다. 정확한 자료를 사실에 기반해서 찾기 여기에서 눈여겨 볼 것은 사실을 기반으로 자료를 수집해야 한다는 것입니다. 사실 요즘은 웹에서 찾을 수 없는 자료는 없는 자료라고해도 무방할 정도입니다. 그만큼 검증되지 않은 자료들도 많습니다. 자료수집은 될 수 있는 한 검증된 원천에 기반하는 것이 좋습니다. 국가 또는 지방자치단체, 민간 연구소, 언론사 등이 대표적인 예입니다. 그리고 인용한 자료들의 원천 데이터를 찾아보는 것 또한 새로운 사실을 확인할 수 있는 좋은 방법입니다. 1차자료와 2차자료 스티..
분석, 어떻게 할 것인가? - (4) 추상화하기 이제 추상화의 단계입니다. '시카고의 피아노 조율사는 몇 명일까?' 이런 문제에 대해 기초적인 지식과 논리적인 추론만으로 짧은 시간내에 답을 내는 방법을 '페르미 추정'이라고 합니다. 이탈리아계 미국인 물리학자인 엔리코 페르미(Enrico Fermi, 1901~1954) 가 물리량 추정에 뛰어났고 그가 학생들에게 이런 문제를 자주냈다고 해서 붙여진 이름입니다. 게스티메이션(Guestimation) 또는 브레인 티저(Brain Teaser)라고 불리기도 합니다. 정답이 없고 수없이 많은 다양한 형태로 문제를 낼 수 있으며 지원자의 사고력을 측정하는 데에 유용하여 마이크로 소프트, 구글 등에서 면접문제로 활용하기도 합니다. 우리나라의 전봇대는 모두 몇 개인가? 문제를 하나 내보겠습니다. "대한민국의 전봇대는..
분석, 어떻게 할 것인가? - (3) 가설 설정하기 "Diagram of the causes of mortality in the army in the East" by Florence Nightingale. -wikipedia 네이버에서 '데이터 과학자' 를 한 번 검색해 보세요. 어떤 사람이 떠오르시나요? 저는 구글의 수석이코노미스트이자 UC버클리의 교수인 할 배리언(Hal Varian, 1947~ )같은 사람이 나올거라고 생각했습니다. 그런데 놀랍게도 지식백과항목에 우리가 알고 있는 어느 간호사의 초상이 나옵니다. 바로 나이팅게일(Florence Nightingale, 1820 ~ 1910)입니다. 나이팅게일은 1854년 크림전쟁의 참상에 자극되어 자원봉사자 38명과 함께 터키로 갔습니다. 그해 겨울 환자의 사망률은 43%에 달했습니다. 당시는 질병의 ..
분석, 어떻게 할 것인가? - (2) 배경지식 쌓기 문제를 정의한 다음 우리가 해야 할 일은 문제와 관련한 배경지식을 쌓는 것입니다. 이 단계에서는 관련된 자료를 최대한 모아 정리하는 것이 매우 중요합니다. 우리가 해결해야 할 문제의 대부분은 이미 해결된 문제일 수도 있습니다. 이미 있는 정보를 활용해야 합니다. 배경지식을 쌓기 위해서는 올바른 정보의 원천을 찾아야 합니다. 사진 :Hash Milhan 키워드 검색을 통한 얼개 그리기 가장 쉬운 방법은 웹에 있는 정보를 활용하는 것입니다. 우선 구글과 네이버 검색엔진을 통해 키워드로 관련 정보를 찾아봅니다. 키워드를 검색 할 때 중요한 점은 찾고자 하는 키워드 뿐만 아니라 유사한 키워드까지 검색해 보는 것, 그리고 키워드를 포함하는 상위 키워드를 검색해 보는 것입니다. 분석과 관련한 검색을 한다고 하면, ..
분석, 어떻게 할 것인가? - (1) 문제 정의하기 매월 결산을 완료하면 이런 질문들이 쏟아집니다. "재료비가 왜 이렇게 높게 나와?", "고정비 10% 줄일려면 어떻게 할거야?" .... 그렇습니다. 사실 분석이란 어쩌면 '왜'라는 질문에서 시작해서 '어떻게'라는 답을 구해가는 과정일지도 모릅니다. 분석을 이렇게 정의 하겠습니다. 분석 : 우리가 해결하고자 하는 문제를 정의하고 효과적이고 의미있는 해결책을 제시하여 분석 정보이용자에게 우리가 의도하는 반응을 이끌어내는 일련의 활동 그리고 이 분석 프로세스를 문제 정의하기, 배경지식 쌓기, 가설 설정하기, 추상화하기, 자료 수집하기, 자료 분석하기, 보고하기의 7단계로 나누어 이야기하려고 합니다. 오늘은 그 첫번째인 문제 정의하기입니다. 발생형, 탐색형, 설정형 문제 분석을 잘하기 위한 첫 단추가 바로 문..
[파이썬] 시퀀스 자료형의 기초 문자열, 리스트, 튜플 같은 자료형을 시퀀스(Sequence) 자료형이라고 합니다. 시퀀스 자료형에 포함된 각 객체는 순서를 가지고, 인덱스(Index)를 사용하여 참조할 수 있습니다. 파이썬에서 문자열(String)은 작은 따옴표 ' '나 큰 따옴표 " "로 묶어 표시하고, 리스트(List)는 대괄호 [ ], 튜플(Tuple)은 소괄호 ( )로 묶어 표시합니다. 각 자료형은 고유한 특성들을 가지기도 하지만, 공통적으로 적용되는 특성들이 있습니다. 인덱싱(Indexing) 인덱싱이란 시퀀스 데이터에서 오프셋(Offset)으로 하나의 객체를 참조하는 것을 말합니다. 여기서 인덱스는 정수이며, 0에서 부터 시작합니다. 1이 아니라 0에서 부터라는 것을 잊지 마세요. 예를 들면 다음과 같습니다. >>> a =..
플리커(flickr)에서 블로그 적용할 이미지 구하기 "한 장의 그림이 천 마디 말보다 낫다." 이 말은 블로그에도 사실입니다. 누구나 자기 포스트에 멋진 이미지 하나 쯤은 남기고 싶어합니다. 그런데, 현실은 녹록지 않습니다. 사진 한 장 멋드러지게 찍으려면 많은 공부가 필요합니다. 장비도 만만하지 않습니다. 그래서 웹에 있는 이미지들을 검색해 보지만 포스트에 딱 맞는 고품질의 이미지를 찾기도 쉽지 않습니다. 이미지가 좋으면 품질이 떨어지고, 품질이 좋으면 꼭 워터마크가 붙어있습니다. 실제로 아이스탁포토, 게티이미지, 셔터스톡 같은 이미지 전문 사이트에서 품질 좋은 이미지 한 장을 다운 받으려면 한 장에 몇 만원씩을 지불해야 합니다. Creative Commons의 BY 라이센스 이미지 사용하기 그럼 방법이 없는 것일까요? 우리 같은 사람은 블로그에 이미지..
[마감] 티스토리 초대장 배포합니다. 남은 초대장 수 : 0 안녕하세요? 티스토리에서 블로그를 운영하려는 분들을 위해 초대장 배포합니다. 배포 완료시 까지 진행할 예정입니다. 특별한 조건은 없습니다. 다만, 아래의 내용을 꼭 확인해 주세요. 되요 안되요 간단한 본인소개를 남겨주세요 블로그 운영목적을 남겨주세요 이메일 주소를 남겨주세요 비밀댓글을 이용해 주세요 한명이 여러 명인 척 하지 마세요 이유없이 달라고 하지마세요 의심스런 이메일 주소를 사용하지 마세요