같은 통계분석도 사용하는 프로그램은 다르다?
같은 통계분석도 사용하는 프로그램은 다르다?
  • 진혜수 기자
  • 승인 2019.08.01
  • 댓글 0
이 기사를 공유합니다

 

우리는 책이나 뉴스를 보는 등 일상생활에서 통계를 자주 접합니다. 여기서 말하는 통계는 무엇을 의미할까요? 오늘은 특정 주제와 관련한 통계조사 결과가 아닌 통계의 학문적 내용을 쉽게 소개하고자 합니다.

통계는 사전적으로 어떤 현상을 종합적으로 한눈에 알아보기 쉽게 일정한 체계에 따라 숫자로 나타내는 것을 의미합니다. 실례로 우리가 쉽게 뉴스에서 접하는 취업‧실업률, 전년 대비 성장률 등의 수치가 바로 정형화되지 않은 사회 현상을 수치로 표현한 통계라고 할 수 있습니다.

그렇다면 학문적 의미의 통계는 무엇을 의미할까요? 크게 2가지로 나눌 수 있습니다. 첫 번째는 기술통계입니다. 특정 현상(표본)의 특성을 파악하는데 주안점을 두는 통계를 뜻하며, 중심경향(평균, 중위수 등), 산포도(분산, 표준편차 등), 분포, 백분위수 등이 있습니다.

분포의 형태를 파악할 수 있는 지표로는 첨도(kurtosis, 尖度)와 왜도(skewness, 歪度)가 있습니다.

첨도는 분포가 얼마나 중앙점에 밀집되어있는지 보여주는 지표입니다. 0을 기준으로 했을 때, 0보다 크면 정규분포보다 중앙에 더 밀집되어 있음을 의미하고, 작으면 정규분포보다 중앙에 밀집되어 있지 않음을 의미합니다. 또한 왜도는 데이터가 중앙을 기준으로 대칭인지 아닌지를 판별하는 지표입니다. 즉, 왜도의 절댓값이 클수록 비대칭성이 심하고 분포 꼬리가 길어집니다.

통계량의 각 수치는 표본의 특성을 비교할 수 있는 지표가 될 수 있지만, 한눈에 보기에는 어려울 수 있습니다. 이로 인해 최근에는 해당 데이터나 지식을 시각적으로 표현하는 인포그래픽(Infographics)이 더욱 활성화되고 있습니다.

이처럼 하나의 현상(표본)에 대한 특성을 이해하는 것은 통계의 기본이며, 통계학문의 큰 부분을 차지합니다. 특히 의사결정 등을 위해 통계를 활용할 때, 우리는 현상 이해에서 나아가 미래를 예측하려고 합니다. 이로 인해 발달한 것이 추론통계(Inference) 분야입니다.

추론통계는 기존의 데이터를 활용해 미래를 예측하는 것을 의미합니다. 지난 1년간의 주식시세의 변동추이를 파악해 미래의 시세를 예측하는 지수평활법 시계열분석 방법을 차용한 대표적인 사례입니다.

데이터를 분석하고 예측하는 기법은 데이터의 형태나 비교 그룹 수 등에 따라 다양합니다. 이에 통계분석에 활용되는 소프트웨어에 대하여 소개하고자 합니다.

핸드폰으로 동일한 사진을 찍기 위해 여러 애플리케이션을 사용하는 것처럼, 통계를 분석하는 소프트웨어도 다양합니다. 가장 대표적인 것은 SPSS와 SAS입니다. SPSS는 인문‧사회 분야에서 설문지를 기반으로 통계 결과를 도출할 때 자주 사용되는 소프트웨어입니다.

GUI(graphical user interface) 기반이며, 엑셀처럼 마우스 클릭만으로 통계분석을 쉽게 할 수 있다는 장점이 있습니다. 매우 간단하게 결과를 도출할 수 있어서 통계적 학문 배경이 없는 사람
도 쉽게 활용할 수 있는 통계 패키지입니다.

다만 가격이 저렴하지 않으며 문서작업을 위해 도출된 결과를 옮기는 것이 다소 번거롭다는 단점을 가지고 있습니다.

두 번째로 대중적인 통계패키지는 SAS입니다. SAS는 통계 전공자라면 졸업할 때까지 손에서 놓을 수 없는 소프트웨어라 할 수 있습니다.

C, JAVA처럼 프로그래밍 언어를 기반으로 데이터 정리, 분석 등의 작업을 수행합니다. SAS의 가장 큰 장점은 간결한 프로그래밍 언어로 관련된 결과를 모두 확인할 수 있다는 점입니다.

또한 문서작업을 위해 도출 결과를 이동시킬 때도 일반 문서처럼 마우스 드래그로 모양이 흐트러지지 않는다는 점도 장점입니다. 단점으로는 가격이 저렴하지 않고 프로그래밍 언어를 일정 부분 학습해야 활용 가능하다는 점 등이 있습니다.

앞서 기술통계 부문에서 데이터를 시각화하여 표현하는 인포그래픽 분야가 주목받고 있다고 소개했는데, 이러한 시각적 부분 때문에 급부상하는 통계 패키지가 있습니다.
바로 R패키지입니다.

R의 가장 큰 장점은 무료라는 점입니다. 또한 SAS 등은 관련 분석툴을 프로그램에 모두 내장하고 있어 무겁지만, R은 프로그램 자체가 크지 않아 노트북에서도 쉽게 사용할 수 있습니다. 분석툴이 필요할 때마다 다운로드할 수도 있으며 오픈소스로 하루에도 수백 건의 분석프로그램이 업로드됩니다. 이로 인해 결과를 다양한 그래프로 표현할 수 있다는 점이 강점입니다. 다만 오픈소스인 만큼 검증되지 않은 분석 방법도 산재하여 있기 때문에 각 분석툴을 사용하기 전 해당 내용에 대한 이론적 검토가 필요합니다. 이러한 불안정성에도 불구하고 빅데이터 소프트웨어인 파이썬과 쉽게 연동될 수 있다는 점 때문에 많은 사용자가 찾고 있습니다.

그 밖에 통계프로그램으로는 STATA가 있습니다. 이는 메타분석에 최적화되어 있는 프로그램입니다. 메타분석은 동일한 주제를 다룬 기존 참고문헌이나 논문의 결과들을 비교하여 결론을 확고히 하는 분석 방법을 말합니다. 메타분석의 결과가 동질성이 있을 때 그 주제에 대한 결론을 견고히 하는 효과가 있습니다.

이처럼 동일한 통계분석에도 분석 방방법, 편의성, 필요한 결과의 형태 등에 따라 사용하는 통계 패키지가 다양하게 존재합니다. 우리가 자주 사용하는 엑셀에서도 간단한 통계 분석을 수행할 수 있으니, 간단한 통계라면 엑셀을 활용하는 것도 좋은 방법입니다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.