본문 바로가기

Data Analysis120

[R] Apply 함수를 알아보자 보통 apply 계열 함수라고 이야기 하는데 apply, tapply, lapply, mapply 등 apply 이름 앞에 영문자가 하나 붙는 형태로 구성이 됩니다. 보통 입력값과 출력값에 따라서 함수 종류가 달라지며 용도는 짧은 코드로 반복 명령 수행을 위해 사용합니다. 함수 설명 apply 주어진 데이터를 행 또는 열 기준으로 연산을 수행하는 함수 tapply 지정한 그룹(Factor) 기준으로 연산을 수행하는 함수 lapply 실행결과가 list 형태로 출력되는 함수 sapply lapply의 simple 버전 성능 for 문에 비해서 인지,가독성은 떨어질 수 있지만 apply 계열 함수를 이용하는 이유는 짧아지는 코드와 성능 때문이라고 합니다. 실제로 저도 특수한 경우를 제외하고는 apply 계열.. 2020. 4. 21.
[Python] 정규성 검정 정규성 검증이란? 정규성 검정은 말 그대로 정규 분포를 따르는지를 검정하는 방법입니다. 통계학에 있어서 가장 처음 배우는 분포이자 가장 많이 들으며 가장 많이 사용하는 분포가 정규 분포인 만큼 기초 통게학의 근간을 이룬다고해도 과언이 아닌데요. 그만큼 통계학의 분석방법에 있어서 정규분포를 가정하는 경우가 많습니다. 회귀분석을 예로 들면 대부분이 언급하지 않거나 또는 무시하는 부분이 잔차에대한 정규성 검증입니다. 회귀분석에서 잔차의 검증이 필요한 이유는 모형식을 보면 알 수 있습니다. 모형식에서 오차항에 대한 몇가지 가정이 있습니다. 오차항은 서로 독립 오차항은 정규분포 오차항의 분포는 일정 위의 가정은 모두 검증해야 회귀분석이 의미있다고 보통 이야기 하는데 그 중 오차항의 정규분포의 가정을 만족하는지 확.. 2020. 1. 27.
[Python] K-means Clustering Kmeans Clustering은 Unsupervised learning에 속하는 분류 기법으로 데이터와 그룹의 갯수(K)를 지정하면 알아서 데이터를 분류해줍니다. 간단하고 아주 빠르고 (주어진 데이터 기준으로) 잘 분류해주기 때문에 많이 사용하며 사랑 받는 기법 중 하나입니다. 다만 k를 결정하는데 있어서 어떻게 나눠야할지는 수치적으로 명확하게 정의되지 않기 때문에 분석자의 주관이 다소 들어가는 부분이 있습니다. 그럼 간단하게 kmeans Clustering을 수행해보겠습니다. 사용할 예제는 유명한 iris 데이터입니다. # package를 가져옵니다. from sklearn.cluster import KMeans import numpy as np from sklearn.datasets import l.. 2020. 1. 23.
[TIBCO Spotfire] R chart 연동하기 - Wordcloud 7-1. 외부시각화 차트 연동 7-1-1. R Chart 연동 한창 Spotfire로 프로젝트를 할 때 Wordcloud가 유행했던적이 있습니다. Text Analysis를 할 때 시각적으로 사용되는 단어들을 보여주기위해 가장 유용한 차트이지요. Spotfire에서는 Wordcloud 차트를 제공하지 않지만 R과 연동하여 Wordcloud 차트를 Spotfire 내에 그릴 수 있습니다. 먼저 샘플 데이터는 다음과 같습니다. 임의의 단어를 나열하고 빈도를 임의로 부여했습니다. wordcloud를 사용하여 출현빈도가 많은 단어는 크게 그렇지 않은 단어는 작게 표현하겠습니다. 먼저 Data Function을 만들겠습니다. Tool-Register Data Functions를 실행한 후 아래와 같이 입력합니다... 2020. 1. 8.
[TIBCO Spotfire] Spotfire 고급 활용법 7. Spotfire 고급 활용법 Spotfire는 나름 Enterprize급(?) 제품인지라 다양한 3rd Party 제품군들과의 연동이 가능하며 시각화 툴인 것치고는 자체적으로 연동할 수 있는 다양한 방법들을 제공하고 있습니다. 실제 업무에서 활용하면서 유용했던 것들은 몇가지 소개해보려고 합니다. 외부 시각화 차트 연동 R Chart 연동 3rd Party : JSVIZ 활용 Javascript Chart 연동 Python 활용 Javascript Chart 연동 Data Loading 없는 시각화 장표 운영 (with Scheduled Update) 시각화 장표 자동화 메일 IronPython을 활용한 능동적 시각화 구성 외부시각화 차트 연동 Spotfire는 다양한 Chart들을 제공하고는 있지만.. 2019. 12. 27.
[TIBCO Spotfire] Data Function을 활용한 시계열 분석 화면 만들기 6-4. Data Function을 활용한 시계열 분석 화면 만들기 이번에는 간단한 시계열 예측 화면을 만들어보겠습니다. Spotfire에서 line 기능을 통해 Forecast Line을 추가하여 간단하게 시계열 예측을 할 수 있습니다. 하지만 이 경우 예측값을 받아올 수 없기 때문에 추가적인 작업이 불가능합니다. 그래서 동일한 예측 모형을 Data Function을 통해 구현하여 보겠습니다. Data 는 AirPassengers 라는 아래의 데이터를 사용했습니다. 먼저 Data Function을 작성합니다. Register Data Function을 실행한 후 상단에 HoltWinters라고 Data Function 함수명을 지정합니다. HoltWinters() 함수는 R에서 기본적으로 제공하는 시계.. 2019. 12. 24.
[TIBCO Spotfire] Data Function을 활용한 Regression 분석화면 만들기 6-3. Data Function을 활용한 Multiple Regression 만들기 Spotfire를 활용하여 고급 통계분석을 수행할 수 있는 화면을 만들 수 있습니다. 기본적인 골자는 Text Area를 활용하여 입력 또는 설정을 위한 화면을 구성하고 이를 Data Function과 연결하여 분석화면을 만드는 것입니다. 활용하기에 따라서는 통계분석을 잘 모르는 사용자도 쉽게 모델링을 수행할 수 있으며 많은 Column 들 속에서 변수간 연관관계를 빠르게 파악할 수 있습니다. 본 예제는 임의로 생성한 데이터로 진행하겠습니다. 해당 데이터를 가져오면 아래와 같습니다. x1과 x2가 독립변수가 되고 y는 종속 변수가 됩니다. 이 데이터를 가지고 먼저 입력/설정을 할 수 있는 화면을 구성하겠습니다. Text.. 2019. 12. 9.
[TIBCO Spotfire] Simple Example : Spotfire & R 6-2. Simple Example 1 아래의 예제는 아주 간단히 Spotfire와 R이 연동 되었는지 체크할 때 주로 사용했던 것입니다. n : uniform(0,1) 분포로 몇개를 샘플링할지 지정 x : 샘플링된 결과를 저장할 Column 명 x 2019. 12. 1.
[TIBCO Spotfire] Spotfire & R 6. Spotfire & R 앞서 설명한 기능들은 Spotfire 내에서 제공하는 통계 분석 기능으로 통계를 잘 모르는 사용자 부터 중급 사용자까지 대상으로 기능을 제공하고 있습니다. 하지만 정해진 기능이고 통계분석 툴만큼 자세한 기능을 제공하지 않는데 이런 경우를 위해 Spotfire는 몇가지 통계 분석 언어와 연동이 가능합니다. SAS Matlab S+ R(TERR) SAS, Matlab의 경우 유명한 언어이나 상용이며 S+는 R의 상용버전입니다만 최근에는 더이상 업데이트를 하지 않는 것 같습니다. 가장 쉽게 접근 가능한 언어이자 인기 언어인 R과 연동이 가능하므로 R과의 연동을 통해 해당 기능에 대해서 설명을 하려 합니다. 다만 이런 통계 언어 연동을 위해서는 추가적인 프로그램이 필요합니다. 서버급.. 2019. 11. 26.
[TIBCO Spotfire] Classification Modeling 5-6. Classification Modeling Spotfire의 Classification Modeling은 보통 통계학에서 이야기하는 분류 모형이 아니라 Logisitic Regression을 말합니다. 물론 분류 모형이라는 큰 의미에서는 Logistic Regression도 하나의 모형이긴 합니다만 Spotfire에서는 그것도 Binomial Logistic Regression만 지원합니다. 이게 무엇을 뜻하는 말이냐면 참과 거짓, 증가와 감소 같이 두 개의 값에 대해서만 적용이 가능합니다. 즉 주어진 데이터를 바탕으로 둘 중 하나를 결정하는 모형이라고 이해하면 될 것 같습니다. 만약 사용자가 3개이상의 값을 가지는 Column을 종속변수로 지정할 경우 분류 중 어떤 것을 참으로 놓고 나머지를 .. 2019. 11. 16.