본문 바로가기

전체 글347

[TIBCO Spotfire] Regression Modeling 5-5. Regression Modeling Spotfire에서 기능 상 Regression 관련 기능이 두 개가 있는데 앞서 설명한 Data Relationship에 있는 Linear Regression과 이번에 소개할 Regression Modeling이 있습니다. 두 기능을 비교해서 말하자면 전자는 단순회귀분석이고 후자는 다중회귀분석입니다. 단순회귀분석은 하나의 종속변수와 하나의 독립변수만을 사용하므로 두 변수간의 선형적인 관계를 분석할 수 있습니다. Regression Modeling은 이와 달리 하나의 종속변수와 다수의 독립변수간의 선형적인 관계를 확인하고 모형을 만들어 예측까지 할 수 있는 기능입니다. Data Relationship의 Linear Regression 보다는 좀더 고급 통계 기.. 2019. 11. 8.
9~10월 블로그 월 결산 9~10월 블로그 결산입니다. 먼저 9월 입니다. 꾸준히 찾아주시는 분들 덕분에 9월도 8월 기록을 갱신했습니다. 전월 대비 719 증가한 8,151명 방문입니다. 꾸준히 검색에 따른 유입 수가 계속 증가하고 있네요. 여전히 카카오톡은 의문입니다... 어떤분들이 어떤 글을 공유하는지 참 궁금한데... 10월은 다소 증간수가 주춤햇지만 그래도 총 8,361명 방문으로 계속 최고 기록을 갱신 중입니다. 좀더 분발해야겠네요. 9~10월에는 칠대죄 섬멸전 하우렉스 공략이 상위권을 차지했습니다. 저보다 더 빨리 공략을 하시고 더 나은 공략을 쓰시는 분들도 많은데 일단 제가 공략을 성공하고 어느정도 방향이나 운영이 잡힌 후에 공략을 쓰다보니 다소 늦게 올라옵니다. 그래도 그때 이슈가 반영되서 인지 많은 분들이 봐주.. 2019. 11. 3.
[TIBCO Spotfire]Hierarchical Clustering 5-4. Hierarchical Clustering Hierarchical Clustering은 K-means Clustering과 마찬가지로 군집분석으로 매우 유명한 통계분석 방법입니다. K-means Clustering의 경우와 비슷하게 데이터 간의 유사성 거리 지수를 활용합니다. K-means Clustering은 각 집단의 평균값을 활용하여 거리를 측정하는데 반해 Hierarchical Clustering는 개별 데이터간 거리를 이용하여 하나씩 짝을 이뤄가며 계층 구조를 만들어 줍니다. 자세한 이론은 넘어가고 Spotfire에서 예제를 진행해보겟습니다. 이번에는 Baseball 데이터를 활용하겠습니다. 해당 데이터를 Spotfire로 가져옵니다. 다음 상단 메뉴에서 Tool - Hierarchic.. 2019. 10. 30.
Line Similarity 5-3. Line Similarity Line Similarity는 말 그대로 Line 패턴 유사성을 찾는 방법으로 K-means Clustering과 동일하게 Line Chart가 필요하며 데이터 형식에 대한 제약도 존재합니다. 첨부된 샘플 파일 처럼 패턴을 찾고자 할 경우 데이터의 구분은 별도 칼럼으로 구분되어야 하며 값들은 모두 하나의 칼럼으로 존재해야합니다. 데이터를 불러오면 다음과 같습니다. 위의 데이터를 가지고 아래와 같이 Line Chart를 만듭니다. 해당 예제는 데이터가 총 7개 뿐이지만 실제로 몇십개가 되는 지수들을 나열하고 거기서 특정 패턴의 라인을 찾고자 한다면 분명 쉽지 않을 것 입니다. Spotfire 에서는 Line Similarity를 통해 상승, 하강, 유지 등의 기본 패턴.. 2019. 10. 16.
K-means Clustering 5-2. K-means Clustering K-means Clustering은 분류분석 방법 중 하나로 오래됐지만 매우 유용한 통계분석 방법 중 하나입니다. 익히 잘 알려진데로 Unsupervised learning 방법 중 하나이며 데이터와 나눌 군집 갯수만 주어지면 데이터간 거리를 활용하여 데이터를 분류해냅니다. 이번에도 잘알려진 Iris 데이터를 활용하여 진행하겠습니다. 해당 데이터를 Spotfire로 가져옵니다. Spotfire에서 K-means Clustering을 할 때 선 조건이 있습니다. 특정 차트를 그려야하는데 바로 라인차트가 필요합니다. 라인차트가 없는 상태에서 K-means Clustering을 실행하면 다음과 같은 메시지가 뜹니다. 이유는 생각해보면 당연한데 Spotfire는 기본적.. 2019. 10. 10.
[거제도] 산타페 카페 (좀 많이 지났지만...) 9월 추석 때 부모님을 뵈러 거제도에 내려갔다왔습니다. 표를 못구해서 오후 늦게 내려갔는데 이미 음식준비는 끝났고 추석당일 오전에 차례를 지내고 와이프와 함께 바람 쐬러 나왔습니다. 급하게 와이프님이 검색을 해서 찾아 간곳은 "산타페 카페" 입니다. (천장물새는 그거 말고....) 두모 몽돌 해수욕장 근처에 있는 곳인데 펜션과 카페를 같이 운영하는 것 같았습니다. 바로 바닷가 옆에 위치한 곳이지만 주의가 한적해서 분위기가 좋아 보였습니다. 들어가서 무얼 먹을까 고민하다 아메리카노+치즈케익 셋, 그리고 라떼를 시켰습니다. 그냥 라떼가 아니었던거 같은데 기억이 안나네요.. 메뉴판이라도 찍어놓을 걸 하는 후회가 듭니다. 자리는 창가 4인이 나란히 앉는 자리를 잡았습니다. 바다도 잘보.. 2019. 9. 27.
[TIBCO Spotfire] Data Relationship - Chi-square 5-1-3. Chi-Square Chi-Square(교차분석)은 Cetegorical 변수간의 연관성을 분석하기 위한 통계분석 방법입니다. 해당 예제를 위해서 전통적인 예제 데이터를 가져왔습니다. 해당 데이터를 Spotfire로 가져옵니다. 데이터를 가져오면 좌측처럼 되어있습니다. 성별과 지지정당에 대한 값이 들어있는데 해당 예제는 R에서 chi.test()에 포함된 첫번째 예제 데이터입니다. 참고로 R에 포함된 예제 데이터의 경우 우측의 Cross Table와 같이 이미 성별과 지지정당에 대해 집계가 되어있는 상태로 되어있습니다. Spotfire에서는 이런 형태가 아니라 개별 데이터 형태로 되어있어야합니다. 그럼 Data Relationship을 실행하고 Comparision method에서 Chi-s.. 2019. 9. 25.
[TIBCO Spotfire] Data Relationship - Anova 5-1-2. ANOVA 5-1-1. Linear Regression에서 처럼 Data Relationship에서 두번째 Comparison method는 Anova 입니다. Linear Regression이 numerical value 들 간의 연관성을 알아 보는 것이었다면 Anova는 numerical value와 categorical value 간의 연관성을 알아 보는 분석 방법입니다. 정확히는 통계 분석 방법인 ANOVA는 일원배치분산분석으로 각 집단간의 차이를 확인하기 위한 방법입니다. 두개 집단간의 차이를 확인하기 위해서는 t-test를 수행하는데 반해 Anova는 3개이상의 집단에 대해서 평균을 비교합니다. 집단을 구분한 값이 Categorical value로 지정되며 각 수치에 대해서는 nu.. 2019. 9. 10.
[블로그 월 결산] 2019.08 월 결산 8월 블로그 결산입니다. 저번달에 이어 가장 많은 월방문수를 갱신했습니다. 전월 6,521명이었는데 911명 증가한 7,432명으로 13% 상승입니다. 8월 달력을 보면 일수로 13일을 포스팅을 했습니다. 주 3회 포스팅이 목표였는데 얼추 달성했다고 볼 수 있겠네요. 9월은 조금더 열심히 하려고 하지만 명절이 끼어있다보니 아무래도 쉽지 않을 것 같습니다. 다음은 인기글을 한번 살펴봤습니다. 여전히 "Python : 다중 회귀 분석"은 상위권을 유지하고 있습니다. 새로 작성한 "[Python] 다중회귀분석(Multiple Regression)" 도 3위로 올라왔네요. Python도 글을 꾸준히 써보고 싶은데 일단은 지금 진행중인 Spotfire 를 먼저 끝내고 생각해보려 합니다. Data Connectio.. 2019. 9. 8.
[TIBCO Spotfire] Data Relationship - Linear Regression 5-1. Data Relationship Spotfire에서 가장 쉽게 사용할 수 있는 통계 기능은 Data Relationship 입니다. 말 그대로 데이터 내에서 관계가 있는 것들을 찾기 위한 기능인데 여기에 제공하는 Algorithm은 총 5가지입니다. Linear Regression (numerical vs numerical) Spearman R (numerical vs numerical) Anova (numerical vs categorical) Kruskal-Wallis (numerical vs categorical) Chi-squre (categorical vs categorical) Linear Regression과 Spearman R, Anova와 Kruskal-Wallis는 대상이 동일.. 2019. 9. 4.