본문 바로가기

Data Analysis120

[TIBCO Spotfire] Regression Modeling 5-5. Regression Modeling Spotfire에서 기능 상 Regression 관련 기능이 두 개가 있는데 앞서 설명한 Data Relationship에 있는 Linear Regression과 이번에 소개할 Regression Modeling이 있습니다. 두 기능을 비교해서 말하자면 전자는 단순회귀분석이고 후자는 다중회귀분석입니다. 단순회귀분석은 하나의 종속변수와 하나의 독립변수만을 사용하므로 두 변수간의 선형적인 관계를 분석할 수 있습니다. Regression Modeling은 이와 달리 하나의 종속변수와 다수의 독립변수간의 선형적인 관계를 확인하고 모형을 만들어 예측까지 할 수 있는 기능입니다. Data Relationship의 Linear Regression 보다는 좀더 고급 통계 기.. 2019. 11. 8.
[TIBCO Spotfire]Hierarchical Clustering 5-4. Hierarchical Clustering Hierarchical Clustering은 K-means Clustering과 마찬가지로 군집분석으로 매우 유명한 통계분석 방법입니다. K-means Clustering의 경우와 비슷하게 데이터 간의 유사성 거리 지수를 활용합니다. K-means Clustering은 각 집단의 평균값을 활용하여 거리를 측정하는데 반해 Hierarchical Clustering는 개별 데이터간 거리를 이용하여 하나씩 짝을 이뤄가며 계층 구조를 만들어 줍니다. 자세한 이론은 넘어가고 Spotfire에서 예제를 진행해보겟습니다. 이번에는 Baseball 데이터를 활용하겠습니다. 해당 데이터를 Spotfire로 가져옵니다. 다음 상단 메뉴에서 Tool - Hierarchic.. 2019. 10. 30.
Line Similarity 5-3. Line Similarity Line Similarity는 말 그대로 Line 패턴 유사성을 찾는 방법으로 K-means Clustering과 동일하게 Line Chart가 필요하며 데이터 형식에 대한 제약도 존재합니다. 첨부된 샘플 파일 처럼 패턴을 찾고자 할 경우 데이터의 구분은 별도 칼럼으로 구분되어야 하며 값들은 모두 하나의 칼럼으로 존재해야합니다. 데이터를 불러오면 다음과 같습니다. 위의 데이터를 가지고 아래와 같이 Line Chart를 만듭니다. 해당 예제는 데이터가 총 7개 뿐이지만 실제로 몇십개가 되는 지수들을 나열하고 거기서 특정 패턴의 라인을 찾고자 한다면 분명 쉽지 않을 것 입니다. Spotfire 에서는 Line Similarity를 통해 상승, 하강, 유지 등의 기본 패턴.. 2019. 10. 16.
K-means Clustering 5-2. K-means Clustering K-means Clustering은 분류분석 방법 중 하나로 오래됐지만 매우 유용한 통계분석 방법 중 하나입니다. 익히 잘 알려진데로 Unsupervised learning 방법 중 하나이며 데이터와 나눌 군집 갯수만 주어지면 데이터간 거리를 활용하여 데이터를 분류해냅니다. 이번에도 잘알려진 Iris 데이터를 활용하여 진행하겠습니다. 해당 데이터를 Spotfire로 가져옵니다. Spotfire에서 K-means Clustering을 할 때 선 조건이 있습니다. 특정 차트를 그려야하는데 바로 라인차트가 필요합니다. 라인차트가 없는 상태에서 K-means Clustering을 실행하면 다음과 같은 메시지가 뜹니다. 이유는 생각해보면 당연한데 Spotfire는 기본적.. 2019. 10. 10.
[TIBCO Spotfire] Data Relationship - Chi-square 5-1-3. Chi-Square Chi-Square(교차분석)은 Cetegorical 변수간의 연관성을 분석하기 위한 통계분석 방법입니다. 해당 예제를 위해서 전통적인 예제 데이터를 가져왔습니다. 해당 데이터를 Spotfire로 가져옵니다. 데이터를 가져오면 좌측처럼 되어있습니다. 성별과 지지정당에 대한 값이 들어있는데 해당 예제는 R에서 chi.test()에 포함된 첫번째 예제 데이터입니다. 참고로 R에 포함된 예제 데이터의 경우 우측의 Cross Table와 같이 이미 성별과 지지정당에 대해 집계가 되어있는 상태로 되어있습니다. Spotfire에서는 이런 형태가 아니라 개별 데이터 형태로 되어있어야합니다. 그럼 Data Relationship을 실행하고 Comparision method에서 Chi-s.. 2019. 9. 25.
[TIBCO Spotfire] Data Relationship - Anova 5-1-2. ANOVA 5-1-1. Linear Regression에서 처럼 Data Relationship에서 두번째 Comparison method는 Anova 입니다. Linear Regression이 numerical value 들 간의 연관성을 알아 보는 것이었다면 Anova는 numerical value와 categorical value 간의 연관성을 알아 보는 분석 방법입니다. 정확히는 통계 분석 방법인 ANOVA는 일원배치분산분석으로 각 집단간의 차이를 확인하기 위한 방법입니다. 두개 집단간의 차이를 확인하기 위해서는 t-test를 수행하는데 반해 Anova는 3개이상의 집단에 대해서 평균을 비교합니다. 집단을 구분한 값이 Categorical value로 지정되며 각 수치에 대해서는 nu.. 2019. 9. 10.
[TIBCO Spotfire] Data Relationship - Linear Regression 5-1. Data Relationship Spotfire에서 가장 쉽게 사용할 수 있는 통계 기능은 Data Relationship 입니다. 말 그대로 데이터 내에서 관계가 있는 것들을 찾기 위한 기능인데 여기에 제공하는 Algorithm은 총 5가지입니다. Linear Regression (numerical vs numerical) Spearman R (numerical vs numerical) Anova (numerical vs categorical) Kruskal-Wallis (numerical vs categorical) Chi-squre (categorical vs categorical) Linear Regression과 Spearman R, Anova와 Kruskal-Wallis는 대상이 동일.. 2019. 9. 4.
[TIBCO Spotifre] Statistic Analytics 5. Statistic Analytics Spotfire 기본적으로 데이터 시각화 분석 툴이지만 조금 더 고급적인 분석 에 대한 사용자들의 요구사항을 충족하기 위해 통계분석 기능들을 내장하고 있습니다. 전문화된 통계분석 툴, SAS, SPSS를 다루기 위해서는 전문적인 지식이 필요할 수가 있는데 Spotfire에서 제공하는 기능들을 전문지식이 없이도 쉽게 결과를 도출할 수 있는 기능 부터 전문 통계 분석가들을 위한 기능까지 제공 하고 있습니다. 대표적인 통계분석으로 Data Relationships이 있는데 이기능은 데이터의 Column들 간의 1:1 연관성을 분석하기 위한 기능입니다. 단순하게 분석 대상들만 정해서 실행하면 결과를 보기 쉽게 출력을 해줍니다. 그 외에도 Clustering을 위한 K-m.. 2019. 8. 30.
[TIBCO Spotfire] Information Link 활용법 - Fake element 4-2-5. Fake element를 활용한 Information Link 구성하기 앞서 설명한 것 처럼 Information Link를 사용하기 위해서는 Data Source로 부터 테이블에 속한 Column들을 Information Designer를 이용하여 element로 등록해야합니다. 그리고 이를 가져와서 하나의 Information Link를 구성하게끔 되어있는데 Join 또한 element로 구성해야하기 때문에 복잡한 형태의 SQL문의 경우 구현하기가 어렵거나 아예 불가능한 경우가 있습니다. 그리고 이미 분석가가 만들어 놓은 쿼리가 있을 경우 이것을 하나하나 만들어내는것도 매우 불편한데요. 이런경우 Fake element를 생성하여 쉽고 Information Link를 만드는 방법이 있습니다.. 2019. 8. 26.
[TIBCO Spotfire] Information Link 활용법 4-2-4. Information Link 활용법 Spotfire는 데이터 시각화 분석에 최적화된 도구입니다만 활용하기에 따라서는 BI장표로서 활용도 가능합니다. 이것을 가능하게 해주는것이 Information Link가 가지는 기능입니다. 간단하게 예를 들자면 몇가지 옵션을 부여하여 이를 기준으로 데이터를 조회하는 화면을 개발할 수 있습니다. 오늘은 이런 활용법에 대해서 이야기를 해보겠습니다. 먼저 Information Link에서 조건을 받아올 수 있도록 설정을 해보겠습니다. Information Designer를 실행하여 Information Link를 열어줍니다. 그후 하단의 SQL을 클릭하여 SQL 쿼리문을 열어 주고 WHERE 부분에서 아래와 같이 입력을 합니다. "?ITEM"으로 입력을 했는.. 2019. 8. 22.