본문 바로가기

2019/103

[TIBCO Spotfire]Hierarchical Clustering 5-4. Hierarchical Clustering Hierarchical Clustering은 K-means Clustering과 마찬가지로 군집분석으로 매우 유명한 통계분석 방법입니다. K-means Clustering의 경우와 비슷하게 데이터 간의 유사성 거리 지수를 활용합니다. K-means Clustering은 각 집단의 평균값을 활용하여 거리를 측정하는데 반해 Hierarchical Clustering는 개별 데이터간 거리를 이용하여 하나씩 짝을 이뤄가며 계층 구조를 만들어 줍니다. 자세한 이론은 넘어가고 Spotfire에서 예제를 진행해보겟습니다. 이번에는 Baseball 데이터를 활용하겠습니다. 해당 데이터를 Spotfire로 가져옵니다. 다음 상단 메뉴에서 Tool - Hierarchic.. 2019. 10. 30.
Line Similarity 5-3. Line Similarity Line Similarity는 말 그대로 Line 패턴 유사성을 찾는 방법으로 K-means Clustering과 동일하게 Line Chart가 필요하며 데이터 형식에 대한 제약도 존재합니다. 첨부된 샘플 파일 처럼 패턴을 찾고자 할 경우 데이터의 구분은 별도 칼럼으로 구분되어야 하며 값들은 모두 하나의 칼럼으로 존재해야합니다. 데이터를 불러오면 다음과 같습니다. 위의 데이터를 가지고 아래와 같이 Line Chart를 만듭니다. 해당 예제는 데이터가 총 7개 뿐이지만 실제로 몇십개가 되는 지수들을 나열하고 거기서 특정 패턴의 라인을 찾고자 한다면 분명 쉽지 않을 것 입니다. Spotfire 에서는 Line Similarity를 통해 상승, 하강, 유지 등의 기본 패턴.. 2019. 10. 16.
K-means Clustering 5-2. K-means Clustering K-means Clustering은 분류분석 방법 중 하나로 오래됐지만 매우 유용한 통계분석 방법 중 하나입니다. 익히 잘 알려진데로 Unsupervised learning 방법 중 하나이며 데이터와 나눌 군집 갯수만 주어지면 데이터간 거리를 활용하여 데이터를 분류해냅니다. 이번에도 잘알려진 Iris 데이터를 활용하여 진행하겠습니다. 해당 데이터를 Spotfire로 가져옵니다. Spotfire에서 K-means Clustering을 할 때 선 조건이 있습니다. 특정 차트를 그려야하는데 바로 라인차트가 필요합니다. 라인차트가 없는 상태에서 K-means Clustering을 실행하면 다음과 같은 메시지가 뜹니다. 이유는 생각해보면 당연한데 Spotfire는 기본적.. 2019. 10. 10.