본문 바로가기
Data Analysis/Spotfire

[TIBCO Spotfire] Data Relationship - Chi-square

by 불탄오징어 2019. 9. 25.
반응형

 

 

5-1-3. Chi-Square


Chi-Square(교차분석)은 Cetegorical 변수간의 연관성을 분석하기 위한 통계분석 방법입니다. 해당 예제를 위해서 전통적인 예제 데이터를 가져왔습니다.

 

chisquare.txt
0.04MB

 

해당 데이터를 Spotfire로 가져옵니다.

 

 

데이터를 가져오면 좌측처럼 되어있습니다. 성별과 지지정당에 대한 값이 들어있는데 해당 예제는 R에서 chi.test()에 포함된 첫번째 예제 데이터입니다. 참고로 R에 포함된 예제 데이터의 경우 우측의 Cross Table와 같이 이미 성별과 지지정당에 대해 집계가 되어있는 상태로 되어있습니다. Spotfire에서는 이런 형태가 아니라 개별 데이터 형태로 되어있어야합니다. 

 

그럼 Data Relationship을 실행하고 Comparision method에서 Chi-squre를 설정합니다.

 

X,Y는 상관없습니다. Y-columns에 'party'를 X-columns에 'gender'를 설정하고 OK를 눌러 실행합니다.

 

 

기존의 Data Relationship 결과와 비슷하게 상단 Table에는 조합에 대한 리스트가 출력되며 별도로 하단에는 Cross-Table이 출력됩니다. Chi-squre 분석(테스트)를 진행한 후에 통계적으로 유의미한 결과라면 어떤 Categorical 변수인지에 따라서 결과를 비교해봅니다. 전체 백분율, 행 백분율을 계산해서 보는데 Spotfire에서는 그런 결과를 출력해주지 않습니다. 하지만 Custom expression을 이용하여 만들어볼 수 있습니다. 여기서는 열 백분율을 만들어서 비교해보겠습니다.

 

 하단의 Cross-Table을 Duplicate Visualization하여 복사 한 후 우측에 배치합니다.

 

 

우측 Cross-table의 하단 "(Row Count)"에 오른쪽 마우스를 클릭하여 메뉴를 띄운 후 Custom Expression을 클릭합니다. 그 후 Expression 창에 아래와 같이 입력합니다.

 

count() / count() Over (All([Axis.Columns]))

 

OK를 눌러 적용하면 아래와 같이 우측 차트의 값이 변경됩니다.

 

 

값을 백분율로 바꿔줍니다.

 

 

그러면 최종적으로 결과는 아래와 같이 출력됩니다.

 

 

위 결과에서 보면 p-Value값은 0.000으로 통계적으로 매우 유의미한 것을 알 수 있습니다. 즉 "성별에 따라 지지정당에 차이가 있다"고 할 수 있습니다. 우측하단의 교차표를 보면 여성은 공화당을 57.8%, 민주당을 61.2% 지지하는 것으로 이 비중은 남성과는 차이가 있다고 할 수 있습니다.

 

'Data Analysis > Spotfire' 카테고리의 다른 글

Line Similarity  (0) 2019.10.16
K-means Clustering  (0) 2019.10.10
[TIBCO Spotfire] Data Relationship - Anova  (0) 2019.09.10
[TIBCO Spotfire] Data Relationship - Linear Regression  (2) 2019.09.04
[TIBCO Spotifre] Statistic Analytics  (0) 2019.08.30

댓글