본문 바로가기

Data Analysis120

Spotfire & Python : Marking 한 값을 가져오기 Spotfire에서 Marking은 다양한 용도로 사용되며 Spotfire를 특색있게 만드는 중요한 기능 중 하나입니다. 특히 Marking을 통해 선택한 행을 기준으로 시각화 차트의 조건으로 부여한다던지 다양한 시각화차트간의 연관관계를 시각적으로 확인할 수 있도록 구성할 수 있습니다. 다만 정형보고서를 만들다보면 아쉬운게 Marking 된 행의 특정 칼럼 값을 가져오고 싶을 때가 있는데 기본적으로는 지원하지 않는 기능입니다. (Spotfire 6.5 기준). 다행이라면 Ironpython의 도움을 받아서 구현이 가능합니다. 아래의 예제는 Baseball 데이터를 이용하여 Marking한 행의 칼럼 "선수명"의 값을 을 가져오는 예제입니다. (참조 : http://easyspotfire.blogspot... 2015. 8. 20.
Linux : Git 설치 중 오류 사항 Apache Zeppaline을 설치 해보고자 이것저것 찾아보고 설치 해볼려고 하는데 이래저래 필요한게 많다. 일단 Git을 설치해야한다고 해서 하는데 왜케 에러가 뜨는지.. 가뜩이나 리눅스도 오랜만에 하는지라 버벅 대고 있다. 첫째 Git을 Build해서 설치한다고 하는데 Build 중에 에러 발생.... 찾아보니 Complier가 없어서 그렇다네요...gcc 설치로 해결 # make prefix=/usr/local all GIT_VERSION = 1.9.0 * new build flags CC credential-store.o /bin/sh: cc: command not found make: *** [credential-store.o] Error 127 # yum install gcc 두번째로는 잘 .. 2015. 7. 31.
Spark : 기본 예제 Spark에도 몇가지 기본 예제가 있고 이런 예제들은 여러 블로그에서 사용되고 있는데 나도 실습 삼아 정리해본다. 간단한 Text File을 읽어서 행수를 Count하거나 첫줄을 출력하는 등의 예제인데 Hadoop도 설치했겠다 Hadoop에 파일을 하나 올려보고 이 파일을 읽어서 해보자. # 파일은 앞전에 올렸던 NOTICE.txt 라는 파일을 이용한다. >>> textFile = sc.textFile("hdfs://localhost:9000/user/admin/NOTICE.txt") # Hadoop의 파일을 가져온다. >>> textFile.count() # 파일의 행수를 계산 2 >>> textFile.first() # 파일의 첫행을 출력 u'This product includes software d.. 2015. 7. 21.
Spark : Spark 1.4.0 설치 Hadoop을 설치했으니 이번에는 Spark를 설치해보자.본인은 Spark 1.4.0 버전을 사용했다. # Spark 1.4.0을 다운받는다 cd ~/Downloads wget http://d3kbcqa49mib13.cloudfront.net/spark-1.4.0-bin-hadoop2.6.tgz # 압축해제 tar -xvzf spark-1.4.0-bin-hadoop2.6.tgz< # 파일 이동 mv spark-1.4.0-bin-hadoop2.6 ../ # 심볼릭 링크 생성 ln -s spark-1.4.0-bin-hadoop2.6 spark 일단 여기 까지 하면 설치는 끝, 간단히 테스트 정도로만 설치할 것이니 추가적인 설정은 없다.(물론 세세한 설정에 대해서는 아직 공부해야할 것들이 많은지라...사용에 .. 2015. 7. 15.
Hadoop : Hadoop Test 앞서 설치와 설정은 Single Node 사용하는 경우이다. 완전 분산 모드로 설치 및 설정을 하면 좋겠지만 가난한 통계나부랭이는 돈이 없어 장비가 후지니 Single Node로 맛만 보자. 설치와 설정이 됐으니 간단하게 써봅시다. # 폴더 생성 hdfs dfs -mkdir /user/ hdfs dfs -mkdir /user/admin # 해당 폴더에 파일 업로드 hdfs dfs -put ~/hadoop-2.6.0/NOTICE.txt /user/admin 그러면 Utilities-Browse the file Systems 에서 해당 파일을 확인 할 수 있다. 다음의 Wordcount 예제를 실행하여 결과를 받아보자.# wordcount 예제 실행하여 output 폴더에 저장한다. yarn jar ~/ha.. 2015. 7. 14.
Hadoop : Hadoop 2.6.0 설치 - 2 Hadoop을 다운 받자cd ~/Downloads/ # Hadoop Download wget http://apache.claz.org/hadoop/common/hadoop-2.6.0/hadoop-2.6.0.tar.gz # 압축해제 tar -xzf hadoop-2.6.0.tar.gz # 해제된 폴더를 이동 mv hadoop-2.6.0 ../hadoop-2.6.0 cd ~ vi .bashrc 다음의 문장들을 맨 마지막줄에 추가한다. export HADOOP_HOME=/home/hadoop/hadoop export HADOOP_INSTALL=$HADOOP_HOME export HADOOP_MAPRED_HOME=$HADOOP_HOME export HADOOP_COMMON_HOME=$HADOOP_HOME expo.. 2015. 7. 14.
Hadoop : Hadoop 2.6.0 설치 - 1 공부도 할겸 테스트도 할겸 해서 Hadoop 설치를 시도해봤다. 이래저래 해보다가 좀 정리를 해둬야 할것 같아서 포스팅을 작성했다. Hadoop 부터해서 Hive, Tajo, Spark, Zeppelin 까진 진행해서 정리 해둘려고 한다. 대략 환경은 다음과 같다. 1. 가상화 OS : CentOS 7 2. Hadoop : Hadoop 2.6.0 3. JDK : JDK 1.8.0_45 진행방법은 http://tecadmin.net/setup-hadoop-2-4-single-node-cluster-on-linux/ 를 참조했다(따라했다 ㅜㅜ) 먼저 당연히 CentOS 7을 설치한다. CentOS는 설치가 쉬운편이므로 생략한다. 1. JDK 1.8.0_45 설치# 사용자를 root로 변환 su # 설치는 /.. 2015. 7. 14.
Python : pyodbc를 이용해서 MSSQL 접속 요즘 왔다리 갔다리 하면서 공부하는 중이다. pyodbc라는 걸 이용해서 MSSQL에 접속했다. 구글링으로 찾은 걸 약간 변경 했다. import pyodbc #cnxn = pyodbc.connect("driver={SQL Server}; server=localhost; database = spotfire_server; uid=sa; pwd=spotfire") cnxn = pyodbc.connect("DSN=Mssql; uid=sa; pwd=spotfire") cursor = cnxn.cursor() cursor.execute("select user_id, user_name from users") rows = cursor.fetchall() for row in rows: print row.user_id .. 2015. 7. 7.
Apache Spark : Apache Spark 설치 Hadoop 2.6.0 설치 및 설정 완료 후 바로 Apache Spark-1.4.0을 받아서 설치 실행해봤다. 요즘에는 워낙 블로그에 잘 정리가 되어있어서 크게 어렵지 않은 것 같다... Spark를 써볼라니 Python과 Scala를 공부해야 하네... 공부할께 눈 덩이 처럼 불어난다. R도 공부 더해야 하는데 말이지... 2015. 7. 7.
Hadoop : 삽질의 시작 항상 새로운 것을 시도하고 배운다는 것은 좋은 것이다. 새로운 호기심을 가지고 그 호기심을 해결한다는 건 내게 있어서 아주 중요한 요인 인데... 데이터 분석가로 살고자 하는 본인에게 Hadoop은 새로운 호기심이다. 물론 Hadoop 보다는 Hadoop 기반에서 동작하는 분석 프로그램들이 주요 관심사지만 그러다 보니 Hadoop을 몰라서는 뭔가 테스트를 해볼려고 해도 환경이 여의치 않다. 고로 요즘에는 Centos7 3개 설치해서 hadoop 설치 및 운영 삽질을 계속 하는 중이다. ㅠㅠ 망할넘의 "Unable to load native-hadoop library for your plaform"... 아직 해결 못하고 있다... ㅠㅠ 2015. 7. 5.