본문 바로가기

Data Analysis/Spark3

Spark : 기본 예제 Spark에도 몇가지 기본 예제가 있고 이런 예제들은 여러 블로그에서 사용되고 있는데 나도 실습 삼아 정리해본다. 간단한 Text File을 읽어서 행수를 Count하거나 첫줄을 출력하는 등의 예제인데 Hadoop도 설치했겠다 Hadoop에 파일을 하나 올려보고 이 파일을 읽어서 해보자. # 파일은 앞전에 올렸던 NOTICE.txt 라는 파일을 이용한다. >>> textFile = sc.textFile("hdfs://localhost:9000/user/admin/NOTICE.txt") # Hadoop의 파일을 가져온다. >>> textFile.count() # 파일의 행수를 계산 2 >>> textFile.first() # 파일의 첫행을 출력 u'This product includes software d.. 2015. 7. 21.
Spark : Spark 1.4.0 설치 Hadoop을 설치했으니 이번에는 Spark를 설치해보자.본인은 Spark 1.4.0 버전을 사용했다. # Spark 1.4.0을 다운받는다 cd ~/Downloads wget http://d3kbcqa49mib13.cloudfront.net/spark-1.4.0-bin-hadoop2.6.tgz # 압축해제 tar -xvzf spark-1.4.0-bin-hadoop2.6.tgz< # 파일 이동 mv spark-1.4.0-bin-hadoop2.6 ../ # 심볼릭 링크 생성 ln -s spark-1.4.0-bin-hadoop2.6 spark 일단 여기 까지 하면 설치는 끝, 간단히 테스트 정도로만 설치할 것이니 추가적인 설정은 없다.(물론 세세한 설정에 대해서는 아직 공부해야할 것들이 많은지라...사용에 .. 2015. 7. 15.
Apache Spark : Apache Spark 설치 Hadoop 2.6.0 설치 및 설정 완료 후 바로 Apache Spark-1.4.0을 받아서 설치 실행해봤다. 요즘에는 워낙 블로그에 잘 정리가 되어있어서 크게 어렵지 않은 것 같다... Spark를 써볼라니 Python과 Scala를 공부해야 하네... 공부할께 눈 덩이 처럼 불어난다. R도 공부 더해야 하는데 말이지... 2015. 7. 7.