본문 바로가기
Data Analysis/Spark

Spark : 기본 예제

by 불탄오징어 2015. 7. 21.
반응형

Spark에도 몇가지 기본 예제가 있고 이런 예제들은 여러 블로그에서 사용되고 있는데 나도 실습 삼아 정리해본다.

간단한 Text File을 읽어서 행수를 Count하거나 첫줄을 출력하는 등의 예제인데 Hadoop도 설치했겠다 Hadoop에 파일을 하나 올려보고 이 파일을 읽어서 해보자.


# 파일은 앞전에 올렸던 NOTICE.txt 라는 파일을 이용한다.
>>> textFile = sc.textFile("hdfs://localhost:9000/user/admin/NOTICE.txt")   # Hadoop의 파일을 가져온다.
>>> textFile.count()    # 파일의 행수를 계산
2
>>> textFile.first()    # 파일의 첫행을 출력
u'This product includes software developed by The Apache Software'
>>> lines = textFile.filter(lambda x : 'product' in x)   # 'product'가 있는 행을 찾아 그 수를 출력
>>> lines.count()

'Data Analysis > Spark' 카테고리의 다른 글

Spark : Spark 1.4.0 설치  (0) 2015.07.15
Apache Spark : Apache Spark 설치  (0) 2015.07.07

댓글