Spark : 기본 예제

Spark에도 몇가지 기본 예제가 있고 이런 예제들은 여러 블로그에서 사용되고 있는데 나도 실습 삼아 정리해본다.

간단한 Text File을 읽어서 행수를 Count하거나 첫줄을 출력하는 등의 예제인데 Hadoop도 설치했겠다 Hadoop에 파일을 하나 올려보고 이 파일을 읽어서 해보자.

# 파일은 앞전에 올렸던 NOTICE.txt 라는 파일을 이용한다.
>>> textFile = sc.textFile("hdfs://localhost:9000/user/admin/NOTICE.txt")   # Hadoop의 파일을 가져온다.
>>> textFile.count()    # 파일의 행수를 계산
2
>>> textFile.first()    # 파일의 첫행을 출력
u'This product includes software developed by The Apache Software'
>>> lines = textFile.filter(lambda x : 'product' in x)   # 'product'가 있는 행을 찾아 그 수를 출력
>>> lines.count()

저작자표시 (새창열림)

'Data Analysis > Spark' 카테고리의 다른 글

Spark : Spark 1.4.0 설치 (0)	2015.07.15
Apache Spark : Apache Spark 설치 (0)	2015.07.07

봉구리밥스

Spark : 기본 예제

'Data Analysis > Spark' 카테고리의 다른 글

댓글

티스토리툴바

Spark : 기본 예제

'Data Analysis > Spark' 카테고리의 다른 글

관련글

댓글

티스토리툴바