본문 바로가기

다음 영화 평점2

[R] DAUM 영화 평점을 가져와서 분석하기 - 2 2016/02/23 - [Data Analysis/R] - [R] Daum 영화 평점을 가져와서 분석하기 - 1 구조가 파악이 됐으면 구조에 따라 필요한 정보를 가져와 추출한다. 그림에서와같이 Comment의 경우 밑에 있는데 이 경우 rvest의 html_node()를 활용하여 해당 부분을 추출할 수 있다. html_node('span.comment') 이를 이용하여 다음과 같이 스크립트를 구성할 수 있다. library(rvest) reviews 2016. 2. 23.
[R] Daum 영화 평점을 가져와서 분석하기 - 1 스크랩핑? 크로울링? 용어가 다소 생소하지만 웹상의 데이터를 가져오는 것을 스크래핑이라고 하는 것 같습니다. 정확한 용어는 찾아보고 다음에 정리해야지. 여튼 분석용 데이터를 구하기 위해서 웹상의 데이터를 많이 이용하는데 그중에 텍스트 데이터를 수집하기 위해서는 스크랩핑만한게 없는 것 같습니다. 보통 python을 이용을 많이 하는 것 같은데 본인은 R로 공부도 할겸 정리를 해봤습니다. 이용한 package는 rvest를 사용하여 Daum 영화 평점 및 Comment를 가져왔습니다. 웹상 데이터를 가져오기 위해서 해당 웹페이지에 대해 분석이 필요합니다. 먼저 현재 Daum 영화 평점 순위 페이지로 이동해 보면 다음과 같이 확인이 가능합니다. ==> 이동 여기서 녹색 부분의 평점과 코멘트가 필요한데 위의 부.. 2016. 2. 23.