본문 바로가기

R29

[R] 주식 DATA 수집/분석 - 3 이전에 주식종목 코드 하나에 대해서 주식 정보를 가져온 후 Database에 저장을 했습니다. 이번에는 여러 종목 코드를 가져와서 저장할 수 있도록 준비를 해보려고 합니다. 먼저 주식 종목 코드를 가져와야하는데 아래의 한국거래소에서 이미지에 표기 된 순서대로 이동을 하면 사장회사 검색화면을 띄울 수 있습니다. 한국거래소 한국거래소 www.krx.co.kr 상장회사검색 화면 우측에 보면 데이터를 다운로드 받을 수 있도록 excel, csv 형식으로 지원하고 있습니다. 일단 csv 파일로 해서 "c:/temp/"에 저장했습니다. 파일을 열어보면 종목코드, 기업명 외에 상장 주식수, 자본금등의 정보를 제공합니다. 문제는 구분자로 사용되어야할 ","(콤마) 가 숫자내에도 같이 들어있어서 난감합니다. 저 숫자 안.. 2020. 5. 27.
[R] 주식 DATA 수집/분석 - NAVER 주식 Data 가져오기 -2 이번에는 다량의 주식 데이터를 가져와서 Database에 저장해보겠습니다. 먼저 Database를 간단하게 만들어 봅니다. CREATE TABLE test..DD_STOCK_PRC ( CODEVARCHAR(6) NOT NULL ,DTDATE NOT NULL ,CLOSE_PRCINT NOT NULL ,DIFF_RTREAL NOT NULL ,OPEN_PRCINT NOT NULL ,HIGH_PRCINT NOT NULL ,LOW_PRCINT NOT NULL ,VOLUME_QTYINT NOT NULL ,PRIMARY KEY CLUSTERED (CODE, DT) ) 네이버 주식 데이터의 순서를 참조하여 주식코드, 일자, 종가, 전일비, 시가, 고가, 저가, 거래량 순으로 저장하는 구조입니다. 다음으로 저번과는 달리.. 2020. 5. 17.
[R] NAVER 주식 DATA 가져오기-1 오랜만에 해보는 R 공부? 입니다. 이번에 해볼 것은 R을 이용해서 NAVER 금융의 주식 데이터를 가져와보려합니다. 해당 주제는 여러분들이 공부해서 이미 많은 포스팅이 있지만 한번 독학으로 쭉 진행해보려합니다. 1) NAVER 금융 페이지 예시로 카카오 주식(035720)을 검색해서 페이지를 띄워보겠습니다. '시세'탭을 클릭해서 보면 아래와 같은 화면을 얻을 수 있습니다. 1-1) 개요 부분 현재가, 고가, 저가,거래량등 개요부분이 있고 아래 쪽으로는 주요시세, 시간별 시세, 일별 시세가 있습니다. 시간별 시세, 일별 시세는 페이지 구조로 구성되어 장기간의 데이터를 얻을 수 있는 구조로 되어있네요. 먼저 개요부분 html을 뜯어봅니다. 카카오 시세가 206,000원으로 되어있는데 이부분을 구조를 보면 .. 2020. 5. 7.
[R] Apply 함수를 알아보자 보통 apply 계열 함수라고 이야기 하는데 apply, tapply, lapply, mapply 등 apply 이름 앞에 영문자가 하나 붙는 형태로 구성이 됩니다. 보통 입력값과 출력값에 따라서 함수 종류가 달라지며 용도는 짧은 코드로 반복 명령 수행을 위해 사용합니다. 함수 설명 apply 주어진 데이터를 행 또는 열 기준으로 연산을 수행하는 함수 tapply 지정한 그룹(Factor) 기준으로 연산을 수행하는 함수 lapply 실행결과가 list 형태로 출력되는 함수 sapply lapply의 simple 버전 성능 for 문에 비해서 인지,가독성은 떨어질 수 있지만 apply 계열 함수를 이용하는 이유는 짧아지는 코드와 성능 때문이라고 합니다. 실제로 저도 특수한 경우를 제외하고는 apply 계열.. 2020. 4. 21.
[TIBCO Spotfire] Spotfire 고급 활용법 7. Spotfire 고급 활용법 Spotfire는 나름 Enterprize급(?) 제품인지라 다양한 3rd Party 제품군들과의 연동이 가능하며 시각화 툴인 것치고는 자체적으로 연동할 수 있는 다양한 방법들을 제공하고 있습니다. 실제 업무에서 활용하면서 유용했던 것들은 몇가지 소개해보려고 합니다. 외부 시각화 차트 연동 R Chart 연동 3rd Party : JSVIZ 활용 Javascript Chart 연동 Python 활용 Javascript Chart 연동 Data Loading 없는 시각화 장표 운영 (with Scheduled Update) 시각화 장표 자동화 메일 IronPython을 활용한 능동적 시각화 구성 외부시각화 차트 연동 Spotfire는 다양한 Chart들을 제공하고는 있지만.. 2019. 12. 27.
[TIBCO Spotfire] Data Function을 활용한 시계열 분석 화면 만들기 6-4. Data Function을 활용한 시계열 분석 화면 만들기 이번에는 간단한 시계열 예측 화면을 만들어보겠습니다. Spotfire에서 line 기능을 통해 Forecast Line을 추가하여 간단하게 시계열 예측을 할 수 있습니다. 하지만 이 경우 예측값을 받아올 수 없기 때문에 추가적인 작업이 불가능합니다. 그래서 동일한 예측 모형을 Data Function을 통해 구현하여 보겠습니다. Data 는 AirPassengers 라는 아래의 데이터를 사용했습니다. 먼저 Data Function을 작성합니다. Register Data Function을 실행한 후 상단에 HoltWinters라고 Data Function 함수명을 지정합니다. HoltWinters() 함수는 R에서 기본적으로 제공하는 시계.. 2019. 12. 24.
[TIBCO Spotfire] Data Function을 활용한 Regression 분석화면 만들기 6-3. Data Function을 활용한 Multiple Regression 만들기 Spotfire를 활용하여 고급 통계분석을 수행할 수 있는 화면을 만들 수 있습니다. 기본적인 골자는 Text Area를 활용하여 입력 또는 설정을 위한 화면을 구성하고 이를 Data Function과 연결하여 분석화면을 만드는 것입니다. 활용하기에 따라서는 통계분석을 잘 모르는 사용자도 쉽게 모델링을 수행할 수 있으며 많은 Column 들 속에서 변수간 연관관계를 빠르게 파악할 수 있습니다. 본 예제는 임의로 생성한 데이터로 진행하겠습니다. 해당 데이터를 가져오면 아래와 같습니다. x1과 x2가 독립변수가 되고 y는 종속 변수가 됩니다. 이 데이터를 가지고 먼저 입력/설정을 할 수 있는 화면을 구성하겠습니다. Text.. 2019. 12. 9.
[TIBCO Spotfire] Spotfire & R 6. Spotfire & R 앞서 설명한 기능들은 Spotfire 내에서 제공하는 통계 분석 기능으로 통계를 잘 모르는 사용자 부터 중급 사용자까지 대상으로 기능을 제공하고 있습니다. 하지만 정해진 기능이고 통계분석 툴만큼 자세한 기능을 제공하지 않는데 이런 경우를 위해 Spotfire는 몇가지 통계 분석 언어와 연동이 가능합니다. SAS Matlab S+ R(TERR) SAS, Matlab의 경우 유명한 언어이나 상용이며 S+는 R의 상용버전입니다만 최근에는 더이상 업데이트를 하지 않는 것 같습니다. 가장 쉽게 접근 가능한 언어이자 인기 언어인 R과 연동이 가능하므로 R과의 연동을 통해 해당 기능에 대해서 설명을 하려 합니다. 다만 이런 통계 언어 연동을 위해서는 추가적인 프로그램이 필요합니다. 서버급.. 2019. 11. 26.
[R] DAUM 영화 평점을 가져와서 분석하기 - 2 2016/02/23 - [Data Analysis/R] - [R] Daum 영화 평점을 가져와서 분석하기 - 1 구조가 파악이 됐으면 구조에 따라 필요한 정보를 가져와 추출한다. 그림에서와같이 Comment의 경우 밑에 있는데 이 경우 rvest의 html_node()를 활용하여 해당 부분을 추출할 수 있다. html_node('span.comment') 이를 이용하여 다음과 같이 스크립트를 구성할 수 있다. library(rvest) reviews 2016. 2. 23.
[R] Daum 영화 평점을 가져와서 분석하기 - 1 스크랩핑? 크로울링? 용어가 다소 생소하지만 웹상의 데이터를 가져오는 것을 스크래핑이라고 하는 것 같습니다. 정확한 용어는 찾아보고 다음에 정리해야지. 여튼 분석용 데이터를 구하기 위해서 웹상의 데이터를 많이 이용하는데 그중에 텍스트 데이터를 수집하기 위해서는 스크랩핑만한게 없는 것 같습니다. 보통 python을 이용을 많이 하는 것 같은데 본인은 R로 공부도 할겸 정리를 해봤습니다. 이용한 package는 rvest를 사용하여 Daum 영화 평점 및 Comment를 가져왔습니다. 웹상 데이터를 가져오기 위해서 해당 웹페이지에 대해 분석이 필요합니다. 먼저 현재 Daum 영화 평점 순위 페이지로 이동해 보면 다음과 같이 확인이 가능합니다. ==> 이동 여기서 녹색 부분의 평점과 코멘트가 필요한데 위의 부.. 2016. 2. 23.