본문 바로가기

주식 데이터 모델링

딥러닝으로 주식 예측하는 논문 구현 [Stock Market Prediction on High-Frequency Data Using Generative Adversarial Nets] - 3. 논문(3) - 실험 결과

이번엔 실험 결과를 정리하면서 논문 읽기를 마무리 해보겠습니다.

 


4.3 Benchmark Methods

 

 이번 논문과 비교하기 위해 기존 모델 3개를 가져왔습니다. 각각 ARIMA-GARCH, ANN, SVM 입니다. 기존에 있던 논문들을 참고해서 비교 모델로 사용했습니다.

 본인들의 GAN-FD 모델도 총 4가지 방법으로 비교를 했습니다. 각각 GAN-F, GAN-D, LSTM-FD, GAN-FD 입니다. F는 전 글에서 말씀드렸듯이 forecast error loss이고, D는 direction predictions loss 입니다.  LSTM-FD와 GAN-FD의 차이는 adversarial training의 유무 라고 합니다.

 

4.4 Evaluation Metrics

(1) Root Mean Squared Relative Error(RMSRE)

RMSRE

[T0는 Total number of time points를 의미합니다.]

 RMSRE 값이 낮을수록 예측값이 실제값과 같다는 얘기 입니다. RMSE 대신에 RMSRE를 사용한 이유는, 논문에서 사용한 42개의 주식에 대한 결과를 동일하게 비교하기 위해서 입니다.

 

 

(2) Direction Prediction Accuracy (DPA)

DPA

 DPA는 예측의 방향이 얼마나 정확했느냐를 측정합니다. DPA가 높다면 이득이 되는 거래를 할 확률이 높아집니다.

 

4.5 Results

 

 모델의 update cycle이 예측 성능에 미치는 영향을 파악하기 위해서 M은 {10, 20, 60}, N은 {5, 10, 20}의 범위에서 실험했습니다. 중국 주식 시장에서 5, 10, 20, 60이 의미하는 바는 각각 1주, 2주, 1달, 1분기 입니다.

 [이전 글에서 말했듯이 이 논문은 전체 데이터셋을 M+N의 길이만큼을 계속 잘라서 학습합니다. 그 중 M은 Training set의 길이, N은 Test set의 길이를 의미합니다.]

 [이 논문은 일자별 주가 데이터 대신에 분 단위의 주가 데이터를 사용합니다.]

RMSRE results
DPA results

 GAN-F와 GAN-D는 각각 RMSRE와 DPA 기준으로 baseline model들 보다 성능이 좋을때도 있고 나쁠때도 있습니다만, GAN-FD는 항상 더 좋은 결과를 보여주고 있습니다. [사실 DPA가 0.5 근처라는 것은, 랜덤값이랑 성능이 비슷하다고 생각합니다. 원래 주식이 오르고 내리는 값의 비율이 거의 50% 이니까요. 논문에서도 상승, 하락의 비율이 0.5 정도 된다고 표로 보여줬습니다.] 

 모델 구조가 GAN-FD이고 (M,N)이 (20,5) 일때 RMSRE가 0.0079, DPA가 0.6956 입니다. 또 모든 경우에 N이 10, 20일때 보다 5일때 모델의 성능이 좋다고 실험은 말해줍니다. 이것은 다음 minute의 가격을 예측할때는 아주 짧은 trend가 적당하다고 암시합니다. 그래서 model update cycle이 짧은 것(예를 들어 N=5)을 선호합니다.

 반면에 같은 N의 값일때 M의 변화는 예측 성능의 차이를 만듭니다. 실험 결과를 토대로 이 논문은 M이 반드시 N보다 큰 값을 가져야 한다고 말합니다. 직관적으로도 말이 됩니다. 훈련 샘플들이 부적절할 경우 훈련에 실패할 가능성이 크고, 특히 변동성이 큰 주식시장은 더 그러합니다.

 GAN-FD의 경우 N=5 일때 성능이 다른 모델들에 비해 좋지만, N이 커질수록 성능이 급격히 떨어지고, 변동이 큰 성향을 보인다고 합니다. 저자는 GAN-FD를 쓸때 update cycle N을 더 작게 하거나, 모델의 파라메터들을 변화시키는 방법을 사용할 것이라고 합니다.

 [42개의 주식 별로 위의 7개 모델의 성능을 평가합니다. Baseline Model의 비해서 본인들이 제시한 모델들이 성능이 월등히 좋고, 그중에서도 GAN-FD가 최고다! 라는 말이라 생략하겠습니다.]

 

 

5. 결론

 GAN-FD는 재무에 익숙치 않은 평범한 투자자들도 사용할 수 있는 'easy-to-use' 모델 입니다. 복잡한 데이터 전처리가 필요 없는 간단한 기술 지표만 사용했기 때문입니다. 게다가 모델 update cycle이 예측 성능에 주는 영향에 대해서도 분석했습니다. 이후에 우리는 multiscale conditions에 예측 모델을 통합하는 걸 시도할 것입니다.

 

 

 

논문 읽기를 마쳤고, 이제 논문 구현을 시도해보려고 합니다. 다음 글부터는 논문 구현가 관련 있는 글을 작성하도록 하겠습니다.