SOONCHUNHYANG INDUSTRY-ACADEMY COOPERATION FOUNDATION
우리대학 SW융합대학 AI·빅데이터학과 김재윤 교수 연구진(한예찬 박사과정, Missouri University of Science and Technology의 David Enke 교수)은 머신러닝 기반 주식 트레이딩 시스템 개발을 위한 학습 효율성을 높이기 위해 새로운 데이터 레이블링 기법인 선택적 유전자 알고리즘 레이블링(Selective Genetic Algorithm Labeling, SGA)을 개발하였다.
주식 시장은 다양한 외부 요인에 의해 영향을 받기 때문에 예측이 어려우며, 대다수의 선행 연구에서는 모든 주가 변동을 동일하게 분류하는 상승/하락 (Up-down) 레이블링을 사용하여 머신러닝을 적용해 왔다. 그러나 이러한 방식은 데이터 내 불필요한 변동성을 포함하여 학습 데이터에 노이즈가 증가하게 되어 모델 성능을 저하시키는 문제를 발생시킨다. SGA 레이블링은 유전자 알고리즘과 인스턴스(Instance, 개체) 선택 방법을 적용하여 의미 있는 변동 패턴을 추출하고, 이를 통해 보다 명확한 주가 추세를 식별하여 노이즈를 줄일 수 있다.
본 연구에서 개발한 트레이딩 시스템은 SGA 레이블링을 통해 학습된 데이터 세트를 사용하여 머신러닝 모델을 훈련시키고, 이를 기반으로 주식의 미래 방향을 예측하고 거래한다. 예측 과정에서 신경망(Neural network), 그래디언트 부스팅(Extreme gradient boosting, XGB) 모델을 포함한 다양한 모델이 사용되었으며, 각 모델의 예측 결과를 앙상블 (Ensemble) 방식으로 결합하여 거래 신호를 생성한다. 이러한 방식은 개별 모델보다 높은 예측 정확도를 보였으며, 최종적으로 NASDAQ과 KOSPI에 상장된 약 주식 70 종목에 대해 실험을 진행한 결과, SGA 레이블링이 상승/하락 레이블링보다 평균적으로 profit factor(총 수익/총 손실 비율), payoff ratio(평균 수익/평균 손실) 에서 개선된 성과가 도출됨을 확인하였다.
본 연구의 핵심은 머신러닝 모델이 더 많은 데이터를 학습하는 것도 중요하지만, 그보다 데이터의 품질이 더욱 중요하다는 것을 보여준다. SGA 레이블링은 인스턴스 선택을 통해 의미 없는 데이터를 배제하여 고품질의 학습 데이터를 제공함으로써 예측 정확도와 거래 성과를 개선하였다. 품질 높은 데이터로 학습된 모델은 잡음이 많은 빅데이터에 의존하는 것보다 훨씬 더 신뢰할 수 있는 결과를 도출할 수 있으며, 이는 주식 거래 시스템뿐만 아니라 다양한 머신러닝 및 인공지능 응용 분야에서 중요한 의미를 가진다.
연구결과는 최근 ‘선택적 유전자 알고리즘 라벨링: 주식 시장 머신러닝 트레이딩 시스템을 위한 데이터 라벨링 기법 (Selective genetic algorithm labeling: A new data labeling method for machine learning stock market trading systems)’라는 제목으로 국제학술지 Engineering Applications of Artificial Intelligence (IF: 7.5, ENGINEERING, MULTIDISCIPLINARY 분야 상위 2.5%, 2023 JCR 기준) 9월호에 게재됐다.