주제 : 시장의 상황을 잘 반영할 수 있는 증권 기사에 등장한 단어수를 분석하여 다음날의 주가 등락 여부를 예측하기 위한 프로젝트
참고 :
- https://github.com/tina0430/NewsAnalysis - 시장의 상황을 잘 반영할 수 있는 증권 기사에 등장한 단어수를 분석하여 다음날의 주가 등락 여부를 예측하기 위한 프로젝트 (복잡해서 도움이 안될수도, 전체적인 그림은 이렇게)
- https://hengju.tistory.com/36 - 네이버 금융 뉴스 제목과 링크를 csv파일로 저장해보기
- https://github.com/gyusu/naver-finance-board-crawler - 네이버 금융의 종목토론실 크롤러 (이걸 쓸지말지는 고민)
- https://github.com/seyoongit/news - 뉴스데이터로 주가지수 예측하는 논문 재현하기
- 네이버 금융에서 종목별 뉴스 크롤링
- 뉴스 요약 및 단어 분석
- 당일 종가와 익일 호가 갭이 만들어질 경우, 상승시 많이 사용되는 단어, 하락시 많이 사용되는 단어 정리
- 과거 데이터를 이용하여 최근 데이터를 검증
news_crawling.py 에 def main() 함수에서 company 변수에 종목코드를, crawling_date에 날짜를 적으면, 해당 날짜의 뉴스를 크롤링해서 company_news.csv 파일에 적습니다.
(참고 1에서 가져옴)
-
90일 부터 365일치의 뉴스 단어 빈도수 셋을 각각 만듦
-
코스피의 대비와 명사 빈도수와의 상관관계 분석(90~365일 치의 단어셋 각각)
-
상관관계가 0.1 이하인 단어 제거
-
학습용 단어와 예측용 단어를 구분(학습용 - 70% 예측용 - 30%)
-
남은 단어를 가지고 랜덤 포레스트 모형에 넣어보고 회귀분석을 실시 - 최적의 기간을 찾음(1년)