Skip to content

janimgun/cs372_group

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

54 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

cs372_group

주제 : 시장의 상황을 잘 반영할 수 있는 증권 기사에 등장한 단어수를 분석하여 다음날의 주가 등락 여부를 예측하기 위한 프로젝트

참고 :

  1. https://github.com/tina0430/NewsAnalysis - 시장의 상황을 잘 반영할 수 있는 증권 기사에 등장한 단어수를 분석하여 다음날의 주가 등락 여부를 예측하기 위한 프로젝트 (복잡해서 도움이 안될수도, 전체적인 그림은 이렇게)
  2. https://hengju.tistory.com/36 - 네이버 금융 뉴스 제목과 링크를 csv파일로 저장해보기
  3. https://github.com/gyusu/naver-finance-board-crawler - 네이버 금융의 종목토론실 크롤러 (이걸 쓸지말지는 고민)
  4. https://github.com/seyoongit/news - 뉴스데이터로 주가지수 예측하는 논문 재현하기

Method

  1. 네이버 금융에서 종목별 뉴스 크롤링
  2. 뉴스 요약 및 단어 분석
  3. 당일 종가와 익일 호가 갭이 만들어질 경우, 상승시 많이 사용되는 단어, 하락시 많이 사용되는 단어 정리
  4. 과거 데이터를 이용하여 최근 데이터를 검증

사용법

news_crawling.py 에 def main() 함수에서 company 변수에 종목코드를, crawling_date에 날짜를 적으면, 해당 날짜의 뉴스를 크롤링해서 company_news.csv 파일에 적습니다.

분석 방법

(참고 1에서 가져옴)

  • 90일 부터 365일치의 뉴스 단어 빈도수 셋을 각각 만듦

  • 코스피의 대비와 명사 빈도수와의 상관관계 분석(90~365일 치의 단어셋 각각)

  • 상관관계가 0.1 이하인 단어 제거

  • 학습용 단어와 예측용 단어를 구분(학습용 - 70% 예측용 - 30%)

  • 남은 단어를 가지고 랜덤 포레스트 모형에 넣어보고 회귀분석을 실시 - 최적의 기간을 찾음(1년)

About

cs372 group project

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages