본문 바로가기

빅데이터/추천시스템

추천시스템 구현 방향

프로젝트로 어떤 규모로 어떤 완성도를 갖춰야 하는지 감이 없지만 시작으로 좋은 소재인 것 같아 시작한다

추천 알고리즘 연습으로 많이 알려진 영화 데이터로 해도 되겠지만 , 어느 정도 완성된 결과물을 내려고 시작했기 때문에

추천 시스템의 주제는 '책'이다

추천 시스템에서 제일 중요한 것은 데이터. 하지만 구매 데이터 혹은 사용자 데이터는 내부의 데이터이므로 구할 수 없다.

그래서 yes24 같은 온라인 플랫폼에서 리뷰데이터( ※ 전제 : 책을 구매했으니 리뷰를 남겼다, 하지만 보통의 플랫폼 리뷰와 비슷하게 전체 구매 데이터 중 리뷰를 남기는 사람은 소수고 남긴 리뷰도 부정적인 의견은 없다. 왜냐하면 구매한 상품이 별로 일 때 리뷰를 남기는 사람은 더욱 소수이기 때문이다. 이 문제는 차후에 자세히 다루도록 하겠다...)와 책 데이터를 크롤링하기로 했다.

책 리뷰데이터를 이용해서 Item-Based CF(item-based-collaborative filtering) , 책 데이터를 이용해서 Content-Based Filtering을 진행할 계획이다

생각한 진행 방향은 

- 데이터 크롤링 

- 데이터 전처리

- 협업필터링(Collaborative Filtering , 이하 IBCF)  -> Matrix Factorization

- Contend-Based Filtering

- Hybrid recommend System

차후에 딥러닝 기법인 Word2VEC 으로 구현  , 부족하다면 리뷰를 자연어 처리를 통해 감정분석도 해볼 계획이다