프로젝트로 어떤 규모로 어떤 완성도를 갖춰야 하는지 감이 없지만 시작으로 좋은 소재인 것 같아 시작한다
추천 알고리즘 연습으로 많이 알려진 영화 데이터로 해도 되겠지만 , 어느 정도 완성된 결과물을 내려고 시작했기 때문에
추천 시스템의 주제는 '책'이다
추천 시스템에서 제일 중요한 것은 데이터. 하지만 구매 데이터 혹은 사용자 데이터는 내부의 데이터이므로 구할 수 없다.
그래서 yes24 같은 온라인 플랫폼에서 리뷰데이터( ※ 전제 : 책을 구매했으니 리뷰를 남겼다, 하지만 보통의 플랫폼 리뷰와 비슷하게 전체 구매 데이터 중 리뷰를 남기는 사람은 소수고 남긴 리뷰도 부정적인 의견은 없다. 왜냐하면 구매한 상품이 별로 일 때 리뷰를 남기는 사람은 더욱 소수이기 때문이다. 이 문제는 차후에 자세히 다루도록 하겠다...)와 책 데이터를 크롤링하기로 했다.
책 리뷰데이터를 이용해서 Item-Based CF(item-based-collaborative filtering) , 책 데이터를 이용해서 Content-Based Filtering을 진행할 계획이다
생각한 진행 방향은
- 데이터 크롤링
- 데이터 전처리
- 협업필터링(Collaborative Filtering , 이하 IBCF) -> Matrix Factorization
- Contend-Based Filtering
- Hybrid recommend System
차후에 딥러닝 기법인 Word2VEC 으로 구현 , 부족하다면 리뷰를 자연어 처리를 통해 감정분석도 해볼 계획이다
'빅데이터 > 추천시스템' 카테고리의 다른 글
Item-based 를 들어가기전에 (np.corrcoef, .corr 연습)- 추천시스템(5) (0) | 2020.03.18 |
---|---|
Content-based-filtering(컨텐츠기반 필터링) - 추천시스템(4) (0) | 2020.03.11 |
데이터 전처리 - 추천시스템(3) (0) | 2020.03.06 |
추천시스템에 대한 이해 - 추천시스템(2) (0) | 2020.03.04 |
데이터크롤링(crawling) - 추천시스템(1) (0) | 2020.03.04 |