미세먼지,날씨 ,기온에 따른 이용량 EDA - 따릉이(4)
이번에는 날씨( 비 , 눈 , 폭염) , 기온에 따른 이용량을 살펴볼게요 우선 미세먼지 , 초미세먼지를 살펴볼게요 위의 정부에서 발표한 자료를 기준으로 그룹핑 했습니다. 다음으로 데이터를 볼게요 nan값들이 20% 가까이 되는데 다른값으로 변환하면 오차가 많이 날 것 같아 우선 nan 값은 그대로 두고 , 정상치들을 가지고 분석해볼게요. 특이한게, 변환하다보니 미세먼지도 그렇고 초미세먼지도 매우나쁨이라고 나온 값은 없었습니다. ax=data0_0.plot(kind='bar',rot=0,figsize=(10,8),width=0.8) #,labels=sex.index for p in ax.patches: left,bottom,width,height=p.get_bbox().bounds ax.annotate('..
Item-based 를 들어가기전에 (np.corrcoef, .corr 연습)- 추천시스템(5)
item-based 란? 아이템에 대한 유저들의 평가를 기반으로 유사도를 측정하는 것입니다 예를 들어보겠습니다 이 예시는 코사인유사도를 기반으로 합니다. item-based 는 아이템들에 대한 유사도를 계산합니다. 마찬가지로 두 아이템에 대한 사용자들의 평가 점수를 벡터로 나타냅니다 . 공조와 라라랜드의 유사도를 구하려고 한다면, 이 둘을 모두 평가한 사용자는, 재석, 명수, 세형, 광희다. 각각 (5, 1, 4, 4)와 (4, 1, 4, 3)입니다. 중요한 것은 평가가 있는 값들로만 비교를 해야 한다는 것 입니다. 공조와 라라랜드의 유사도는 0.99로 상당히 높은 유사도를 보이는데, 즉, 공조를 좋아하는 사람은 라라랜드를 좋아할 확률이 높다는 말로 해석할 수 있습니다. 이렇게 , 아이템 기반에서도 아이..