네 안녕하세요, 저번시간에 이어서 구와 동별 이용내역을 살펴보겠습니다.
먼저 구별 대여소 개수를 살펴볼게요.
data1=pd.DataFrame(df.groupby('구분')['대여소번호'].nunique().sort_values(ascending=False))
data1
이런식으로 나오네요, 한눈에 볼 수 있게 시각화 해볼게요.
우선 seaborn부터!
화려하지만 뭔가 부족한 것 같네요. 그럼 matplotlib 을 이용해볼게요.
강남구 , 송파구 , 영등포구 , 서초구 순입니다 , 유동인구도 많고 2~30 대가 많이 활동하는 지역이네요,
다음으로 대여소별 이용량을 살펴볼게요
data2=pd.DataFrame(df.groupby('대여소명')['동'].count().sort_values(ascending=False).head(20))
# data2.columns=['이용량']
data2
시각화를 해볼게요
홍대입구역 2번출구쪽이 1등이네요 , 이쪽이 연남동,서교동 방면으로 길도 좋아서 데이트코스로 유명한 곳이죠, 다음 순위권에 오른 나머지 대여소들도 여의나루역, 뚝섬역, 잠실역 같이 한강변의 데이트코스로 유명한 곳이네요, 그 밑으로 봉림교, 신림역 근처죠? 그리고 마포구민체육센터(망원역근처) , 고속터미널역 8-1(반포공원 , 세빛섬 근처) 같이 다 젊은층이 선호하는 지역들입니다.
다음으로 이용시간 별 이용량을 살펴볼게요 , 이를 통해서 따릉이를 출퇴근 교통수단으로 사용하는지 , 주말에 데이트나 여가용으로 사용하는지를 알 수 있겠네요
우선 주중인지 주말인지 먼저 살펴보겠습니다
# workingday
0 : Saturday, Sunday : 주말
1 : Monday ~ Friday : 주중
# towork
0: 출근시간 x : 평일 오전10시부터 18시전까지 이용시
1: 출근시간 o : 오전 7시부터 오전 10시까지 or 오후 18시부터 오후 21시까지 이용시
important.loc[(important['workingday']==1)&((important['time']>=7)&(important['time']<=10)),'towork']=1 #평일 출근시간(3h)
important.loc[(important['workingday']==1)&((important['time']>=18)&(important['time']<=21)),'towork']=1 #평일 퇴근시간(3H)
위에서 더블인덱스로 dataframe을 만들었습니다. 우선 0으로 인덱스를 가지는 (workingday가 0인=주말) 이용량을 보면!
다음으로 workingday=1 인 주중이용량을 보면
두 가지의 대여소명에서는 큰 차이가 없네요 , 눈에 띄는점은 주중(workingday=1) 의 이용량이 더 많다는 것입니다.
대여소명을 보면 이쪽은 회사나 주택지 보다는 공원, 번화가 인데도 말이죠. 위에서 언급했듯이, 주중 출퇴근시간에 이 대여소들의 이용량을 살펴보겠습니다.
먼저 마포구입니다
이용량 1위인 지역구 답게 1순위 대여소뿐만 아니라 전반적으로 이용량이 높고 순위별로 큰 차이가 나지 않습니다
다음으로 영등포구입니다
다음으로 송파구입니다
위에서 주중,주말에 따른 대여소별 TOP10 을 살펴봤는데 수치상으로 맞게 나온것 같습니다. 전체 이용량이 2만정도인 대여소에서 주중에는 1.5만 주말에는 0.5만 정도니까 말입니다
다음으로 주중 이용량이 많은 대여소가 이용시간(출퇴근시간 , 그외 일반시간) 에 따라 어떻게 이용량이 다른지 살펴보겠습니다
우선 전체 data중에서 주중이용량이 450만 개입니다. 저는 평일에는 따릉이를 많이 안 이용하시는 줄 알았습니다.
요일이 (월~금) 5일이라서 그런지 여튼 주중이 더 많습니다.
df.loc[df['workingday']==1] 주중 이용량 중에서 이용시간 별 이용량은 이렇게 나오네요
그럼 주중이용량 top10 대여소들의 시간별 이용량을 볼게요
놀랍네요, 출퇴근시간이랑 일반 낮시간과 이용량 차이가 거의 없네요, 출퇴근시간에도 많은사람들이 따릉이를 이용한다는 걸 알수 있었습니다
대여횟수 별로 정렬했을 때 top10입니다. 0일때(출퇴근시간이 아닐때) 가 6개 입니다.
다음으로 출근시간(7~10) 와 퇴근시간(18~21) 이용량을 살펴볼게요
먼저 출근시간!!
출근시간 총이용량은 8.4만 정도입니다
pop=df.loc[df['workingday']==1]
pop2=pop.loc[(pop['time']>=7)&(pop['time']<=10)]
pd.DataFrame(pop2.groupby('대여소명')['동'].count().sort_values(ascending=False)[:10])
다음 퇴근시간@@
퇴근시간 총 이용량은 13만 정도
pop3=pop.loc[(pop['time']>=18)&(pop['time']<=21)]
pd.DataFrame(pop3.groupby('대여소명')['동'].count().sort_values(ascending=False)[:10])
주중이용량 4,494,074 개 중에
- 출근시간 : 842,823
- 일반 낮시간 or 심야시간 : 2,337,367
- 퇴근시간 : 1,313,875
출근시간에는 아무래도 복장이나 외모도 신경써야 하고 마음이 바빠서 따릉이를 이용하는 사람이 적은 것 같습니다
출근시간 < 퇴근시간 < 평일나머지 시간
다음에는 날씨에 따른 이용량을 살펴볼게요. 안뇽~
'빅데이터 > 따릉이' 카테고리의 다른 글
미세먼지,날씨 ,기온에 따른 이용량 EDA - 따릉이(4) (0) | 2020.04.04 |
---|---|
성별에 따른 이용내역 EDA -따릉이(2) (0) | 2020.04.01 |
떠오르는 소형 모빌리티 [따릉이] -따릉이(1) (0) | 2020.03.26 |