본문 바로가기

Computer Science/프로젝트4

Airbnb New User Bookings 데이터 시각화 - Kaggle Project(4) 저번 포스팅에 이어서 데이터 시각화를 이어서 진행하겠습니다. 저번 데이터분석에서 signup_app이 주로 Web일 때 예약할 가능성이 높음을 확인할 수 있었습니다. 그럼 이번엔 signup_app과 첫 예약한 장소 Destination이 어떠한 관계를 가지고 있는지 확인해보도록 하겠습니다. 코드 먼저 보겠습니다. #destination_country table stats by signup appt = table(airbnb$signup_app, airbnb$country_destination) print(signif(t / rowSums(t) * 100, digits=2)) 확률(%)로 보기 위해 t/rowSum(t)*100 과 같은 작업을 추가한 것입니다. 결과는 아래와 같습니다. 한눈에 보기 쉽게 .. 2017. 11. 11.
Airbnb New User Bookings 데이터 시각화 - Kaggle Project(3) 이번 포스팅에선 앞서 가공한 데이터를 이용해 데이터 시각화를 해보겠습니다. 지금 가지고 있는 Variable은 총 28개 있으며 현재 변수들 간에 서로 어떠한 상관관계가 있는지 모릅니다. 그래서 어떻게 시작해야할 지 감이 안잡힐 수도 있습니다. 우선 본 프로젝트의 목표를 다시 한번 확인하겠습니다. "새로운 가입자가 최초로 예약할 장소를 예측하자!" 그러므로 기존의 사용자가 어떠한 상태에서 예약을 했는지, 예약을 했다면 어디를 맨 처음 예약했는지 확인해 볼 필요성이 있습니다. 우선 가입날짜와 처음 예약한 날짜와의 상관관계가 있는지 확인해보겠습니다. 아래에서 코드와 실행결과를 확인할 수 있습니다. # date_first_booking by date_account_created airbnb %>% sample.. 2017. 11. 10.
Airbnb New User Bookings 데이터 읽기 및 가공 - Kaggle Project(2) 본 포스팅을 Kaggle의 yYaMamoto님의 kernel을 인용하여 작성했습니다 이 글에서는 airbnb 데이터를 읽고 가공하는것에 대해 알아보겠습니다.사용한 언어는 R입니다. 데이터 분석을 시작할 때 제일 먼저 해야하는 건 무엇일까요? 당연히 분석을 위한 데이터를 확보하는 것입니다. 데이터를 확보하고 읽는 것은 매우 중요합니다. 그리고 분석을 편하게 하기 위해 적절한 가공이 필요합니다. 예를 들어 다음과 같은 날짜 데이터가 있다고 가정합시다. 2017년 8월 12일 이 날짜는 한글과 숫자로 이루어져있기 때문에 R 혹은 Python을 이용해 읽었을 때 문자열로 읽을 가능성이 큽니다. 나중에 날짜로 정렬을 할 수도 있고 특정 날짜 범위내의 데이터만 필요할 경우도 생기기 때문에 적절한 변형이 필요합니다... 2017. 11. 9.
Airbnb New User Bookings - Kaggle Project(1) 본 프로젝트는 2015년에 Kaggle Competition에 올라왔던 프로젝트입니다.데이터분석을 배워보기 위해 위 프로젝트를 시작해볼 생각이고, 여러 유저가 작성해주신 Kernels도 읽어보고 많이 인용할 예정입니다. 먼저 프로젝트 소개와 데이터에 대해 소개하겠습니다. 이제 막 Airbnb에 가입한 New 사용자는 190개 이상의 국가 중 34,000개 이상의 도시의 숙소를 Airbnb를 통해 예약할 수 있습니다. 이 사용자가 어느 도시 및 국가를 처음으로 방문할 것인지 예측할 수 있다면, Airbnb는 맞춤 컨텐츠를 제공해 줄 수 있으며 첫 예약하기까지의 사용자의 시간을 줄여줄 수 있을것입니다. 본 프로젝트의 목표는 어느나라의 유저가 처음 어느곳을 예약할 지 예측하는 것입니다. 사용할 데이터는 인구통.. 2017. 10. 31.
반응형