본문 바로가기
Computer Science/프로젝트

Airbnb New User Bookings - Kaggle Project(1)

by sy.cho__ 2017. 10. 31.

본 프로젝트는 2015년에 Kaggle Competition에 올라왔던 프로젝트입니다.

데이터분석을 배워보기 위해 위 프로젝트를 시작해볼 생각이고, 여러 유저가 작성해주신 Kernels도 읽어보고 많이 인용할 예정입니다.


먼저 프로젝트 소개와 데이터에 대해 소개하겠습니다.


이제 막 Airbnb에 가입한 New 사용자는 190개 이상의 국가 중 34,000개 이상의 도시의 숙소를 Airbnb를 통해 예약할 수 있습니다. 

이 사용자가 어느 도시 및 국가를 처음으로 방문할 것인지 예측할 수 있다면, Airbnb는 맞춤 컨텐츠를 제공해 줄 수 있으며 첫 예약하기까지의 사용자의 시간을 줄여줄 수 있을것입니다. 


본 프로젝트의 목표는 어느나라의 유저가 처음 어느곳을 예약할 지 예측하는 것입니다. 


사용할 데이터는 인구통계학 수치(demographics)와 web session records 그리고 몇몇 요약된 통계자료로 구성되어 있습니다.

해당 데이터는 아래 주소에서 받을 수 있습니다

[https://www.kaggle.com/c/airbnb-recruiting-new-user-bookings/data]



데이터 명세서


train.users.csv / test.users.csv 데이터의 features은 아래와 같습니다.


id : 유저 id

date_account_created : 계정 생성 날짜

timestamp_first_active :  처음 활동한 날짜  (이 feature는 계정 생성 or  첫 예약 날짜보다 이전일 것입니다)

date_first_booking : 첫 예약한 날짜

gender : 성별

age : 나이

signup_method : 회원가입 방법

signup_flow : 회원가입할 때 사용자가 보고있는 page 번호

language : 선호 언어, 사용 언어(모국어)

affiliate_channel : Airbnb 유입경로

affiliate_provider : 유입 장소 (google, craigslist, other)

first_affiliate_tracked : 회원가입 전 user가 반응한 첫번째 marketing

signup_app : Web , iOS, Android etc

first_device_type : Window/Mac desktop , iPhone etc

first_browser : Chrome, Safari, Firefox etc

country_destination : 첫 예약 국가 / 우리가 예측해야하는 target 변수


sessions.csv - 웹 사용자 log


user_id : 유저 id

action  : 활동 ( search_result, lookup, index etc)

action_type : Click, View etc

device_type : Window/Mac desktop etc

secs_elapsed : session 사용시간


countries.csv


첫 예약 국가 요약 통계자료


age_gender_bkts.csv


나이와 성별에 따라 destination 요약 통계자료



다음 장부터는 위 데이터를 시각화하여 어떤 분포를 이루고 의미있는 정보를 찾을 수 있는지 해보겠습니다!

반응형