본 프로젝트는 2015년에 Kaggle Competition에 올라왔던 프로젝트입니다.
데이터분석을 배워보기 위해 위 프로젝트를 시작해볼 생각이고, 여러 유저가 작성해주신 Kernels도 읽어보고 많이 인용할 예정입니다.
먼저 프로젝트 소개와 데이터에 대해 소개하겠습니다.
이제 막 Airbnb에 가입한 New 사용자는 190개 이상의 국가 중 34,000개 이상의 도시의 숙소를 Airbnb를 통해 예약할 수 있습니다.
이 사용자가 어느 도시 및 국가를 처음으로 방문할 것인지 예측할 수 있다면, Airbnb는 맞춤 컨텐츠를 제공해 줄 수 있으며 첫 예약하기까지의 사용자의 시간을 줄여줄 수 있을것입니다.
본 프로젝트의 목표는 어느나라의 유저가 처음 어느곳을 예약할 지 예측하는 것입니다.
사용할 데이터는 인구통계학 수치(demographics)와 web session records 그리고 몇몇 요약된 통계자료로 구성되어 있습니다.
해당 데이터는 아래 주소에서 받을 수 있습니다
[https://www.kaggle.com/c/airbnb-recruiting-new-user-bookings/data]
데이터 명세서
train.users.csv / test.users.csv 데이터의 features은 아래와 같습니다.
id : 유저 id
date_account_created : 계정 생성 날짜
timestamp_first_active : 처음 활동한 날짜 (이 feature는 계정 생성 or 첫 예약 날짜보다 이전일 것입니다)
date_first_booking : 첫 예약한 날짜
gender : 성별
age : 나이
signup_method : 회원가입 방법
signup_flow : 회원가입할 때 사용자가 보고있는 page 번호
language : 선호 언어, 사용 언어(모국어)
affiliate_channel : Airbnb 유입경로
affiliate_provider : 유입 장소 (google, craigslist, other)
first_affiliate_tracked : 회원가입 전 user가 반응한 첫번째 marketing
signup_app : Web , iOS, Android etc
first_device_type : Window/Mac desktop , iPhone etc
first_browser : Chrome, Safari, Firefox etc
country_destination : 첫 예약 국가 / 우리가 예측해야하는 target 변수
sessions.csv - 웹 사용자 log
user_id : 유저 id
action : 활동 ( search_result, lookup, index etc)
action_type : Click, View etc
device_type : Window/Mac desktop etc
secs_elapsed : session 사용시간
countries.csv
첫 예약 국가 요약 통계자료
age_gender_bkts.csv
나이와 성별에 따라 destination 요약 통계자료
다음 장부터는 위 데이터를 시각화하여 어떤 분포를 이루고 의미있는 정보를 찾을 수 있는지 해보겠습니다!
'Computer Science > 프로젝트' 카테고리의 다른 글
Airbnb New User Bookings 데이터 시각화 - Kaggle Project(4) (0) | 2017.11.11 |
---|---|
Airbnb New User Bookings 데이터 시각화 - Kaggle Project(3) (0) | 2017.11.10 |
Airbnb New User Bookings 데이터 읽기 및 가공 - Kaggle Project(2) (0) | 2017.11.09 |