현대차, 중고차 사업 공식 출범…올해 5000대·내년 2만대 판매목표
자동차는 상당한 고가로 거래되는 품목이므로 중고차 시장도 크게 발달하였습니다. 시장의 규모는 해마다 상승하고 있으며, 최근 현대자동차와 같은 대기업도 중고차 시장에 참전하였습니다.
그러나 중고차 가격이 구체적으로 어떻게 책정되는지는 판매자와 구매자 모두 알기 어렵습니다.
저희 조의 분석 목적은 국산 중고차의 차량 정보와 보험처리이력 등이 주어졌을 때, 중고차 거래 사이트 중 어떤 사이트에 판매하면 가장 이득을 볼 수 있을지 계산하여 예측하는 것입니다.
예측 모델을 이용하면 중고차 판매자가 어떤 사이트에 판매해야 유리한지 판단할 수 있으며, 그 판매가는 얼마 정도가 될지 예측할 수 있다는 기대효과가 존재합니다.
예측 대상이 되는 사이트는 KCar, KB차차차, 보배드림으로 총 3개입니다. 해당 사이트들을 고른 이유는 타 사이트에 비해 등록대수가 많아 학습시킬 데이터가 충분하기 때문입니다.
사이트명 | 전체 등록대수 |
---|---|
KB차차차 | 143,046 |
보배드림 | 49,476 |
K Car | 9,049 |
현대글로비스 오토벨 | 1,227 |
국산차와 외제차 중 국산차만 데이터로 가져온 이유
데이터 출처
웹크롤링을 수행하여 3개 사이트의 국산차 데이터를 수집할 계획입니다.
보배드림 사이트 내에서 현재 거래되고 있는 국산차 데이터를 수집하였습니다.
현재 발표 단계에서는 보배드림의 데이터를 기준으로 설명 드리겠습니다.
변수 설정
차량 정보와 옵션을 모두 합치면 80개 이상의 변수를 찾을 수 있습니다.
엔카, KB차차차, 보배드림 3개 사이트에서 공개하는 차량 정보에 차이가 존재합니다.
3개 사이트에서 공통적으로 수집할 수 있는 유의미한 변수를 정리하면 아래와 같습니다.
차량 옵션의 유무는 중고차 판매가 변동에 큰 영향을 미치므로 설명변수로 추가하였습니다.
그랜져 기준, 하단 옵션이 추가될 때마다 판매가가 상승하는 것을 볼 수 있습니다.
차량이 해당 옵션을 갖고 있으면 1, 아니면 0의 값을 갖도록 크롤링 하였습니다.
보험처리이력은 구매자가 거래 시 많이 참고하는 지표이므로 설명변수로 추가하였습니다.
데이터 설명
데이터 크기
예측 변수
설명 변수
<aside> 💡 수치형 변수 - 주행거리, 배기량 범주형 변수 - 위 2개와 가격을 제외한 모든 변수
</aside>
기본 정보
브랜드: 자동차 제조 회사명
GM대우 | KG모빌리티 | 기아 | 대우 |
---|---|---|---|
르노삼성 | 르노코리아 | 쉐보레 | 쌍용 |
제네시스 | 현대 |
차종: 자동차의 모델명
연식: 자동차가 제작된 해
배기량: 엔진이 한 번 돌아갈 때 소비되는 가스의 양, 엔진의 주요 성능지표
주행거리: 실제로 자동차를 운행한 거리
색상: 자동차의 색상
검정색 | 갈색 | 기타 | 노란색 |
---|---|---|---|
녹색 | 분홍색 | 빨간색 | 주황색 |
자주색 | 파란색 | 회색 | 흰색 |
변속기: 동력원의 동력을 속도나 환경에 맞추어 필요한 회전력으로 바꾸는 장치
자동 | 수동 |
---|
연료: 자동차가 운행될 수 있도록 에너지를 방출하는 물질
가솔린 | 디젤 | LPG | 가솔린 하이브리드 |
---|---|---|---|
전기 | 수소 | 가솔린/LPG겸용 | 기타 |
차량 옵션
선루프 | LED헤드램프 | 어댑티드헤드램프 | 가죽시트 |
---|---|---|---|
열선시트(앞좌석) | 통풍시트 | 후방센서 | 스마트키 |
네비게이션(순정) | 네비게이션(비순정) |
보험처리이력
<aside> 💡 전처리 단계: 웹사이트 → 크롤링을 통한 데이터 수집 → 데이터 전처리
</aside>