Search
Duplicate
🏠

[오렌지3] 집 값 예측하기

Tags
팝콘쌤
오렌지3
초코쌤
Created time
2023/10/13 04:02
어느 나라나 재테크에 관심이 많습니다. 미국도 예외는 아닌데요.
오늘은 오렌지3를 통해서 미국 보스턴의 집 값을 예측해 보겠습니다.

미국 보스턴의 집 값 예측

오렌지 3를 활용한 집 값 예측하기
1.
수업 일시 : 중학교 방과 후 수업
2.
장소 : 컴퓨터실
3.
학생 대상 : 중1~중3
4.
수업 난이도 : 상
5.
준비물 : 오렌지3 프로그램, 보스턴 집 값 자료

지도학습이란?

머신러닝 학습 종류의 하나로써, 문제의 정답(레이블, label)을 주고, 기계를 학습시키는 방법을 지도학습이라고 합니다.
보스턴 집 값 예측하기는 머신러닝 중 지도학습을 활용한 것입니다.

1. 데이터 수집

캐글 사이트에서 ‘Boston Housing’을 검색하고 다운로드를 합니다.
※ Boston Housing 데이터 속성(attribute) 설명

2. 데이터 전처리

이미 정제된 데이터라서 압축만 풀어 사용하면 됩니다.
압축을 해제한 후에는 학습할 train.csv파일과 시험해 볼 test.csv파일만 필요합니다.
train.csv
23.6KB

3. 데이터 탐색 및 시각화

오렌지3에서는 표(정형데이터)로 나타낼 수 있는 Data Table과 표를 시각화한 자료인 점 그래프(Scatter plot)로 나누어 볼 수 있습니다.
train.csv 파일을 연결하고, [Visualize] - [Scatter Plot]을 클릭하여 File 위젯과 Scatter Plot을 연결합니다.
데이터 시각화 예제
Axes에서 x와 y를 각각 crim, medv로 설정한 후 Attibutes에 Color를 medv로 설정하면, 범죄율(crim)과 주택가격(medv)의 관계를 점 그래프(Scatter Plot)로 확인할 수 있습니다.
Q. 범죄율이 높아지면 주택 가격은 어떻게 될까요? 범죄율(crim)이 높은 지역의 주택 가격(medv)은 대체로 낮다는 것을 그래프로 확인할 수 있습니다.

4. 데이터 학습(기계학습)

다양한 기계학습 모델을 아래와 같이 업로드한 File과 연결합니다.
평가 지표 내용
Predictions 위젯을 누르면 적용한 기계학습의 성능을 지표를 통해 비교할 수 있습니다. 참고로, R2의 값이 1에 가까울 수록 성능이 좋습니다.
제가 사용한 집 값 예측 알고리즘 중에서는 AdaBoost 알고리즘이 제일 성능이 좋은 것을 확인할 수 있습니다.

5. 데이터 예측

새로운 모델을 만들어서 보스턴의 집 값을 예측해 보겠습니다.
[File]을 클릭하여 test.csv 파일을 업로드합니다.
test.csv
11.5KB
train.csv 파일을 기계학습 모델과 연결한 후에 그 결과를 Predictions 위젯에 연결합니다. test.csv 파일 역시 Predictions 위젯에 연결합니다. 이는 train.csv파일로 기계학습을 마치고 주택 가격(medv) 속성이 없는 test.csv 파일의 주택 가격을 예측하는 것입니다.
연결 후에 Predictions 위젯을 클릭하면, 예측한 결과가 나옵니다.
속성이 주어 졌을 때, 주택 가격을 예측하는 예제를 학생들의 학습 자료에 넣었습니다.
오렌지3를 사용한 주택 가격 예측 의의
이렇게 해서 다양한 특징(feature)을 통해 목표변수(target)를 찾게 되었습니다. 속성 간의 연관관계가 있을 때, 적절한 데이터 모델을 적용할 때, 목표 값을 예측할 수 있다는 것을 알 수 있습니다.
중학생 아이들이 코딩 없이 위젯 아이콘을 활용해서 빅데이터를 다룬다는 점, 지도학습(인공지능-머신러닝)을 활용하여 목표 값을 예측한다는 점에서 의미가 있습니다. 학생들도 굉장히 재밌어하고요.
다만, 빅데이터에서 속성의 의미, 속성 간의 관계, 데이터 모델의 원리, 성능 비교를 어렵지 않게 가르쳐주는 것이 필요합니다.
아래의 자료는 실제 방과 후 수업에서 진행한 수업자료(ppt)와 활동지(hwp)입니다.
첫 번째 첨부 링크와 수업자료(ppt)는 같은 내용입니다.
edit?usp=sharing
6장. 주택가격예측(오렌지3).pptx
10694.1KB
23-2학기_방과후 수업 6회차.주택가격예측(오렌지3).hwp
190.0KB