Search
Duplicate
🍭

[오렌지3 - 기본] 할로윈 사탕 선호도 데이터 분석

Created
2023/11/06 04:15
Tags
롤리팝쌤
할로윈
달콤살벌한 내 캔디
단계 1: 데이터 불러오기
데이터셋: 캐글의 'The Ultimate Halloween Candy Power Ranking' 데이터셋은 가장 인기 있는 할로윈 사탕을 파악하기 위해 수집된 데이터입니다. 참가자들이 두 가지 재미있는 사이즈 캔디 중에서 받고 싶은 것을 선택하도록 하는 웹사이트를 통해 데이터를 수집했으며, 총 8,371개의 다른 IP 주소에서 26만 9천 표 이상이 모였습니다.
‘File' 위젯을 열고, 다운로드한 할로윈 사탕 데이터셋을 불러옵니다.
데이터가 정상적으로 불러와졌는지 'Data Table'을 통해 확인합니다.
단계 2: 사탕 선호도 순위 매기기
'Rank' 위젯을 데이터셋에 연결하여 사탕별 선호도 순위를 확인합니다. 가장 인기 있는 사탕을 찾아보세요.
RReliefF 알고리즘은 데이터셋의 타겟 변수를 예측하는 데 각 특성(Feature)의 중요도를 평가하는 방법으로 사용됩니다. 이 알고리즘은 각 특성에 RReliefF 가중치를 할당하여, 해당 특성이 타겟(Target, 그림3 에선 승률(winpercent)) 변수 예측에 기여하는 정도를 수치적으로 나타냅니다.
peanutyalmondy: 0.341의 가중치를 가지며, 이 데이터셋에서 가장 중요한 특성으로 평가되었습니다.
chocolate: 0.326의 가중치로 두 번째로 중요한 특성입니다.
sugarpercent: 0.271의 가중치를 가지며, 세 번째로 중요한 특성으로 나타납니다.
fruity, pricepercent, bar, hard, caramel, crispedricewafer, nougat는 그 다음으로 중요한 특성들을 나타냅니다.
이러한 가중치를 통해, 예측 모델을 만들 때 어떤 특성들이 가장 유의미한 영향을 미칠 수 있는지에 대한 통찰을 얻을 수 있습니다. 예를 들어, 'peanutyalmondy'와 'chocolate' 같은 특성들은 캔디를 선호하는 데 있어서 중요한 역할을 할 수 있으며, 모델 학습에 있어서 우선적으로 고려될 수 있습니다.
단계 3: 데이터 시각화 및 탐색하기
1.
변수 간 상호작용 살펴보기:
‘Mosaic Display’ 위젯을 사용합니다.
(예) ‘chocolate’과 ‘fruity’와 같은 이진 변수들의 조합과 승률 사이의 관계를 시각화합니다.
2.
이진 변수의 분포 살펴보기:
‘Bar Chart’ 위젯을 사용하여 각 이진 변수에 대한 카운트를 시각화합니다.
이 그래프는 'fruity'와 'chocolate'의 모든 조합에서 승률을 비교하고 있습니다.
초콜릿이 없고 과일 맛이 없는 사탕은 파란색과 빨간색 영역으로 표시되어 있어, 이들의 승률이 가장 낮다는 것을 의미합니다.
초콜릿이 있지만 과일 맛은 없는 사탕은 주황색과 밝은 녹색으로 표시되어 있어, 이들의 승률이 더 높음을 보여줍니다.
초콜릿이 없지만 과일 맛이 있는 사탕은 주로 주황색으로 표시되어 있어, 중간 정도의 승률을 나타냅니다.
초콜릿과 과일 맛이 모두 있는 사탕은 주로 빨간색으로 표시되어 있어, 낮은 승률을 가지고 있음을 암시합니다.
이 바 차트는, 할로윈 사탕의 승률을 'chocolate' 성분이 포함되었는지 여부에 따라 그룹화하여 나타낸 것입니다. 바 차트의 x축에는 'chocolate'의 포함 여부에 따른 두 그룹이 있습니다, 0은 초콜릿이 포함되지 않은 사탕을, 1은 초콜릿이 포함된 사탕을 나타냅니다. y축은 'winpercent' 값으로, 각 사탕의 승률을 수치로 표현합니다.
차트의 파란색 바는 초콜릿이 포함되지 않은 사탕을, 빨간색 바는 초콜릿이 포함된 사탕을 나타냅니다. 각 바의 높이는 해당 사탕의 평균 승률을 나타내며, 이를 통해 초콜릿의 유무가 사탕의 인기에 어떤 영향을 미치는지 비교할 수 있습니다. 눈에 띄는 것은 초콜릿이 포함된 사탕들이 평균적으로 더 높은 승률을 가지고 있는 것으로 보입니다. 이 데이터 시각화는 사탕의 인기 요소 중 하나로 초콜릿 성분의 중요성을 강조하고 있습니다.
단계 4: 결정 트리를 사용해 분류하기
1.
데이터 준비:
‘Data Sampler’ 위젯으로 훈련 데이터와 테스트 데이터를 나눕니다.
2.
결정 트리 학습:
‘Tree’ 위젯을 사용하여 이진 변수를 기반으로 결정 트리를 만들고, 사탕의 승률을 예측합니다.
3.
트리 결과 해석:
생성된 트리를 ‘Tree Viewer’ 위젯으로 시각화하고, 어떤 변수가 승률 예측에 가장 중요한 영향을 미치는지 논의합니다.
노드에 표시된 숫자는 각 조건을 만족하는 캔디의 평균 승률과 그 표준 편차를 나타냅니다. 예를 들어, 'sugarpercent'가 0.313을 초과하고 'caramel' 성분이 있는 캔디는 평균 승률이 34.0%이며 그 표준 편차는 0.3이라고 할 수 있습니다.
‘2 instances’는 그 조건을 만족하는 캔디가 두 개 있다는 의미입니다. 이 의사 결정 트리는 캔디의 특성과 승률 사이의 관계를 파악하는 데 도움을 주며, 어떤 특성이 승률에 가장 큰 영향을 끼치는지 분석할 수 있게 해줍니다. 트리는 승률을 높이는 방향으로 데이터를 우선적으로 분할하며, 각 분기점은 승률을 최대화하는 조건을 나타냅니다.
이 프로젝트는 학생들에게 데이터 과학의 기본을 가르치면서 동시에 통계와 확률에 대한 개념을 강화하는 좋은 기회가 되는 것 같습니다. 또한, 데이터 시각화는 복잡한 데이터의 관계를 명확하게 이해하는 데 도움을 주며, 머신러닝 모델을 통한 예측은 수학과 과학적 사고를 실생활 문제에 적용하는 방법을 보여줍니다. 무엇보다, 캔디라는 주제는 학생들에게 친숙하고 흥미로우면서도, 데이터 과학의 핵심 개념을 효과적으로 전달할 수 있는 매개체가 되는 것 같습니다.
오렌지3 재미쪄용~