Search
Duplicate
🍭

[오렌지3 기본] 데이터로 보는 비디오 게임

Created
2023/12/12 03:06
Tags
롤리팝쌤
오렌지3
데이터분석
비디오 게임

데이터 탐색의 개요

1.
데이터 전처리
필요에 따라 [Select Columns] 위젯을 사용하여 중요한 변수들만 선택한다.
데이터의 누락값이나 이상치가 있는지 확인하고, 필요한 경우 처리한다.
2.
시각화 및 분석
[Bar Chart] 또는 [Pie Chart] 위젯을 사용하여 국가별 메달 수를 시각화한다.
[Scatter Plot] 위젯을 사용하여 선수들의 성적과 연령, 성별 등의 관계를 분석한다.

1. 데이터 탐색 및 기본 통계 분석

먼저 아래 링크로 들어가 데이터 분석을 할 데이터셋을 다운로드합니다.
데이터셋의 지역 속성
NA_Sales: Sales in North America (in millions)
EU_Sales: Sales in Europe (in millions)
JP_Sales: Sales in Japan (in millions)
Other_Sales: Sales in the rest of the world (in millions)
Global_Sales: Total worldwide sales.
① [File]을 클릭하여 다운로드 받은 ‘vgsales.csv’ 파일을 불러옵니다.
File: 데이터 로드
② [Visualize] - [Distributions]를 File과 연결하고 [Distributions]을 클릭하여 Variable을 ‘Genre’로 설정합니다.
Distributions: 'Genre'의 분포 시각화
비디오 게임 장르의 빈도를 나타내는 막대 차트입니다. '액션' 장르가 가장 높은 빈도를 가지고 있고, '스포츠' 장르도 상대적으로 높은 빈도를 나타내는 것으로 보입니다. 왼쪽 패널에는 'Rank', 'Platform', 'Genre' 등 여러 변수가 있으며, 북미(North America), 유럽(Europe), 일본(Japan), 기타 지역의 판매량(Sales)을 나타내는 데이터 포인트가 있습니다. 옵션에서 'Sort categories by frequency'를 사용하면 데이터 포인트를 빈도에 따라 정렬할 수 있습니다. Distribution 위젯은 사용자가 비디오 게임 판매 데이터를 분석하고, 다양한 장르의 인기를 비교하기 위해 사용될 수 있습니다.
③ [Visualize] - [BoxPlot]을 File과 연결하고 [BoxPlot]을 클릭하여 Variable을 ‘Global_Sales’로, Subgroups를 ‘Genre’로 설정합니다.
Box Plot: 'Genre'별 'Global_Sales' 시각화
북미(NA_Sales), 유럽(EU_Sales), 일본(JP_Sales), 기타 지역(Other_Sales), 그리고 전 세계(Global_Sales)의 판매 데이터에 대한 박스 플롯을 보여줍니다. 박스 플롯은 데이터의 분포, 중앙값, 이상치를 시각화할 때 유용합니다. 각 박스 플롯은 중앙의 선으로 중앙값을, 상자의 크기로 사분위 범위를, 그리고 세로선과 점으로 이상치 및 전체 범위를 나타냅니다.
이미지에 나와 있는 텍스트를 통해 각 장르의 평균 판매량과 표준편차를 볼 수 있습니다. 예를 들어, 'Role-Playing' 장르의 경우 평균이 약 0.632만 단위, 표준편차가 약 1.707만 단위입니다. 'Shooter' 장르는 평균이 약 0.7919만 단위, 표준편차가 약 1.817만 단위입니다. 'Platform' 장르는 평균 판매량이 약 0.938만 단위이며, 표준편차는 약 2.584만 단위입니다.
이러한 정보는 각 장르의 판매 성과 분포와 변동성을 이해하는 데 도움이 됩니다. 그래프 하단의 'ANOVA: 18.218 (p=0.000, N=16598)'는 분석된 장르들 간의 판매량에 통계적으로 유의미한 차이가 있다는 것을 나타냅니다. ANOVA(분산 분석) 결과의 p-값이 0.000이므로, 장르에 따른 판매량 차이는 유의미하다고 볼 수 있습니다. 전체 샘플 크기는 16,598입니다.

2. 지역별 판매 분석

① [Visualize] - [Mosaic Display]를 File과 연결하고 [Mosaic Display]를 클릭하여 Filter를 ‘Genre’, ‘NA_Sales’ 순서로 설정합니다.
(X축은 'Genre' 또는 'Platform'으로 설정할 수 있고, Y축은 각 지역의 판매량을 선택해야 합니다.)
Mosaic Display: 지역별 판매량과 장르 또는 플랫폼 간의 관계 시각화
모자이크 디스플레이는 변수 간의 관계를 시각적으로 나타내는 데 사용되며, 이 경우에는 비디오 게임 장르와 북미 지역의 판매량(NA_Sales)의 관계를 보여주고 있습니다.
모자이크 플롯은 각 칸의 면적이 관측된 빈도를 나타내며, 색상은 피어슨 잔차(Pearson residuals)를 나타냅니다. 피어슨 잔차는 예상 빈도와 관측된 빈도의 차이를 나타내는 값으로, 통계학에서 두 변수 간의 독립성을 평가하는 데 사용됩니다. 색상의 강도가 높을수록 잔차의 절댓값이 크다는 것을 의미합니다. 예를 들어, 빨간색은 예상보다 훨씬 낮은 빈도를, 파란색은 예상보다 훨씬 높은 빈도를 나타냅니다.
이미지에서 일부 장르가 특정한 색상으로 강조되어 있으며, 이는 북미 판매량이 특정 장르에서 예상과 크게 달랐음을 보여줍니다. 이러한 시각화는 데이터 내 패턴을 식별하고, 특정 장르가 예상치를 벗어나는 판매 성과를 보이는지 여부를 분석하는 데 유용합니다.

3. 시간대별 게임 판매 추세 분석

① [Data] - [File(1)]에 ‘vgsales.csv’를 불러옵니다. [Visualize] - [Scatter Plot]을 File(1)에 연결한 후 [Scatter Plot]을 클릭합니다. 이미지와 같이 Axes와 Attributes를 설정합니다.
Scatter Plot: 연도별 판매 추세 분석
'Scatter Plot' 위젯을 사용하여 'Year'와 'Global_Sales'에 따른 게임 판매 추세를 시각화 하였습니다.
② 특정 장르가 특정 지역 또는 전 세계적으로 어떤 성능을 보이는지 이해하기 위해 Axes를 각각 NA_Sales와 Global_Sales로 설정하고, Attributes는 Genre로 설정합니다.
대부분의 게임은 북미 판매량이 적은 범위(0~10백만)에 집중되어 있으며, 이는 전 세계 판매량 또한 낮은 것과 일치합니다.
몇몇 게임은 특히 높은 북미 판매량을 보여주며, 이는 전 세계 판매량 또한 높음을 나타냅니다.
특정 장르는 높은 판매량을 보이는 경향이 있으며, 이는 산점도 상에서 해당 색상의 점들이 오른쪽 상단에 위치하는 경향을 통해 확인할 수 있습니다.
이 프로젝트는 캐글(Kaggle)의 ‘Video Game Sales’ 데이터를 활용하여 비디오 게임 산업의 중요한 통찰력을 얻는 데 초점을 맞추었습니다. 학생들은 ‘Video Game Sales’ 데이터를 통해 다양한 게임, 플랫폼, 장르, 지역별 판매량 및 평점과 같은 핵심 지표를 분석하여 게임 산업의 동향과 특성을 파악할 수 있습니다. 결론적으로, ‘데이터로 보는 비디오 게임’ 프로젝트는 게임 산업의 현재와 미래를 이해하는 데 도움이 되는 중요한 분석을 제공할 것으로 기대됩니다.