데이터 전처리 (3)
정의된 문제가 그룹으로 묶은 것을 집계해야하는 것과 관련이 있을 때, group_by 함수가 중요하게 사용된다. 이번 주차에는 dplyr 패키지에서 그룹으로 데이터를 묶을 수 있는 group_by에 대해 알아볼 것이다.
또한, 중복값, 결측치 및 이상치를 처리하는 방법에 대해 알아볼 것이다. 전처리 단계에 중복값을 제거하면 추후에 본격적으로 분석 단계로 넘어갈 때, 중복값을 일일이 제거하지 않아도 되어 시간 등의 비용 소비가 줄어든다. 결측치와 이상치는 처리하지 않으면 각각 전처리 후 분석하는 과정에서 오류가 생기거나, 데이터 내의 값에 관해 의사결정에 문제가 생길 수 있어, 이 둘을 처리하는 것은 필수적이다.