반응형
지난 글 https://10yp.tistory.com/manage/newpost/142?type=post&returnURL=https%3A%2F%2F10yp.tistory.com%2F142 https://10yp.tistory.com/manage/newpost/142?returnURL=https%3A%2F%2F10yp.tistory.com%2F142&type=post 10yp.tistory.com 에서는 많은 피처들이 있는 것을 파악하고, 타겟의 데이터 분포 형태와 타겟과 피처간의 관계의 경향성을 파악하였습니다. 이렇게 파악한 정보를 바탕으로 세부적으로 피처를 선별하여서 타겟 예측에 활용할 수 있습니다. 이번에는 1차적으로 선별된 피처들을 바탕으로 타겟과의 관계를 파악해보겠습니다. 지난 글에서 타겟과 피..
서론 데이터를 접하다보면, 피처가 많은 경우가 있습니다. 너무 많은 피처를 어떻게 선택할 것인지, 그리고 어떻게 다룰 것인지에 대해 알아보겠습니다. 예시로 캐글의 대회 중 House Prices - Advanced Regression Techniques 데이터를 활용하겠습니다. https://www.kaggle.com/competitions/house-prices-advanced-regression-techniques House Prices - Advanced Regression Techniques | Kaggle www.kaggle.com 1. 데이터 파악하기 데이터 프레임을 train로 지정하였습니다. train = pd.read_csv('train 데이터 경로/train.csv') train.sha..
서론 내일배움카드는 재직자들, 실업자, 대학교 3,4학년, 취업준비생 등 다양한 상황에 놓인 사람들에게 배움의 기회를 제공합니다. 다양한 활용 방법이 있지만, 저는 데이터 사이언스를 비롯한 IT에 관심이 있어 이에 해당하는 강의를 들었습니다. 강의를 듣다보니 너무 좋아서 정보 공유를 하고 싶어 이 글을 작성하였습니다. 이 글을 통해 어떤 강의를 추천하는지, 그리고 강의를 듣기위한 정보를 공유하겠습니다. 강의 추천 저는 패스트 캠퍼스에서 진행하는 강의들을 들었습니다. 100% 온라인 교육이고, 금액을 지불해야하지만, 강의 완료 등 조건을 만족하면 전부 환급을 해주기 때문에 무료라고 볼 수 있습니다. 블렌더, ChatGPT, 파이썬, 플루터 등 다양한 툴에 대한 강의가 있습니다. 강의를 고르기 위해서는 hr..
서론 머신러닝 모델을 개발하는 과정은 마치 예술가가 작품을 완성하는 과정과 비슷합니다. 데이터 스플릿, 모델 선택 및 학습, 모델 검증 및 하이퍼파라미터 튜닝 등은 모두 머신러닝 모델을 '그리는' 과정이라 할 수 있습니다. 이러한 과정을 거친 후, 우리는 마침내 모델이 '완성'되었다고 말할 수 있습니다. 그러나, 이 모델이 실제로 얼마나 잘 작동하는지, 그리고 어떤 성능을 발휘하는지는 어떻게 알 수 있을까요? 이를 확인하기 위해서는 모델의 '성능 평가'가 필요합니다. 성능 평가는 머신러닝 모델이 데이터를 얼마나 잘 이해하였는지, 그리고 새로운 데이터에 대해 얼마나 정확한 예측을 하는지를 확인하는 과정입니다. 이를 통해 우리는 모델이 가진 한계를 파악하고, 이를 개선하는 방향으로 나아갈 수 있습니다. ..
머신러닝 후반전 데이터 스플릿(Data Split) → 모델 선택 및 학습 → 모델 검증 및 하이퍼파라미터 튜닝 → 성능 평가 서론 이전에 머신러닝의 기초적인 부분, 데이터 전처리 및 모델 학습에 대해 상세히 알아보았습니다. 그런데 학습만큼 중요한 것이 바로 '검증'입니다. 그리고 검증 과정에서 나오는 결과를 통해 모델을 더욱 개선하는 것, 이것이 바로 '하이퍼파라미터 튜닝'입니다. 이번 글에서는 바로 그 두 주제, 머신러닝(Machine Learning) 후반전 - 모델 검증 및 하이퍼파라미터 튜닝에 대해 알아보려 합니다. 모델이 잘 학습하고 있는지, 그리고 그 성능을 더욱 향상시킬 수 있는 방법은 무엇인지 함께 살펴보며, 머신러닝을 한층 더 깊게 이해해보려고 합니다. 그럼 그동안 우리가 함께 쌓아..
사이킷런 홈페이지: https://scikit-learn.org/stable/ scikit-learn: machine learning in Python — scikit-learn 1.3.2 documentationModel selection Comparing, validating and choosing parameters and models. Applications: Improved accuracy via parameter tuning Algorithms: grid search, cross validation, metrics, and more...scikit-learn.org 서론 머신러닝 알고리즘은 컴퓨터가 데이터를 통해 학습하고 예측을 수행하게 해주는 방법들을 말합니다. 대표적으로 지도 학습, 비지도..
공부를 시작하게 된 계기 빅 데이터의 활용도와 효율성이 저의 업무에서도 중요성을 가지게 될 것이라는 예상을 하였습니다. 과거에는 취업과 30대를 위한 준비를 위해 공부를 해왔지만, 이제는 40대 이후의 삶을 위한 공부를 해보고자 하였습니다. 입문 과정 직장 생활과 병행하여 독학을 하는 것은 쉽지 않았습니다. 유튜브와 다른 강의들을 찾아보며 공부하였지만, 무엇을 공부해야 할지, 어디서부터 시작해야 할지 명확하게 알지 못하였습니다. 이 과정에서 제가 제조업의 데이터 사이언티스트가 되고자 한다는 목표를 세우게 되었고, 머신러닝, 딥러닝, 클러스터링, 분류, 회귀 등, 처음에는 생소했던 개념들에 대해 어느 정도 이해하게 되었습니다. 그동안의 공부의 한계점 그러나 제가 해온 공부는 조금 단편적이었습니다. 전..