상세 컨텐츠

본문 제목

혼공학습단 10기 머신러닝 배워보자

혼공학습단

by 공돌이주인 2023. 7. 1. 17:31

본문

7월 3일부터 시작되는 혼공학습단 10기!!

나의 멘토님께서 추천과 함께 책까지 받아서 빨리 시작하게 되었다. 

 

이번 주 혼공머신러들의 학습목표는 colab 시작과 Chapter 1~2이다.

나는 기존에 Pycharm과 Colab으로 학교에서 project를 해봐서 책의 초반 부분은 빠르게 이해할 수 있었다. 

개발환경으로 이 책에서 colab을 이용했는데 colab의 장점은 기본적인 라이브러리를 따로 설치하지 않아도 무료로 지원을 해준다는 것이다. 그리고 구글에서 지원하여 접근성이 매우 좋다. 또한 노트북으로 개발을 할 때 성능이 받쳐주지 않아 하지 못하는 경우도 있는데 colab의 google은 gpu를 무료로 지원해줘서 간단하게 해결 가능하다.

 

이 책의 첫 번재 머신러닝 문제는 생선 분류 문제이다. 간단하게 도미와 빙어 2개를 분류하여 문제를 해결하는 과정을 가졌다.

첫 번째 머신러닝
chapter2

chapter1~2에서 사용하는 알고리즘은 knn(K-최근접 이웃) 알고리즘을 사용한다. 인접한 샘플을 기반으로 예측을 수행하는 가장 간단하게 학습이 가능해 머신러닝 초보자가 시작할 때 쓰기 좋은 것 같다.

 

chapter2에서 배열을 통해 데이터를 분류할 때 numpy를 이용하는데, 행렬을 배운지 오래되어 이해하기까지 시간이 꽤나 걸렸다. 하지만 책의 초반부분은 아주 기초적인 부분이니 열심히 해야한다. 

 

확인문제(Chapter2-1)

1. 머신러닝 알고리즘의 한 종류로서 샘플의 입력과 타깃(정답)을 알고 있을 때 사용할 수 있는 학습 방법은 무엇인가요?

1 지도학습          2 비지도학습            3 차원축소             4 강화학습

답은 1번 지도학습이다. 샘플의 입력과 타깃을 알고 데이터를 학습시키면 지도학습, 타깃을 제외하고 입력만 학습시킨다면 비지도학습 알고리즘이라 한다.

 

2. 훈련 세트와 테스트 세트가 잘못 만들어져 전체 데이터를 대표하지 못하는 현상을 무엇이라고 부르나요?

1 샘플링 오류          2 샘플링 실수            3 샘플링 편차             4 샘플링 편향

답은 4번 샘플링 편향이다. 훈련 세트와 테스트 세트가 잘못 만들어 진다면 표본이 대표성을 띄지 못하고 편향되는 문제가 생긴다.

 

3. 사이킷런은 입력 데이터(배열)가 어떻게 구성되어 있을 것으로 기대하나요?

1 행 : 특성, 열 : 샘플         2 행 : 샘플, 열 : 특성          3 행 : 특성, 열 : 타깃           4 행 : 타깃, 열 : 특성

답은 2번이다. 사이킷런은 샘플이 행, 특성이 열로 구성되었다면 판단한다.

관련글 더보기