18주차 화 1219 머신러닝 흐름
오늘부터 머신러닝(ML) 배운다..
심증을 증명하기위한 방법 중 머신러닝을 사용
설문조사 - 리서치회사 (데이타 탐색 - 탐색적 데이터 분석(EDA)) >> 파이썬을 이용하여 예측 진행
순수 데이터 분석하여 예측 - 기상청
이 행위가 어떤 행위인지 분석하는 기술적인 영역
영상분석 이미지분석 >> 딥러닝
I - IoT
C - Cloud
B - Big Data
M - Mobile
이 한세트가 되면 인공지능이 만들어진다
알고리즘 : 어떠한 문제를 해결하기 위한 일련의 절차나 방법
머신러닝 : 기계가 패턴을 학습하여 자동화하는 알고리즘
모델 - 라이브러리 - 클래스
클래스를 생성하면 모델이 생성됨
내가 데이터를 넣고 모델이 패턴을 찾는다.
머신러닝 딥러닝의 학습방법은 동일
앞으로 나올 라이브러리들은 현재 라이브러리의 업그레이드 버전일것이다.
-----------------------------------------------------------------------------------------------------------------------------------------------------
패턴 규칙 학습
머신러닝 : 데이터를 컴퓨터에 학습 시켜 그 패턴과 규칙을 스스로 학습하도록 만드는 기술
- 이전에는 사람이 지식을 직접 데이터베이스에화한 후 컴푸터가 처리하도록 프로그램으로 만듦
- 머신러닝은 데이터를 분류하는 수학적 모델을 프로그래밍하여, 데이터만 입력하면 이미 만들어진 수학 모델이 규칙적으로 적용되어 여러 문제를 풀 수 있음
딥러닝 : 머신러닝 기법 중 신경망을 기반으로 사물이나 데이터를 군집화하거나 분류하는 데 사용한는 기술
모델과 알고리즘
- 모델은 수식이나 통계 분포, 알고리즘은 모델을 산출하기 위해 규정화된 과정(훈련과졍 = 학습)
- 보통 하나의 모델은 다양한 알고리즘으로 표현할 수 있다.
- 때떄로 알고리즘은 하나의 수식으로 표현 가능하다.
머신러닝의 종류
- 지도학습 : 문제와 답을 함께 학습
- 비지도 학습 : 조력자의 도움 없이 컴퓨터 스스로 학습. 컴퓨터가 훈련 데이터를 이용하여 데이터들 간의 규칙성을 찾아냄
- 실제 답 의 존재 여부에 따라 구분
머신러닝 대분류 | 머신러닝 종류 | 설명 |
지도학습 | 회귀 (회귀모델 = 연속형 데이터/ 증감데이터) |
연속형 값인 y의 특징을 찾아 데이터x를 사용하여 y값을 예측하는 기법 |
분류(분류모델 = 범주형 데이터/ 구분데이터 - 남,녀 / 좋다, 나쁘다/ 10대, 30대) | 이산형 값인 y의 특징을 찾아 데이터x를 사용하여 y값을 예측하는 기법 | |
비지도 학습 | 군집(군집모델 = 연속형, 범주형 다 가능 / 주로 비지도 학습은 분류를 위해 사용/ 군집 분류) |
y값이 주어지지 않고 데이터의 특징이 유사한 값들의 모임을 군집으로 표현하는 기법 |
회귀
회귀 : 독립변수 x와 종속변수 y의 관계를 함수식으로 설명
- 추세선을 표현하는 수학적 모델을 만드는 기법
분류
분류 : 데이터를 어떤 기준(패턴)에 따라 나눔
- 이진분류 : 2개의 값 중 1개를 분류
- 다중분류 : 3개 이상 분류 실행
군집
군집 : 기존에 모여 있던 데이터에 대해 따로 분류 기준을 주지 않고 모델이 스스로 분류 기준을 찾아 집단을 모으는 기법
비슷한 수준의 농구팀 3개 만들기
-----------------------------------------------------------------------------------------------------------------------------------------------------------------### 데이터 처리
### 빙어와 도미 데이터
# - 생선의 종류를 분류(구분)하기 위한 모델 생성을 위해
# - 독립변수와 종속변수로 데이터를 가공해야함
# - 독립변수(x) : 길이, 무게
# - 종속변수(y) ; 생선종류(빙어 또는 도미)
### 훈련모델 처리 절차
# 1. 데이터 전처리
# 2. 데이터 정규화 (단위의 규칙성을 위해 함축하고 표준시킴 / 지수화 / 표준화 작업)
# 3. 훈련 : 검증 : 테스트 데이터로 분류 (또는 훈련 : 테스트 데이터로 분류)
# - 6 : 2 : 2 또는 7 : 2 : 1, 데이터가 작은 경우에는 8 : 2 또는 7 : 3 정도로 분류
# 4. 모델 생성
# 5. 모델 훈련(fit) (훈련 데이터와 검증 데이터 사용, 또는 테스트 데이터)
# 6. 모델 평가 (모델 선정, 검증데이)
# 7. 하이퍼파라메터 튜닝
# 8. 5번 ~ 6번 진행
# 9. 최종 테스트(예측, predict) (테스트 데이터 또는 새로운 데이터로 사용)