인공지능(Artificial Intelligence)
- 어떠한 인공물에 대해서 인간과 같은 지적인 활동을 할 수 있도록 지능을 부여하는 것
- 인간의 지능적인 활동을 할 수 있도록 컴퓨터를 구현하는 것
- 계산모델을 이용하여 정신적 기능을 연구하는 학문 - Charniak
- 컴퓨터가 지능을 가질 수 있도록 하는 아이디어를 연구하는 학문 – Winstone
- 인간의 지능을 필요로 하는 작업을 처리할 수 있는 기계를 만드는 학문 – Minsky
- 인간의 지능적 측면 즉, 기계가 잘할 수 있는 계산 같은 것이 아니라 기계는 하기 힘들지만 인간은 비교적 쉽게 잘 할 수 있는 것들, 예를 들면 추론, 인식, 지각과 같은 것을 모의 실험할 수 있는 기계 알고리즘을 만드는 학문 – Callan
머신러닝(machine learning)
- 데이터로부터 학습하도록 컴퓨터를 프로그래밍하는 분야
- "명시적인 프로그래밍 없이 컴퓨터가 스스로 학습하는 능력을 부여하는 것" - Arthur Samuel
- 과거 경험에서 학습을 통해 얻은 지식을 미래의 결정에 이용하는 컴퓨터 과학의 한 분야
- 관측된 패턴을 일반화하거나 주어진 샘플을 통해 새로운 규칙을 생성하는 목표를 가짐
머신러닝 - 학습 종류에 따른 분류
기계학습 문제들을 학습 종류에 따라 3가지로 나눌 수 있다.
특히, 레이블(label)의 유무에 따라 지도학습과 비지도학습으로 나뉘는데, 여기서 레이블이란, 학습 데이터의 속성을 무엇을 분석할 지에 따라 정의되는 데이터를 뜻한다.
1. 지도 학습(Supervised Learning) ✅
사람이 교사로써 각각의 입력(x)에 대해 레이블(y)을 달아놓은 데이터를 컴퓨터에 주면 컴퓨터가 그것을 학습하는 것이다.
- 학습 데이터가 입력(특징 행렬)과 출력(대상 벡터) 쌍으로 제공됨 → "레이블 데이터"
- 학습목표는 입력 특징 행렬과 출력 대상 벡터를 매핑시키는 규칙을 찾는 것임
- 입력 특징 행렬에 대해 출력 대상 벡터가 알려져 있으므로 '지도'라 부름
2. 분류(Classification)
- 분류(Classification) - 정해진 라벨에 따라 나뉘는 것(두 가지 혹은 세 가지 중 하나로 값 나옴)
- 집 값 예측할 때 - (고가 / 저가)
- 암 진단 - (암 확진 / 정상)
- 공부한 시간 예측 - (시험 통과 / 불통과)
- 스팸 메일 : 스팸 / 정상
3. 회귀(Regression)
레이블 y가 실수인 경우 회귀문제라고 부른다. 보통 엑셀에서 그래프 그릴 때 많이 접하는 바로 그것이다.
데이터들을 쭉 뿌려놓고 이것을 가장 잘 설명하는 직선 하나 혹은 이차함수 곡선 하나를 그리고 싶을 때 회귀기능을 사용한다. 잘 생각해보면 데이터는 입력(x)와 실수 레이블(y)의 짝으로 이루어져있고, 새로운 임의의 입력(x)에 대해 y를 맞추는 것이 바로 직선 혹은 곡선이므로 기계학습 문제가 맞다.
통계학의 회귀분석 기법 중 선형회귀 기법이 이에 해당하는 대표적인 예이다.
- 회귀(Linear Regression)
- 집 값 예측할 때 정확한 가격으로 구분할 때 - (8억 2천, 9억, ...)
- 그래프 선 상에서 특정 점으로 표시할 수 있는 것
- 공부한 시간 예측 - 공부 시간에 따른 시험 성적(15시간 공부할 때 시험 성적 80점, 70점, ...)
- 가격예측 : 30만원
- 온도 : 38.7도 모두 선상에 표시할 수 있기 때문!
- 알고리즘 종류
- k-최근접 이웃, 선형 회귀, 로지스틱 회귀, 서포트 벡터 머신, 결정 트리와 랜덤 포레스트, 신경망
비지도 학습(Unsupervised Learning)
사람 없이 컴퓨터가 스스로 레이블 되어 있지 않은 데이터에 대해 학습하는 것. 즉 y없이 x만 이용해서 학습하는 것이다. 정답이 없는 문제를 푸는 것이므로 학습이 맞게 됐는지 확인할 길은 없지만, 인터넷에 있는 거의 모든 데이터가 레이블이 없는 형태로 있으므로 앞으로 기계학습이 나아갈 방향으로 설정되어 있기도 하다. 통계학의 군집화와 분포 추정 등의 분야와 밀접한 관련이 있다.
- 비지도 학습은 주어진 데이터에 대한 결과가 없는 데이터를 이용해 주어진 데이터에 내재된 패턴, 특성, 구조를 찾아서 학습
- 학습 데이터만 넣어주면 스스로 학습하기 대문에 편리하지만, 지도 학습에 비해 결과가 항상 좋지 않음
- 군집(Clustering) 문제에서 사용
- 라벨 제공 X( Data 제공) → 정답이 없기 때문에 성능 보장 X
준지도 학습 (Semi Supervised Learning)
- 레이블이 표시된 데이터와 표시되지 않은 데이터를 모두 훈련에 사용하는 것을 의미
- 대개의 경우 이러한 방법에 사용되는 훈련 데이터는 레이블이 표시된 데티어가 적고 표시되지 않은 데이터를 많이 가지고 있는 상황에서 주로 이용(예: 이상 감지)
강화 학습(Reinforcement Learning)
- 에이전트의 동작이 적절한지에 대한 피드백을 반영하면서 학습
- 에이전트가 특정 환경에서 현재의 상태를 인식하여, 보상이 최대화되는 행동을 수행하도록 학습하는 방법
요약 정리!
- 인공지능(Artificial Intelligence)
사고나 학습 등 인간이 가진 지적 능력을 컴퓨터를 통해 구현하는 기술
- 머신러닝(Machine Learning)
컴퓨터가 스스로 학습하여 새로운 규칙을 생성
- 딥러닝(Deep Learning)
사람의 정보처리 매커니즘을 모방하여 정보를 처리하는 방법
'AI > 머신러닝' 카테고리의 다른 글
[머신러닝] 데이터 전처리 | 표준화, 정규화 (0) | 2022.04.12 |
---|---|
[머신러닝] K-최근접 이웃(K-NN) 분류 알고리즘 - 실습 (0) | 2022.04.11 |
[머신러닝] K-최근접 이웃(K-NN) 분류 알고리즘 (0) | 2022.04.11 |
[머신러닝] 데이터셋 다루기 (0) | 2022.04.11 |
[머신러닝] 머신러닝과 scikit-learn 개요 (0) | 2022.03.15 |
댓글