Machine Learning
기계와 공학의 발전은 다양한 산업 분야에서 혁신적인 변화를 가져왔으며, 특히 자동화의 도입은 생산성과 효율성을 크게 향상시켰다. 과거에는 주로 물리적인 작업의 기계화가 중심이었지만, 오늘날 인간의 의사결정과 문제 해결 능력을 보조하거나 대체할 기술이 중요해지고 있다. 이와 같은 요구에 부응하여 등장한 것이 바로 머신러닝(Machine Learning)이다. 머신러닝은 데이터를 활용하여 패턴을 학습하고, 이를 바탕으로 미래를 예측하거나 복잡한 문제를 해결할 수 있는 기술이다. 이는 단순한 자동화를 넘어, 스스로 학습하고 진화할 수 있는 시스템을 가능하게 하며, 현대 사회의 다양한 문제를 해결하는 데 핵심적인 역할을 하고 있다.
머신러닝(Machine Learning)은 기계를 이용한 자동화의 일종으로, 컴퓨터가 지식을 학습하여 데이터로부터 예측(prediction)을 만드는 것을 말한다. 즉, 가설 함수(Hypothesis)를 찾아, 임의의 input에 대해 가설함수에 의해 추론된 예측을 반환하는 모델(model)이라 불리는 컴퓨터 아키텍처를 설계하는 것이다.
AI, Machine Learning, Deep Learning
1. 인공지능(AI, Artificaial Intelligence)
인공지능은 인간의 지능을 모방하여 문제를 해결하거나 의사결정을 내릴 수 있는 시스템을 만드는 기술이다. AI는 크게 Narrow AI와 General AI로 나뉜다.
- 좁은 인공지능(Narrow AI) : 특정 태스크(Task)에 특화된 모델(Ex. 의료 이미지 분류, 제품 추천)
- 일반 인공지능(General AI) : 인간과 같이 대부분의 태스크에서 수준 높은 성능을 발휘하는 모델
일반 인공지능은 현재 연구가 진행 중인 수준이며, AGI(일반 인공지능)의 발달에 따른 일자리 감소 및 윤리적 문제가 전망되고 있는 상황이다. AI는 위와 같이 두 갈래로 구분되며, 이들을 구현하는 방식에 따라 하위 개념으로 ML, DL로 구분하게 된다.
AI ⊃ ML ⊃ DL
(머신러닝은 AI의 하위 개념이고, DL은 ML의 하위 개념이다.)
2. 머신러닝(ML, Machine Learning)
머신러닝은 AI의 한 분야로, 데이터에서 스스로 규칙을 파악해 패턴을 찾고 예측을 만들어 내는 방법이다. 사실 AI의 범주는 굉장히 넓다. 기존의 PS에서 알고리즘을 통해 입력을 받아 출력을 생성하는 방식 또한 명시적인 규칙과 로직을 인간이 설계해준 '약인공지능'에 해당한다. 이러한 넓은 범주의 AI 중에서, 데이터에서 스스로 규칙을 파악하는 방식을 ML로 부르는 것이다.
$ x (input) $ → $ h(x) (hypothesis) $ → $ y (output) $
(머신러닝의 구조, h(x)의 파라미터(계수)를 스스로 예측하여 h(x) 함수를 만들어낸다.)
머신러닝은 데이터의 종류에 따라 여러 가지의 방식으로 구분된다. Supervised Learning, Unsupervised Learning, 그리고 Reinforcement Learning이 그것이다.
- Supervised Learning(지도학습) : 정답이 존재하는 데이터를 통한 학습(labeled data) (Ex. 개와 고양이 사진 분류)
- Unsupervised Learning(비지도학습) : 정답이 없는 데이터를 통한 학습, pattern을 찾는 것이 중요(Ex. 스팸 메일 찾기, 단 데이터셋에서 어느 메일이 스팸인지는 모른다.)
- Reinforcement Learning(강화학습) : 보상과 벌칙을 통해 최적의 행동을 학습하는 방식 (Ex. 알파고)
일반적으로 지도학습이 훨씬 직관적이고 쉽게 느껴질 것이다. 지도학습은 마치 수학 문제를 푸는 것과 같다. 머신러닝 모델이 '수학 문제를 푸는 학생'이라고 생각하자. 이 학생은 수학 문제집을 통해 문제를 풀고(추론) 답을 확인하여 맞았는지 판단한다.(검증) 그리고 틀린 문제들에 대해 틀린 이유를 점검하며(학습) 성적을 향상시킨다. 앞으로 후술할 인공지능 글들에서 수학 문제를 푸는 학생을 예시로 들어 설명할 것이다.
비지도학습은 정답이 없는 데이터에 대한 학습 과정이다. 대표적인 예시로는 클러스터링(Clustering, 군집화)이 있다. 예를 들어 스팸 메일을 판단하고자 하는데, 현재 가지고 있는 메일 데이터에는 각 메일이 스팸인지 여부가 표시되어 있지 않은(unlabeled) 상황이다. 각 메일의 유사도(similarity)를 계산하여 비슷한 메일들을 그룹화(군집화)하고, 이를 통해 각 그룹에 정상 메일, 스팸 메일이라는 label을 붙이면 분류가 가능하다. 자세한 내용은 클러스터링 글을 참고하면 좋을 것이다.
강화학습은 보상과 벌칙을 통해 최적의 행동을 학습하는 방식이다. 일반적으로 알려진 모델 학습법은 Q-Learning이라는 방식으로, Agent가 어떤 행동을 하였을 때 해당 행동에 맞는 보상이나 벌칙을 받고 이를 바탕으로 보상을 최대화하는 최적의 전략 혹은 행동을 찾는 알고리즘이다. 강화학습은 일반적인 지도학습과는 결이 많이 다르기 때문에 머신러닝의 세부 항목으로 분류되며, ML에서의 독립적인 연구 분야로 존재한다.
머신러닝 모델의 성능에는 데이터의 품질(양, 데이터의 오차 등), 모델의 복잡도 등이 큰 영향을 미친다.
3. 딥러닝(DL, Deep Learning)
딥러닝은 머신러닝의 하위 분야로, 특이한 형태의 머신러닝이다. 바로 인공신경망(ANN, Artificial Neural Networks)을 이용한 머신러닝을 따로 딥러닝이라고 명명하여 부르는 것이다. 딥러닝은 데이터를 인공신경망으로 학습하여 대규모 데이터 및 복잡한 타입(자연어, 음성 등)의 데이터를 처리하는데 큰 강점을 보인다.
- 인공신경망(ANN) : 생물학적 뉴런 구조를 모방한 알고리즘
- 합성곱신경망(CNN) : 이미지 처리에 특화된 딥러닝 모델, 합성곱 연산을 이용함(나의 주 공부 분야이다...)
- 순환신경망(RNN) : 시간적 순서(Temporal Dependency)에 의존하는 데이터를 처리하는데 사용하는 모델(자연어 등)
인공신경망은 뉴런들의 연결로 구성된 네트워크로, 복잡한 데이터의 추출과 계층적인 특성의 학습에 용이한 구조이다. 따라서 ML 연구 분야에서도 major한 분야로서 성장하였고, ANN을 기반으로 CNN, RNN, GNN 등의 분야가 나타나게 되었다. 이후 각 분야의 독립적인 발전이 이루어지던 와중, Transformer라는 모델이 등장하였고, RNN에서 발생하던 local dependency(지역적 의존성, 추후 글에서 다룬다)에 대한 문제가 해소되면서 자연어 처리 분야의 주 모델로 자리잡게 되었다. 이후 이미지를 16 x 16 크기로 분할하여 Transformer에 입력하는 ViT(Vision Transformer)가 등장하며 이미지 처리 분야에서도 CNN을 대체하고 주 모델로 자리잡았다.
AI의 발전 동향
초기의 인공지능의 발전은 자동화를 목적으로 하여, 각각의 태스크에 맞춤화된 알고리즘을 인간이 임의적으로 설계하는 수준이었다. 예를 들어 숫자 이미지를 보고 어떤 숫자인지 판별하는 알고리즘을 구현하는데에 있어서는 인간이 직접 그 규측을 모양을 통해 파악하여 구현하였다. (만약 1의 이미지라면 이미지에 y축 방향으로 긴 모양이 있는지 확인하는 식이다.) 마치 알고리즘 문제를 해결하듯이 말이다.
머신러닝의 발달로, 이제는 예측(prediction)을 생성하기 위한 규칙을 기계가 직접 추론하도록 만들고자 하였다. 예를 들어 공정의 온도와 습도에 따른 공정 기계 고장 여부를 판별하기 위해 "온도가 ~~ 이상이고 습도가 ~~ 이하이면 고장이다"와 같은 기준을 인간이 설정하는 것이 아닌, 기계가 직접 파악하도록 하는 방법을 설계하였다.
딥러닝은 좀 더 높은 수준의 자동화를 제공하였다. 데이터를 머신러닝 모델이 처리할 수 있도록 잘 변형(전처리, preprocessing, 추후 글에서 다룬다)해주는 과정은 여전히 인간이 수작업으로 진행하였는데, 이것마저 자동화할 수 있게 되었다. 딥러닝은 raw data를 입력하면 전처리 과정이 필요없이 예측을 생성할 수 있다.
이제는 강인공지능의 시대가 다가오고 있다고 이야기한다. 앞서 말한 딥러닝의 발달과 여러 딥러닝 아키텍처들은 특정 태스크(이미지 분류, 회귀 분석, 수익 예측, 대화형 챗봇)에 맞추어 설계되었다면, 강인공지능(일반 인공지능)은 모든 분야에서 인간을 능가하는 수준의 인공지능이다. 마치 현재의 ChatGPT가 글을 요약하고 이미지를 생성하고 음성을 인식하는 것과 흡사하지만, 이를 훨씬 능가하여 수학 문제의 규칙을 추론하고, 이해에 기반한 문제 해결이 가능해지는 것이다.
이와 같은 발전은 인공지능과 인간의 경계에 대한 윤리적 문제와 더불어 관련 법률 제정, 일자리 문제 등 다양한 문제를 초래할 가능성이 있으며 이를 해결하기 위해서는 관련 법, 사회적 인식과의 균형적인 성장이 중요할 것으로 전망된다.
'인공지능 > 머신러닝' 카테고리의 다른 글
[Machine Learning] 2. Linear Regression(선형 회귀) (0) | 2025.01.04 |
---|---|
[Machine Learning] 1. 데이터의 분석 : 데이터 전처리 (0) | 2025.01.04 |