티스토리 뷰
위 포스트는 정보문화사에서 출판한 책 <파이썬 딥러닝 파이토치>의 내용을 바탕으로 작성되었습니다.
인공지능의 사례에는 어떤 것이 있을까?
1. 이미지 분류
인간이 이미지를 분류하는 성능은 약 95% 정도로 알려져 있다. 이런 인간의 능력을 따라잡기 위해 많은 연구자들은 어떻게 하면 인간 또는 그 이상으로 딥러닝이 이미지를 분류하는 성능을 낼 수 있을까 고민했다. 많은 연구 끝에 96%의 성능을 기록한 'ResNet'이라는 모델이 만들어졌다. 그 이후에도 딥러닝 모델은 계속 발전하여 단순히 이미지를 분류하는 것을 넘어 다양한 분야와 방식으로 발전하고 있다.
2. 객체 탐지(Object Dectection)
객체 탐지는 어떤 이미지 및 비디오 속에 포함되어 있는 물체에 대해 해당 물체가 어떤 물체인지를 분류하는 문제와 물체의 위치를 찾아내는 문제이다. 딥러닝 모델은 이미지 및 비디오 내 특정 물체의 위치 정보를 X, Y 좌푯값과 물체의 크기인 Width, Height 값을 레이블 정보로 이용해 학습한다 (연구자들은 (X,Y,W,H) 정보를 보통 Bounding Box라 표현한다).
3. 텍스트
텍스트 분야에서도 딥러닝이 꾸준히 연구되고 있다. 텍스트 분야는 세부 Task로 나뉘어 연구가 진행됏는데, 대표적인 예로는 다음과 같은 것을 들 수 있다.
(1) 기계 번역(Machine Translation)
(2) 문장/문서 분류(Sentence Classification)
(3) 질의 응답 시스템(Question & Answer System, Q/A)
(4) 개체명 인식(Named Entity Recognition, NER)
텍스트 분야에서는 인간의 성능을 따라잡기 어려웠다. 텍스트 Task는 배경 지식이 요구된다는 어려운 점이 있었고 사용되는 순환 신경망(RNN) 계열의 모델 한계 역시 해결해야 할 문제 중 하나였다. 하지만 2017년 구글이 발표한 <Attention Is All You Need>라는 논문의 'Transformer Module' 연구를 시작으로 인간의 성능을 넘어서는 'Language Model'이 개발되기 시작했다. 최근의 학계에서는 다양한 분야의 추가 연구, 산업계에서는 이와 관련된 서비스나 제품 연구가 활발히 이뤄지고 있다.
4. 알파고
알파고의 기본원리는 강화학습(Reninforcement Learning)으로, 현재 상태(바둑판)에서 어떤 행동(수)을 취해야 먼 미래에 보상이 최대(승리)가 될 것인지를 학습하는 알고리즘이다. 이 강화학습 알고리즘을 통해 무한대에 가까운 수를 시뮬레이션할 수 있었다.
5. Generative Adversarial Networks(GAN)
GAN은 데이터를 예측하는 걸 넘어 데이터를 직접 생성해내는 모델이다. 최근에 연구되고 있는 GAN의 성능은 이미 인간의 눈으로 구분하지 못할 정도의 고품질의 이미지/텍스트를 생성해낸다. GAN의 등장은 기존의 학습구조(Input은 이미지, Output은 라벨)를 넘어 다양한 학습구조를 가능하게 했다(ex. Style Transfer, Deepfake).
* Style Transfer
딥러닝이 발전하면서 직접 찍은 사진을 고흐풍으로 바꿔준다거나, 낮 풍경의 사진을 밤 풍경으로 바궈주는 게 가능해졌다. 이러한 연구 분야를 'Style Transfer'라고 부른다. GAN이 발전하면서 Style Transfer에 GAN을 적용하기 시작했다(CycleGAN).
* Deepfake
GAN의 등장으로 엄청나게 발전된 딥러닝의 이미지 합성 관련 Task
'딥러닝' 카테고리의 다른 글
[Deep Learning] Dropout, Activation Function, Batch Normalization (0) | 2021.07.16 |
---|---|
[AI Background] 인공 신경망 & MNIST 실습 (0) | 2021.07.13 |
[AI Background] 과적합 (0) | 2021.07.11 |
[AI Background] 머신러닝의 정의와 종류 (0) | 2021.07.10 |
[파이토치 기초] 반드시 알아야 하는 파이토치 기본 스킬 - Autograd (0) | 2021.07.09 |