Priceless

[부스트코스] 컴퓨터 비전의 시작 본문

ComputerVision

[부스트코스] 컴퓨터 비전의 시작

Hyun__ 2023. 9. 18. 00:01

컴퓨터 비전(Computer Vision)

1. 정의

영상으로부터 영상의 본질을 찾아내는 것

영상에 콘텐츠를 입히는 CG(컴퓨터 그래픽스, Computer Graphics)와 반대되는 개념으로

Inverse Graphics라고도 한다

 

2. Perception(인식, 인지)

General Perception(일반적)

: Sight(시각), Sound(청각), Touch(촉각), Taste(미각), Smell(후각)

 

Social Perception(복합적)

: Face(표정), Touch(강도), Speech(말투)

 

3. 이미지 인식의 이상적 접근

모든 데이터를 가지고 있을 경우 맞출 수 있다

하지만 PC의 리소스는 제한적이기 때문에

방대한 데이터를 제한된 복잡도 이내에서 찾을 수 있어야한다

 

4. Convolutional Neural Networks

4-1. Fully-Connected Layer

모든 픽셀에 서로 다른 가중치를 곱한 후 합한다

이후 활성 함수를 통해 분류 스코어로 측정하는 방식

weight matrix를 이미지 크기에 맞춰 reshape한 후 FCL 적용

모든 이미지를 연산했을 때 평균이미지와 가장 유사한 이미지가 분류된다

이 방식의 문제점

레이어가 단순해서 평균 이미지 외의 입력 데이터는 알 수 없다

이미지가 잘리거나 데이터가 변형된 경우 알 수 없다

5. CNN

Locally connected neural network라 할 수 있다

전 영역을 순회하면서 필터가 특징을 뽑는다

 

이미지에 크기와 위치에 상관 없이 특징이 잘 뽑히므로 

민감하지 않게 반응한다

 

연산량에서도 줄어드는 장점이 있다

 


Image Classification(1): 개념

이미지 분류에서의 CNN의 구조

1. AlexNet

conv layer 2개, FC layer 2개

한 글자 단위를 인식

 

이후

7 layer 사용

ReLU 활성 함수 사용

더욱 많은 이미지 학습

 

병렬 연결: 과거에는 메모리가 부족하여 네트워크를 나누어서 학습

 

receptive field: 특정 층에서 한 필터가 나오는 데에 이전 층들에서 참조한 영역

 

2. VGGNet

16층 혹은 19층으로 깊은 layer

3x3 필터와 2x2 max 풀링 사용

 

더 깊고 단순한 구조, 더 나은 능력과 일반화 성능

 

input: 224x224  RGB 이미지

process: 3x3 conv with stride 1, 2x2 max pooling

3x3 conv를 사용하는 이유: 적은 파라미터로 더 깊은 학습이 가능

last: 3 FC layers

 

Image Classification(2): 대표 모델

1. GoogLeNet

1 x 1 convolution

 

2. ResNet

Depth

보통 층이 깊을 수록 에러가 커진다(오버피팅)

층이 매우 깊다

 

Hypothesis(가설)

 

3. Beyond ResNet

DenseNet

하위 맵에서 참조할 수 있도록 구현

SENet

채널 간의 관계로 

squeeze: 

excitation: 

 

EfficientNet

넓고 깊고 해상도가 높은 네트워크를 효율적으로 구현

 

Deformable Convolution

n x n convolution으로 진행되는 것이 아닌

비정형 filter를 사용하여 convolution을 수행한다

 

 

Image Classification(3): 모델 비교

1. CNN Backborn

googLeNet이 가장 효율적인 모델이지만 사용하기 어렵다

보통 VGGNet 이나 ResNet을 많이 사용한다

이를 활용하여

Image 분류만

Classification과 Regression을 동시에 하거나

pixel 분류를 통해 segmentation을 하는 등 활용 방안이 넓다

 

 


아래 사이트를 정리한 자료입니다

컴퓨터 비전의 모든 것 > 오리엔테이션 : 부스트코스 (boostcourse.org)

1강 컴퓨터 비전의 시작

2강 컴퓨터 비전과 딥러닝 - 영상 인식의 이해