방송대 컴퓨터과학과 머신러닝 출석수업 과제물 정답

방송대 컴퓨터과학과 머신러닝 출석수업 과제물 정답

문제 1-1


문제 1-2

지도학습, 비지도학습, 준지도학습은 머신러닝에서 사용되는 패턴이나 규칙을 학습하는 학습법이다. 이와 같이 세가지 학습법이 있는 이유는 머신러닝에 사용되는 레이블의 유무와 자료의 특성에 따라서 머신 러닝의 정확성 혹은 자료의 해석이 달라지기 때문이다. , 자료에 레이블이 있어, 정답과 오답의 차이가 있는 경우에는 지도 학습으로 머신러닝 모델의 정확성을 높일 수 있다. 이러한 지도 학습은 또한 분류와 회귀 문제에 더욱 적합하다. 반면에, 비지도학습은 레이블이 없는 경우 혹은, 군집화, 차원축소, 이상 탐지등의 경우에 더욱 정확성을 높이거나 데이타에 대한 타당한 해석을 하기에 적합하다. 예컨데, 군집화의 경우, 지도 학습을 하기에는 일단 자료에 대한 레이블이 어렵워서 적절하지가 않다. 군집화가 얼마나 많이 어떤식으로 발생할 지 모르기 때문에 레이블이 어렵고, 이로 인해 미리 정답 유무를 정하는 지도 학습이 불가한 것이다. 이와 같이 지도학습고가 비지도 학습은 자료의 특성이나 패턴에 있어서, 즉 레이블의 유무와 자료의 종류에 따라서 매우 다른 차이를 보인다. 두 방법의 차이로 인해, 준지도학습은 일부만 레이블이 있는 경우에 사용할 것이라는 추측이 가능해진다. 즉 레이블이 일부는 존재하고 일부는 그렇지 않은 자료를 학습하는 경우에 적합한 방법이다.

 

문제 1-3

* 과다적합의 발생원인

과다적합은 머신러닝이 자료를 학습후 도출한 모델이 지나치게 제공자료에만 정확성을 보이는 현상이다. , 학습자료에 대해서는 정확한 모델이지만, 비학습자료에 대해서는 정확도가 떨어지는 경우이다. 이러한 일이 발생하는 가장 큰 이유는 학습자료의 양이 상대적으로 너무 작거나, 혹은 특정 자료에 대해서 너무 오랜시간 학습이 이루어진경우에도 과다정합이 발생한다. 자료의 양이 너무 적다거나 특정학습자료를 너무 많이 학습한다는 것은 실제로는 같은 의미이기도 하다. 또한 outlier 자료, 즉 어떤 특성이나 패턴을 벗어나는 노이즈 자료들로 인해 발생하기도 하는데, 이것은 자료의 복잡도가 너무 높은 경우에 발생한다. 예컨데, 자료가 y=x의 경계 라인으로 분류되는 단순한 자료일 경우에는 자료의 양이 적다한들 과적합(overfitting)이 발생하지 않는다. 그러나 복잡한 패턴의 자료는 그만큼 노이즈 자료의 가능성도 크기 때문에 과정합이 발생하게 된다.

* 과다적합의 해결책

과적합(overfitting)을 막는 것은 기본적으로, 위에서 언급한 과적합의 발생원인을 제거하는 것이라고 생각할 수 있다. , 학습자료의 양을 늘리고, 다양하게 할 수록 과적합은 발생하지 않는다. 과적합이라는 것이 특정자료에 대한 쏠림 현상이기때문에 충분히 많은 자료와 다양한 자료를 제공함으로써 특정자료에 대한 과적합을 막을 수 있다. 구체적으로는, 모델의 성능여부를 체크하여, 자료학습을 중지시키는 것도 과적합을 막는데 도움이 된다. 혹은, 특정 신경망이나, 무작위로 가중치 혹은 h value(threshold)를 조정하는 것도 방법이 될 수 있다. 이러한 방법으로 과적합이 일어난 모델 혹은 복잡도가 지나치게 높은 자료에 대한 과적합을 어느정도 막을 수 있다. 혹은 복잡도가 지나치게 높은 모델의 경우에 정규화를 강제하는 방법이다. 즉 특정자료에 대해 과적합이 발생할 때, 일정 수준의 정규화를 벗어나는 경우, 패널티를 부여하여 모델이 과적합하지 않고 정규분포 수준에서 머무르도록 하는 것도 방법이 될 것이다.

 

문제 1-4

특징추출이란 머신러닝 모델의 성능과 속도를 향상시키는 과정이라고 할 수 있다. 머신러닝이 학습하는 자료에는 위의 문제들을 풀면서 언급한 바와 같이 outlier도 있고, 지나친 과적합을 일으키는, 불필요한 복잡성을 높이는 자료도 포함되어 있다. 이러한 것을 일반적으로 노이즈 자료라고 하는 것도 이해했다. 이러한 노이즈자료들을 배제하는 것은 모델의 정확도를 높이는데 매우 중요한 과정이 되면서 또한, 모델의 작업과정 중 불필요한 학습과정의 축소, 다시말해 학습 차원을 축소하여, 속도를 높이는 데에도 매우 중요하다. 이와같은 특징추출을 함으로써 자료의 패턴이나 특징을 정확하게 반영하는 모델을 빌드하는 것이 가능하게 된다.

 

문제2-1

베이즈 분류기는 확률적 분포에 의한 예측이므로, 공식에 의거 선험 확률을 계산하고 그에 근거하여 후엄확률을 구하면 된다.

먼저P(C1|B)을 구하기 위해 베이즈 공식에 대입하면 아래와 같다.

P(C1|B) = p(B|C1) * p(C1) / p(B)

BC1에 속할 확률을 구하기 위해서, 먼저 분모 p(B)를 구하면, 표를 참조하면, A= 3, B= 3, C = 2개이므로 p(B) = 3/8이다. p(C1), C1 = 4, C2 = 4개 이므로 p(C1) = 1/2 이다.  p(B|C1) C14개이고 C1에 속하는 B는 표에서 보면, 1개 이므로 p(B|C1) = 1/4 이다. 이것을 베이즈 공식에 넣으면, 아래와 같다.

¼ * ½ / 3/8 = 1/3 이 나온다. ,  P(C1|B) BC1에 속할 확률은 1/3이다.

마찬가지 방법으로 P(C2|B), B C2에 속할 확률을 구하면

P(B|C2) * P(C2) / P(B) = P(C2|B) = 2/4 * ½ / 3/8 = 2/3 = P(C2|B) , 새로운 Xnew= B가 주어졌을때, C22/3의 확률로 속할 것이다.

 

문제2-2

K=4 최근접이웃으로 Xnew=(3,1)의 거리를 학습데이터로 유클리디안 거리로 계산하면, 공식에 따라 에 적용하면,

(x, y)

Xnew(3,1)

 

 

클래스

K=4

2

1

3

1

1.0

A

1.0

1

3

3

1

2.8

B

2.8

0

-1

3

1

3.6

A

 

3

3

3

1

2.0

B

2.0

-1

1

3

1

4.0

B

 

0

0

3

1

3.2

A

3.2

2

5

3

1

4.1

A

 

-1

2

3

1

4.1

B

 

1

5

3

1

4.5

A

 

4

5

3

1

4.1

B

 

 

K=4 인 경우 가장 거리가 가까운 클라스는 A B가 각각 2개씩 나왔다. 이때, A클라스의 합은 4.2 이고 B클라스의 합은 4.8이다(노란색으로 표시). 따라서 새로운 Xnew =(3, 1)은 최근접이웃 방식에 의해 A클라스에 속한다고 판단 할 수 있다.


댓글

이 블로그의 인기 게시물

image_insert_vba (vba로 만든 이미지 자동 삽입기)

IT 개발자 다이어리 - 2024년 6월 7일 금요일 / 날씨: 흐리다가 맑아짐

Privacy Policy(Chicken Fight - 닭싸움)