Step 2 신경망의 첫걸음과 한계

단층 퍼셉트론(Single-Layer Perceptron)과 AI의 겨울을 불러온 XOR 문제

🧠 1. 뉴런의 해부: 가중치와 편향

1957년, 프랭크 로젠블랫이 개발한 퍼셉트론(Perceptron)은 인간의 뇌세포를 수학적으로 단순화한 최초의 인공 신경망입니다. 이것은 단순해 보이지만, 현대 딥러닝의 모든 기초가 되는 혁명적인 발명이었습니다.

🔬 퍼셉트론의 핵심 구성 요소

입력(Input, $x$): 뉴런이 받아들이는 신호들입니다. 예를 들어 이미지를 분석한다면 픽셀값들이, 날씨를 예측한다면 온도, 습도, 기압 등이 입력이 됩니다.

가중치(Weights, $w$): 각 입력의 중요도를 나타냅니다. 마치 여러 친구의 조언을 들을 때, 믿을 만한 친구의 말에 더 귀 기울이는 것처럼, 가중치가 큰 입력이 최종 결정에 더 큰 영향을 미칩니다.

수학적으로는 $w_1, w_2, ..., w_n$으로 표현하며, 학습 과정에서 이 값들이 계속 조정됩니다.

편향(Bias, $b$): 뉴런의 민감도 또는 활성화 장벽입니다. 편향이 크면 뉴런이 쉽게 활성화되고, 작으면 활성화되기 어렵습니다.

일상적 비유로, 낙천적인 사람(편향이 큰 경우)은 작은 좋은 일에도 쉽게 기분이 좋아지지만, 신중한 사람(편향이 작은 경우)은 충분히 좋은 근거가 있어야 판단을 내리는 것과 같습니다.

활성화 함수(Activation Function): 최종적으로 뉴런이 "발화할지 말지"를 결정하는 함수입니다. 초기 퍼셉트론에서는 주로 계단 함수(Step Function)를 사용했습니다.

📐 단층 퍼셉트론의 수학적 표현

$$y = f\left(\sum_{i=1}^{n} w_i x_i + b\right)$$

여기서 $f$는 활성화 함수입니다. 가장 간단한 형태는:

$$f(z) = \begin{cases} 1 & \text{if } z \geq 0 \\ 0 & \text{if } z < 0 \end{cases}$$

즉, 가중합이 0 이상이면 1(참), 미만이면 0(거짓)을 출력합니다.

💡 쉽게 이해하기:
퍼셉트론은 마치 "의사결정 회의"와 같습니다. 여러 의견($x_1, x_2, ...$)이 들어오면, 각 의견에 신뢰도(가중치 $w_i$)를 곱하고, 기본 성향(편향 $b$)을 더해서, 총점이 일정 기준을 넘으면 "찬성(1)", 아니면 "반대(0)"를 결정하는 것입니다.

📊 2. 단층 퍼셉트론으로 풀 수 있는 것들

놀랍게도 이렇게 단순한 구조로도 많은 논리 연산을 학습할 수 있습니다. AND, OR, NAND 게이트는 모두 단층 퍼셉트론으로 완벽하게 구현 가능합니다.

2.1 AND 게이트 (논리곱)

두 입력이 모두 참(1)일 때만 참을 출력합니다.

$x_1$	$x_2$	AND 출력
0	0	0
0	1	0
1	0	0
1	1	1

예를 들어 $w_1 = 0.5, w_2 = 0.5, b = -0.7$로 설정하면:

$$y = f(0.5 \times x_1 + 0.5 \times x_2 - 0.7)$$

$(0, 0)$: $0.5 \times 0 + 0.5 \times 0 - 0.7 = -0.7 < 0$ → 출력 0 ✓
$(0, 1)$: $0.5 \times 0 + 0.5 \times 1 - 0.7 = -0.2 < 0$ → 출력 0 ✓
$(1, 0)$: $0.5 \times 1 + 0.5 \times 0 - 0.7 = -0.2 < 0$ → 출력 0 ✓
$(1, 1)$: $0.5 \times 1 + 0.5 \times 1 - 0.7 = 0.3 \geq 0$ → 출력 1 ✓

2.2 OR 게이트 (논리합)

두 입력 중 하나라도 참(1)이면 참을 출력합니다.

$x_1$	$x_2$	OR 출력
0	0	0
0	1	1
1	0	1
1	1	1

$w_1 = 0.5, w_2 = 0.5, b = -0.2$로 설정하면 OR 게이트를 완벽히 구현할 수 있습니다.

2.3 NAND 게이트 (부정 논리곱)

AND의 반대입니다. 두 입력이 모두 참일 때만 거짓을 출력합니다.

$x_1$	$x_2$	NAND 출력
0	0	1
0	1	1
1	0	1
1	1	0

$w_1 = -0.5, w_2 = -0.5, b = 0.7$로 설정하면 NAND를 구현할 수 있습니다.

❌ 3. 직선의 한계: 왜 XOR을 못 풀까?

단층 퍼셉트론은 본질적으로 선형 분류기(Linear Classifier)입니다. 2차원 평면에서 데이터를 구분할 때, 직선 하나로만 두 그룹을 나눌 수 있습니다. 3차원에서는 평면 하나, n차원에서는 초평면(hyperplane) 하나로 분류합니다.

3.1 XOR 문제란?

XOR(배타적 논리합, Exclusive OR)은 두 입력이 서로 다를 때만 참을 출력하는 논리 연산입니다.

$x_1$	$x_2$	XOR 출력	설명
0	0	0	둘 다 거짓 → 거짓
0	1	1	서로 다름 → 참 ✓
1	0	1	서로 다름 → 참 ✓
1	1	0	둘 다 참 → 거짓

3.2 기하학적 불가능성

XOR 문제를 2차원 평면에 그려보면 그 불가능성이 명확해집니다:

⚠️ 핵심 문제:
파란색 점(출력 0)들이 대각선 방향에 위치하고, 빨간색 점(출력 1)들이 그 반대 대각선에 위치합니다.

어떤 직선을 그어도 이 네 점을 두 그룹으로 완벽히 분리할 수 없습니다. 이것이 바로 선형 분리 불가능(Linearly Inseparable) 문제입니다.

3.3 수학적 증명

단층 퍼셉트론은 다음과 같은 결정 경계(Decision Boundary)를 만듭니다:

$$w_1 x_1 + w_2 x_2 + b = 0$$

이것은 2차원 평면에서 직선의 방정식입니다. XOR의 네 점을 만족시키려면:

$(0,0)$에서: $b < 0$ (출력 0이 되려면)
$(0,1)$에서: $w_2 + b > 0$ (출력 1이 되려면)
$(1,0)$에서: $w_1 + b > 0$ (출력 1이 되려면)
$(1,1)$에서: $w_1 + w_2 + b < 0$ (출력 0이 되려면)

두 번째와 세 번째 조건을 더하면: $w_1 + w_2 + 2b > 0$
하지만 네 번째 조건은: $w_1 + w_2 + b < 0$

이는 $2b > -b$, 즉 $b > 0$을 의미하는데, 첫 번째 조건 $b < 0$과 모순입니다!

🚫 XOR의 불가능성 증명

단일 선형 결정 경계로는 XOR 문제를 풀 수 없음이 수학적으로 증명되었습니다.

이는 1969년 마빈 민스키와 시모어 페퍼트의 저서 "Perceptrons"에서 엄밀하게 증명되었습니다.

❄️ 4. 1969년, AI의 겨울이 오다

민스키와 페퍼트의 책이 출간되면서 AI 연구계는 큰 충격에 빠졌습니다. 단순한 XOR조차 풀지 못하는 퍼셉트론이 과연 인간의 지능을 모방할 수 있을까?

🌨️ AI 겨울(AI Winter)의 시작

1969년: 민스키-페퍼트의 "Perceptrons" 출간, 단층 신경망의 한계 증명
1970년대: AI 연구 투자 급감, 많은 프로젝트 취소
1980년대 초반: "AI는 실패한 기술"이라는 인식 확산
심리적 영향: 연구자들의 사기 저하, 학생들의 AI 전공 기피

하지만 역설적이게도, 이 책은 해결책도 제시했습니다. 다층 퍼셉트론(Multi-Layer Perceptron, MLP)을 사용하면 XOR을 풀 수 있다는 것이었죠. 문제는 당시에는 이러한 다층 신경망을 학습시키는 방법을 몰랐다는 것입니다.

📉 5. 좌절 속의 전환: 머신러닝의 부상

신경망이 막다른 길에 다다르자, 연구자들은 완전히 다른 접근법을 모색했습니다. "뇌를 흉내 내려고 하지 말고, 데이터의 패턴을 찾자!"

이것이 바로 머신러닝(Machine Learning)의 핵심 철학입니다. 신경망처럼 인간의 뇌를 모방하는 대신, 통계학과 확률론을 기반으로 데이터에서 규칙을 추출하는 방식입니다.

🔄 패러다임의 전환

접근법	신경망 (1950-60년대)	머신러닝 (1980-90년대)
영감	인간의 뇌 구조	통계학, 확률론
핵심 아이디어	뉴런의 연결망	데이터 분포의 패턴
대표 기법	단층 퍼셉트론	결정 트리, SVM, 나이브 베이즈
장점	직관적, 생물학적 타당성	수학적으로 명확, 실용적
당시 한계	XOR 문제, 학습 알고리즘 부재	특성 공학 필요, 복잡한 패턴 어려움

5.1 머신러닝의 핵심 원리

머신러닝은 확률적 추론을 사용합니다. 예를 들어:

베이즈 정리(Bayes' Theorem)를 사용한 분류:
$$P(Y|X) = \frac{P(X|Y) \cdot P(Y)}{P(X)}$$
주어진 데이터 $X$가 있을 때, 이것이 클래스 $Y$에 속할 확률을 계산합니다.

최대우도추정(Maximum Likelihood Estimation):
$$\theta^* = \arg\max_\theta P(D|\theta)$$
관측된 데이터 $D$를 가장 잘 설명하는 모델 파라미터 $\theta$를 찾습니다.

결정 트리(Decision Tree): 데이터를 나무 구조로 분류하며, 각 노드에서 정보 이득(Information Gain)을 최대화하는 분할을 선택합니다.
$$\text{Information Gain} = H(S) - \sum_{v \in \text{Values}} \frac{|S_v|}{|S|} H(S_v)$$

💡 왜 머신러닝으로 전환했을까?
신경망은 "어떻게 작동하는지" 이해하기 어려웠지만, 머신러닝은 수학적으로 명확했습니다. 확률론과 통계학이라는 탄탄한 이론적 기반 위에 세워졌고, 실제 문제(스팸 필터, 추천 시스템 등)에서 즉시 성과를 냈습니다.

하지만 아이러니하게도, 2000년대 후반 컴퓨팅 파워가 폭발적으로 증가하면서 신경망이 다시 부활했고, 이제는 머신러닝의 한계를 뛰어넘는 딥러닝 시대가 왔습니다.

💻 6. 실습: 단층 퍼셉트론으로 직접 확인하기

아래 Jupyter 노트북에서 AND, OR, NAND, XOR을 직접 구현하고 학습시켜보세요. XOR이 왜 학습되지 않는지 눈으로 확인할 수 있습니다.

📌 실습 포인트:
1. AND, OR, NAND는 빠르게 수렴하여 100% 정확도를 달성합니다.
2. XOR은 아무리 학습해도 50% 정확도에 머무릅니다 (= 무작위 추측과 같음).
3. 학습 곡선을 보면 XOR만 평평하게 나타납니다.
4. 결정 경계를 시각화하면 XOR을 직선으로 분리할 수 없음을 명확히 볼 수 있습니다.

🎯 핵심 요약

단층 퍼셉트론은 $y = f(w \cdot x + b)$ 형태로, 가중치와 편향을 학습하여 선형 분류를 수행합니다.

XOR 문제는 선형 분리 불가능하여 단층 퍼셉트론으로는 절대 풀 수 없습니다. 이는 수학적으로 증명되었습니다.

1969년 이 한계가 밝혀지면서 AI의 겨울이 찾아왔고, 연구 투자와 관심이 급격히 줄었습니다.

좌절 속에서 연구자들은 머신러닝이라는 통계학 기반의 새로운 패러다임으로 전환했습니다. 신경망 대신 확률론과 데이터 분석에 집중했죠.

하지만 이야기는 여기서 끝나지 않습니다. 1980년대 역전파(Backpropagation) 알고리즘이 발견되면서 다층 신경망 학습이 가능해지고, 신경망은 화려하게 부활합니다!