1. 서론
정보 이론에서 엔트로피(Entropy)는 확률 변수의 불확실성을 수치화한 대표적인 척도이며, 이는 통신 이론의 창시자인 클러드 섀넌(Claude Shannon)이 1948년에 정립하였다. 본 글에서는 섀넌 엔트로피의 정의 수식이 갖는 구성적 의미를 체계적으로 해석하고, 각 수식 요소가 수학적으로 어떤 목적과 특성을 갖는지 검토한다.
2. 샤논 엔트로피의 정의
확률 변수 가 이산적인 사건 을 가질 수 있으며, 이때 각각의 사건이 발생할 확률을 이라 할 때, 샤논 엔트로피 는 다음과 같이 정의된다:
LaTeX
H(X) = -\sum_{i=1}^{n} p_i \log_2 p_i이 수식은 확률 분포로부터 발생 가능한 사건들의 평균적인 정보량을 나타내며, 정보 이론에서 가장 기본적인 측정 지표로 활용된다.
3. 로그 함수 도입의 수학적 및 직관적 근거
로그 함수를 사용하는 이유는, 사건의 발생 확률이 낮을수록 해당 사건의 발생이 주는 정보량이 크다는 사실을 수학적으로 반영하기 위함이다. 로그 함수는 다음과 같은 성질을 만족한다:
LaTeX
\lim_{p_i \to 0^+} -\log_2 p_i = \infty, \quad \text{and} \quad -\log_2 1 = 0이는 정보량의 정의를 다음과 같이 정식화할 수 있게 한다:
LaTeX
I(x_i) = \log_2 \left( \frac{1}{p_i} \right) = -\log_2 p_i여기서 는 사건 가 발생했을 때 얻는 정보의 양이다. 밑이 2인 로그는 정보량을 비트(bit) 단위로 측정하고자 할 때 일반적으로 사용된다.
4. 확률과의 곱: 기대 정보량의 구성
단일 사건의 정보량만으로는 전체 확률 분포의 정보량을 판단할 수 없다. 따라서 각 사건의 정보량을 그 사건이 실제로 발생할 확률로 가중 평균하여, 전체 확률 변수 에 대한 기대 정보량을 계산한다. 이는 수식상 다음과 같다:
LaTeX
H(X) = \sum_{i=1}^{n} p_i \cdot I(x_i) = -\sum_{i=1}^{n} p_i \log_2 p_i즉, 엔트로피는 확률 분포 전반에 걸친 평균적인 정보량을 나타낸다.
5. 음수 부호의 도입 배경
로그 함수의 출력값은 범위 내에서 항상 음수이므로, 이를 양수의 정보량으로 해석하기 위해 수식 전체에 음수 부호(-)를 부여한다. 예컨대, 일 경우 다음과 같다:
LaTeX
\log_2 0.25 = -2 \quad \Rightarrow \quad -\log_2 0.25 = 2 \, \text{bits}이는 정보량을 직관적으로 해석 가능하도록 수식의 부호를 조정한 것이다.
6. 사례 분석
6.1. 공정한 동전의 경우
LaTeX
p(\text{앞}) = 0.5, \quad p(\text{뒤}) = 0.5H(X) = -\left(0.5 \log_2 0.5 + 0.5 \log_2 0.5\right) = 1 \, \text{bit}해당 경우는 사건 간 확률이 균등하여 최대 엔트로피를 갖는다. 이는 정보량이 최대인 이상적인 분포로 간주된다.
6.2. 편향된 동전의 경우
LaTeX
p(\text{앞}) = 0.9, \quad p(\text{뒤}) = 0.1H(X) \approx -\left(0.9 \log_2 0.9 + 0.1 \log_2 0.1\right) \approx 0.469 \, \text{bit}편향된 확률 분포에서는 불확실성이 줄어들며, 그에 따라 정보량도 감소한다.
7. 활용 영역
섀넌 엔트로피는 다음과 같은 분야에서 활용된다:
- 데이터 압축 이론: 정보량이 작을수록 데이터는 더 효율적으로 압축 가능하다.
- 암호학: 높은 엔트로피는 예측이 어려운 안전한 키 생성에 유리하다.
- 기계학습: 결정 트리에서 정보 이득 계산 등에 사용되며, 예측 모델의 불확실성 측정에도 활용된다.
8. 결론
섀넌 엔트로피는 단순한 수식 구조 속에 정보의 불확실성, 사건의 예측 가능성, 평균 정보량이라는 세 가지 핵심 개념을 포괄한다. 각 항은 수학적 정합성과 함께 직관적인 해석 가능성을 함께 지니고 있으며, 정보 이론의 기초 개념으로서 데이터 과학, 통신, 보안 전반에 걸쳐 폭넓게 활용되고 있다.