정보 이론에서의 샤논 엔트로피 수식 및 구성요소 해설

1. 서론

정보 이론에서 엔트로피(Entropy)는 확률 변수의 불확실성을 수치화한 대표적인 척도이며, 이는 통신 이론의 창시자인 클러드 섀넌(Claude Shannon)이 1948년에 정립하였다. 본 글에서는 섀넌 엔트로피의 정의 수식이 갖는 구성적 의미를 체계적으로 해석하고, 각 수식 요소가 수학적으로 어떤 목적과 특성을 갖는지 검토한다.

2. 샤논 엔트로피의 정의

확률 변수 가 이산적인 사건 을 가질 수 있으며, 이때 각각의 사건이 발생할 확률을 이라 할 때, 샤논 엔트로피 는 다음과 같이 정의된다:

➖

LaTeX

H(X) = -\sum_{i=1}^{n} p_i \log_2 p_i

이 수식은 확률 분포로부터 발생 가능한 사건들의 평균적인 정보량을 나타내며, 정보 이론에서 가장 기본적인 측정 지표로 활용된다.

3. 로그 함수 도입의 수학적 및 직관적 근거

로그 함수를 사용하는 이유는, 사건의 발생 확률이 낮을수록 해당 사건의 발생이 주는 정보량이 크다는 사실을 수학적으로 반영하기 위함이다. 로그 함수는 다음과 같은 성질을 만족한다:

➖

LaTeX

\lim_{p_i \to 0^+} -\log_2 p_i = \infty, \quad \text{and} \quad -\log_2 1 = 0

이는 정보량의 정의를 다음과 같이 정식화할 수 있게 한다:

➖

LaTeX

I(x_i) = \log_2 \left( \frac{1}{p_i} \right) = -\log_2 p_i

여기서 는 사건 가 발생했을 때 얻는 정보의 양이다. 밑이 2인 로그는 정보량을 비트(bit) 단위로 측정하고자 할 때 일반적으로 사용된다.

4. 확률과의 곱: 기대 정보량의 구성

단일 사건의 정보량만으로는 전체 확률 분포의 정보량을 판단할 수 없다. 따라서 각 사건의 정보량을 그 사건이 실제로 발생할 확률로 가중 평균하여, 전체 확률 변수 에 대한 기대 정보량을 계산한다. 이는 수식상 다음과 같다:

➖

LaTeX

H(X) = \sum_{i=1}^{n} p_i \cdot I(x_i) = -\sum_{i=1}^{n} p_i \log_2 p_i

즉, 엔트로피는 확률 분포 전반에 걸친 평균적인 정보량을 나타낸다.

5. 음수 부호의 도입 배경

로그 함수의 출력값은 범위 내에서 항상 음수이므로, 이를 양수의 정보량으로 해석하기 위해 수식 전체에 음수 부호(-)를 부여한다. 예컨대, 일 경우 다음과 같다:

➖

LaTeX

\log_2 0.25 = -2 \quad \Rightarrow \quad -\log_2 0.25 = 2 \, \text{bits}

이는 정보량을 직관적으로 해석 가능하도록 수식의 부호를 조정한 것이다.

6. 사례 분석

6.1. 공정한 동전의 경우

➖

LaTeX

p(\text{앞}) = 0.5, \quad p(\text{뒤}) = 0.5

H(X) = -\left(0.5 \log_2 0.5 + 0.5 \log_2 0.5\right) = 1 \, \text{bit}

해당 경우는 사건 간 확률이 균등하여 최대 엔트로피를 갖는다. 이는 정보량이 최대인 이상적인 분포로 간주된다.

6.2. 편향된 동전의 경우

➖

LaTeX

p(\text{앞}) = 0.9, \quad p(\text{뒤}) = 0.1

H(X) \approx -\left(0.9 \log_2 0.9 + 0.1 \log_2 0.1\right) \approx 0.469 \, \text{bit}

편향된 확률 분포에서는 불확실성이 줄어들며, 그에 따라 정보량도 감소한다.

7. 활용 영역

섀넌 엔트로피는 다음과 같은 분야에서 활용된다:

데이터 압축 이론: 정보량이 작을수록 데이터는 더 효율적으로 압축 가능하다.

암호학: 높은 엔트로피는 예측이 어려운 안전한 키 생성에 유리하다.

기계학습: 결정 트리에서 정보 이득 계산 등에 사용되며, 예측 모델의 불확실성 측정에도 활용된다.

8. 결론

섀넌 엔트로피는 단순한 수식 구조 속에 정보의 불확실성, 사건의 예측 가능성, 평균 정보량이라는 세 가지 핵심 개념을 포괄한다. 각 항은 수학적 정합성과 함께 직관적인 해석 가능성을 함께 지니고 있으며, 정보 이론의 기초 개념으로서 데이터 과학, 통신, 보안 전반에 걸쳐 폭넓게 활용되고 있다.