예를들어, 한글의 "가"를 유니코드로 표현하면 U+AC00 입니다.
(유니코드를 표기할 때는 이처럼 16진수로 표시하며 앞에
U+라는 표시를 붙입니다)
UTF-8과 유니코드를 서로 다른게 아니라, 유니코드의 인코딩 방식중 하나일 뿐입니다.
UTF-8은 이름에서도 느껴지듯이 유니코드를 8 bit 단위로 끊어서 저장합니다.
(유니코드를 8 bit로 압축해서 표현한다는 의미가 아닙니다)
덕분에 영어 알파벳과 ASCII에서
사용되는 기본적인 기호 문자들은 ASCII에서 쓰이는 것과 똑같은 형태로 저장됩니다. 따라서 영문으로만 쓰여진 UTF-8 문서는 ASCII 문자를 쓰는 구식 시스템에서도 완벽하게 읽혀집니다!
대신, 한글이나 일본어, 중국어 같은 다른 언어의
문자들은 하나의 글자가 2,3개의 바이트 단위로 쪼개져서 저장되는 수모를 당하게 됩니다. 그래서 한글 "가"를 UTF-8로 저장하면...
(참고: Windows XP의 메모장은 UTF-8 인코딩도
지원됩니다)
EA B0 80
이렇게 3개 바이트로 쪼개져서 저장됩니다.
어쨌거나, 영문만을 취급하는 시스템과도 호환성을 유지하면서, 다국어도 표현할 수 있고, 게다가 귀찮은 바이트 순서도 고려할 필요가
없는, 이렇게 멋진 인코딩 체계이기에, 웹에서 점차 UTF-8이 널리 쓰여지고 있는 것이죠.
결론
"유니코드"와 "유니코드의 인코딩"은 다른 개념이다.
웹은 점차 UTF-8로 표준화되고 있다.
웹 페이지를 만들 때, 왠만하면 EUC-KR보다는 UTF-8을 사용하라.
1 Byte가 한 문자, 혹은 2 Byte가
하나의 문자라는 생각은 버려라.
* 더 자세한 내용은, 첨부 참조
'Computer' 카테고리의 다른 글
[펌] SNMP, RMON, Syslog 차이 (0) | 2012.07.03 |
---|---|
CPU 온도 모니터링 : HWMonitor (0) | 2012.01.07 |
[펌] WAN상에서의 원격부팅(WOL)과 원격제어 (0) | 2012.01.07 |