예를들어, 한글의 ""를 유니코드로 표현하면 U+AC00 입니다.
(
유니코드를 표기할 때는 이처럼 16진수로 표시하며 앞에 U+라는 표시를 붙입니다)

과거 영어 문자체계와도 호환되는 기가막힌 유니코드 인코딩 방식이 생겼습니다. 우리는 이것을 UTF-8이라고 부릅니다!

UTF-8
과 유니코드를 서로 다른게 아니라, 유니코드의 인코딩 방식중 하나일 뿐입니다.
UTF-8
은 이름에서도 느껴지듯이 유니코드를
8 bit 단위로 끊어서 저장합니다.
(
유니코드를 8 bit로 압축해서 표현한다는 의미가 아닙니다)

덕분에 영어 알파벳과 ASCII에서 사용되는 기본적인 기호 문자들은 ASCII에서 쓰이는 것과 똑같은 형태로 저장됩니다. 따라서 영문으로만 쓰여진 UTF-8 문서는 ASCII 문자를 쓰는 구식 시스템에서도 완벽하게 읽혀집니다!

대신, 한글이나 일본어, 중국어 같은 다른 언어의 문자들은 하나의 글자가 2,3개의 바이트 단위로 쪼개져서 저장되는 수모를 당하게 됩니다. 그래서 한글 "" UTF-8로 저장하면...
(
참고: Windows XP의 메모장은 UTF-8 인코딩도 지원됩니다)

   
EA B0 80

이렇게 3개 바이트로 쪼개져서 저장됩니다.

어쨌거나, 영문만을 취급하는 시스템과도 호환성을 유지하면서, 다국어도 표현할 수 있고, 게다가 귀찮은 바이트 순서도 고려할 필요가 없는, 이렇게 멋진 인코딩 체계이기에, 웹에서 점차 UTF-8이 널리 쓰여지고 있는 것이죠.


결론

"유니코드"와 "유니코드의 인코딩"은 다른 개념이다.

웹은 점차 UTF-8로 표준화되고 있다.
웹 페이지를 만들 때, 왠만하면 EUC-KR보다는 UTF-8을 사용하라.

1 Byte
가 한 문자, 혹은 2 Byte가 하나의 문자라는 생각은 버려라.


* 더 자세한 내용은, 첨부 참조


유니코드_정리.doc



'Computer' 카테고리의 다른 글

[펌] SNMP, RMON, Syslog 차이  (0) 2012.07.03
CPU 온도 모니터링 : HWMonitor  (0) 2012.01.07
[펌] WAN상에서의 원격부팅(WOL)과 원격제어  (0) 2012.01.07
Posted by 세모아
,