"유니코드"와 "유니코드의 인코딩(UTF-8)"은 다른 개념.

Computer 2012. 4. 7. 21:46

예를들어, 한글의 "가"를 유니코드로 표현하면 U+AC00 입니다.
(유니코드를 표기할 때는 이처럼 16진수로 표시하며 앞에 U+라는 표시를 붙입니다)

과거 영어 문자체계와도 호환되는 기가막힌 유니코드 인코딩 방식이 생겼습니다. 우리는 이것을 UTF-8이라고 부릅니다!

UTF-8과 유니코드를 서로 다른게 아니라, 유니코드의 인코딩 방식중 하나일 뿐입니다.
UTF-8은 이름에서도 느껴지듯이 유니코드를 8 bit 단위로 끊어서 저장합니다.
(유니코드를 8 bit로 압축해서 표현한다는 의미가 아닙니다)

덕분에 영어 알파벳과 ASCII에서 사용되는 기본적인 기호 문자들은 ASCII에서 쓰이는 것과 똑같은 형태로 저장됩니다. 따라서 영문으로만 쓰여진 UTF-8 문서는 ASCII 문자를 쓰는 구식 시스템에서도 완벽하게 읽혀집니다!

대신, 한글이나 일본어, 중국어 같은 다른 언어의 문자들은 하나의 글자가 2,3개의 바이트 단위로 쪼개져서 저장되는 수모를 당하게 됩니다. 그래서 한글 "가"를 UTF-8로 저장하면...
(참고: Windows XP의 메모장은 UTF-8 인코딩도 지원됩니다)

EA B0 80

이렇게 3개 바이트로 쪼개져서 저장됩니다.

어쨌거나, 영문만을 취급하는 시스템과도 호환성을 유지하면서, 다국어도 표현할 수 있고, 게다가 귀찮은 바이트 순서도 고려할 필요가 없는, 이렇게 멋진 인코딩 체계이기에, 웹에서 점차 UTF-8이 널리 쓰여지고 있는 것이죠.

결론

"유니코드"와 "유니코드의 인코딩"은 다른 개념이다.

웹은 점차 UTF-8로 표준화되고 있다.
웹 페이지를 만들 때, 왠만하면 EUC-KR보다는 UTF-8을 사용하라.

1 Byte가 한 문자, 혹은 2 Byte가 하나의 문자라는 생각은 버려라.

* 더 자세한 내용은, 첨부 참조

유니코드_정리.doc

저작자표시 비영리 변경금지

'Computer' 카테고리의 다른 글

[펌] SNMP, RMON, Syslog 차이 (0)	2012.07.03
CPU 온도 모니터링 : HWMonitor (0)	2012.01.07
[펌] WAN상에서의 원격부팅(WOL)과 원격제어 (0)	2012.01.07

Posted by 세모아

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

세상의 모든 아침

"유니코드"와 "유니코드의 인코딩(UTF-8)"은 다른 개념.

'Computer' 카테고리의 다른 글

카테고리

태그목록

최근에 올라온 글

최근에 달린 댓글

최근에 받은 트랙백

글 보관함

달력

링크

티스토리툴바