Coding Log


컴퓨터의 문자 표현

앞선 포스팅에서 언급했듯 컴퓨터는 2진수로 모든 데이터를 표현한다.

따라서 컴퓨터에서 다루는 문자도 사실은 모두 2진수로 표현된다.

문자들은 컴퓨터에서 약속된 코드 체계를 사용하며 ASCII 코드 와 Unicode 가 대표적인 코드 체계이다.

ASCII(American Standard Code for Information Interchange)

초창기 컴퓨터는 다양한 방법으로 문자를 표현하였는데, 이 때문에 각 컴퓨터간 호환성 문제가 발생하게 되었다.

이를 해결하기 위해 미국 표준 협회인 ANSI에서 제시한 표준 코드 체계인 ASCII 코드는 각 문자를 7bit로 표현하기 때문에 총 128개의 문자를 표현할 수 있다.

아래의 표를 통해 확인해보자.

ASCII-Table-wide.svg

Extended ASCII

기존 7bit의 ASCII 코드 체계에서 1bit를 추가하여 8bit 형태로 새로 정의되었다.

기존 ASCII 코드 체계로 표현할 수 없는 문자를 추가적으로 표현하기 위한 코드 체계로

7bit에서 8bit로 늘어났기때문에 128개의 문자에서 256개의 문자로 확장되었다.

Unicode

기존 ASCII 코드는 위의 표에서 알 수 있듯 영어를 제외한 지구상에 존재하는 다양한 언어를 표현할 수 없다는 단점이 있다.

이러한 단점을 해결하기 위해 나온 것이 Unicode로 사용중인 운영체제, 프로그램, 언어에 관계없이 각 문자마다 고유한 코드 값을 제공하여 다양한 언어를 모두 표현한다.

Extended ASCII 보다 더욱 긴 16bit로 문자를 표현하기 때문에 최대 65,536개의 문자를 표현할 수 있으며, 많은 기업들이 표준으로 채택하였다.

참고 Microsoft, Apple, HP, IBM, Sun, Oracle 등 많은 기업들이 표준으로 채택하였다.

또한 프로그래밍 표준인 XML, Java, ECMAScript, LDAP, CORBA 등의 표준으로도 사용되고 있다.

참고 LDAP(Lightweight Directory Access Protocol)은 TCP/IP 위에서 디렉터리 서비스를 조회하고 수정하는 응용 프로토콜을 말한다.

참고 CORBA(Common Object Request Broker Architecture)는 객체 관리 그룹인 OMG에서 정의한 규격으로 소프트웨어 컴퍼토넌트들을 언어와 사용환경에 대한 제약없이 통합할 수 있도록 제정한 표준을 말한다.

참고 Unicode Table List

참고 Unicode Hangul Syllables


DISQUS 로드 중…
댓글 로드 중…

트랙백을 확인할 수 있습니다

URL을 배껴둬서 트랙백을 보낼 수 있습니다