leecom116

제이의 기술 블로그
  • Print (216)
    • Frontend (29)
      • React (3)
      • HTML, CSS (8)
      • JavaScript (11)
      • JQuery (4)
      • JSP (2)
    • Backend (59)
      • Java (31)
      • Spring (11)
      • Spring Boot (0)
      • Python (1)
      • Node.js (1)
      • C, C++ (12)
      • Linux (2)
    • Database (3)
      • MariaDB (0)
      • Oracle (0)
      • MySQL (0)
    • Project (1)
    • Algorithm (67)
      • 백준 (43)
      • 프로그래머스 (0)
      • 이코테 (6)
      • 코드업 (17)
    • Tool (2)
      • Git (1)
      • Log (1)
    • CS (4)
    • Tech Interview (18)
      • Java (9)
      • Web (9)
    • Study (31)
      • 인프런 (3)
      • 정보처리기사 (8)
      • util (4)
      • 쌍용 (14)

깃허브

    https://github.com/leecom116

«   2025/05   »
일 월 화 수 목 금 토
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31

최근 글

인기 글

블로그 메뉴

  • 홈
  • 태그
  • 방명록

태그

  • 메타포어
  • char
  • JSP
  • 나도코딩
  • c언어
  • HTML
  • Web Developer
  • 참조형 변수
  • 객체 배열
  • 나선형 모델
  • 산술 변환
  • 델파이 기법
  • Associate
  • 자바 예외 처리
  • 자바 인터페이스
  • C언어 프로젝트
  • 의존성 주입
  • 코드업 기초
  • 코드업 기초100제
  • 웹 개발 부트캠프
  • 웹개발
  • man month
  • 자바의 정석
  • 코드업
  • static메서드
  • CSS
  • 정보공학 방법론
  • 웹 개발
  • 코드업 2차원 배열
  • 논리 연산자

최근 댓글

hELLO · Designed By 정상우.
leecom116
Backend/Java

자바의 정석 정리(7) - 아스키와 유니코드

2022. 5. 20. 07:28

인코딩과 디코딩(encoding & decoding)
문자 인코딩(encoding) : 문자를 코드로 변환하는 것 ex) 'A' -> 65
문자 디코딩(decoding) : 코드를 문자로 변환하는 것 ex) 65 -> 'A'

아스키(ASCII)
정보 교환을 위한 미국 표준 코드
128개(=2^7)의 문자 집합을 제공하는 7 bit 부호, 
처음 32개의 문자는 인쇄와 전송 제어용으로 사용되는 제어문자로 출력할 수 없음
마지막 문자(DEL)를 제외한 33번째 이후의 문자들은 출력할 수 있는 문자들로 기호와 숫자, 영대소문자로 이루어져 있음
숫자 0 ~ 9, 영문자 A ~ Z, a ~ z 가 연속적으로 배치되어 있어 프로그래밍에서 유용하게 활용됨

확장 아스키와 한글
데이터 단위인 byte 기준, 아스키는 7 bit 이므로 1 bit가 남는다
이 남는 공간을 활용해 문자를 추가로 정의한 것이 확장 아스키이다
확장 아스키에 추가된 128개의 문자는 여러 국가와 기업에서 필요에 따라 다르게 정의해 사용

코드 페이지 : 확장 아스키의 256개 문자를 어떤 숫자로 변환할 것인지를 적어놓은 문자 코드표

유니코드 : 전 세계의 모든 문자를 하나의 통일된 문자집합으로 표현한 것
유니코드 문자 셋 : 유니코드에 포함시키고자 하는 문자들의 집합
유니코드 인코딩 : 문자 셋에 번호를 붙인 것 ex) UTF-8(1~4byte 가변), UTF-16(2byte 고정), UTF-32
자바에서는 UTF-16을 사용
코드 포인트 : 유니코드 문자 셋에 순서대로 붙인 일련번호

UTF-16
모든 문자의 크기(2 byte)가 동일해 다루기 편리하나 문서의 크기가 커짐

UTF-8
영문과 숫자(1 byte), 한글(3 byte)로 표현해 문서의 크기가 작으나 다루기 어렵다
문서의 크기가 작을수록 인터넷에서 전송속도가 빨라지므로 UTF-8인코딩을 많이 사용한다

저작자표시 (새창열림)

'Backend > Java' 카테고리의 다른 글

자바의 정석 정리(9) - 실수형  (0) 2022.05.23
자바의 정석 정리(8) - 정수형  (0) 2022.05.22
자바의 정석 정리(6) - 기본형 타입  (0) 2022.05.19
자바의 정석 정리(5) - 진법과 보수  (0) 2022.05.19
자바의 정석 정리(4) - 실수형 출력  (0) 2022.05.18
    'Backend/Java' 카테고리의 다른 글
    • 자바의 정석 정리(9) - 실수형
    • 자바의 정석 정리(8) - 정수형
    • 자바의 정석 정리(6) - 기본형 타입
    • 자바의 정석 정리(5) - 진법과 보수
    leecom116
    leecom116

    티스토리툴바