유니코드
모든 언어와 이모지를 위한 범용 인코딩(UTF-8, UTF-16).
Unicode is a computing industry standard for consistent encoding of text from most of the world's writing systems. It defines code points (unique numbers) for over 149,000 characters.
Unicode Transformation Formats (UTF):
- UTF-8: Variable 1-4 bytes, ASCII-compatible, ~99% of web
- UTF-16: Variable 2-4 bytes, common in Windows/Java
- UTF-32: Fixed 4 bytes, simple but space-inefficient
Unicode supports all major world scripts, mathematical symbols, emojis (3,000+), and historical scripts. First 128 code points (U+0000 to U+007F) match ASCII.
graph LR
Center["유니코드"]:::main
Pre_ascii["ascii"]:::pre --> Center
click Pre_ascii "/terms/ascii"
Rel_ascii["ascii"]:::related -.-> Center
click Rel_ascii "/terms/ascii"
Rel_binary["binary"]:::related -.-> Center
click Rel_binary "/terms/binary"
Rel_string["string"]:::related -.-> Center
click Rel_string "/terms/string"
classDef main fill:#7c3aed,stroke:#8b5cf6,stroke-width:2px,color:white,font-weight:bold,rx:5,ry:5;
classDef pre fill:#0f172a,stroke:#3b82f6,color:#94a3b8,rx:5,ry:5;
classDef child fill:#0f172a,stroke:#10b981,color:#94a3b8,rx:5,ry:5;
classDef related fill:#0f172a,stroke:#8b5cf6,stroke-dasharray: 5 5,color:#94a3b8,rx:5,ry:5;
linkStyle default stroke:#4b5563,stroke-width:2px;
🧒 5살도 이해할 수 있게 설명
세계 모든 언어의 모든 문자, 기호, 이모지에 고유한 번호가 있는 거대한 전화번호부를 상상해 보세요. 유니코드가 바로 그 전화번호부입니다—모든 컴퓨터가 모든 언어를 이해할 수 있도록 모든 것에 번호를 부여합니다!
🤓 Expert Deep Dive
정규화 형식(NFC, NFD, NFKC, NFKD)은 등가 표현을 처리합니다. 자소 클러스터는 문자열 연산에서 인식이 필요합니다. ZWJ는 합성 이모지를 생성합니다. BOM은 엔디언을 나타냅니다.