English | 简体中文 | 繁體中文 | Русский язык | Français | Español | Português | Deutsch | 日本語 | 한국어 | Italiano | بالعربية
문자셋은 HTML 문서 텍스트를 대표하는 바이트를 읽을 수 있는 문자로 변환하는 방법을 결정합니다.它可以按照 ISO010646 코드 포인트를 설명하는 숫자나 16진수 문자 참조("〹" 또는 "ሴ)와 유니코드 표준 버전 2.0과 일치하며, 선택한 문자셋에 독립적입니다.
HTML 페이지를 올바르게 표시하려면, 브라우저가 사용할 문자셋을 알아야 합니다.
웹의 초기 사용자 문자셋은 ASCII였습니다. ASCII는 0-9 의 숫자, 대문자와 소문자 영어 알파벳, 그리고 몇 가지 특수 문자를 포함하고 있습니다.
完整的 ASCII 참조 매뉴얼를 사용하지 않는 경우
많은 국가에서 사용하는 문자는 ASCII에 속하지 않기 때문에, 현대 브라우저의 기본 문자集合은 ISO-8859-1를 사용하지 않는 경우
完整的 ISO-8859-1 参考手册를 사용하지 않는 경우
웹 페이지가 ISO-8859-1 의 문자集合을 정의한 것입니다. 따라서 <meta> 태그에서 지정해야 합니다.
ISO 字符集은 국제 표준 기구 (ISO)가 다른 알파벳에 대한/语言定义的标准字符集。
以下列出了世界各地使用的不同字符集:
문자 집합 | 설명 | 使用范围 |
---|---|---|
ISO-8859-1 | Latin alphabet part 1 | 北美、西欧、拉丁美洲、加勒비海、加拿大、非洲 |
ISO-8859-2 | Latin alphabet part 2 | 东欧 |
ISO-8859-3 | Latin alphabet part 3 | SE Europe、世界语、其他杂项 |
ISO-8859-4 | Latin alphabet part 4 | 스칸디나비아/波罗的海(以及其他没有包括在 ISO-8859-1 중의 일부) |
ISO-8859-5 | Latin/Cyrillic part 5 | 고대 슬라브 문자 표를 사용하는 언어, 예를 들어 불가리아어, 벨라루스어, 러시아어, 마케도니아어 |
ISO-8859-6 | Latin/Arabic part 6 | 아라비아 문자를 사용하는 언어 |
ISO-8859-7 | Latin/Greek part 7 | 현대 그리스어, 그리고 그리스어에서 파생된 수학 기호 |
ISO-8859-8 | Latin/Hebrew part 8 | 히브리어를 사용하는 언어 |
ISO-8859-9 | Latin 5 part 9 | 터키어. 터키 문자가 아이슬란드 문자를 대체했을 뿐, 다른 부분은 ISO-8859-1 와 동일합니다. |
ISO-8859-10 | Latin 6 | 라프란어, 독일어, 에스키모 북유럽어 |
ISO-8859-15 | Latin 9 (aka Latin 0) | 와 ISO 8859-1 유니코드와 유사하게, 유로 기호와 몇 가지 다른 문자는 사용이 적은 문자를 대체했습니다. |
ISO-2022-JP | Latin/Japanese part 1 | 에도어 |
ISO-2022-JP-2 | Latin/Japanese part 2 | 에도어 |
ISO-2022-KR | Latin/Korean part 1 | 한어 |
위에 나열된 문자集合은 모두 용량 제한이 있으며, 다국어 환경과 불일치하기 때문에 유니코드 연맹은 유니코드 표준을 개발했습니다.
유니코드 표준은 세계의 모든 문자, 기호, 상징을 포함하고 있습니다.
어떤 플랫폼, 프로그램, 언어이든, 유니코드는 텍스트 데이터를 처리, 저장, 교환할 수 있습니다.
유니코드 연맹은 유니코드 표준을 개발했습니다. 그들의 목표는 표준 유니코드 변환 형식(UTF)을 기존 문자集合 대체하는 것입니다.
유니코드 표준은 성공을 거두었습니다. XML, Java, ECMAScript (JavaScript), LDAP, CORBA 3.0、WML에서 유니코드가 구현되었습니다. 많은 운영체제 및 모든 현대 브라우저에서 유니코드가 지원됩니다.
Unicode 연맹은 ISO와 같은 주요 표준 개발 기관과 협력합니다.3C 및 ECMA.
Unicode는 다른 문자 집합에 호환될 수 있습니다. 가장 일반적인编码 방식은 UTF-8 UTF와 함께-16:
문자 집합 | 설명 |
---|---|
UTF-8 | UTF8 의 문자는 1-4 바이트 길이. UTF-8 Unicode 표준의 모든 문자를 표현할 수 있습니다. UTF-8 ASCII와 상호兼容. UTF-8 웹 페이지 및 이메일의 선호된编码입니다. |
UTF-16 | 16 비트의 Unicode 변환 형식은 모든 Unicode 지시 테이블을编码할 수 있는 Unicode 가변 문자编码입니다. UTF-16 주로 운영 체제 및 환경에서 사용됩니다. 예를 들어, 마이크로소프트의 Windows 2000/XP/2003/Vista/CE 및 Java와 .NET 바이트 코드 환경. |
안내: 최앞의 256 Unicode 字集의 문자가 일치합니다. 256 ISO-8859-1 문자.
안내: 모든 HTML 4 프로세서가 UTF를 모두 지원합니다.-8XHTML 및 XML 처리기가 UTF를 모두 지원합니다.-8 UTF와 함께-16!