- HTML Encoding: What Are Charsets and Which One to Use
- Contents
- Understanding HTML Character Encoding
- ASCII: The Most Basic Charset
- Your Best Option: UTF-8
- Alternative HTML Encodings
- HTML Encoding: Useful Tips
- HTML Кодировка
- Что такое кодировка символов?
- HTML Атрибут charset
- Различия между наборами символов
- ASCII Набор символов
- ANSI Набор символов (Windows-1252)
- ISO-8859-1 Набор символов
- UTF-8 Набор символов
- Правило CSS @charset
- Пример
HTML Encoding: What Are Charsets and Which One to Use
TL;DR – Specifying the right HTML encoding will prevent the browser from failing to display special characters.
Contents
Understanding HTML Character Encoding
The need for character encoding arises from the huge selection of characters available. Apart from your usual Latin letters and Arabic numbers, there are also foreign alphabets, mathematical symbols and other special characters. However, documents that have different HTML encodings defined can display them differently.
An incorrectly interpreted text leads to a variety of issues:
- Users can’t read the text properly
- Search engines can’t find the data
- Machines can’t process the information
All the available characters are grouped into specific sets (also called charsets for short). By defining HTML encoding, you let the browser access the particular set and display its characters correctly.
Note: the Japanese even have a special term for a poorly interpreted bunch of characters – mojibake (文字化け).
ASCII: The Most Basic Charset
The first and simplest HTML character encoding is called ASCII. Most modern charsets use it as a standard base.
ASCII stands for the American Standard Code for Information Interchange. It has been developed from telegraph code in the early 1960s and contains 128 characters, 95 of which are printable:
- Lowercase Latin letters
- Uppercase Latin letters
- Punctuation symbols
- Numbers from 0 to 9
The 33 unprintable characters are also called control characters. These are the transparent symbols – e.g., ones that allow separating words or paragraphs.
However, the popularity of ASCII fell as the Internet grew more and more international. Only supporting Latin characters quickly became not enough.
- Easy to use with a learn-by-doing approach
- Offers quality content
- Gamified in-browser coding experience
- The price matches the quality
- Suitable for learners ranging from beginner to advanced
- Free certificates of completion
- Focused on data science skills
- Flexible learning timetable
- Simplistic design (no unnecessary information)
- High-quality courses (even the free ones)
- Variety of features
- Nanodegree programs
- Suitable for enterprises
- Paid Certificates of completion
Your Best Option: UTF-8
Unicode is the industry standard used for the consistency of character encoding. It was published in the early 1990s and has a few charsets, such as UTF-8, UTF-16, and UTF-32.
UTF-8 stands for Unicode Transformation Format 8-bit and has held the title of the most popular HTML character encoding since 2008. By 2019, more than 90 percent of all websites use UTF-8. It is also recommended to use as the default HTML character encoding by the World Web Consortium.
There are multiple compelling reasons to use UTF-8:
- It supports many languages.
- It is completely compatible with ASCII.
- It is natively used by XML.
- It uses less space than other Unicode encodings.
To declare UTF-8 as your preferred HTML character encoding, you will need to use the tag with the charset attribute and UTF-8 as its value:
Alternative HTML Encodings
You can find a ton of alternative encodings in the Encoding Living Standard created by the Web Hypertext Application Technology Working Group (WHATWG). However, we’d strongly advise you to stay with UTF-8, as other charsets contain a smaller selection of characters, and that might cause issues in displaying your website.
HTML Encoding: Useful Tips
- The proper display of your characters depends not only on the charset but also the chosen font: not all of them have versions for every character. If the font you chose does not have the symbol you need, it will either look for matches in other fonts or display another character (e.g., a question mark).
- Don’t forget that you also need to specify the HTML encoding when saving your document.
HTML Кодировка
Чтобы правильно отобразить HTML страницу, веб браузер должен знать, какой набор символов использовать.
Что такое кодировка символов?
ASCII была первая стандартная кодировка символов (также называется набор символов). ASCII определенны 128 различных буквенно-цифровых символов, которые могут быть использованы в интернете: числа от (0-9), английские буквы (A-Z), и некоторые специальные символы, такие как ! $ + — ( ) @ < >.
ANSI (Windows-1252) был оригинальным Windows набор символов, с поддержкой 256 различных кодов символов.
ISO-8859-1 была кодировка по умолчанию для HTML 4. Этот набор символов тоже поддерживается 256 различных кодов символов.
Потому что ANSI и ISO-8859-1 были настолько ограничены, что HTML 4 также поддерживает UTF-8.
UTF-8 (Юникод) охватывает практически все знаки и символы в мире.
Кодировка по умолчанию для HTML5 является UTF-8.
HTML Атрибут charset
Для корректного отображения HTML страницы веб браузер должен знать набор символов, используемый на этой странице.
Если браузер обнаруживает ISO-8859-1 на веб странице, он по умолчанию использует ANSI.
Различия между наборами символов
В следующей таблице показаны различия между наборами символов, описанными выше:
Число | ASCII | ANSI | 8859 | UTF-8 | Описание | |
---|---|---|---|---|---|---|
32 | Пространство | |||||
33 | ! | ! | ! | ! | Восклицательный знак | |
34 | « | « | « | « | Кавычки двойные | |
35 | # | # | # | # | Знак числа | |
36 | $ | $ | $ | $ | Знак доллара | |
37 | % | % | % | % | Знак процента | |
38 | & | & | & | & | Амперсанд | |
39 | ‘ | ‘ | ‘ | ‘ | Кавычки одинарные | |
40 | ( | ( | ( | ( | Левая собка | |
41 | ) | ) | ) | ) | Правая скобка | |
42 | * | * | * | * | Звездочка | |
43 | + | + | + | + | Плюс | |
44 | , | , | , | , | Запятая | |
45 | — | — | — | — | Дефис-минус | |
46 | . | . | . | . | Точка | |
47 | / | / | / | / | Косая черта | |
48 | 0 | 0 | 0 | 0 | Число нуль | |
49 | 1 | 1 | 1 | 1 | Число один | |
50 | 2 | 2 | 2 | 2 | Число два | |
51 | 3 | 3 | 3 | 3 | Число три | |
52 | 4 | 4 | 4 | 4 | Число четыре | |
53 | 5 | 5 | 5 | 5 | Число пять | |
54 | 6 | 6 | 6 | 6 | Число шесть | |
55 | 7 | 7 | 7 | 7 | Число семь | |
56 | 8 | 8 | 8 | 8 | Число восемь | |
57 | 9 | 9 | 9 | 9 | Число девять | |
58 | : | : | : | : | Двоеточие | |
59 | ; | ; | ; | ; | Точка с запятой | |
60 | Знак меньше чем | |||||
61 | = | = | = | = | Знак равенства | |
62 | > | > | > | > | Знак больше чем | |
63 | ? | ? | ? | ? | Знак вопроса | |
64 | @ | @ | @ | @ | Коммерческая в | |
65 | A | A | A | A | Латинская буква A | |
66 | B | B | B | B | Латинская буква B | |
67 | C | C | C | C | Латинская буква C | |
68 | D | D | D | D | Латинская буква D | |
69 | E | E | E | E | Латинская буква E | |
70 | F | F | F | F | Латинская буква F | |
71 | G | G | G | G | Латинская буква G | |
72 | H | H | H | H | Латинская буква H | |
73 | I | I | I | I | Латинская буква I | |
74 | J | J | J | J | Латинская буква J | |
75 | K | K | K | K | Латинская буква K | |
76 | L | L | L | L | Латинская буква L | |
77 | M | M | M | M | Латинская буква M | |
78 | N | N | N | N | Латинская буква N | |
79 | O | O | O | O | Латинская буква O | |
80 | P | P | P | P | Латинская буква P | |
81 | Q | Q | Q | Q | Латинская буква Q | |
82 | R | R | R | R | Латинская буква R | |
83 | S | S | S | S | Латинская буква S | |
84 | T | T | T | T | Латинская буква T | |
85 | U | U | U | U | Латинская буква U | |
86 | V | V | V | V | Латинская буква V | |
87 | W | W | W | W | Латинская буква W | |
88 | X | X | X | X | Латинская буква X | |
89 | Y | Y | Y | Y | Латинская буква Y | |
90 | Z | Z | Z | Z | Латинская буква Z | |
91 | [ | [ | [ | [ | Левая квадратная скобка | |
92 | \ | \ | \ | \ | Обратный солидус | |
93 | ] | ] | ] | ] | Правая квадратная скобка | |
94 | ^ | ^ | ^ | ^ | Циркумфлекс ударение | |
95 | _ | _ | _ | _ | Низкая линия | |
96 | ` | ` | ` | ` | Знак ударения | |
97 | a | a | a | a | Латинская строчная буква a | |
98 | b | b | b | b | Латинская строчная буква b | |
99 | c | c | c | c | Латинская строчная буква c | |
100 | d | d | d | d | Латинская строчная буква d | |
101 | e | e | e | e | Латинская строчная буква e | |
102 | f | f | f | f | Латинская строчная буква f | |
103 | g | g | g | g | Латинская строчная буква g | |
104 | h | h | h | h | Латинская строчная буква h | |
105 | i | i | i | i | Латинская строчная буква i | |
106 | j | j | j | j | Латинская строчная буква j | |
107 | k | k | k | k | Латинская строчная буква k | |
108 | l | l | l | l | Латинская строчная буква l | |
109 | m | m | m | m | Латинская строчная буква m | |
110 | n | n | n | n | Латинская строчная буква n | |
111 | o | o | o | o | Латинская строчная буква o | |
112 | p | p | p | p | Латинская строчная буква p | |
113 | q | q | q | q | Латинская строчная буква q | |
114 | r | r | r | r | Латинская строчная буква r | |
115 | s | s | s | s | Латинская строчная буква s | |
116 | t | t | t | t | Латинская строчная буква t | |
117 | u | u | u | u | Латинская строчная буква u | |
118 | v | v | v | v | Латинская строчная буква v | |
119 | w | w | w | w | Латинская строчная буква w | |
120 | x | x | x | x | Латинская строчная буква x | |
121 | y | y | y | y | Латинская строчная буква y | |
122 | z | z | z | z | Латинская строчная буква z | |
123 | } | } | } | Правая фигурная скобка | ||
126 | ~ | ~ | ~ | ~ | Тильда | |
127 | DEL | |||||
128 | | Знак евро | ||||
129 | | | | НЕ ИСПОЛЬЗУЕТСЯ | ||
130 | | Одинарная 9 низкая кавычка | ||||
131 | | Латинская строчная буква f с крючком | ||||
132 | | Двойная 9 низкая кавычка | ||||
133 | Горизонтальное многоточие | |||||
134 | | Кинжал | ||||
135 | | Двойной кинжал | ||||
136 | | Письмо модификатор облеченным ударением | ||||
137 | | Знак промилле | ||||
138 | | Латинская буква S с caron | ||||
139 | | Одинарный угол влево низкая кавычка | ||||
140 | | Латинская заглавная лигатура OE | ||||
141 | | | | НЕ ИСПОЛЬЗУЕТСЯ | ||
142 | | Латинская буква Z с caron | ||||
143 | | | | НЕ ИСПОЛЬЗУЕТСЯ | ||
144 | | | | НЕ ИСПОЛЬЗУЕТСЯ | ||
145 | | Левая одинарная низкая кавычка | ||||
146 | | Правая одинарная низкая кавычка | ||||
147 | | Левая двойная низкая кавычка | ||||
148 | | Правая двойная низкая кавычка | ||||
149 | | Маркер | ||||
150 | | Тире | ||||
151 | | Длинное тире | ||||
152 | | Маленькая тильда | ||||
153 | | Знак торговой марки | ||||
154 | | Латинская строчная буква s с caron | ||||
155 | | Одинарный угол вправо низкая кавычка | ||||
156 | | Латинская строчная лигатура oe | ||||
157 | | | | НЕ ИСПОЛЬЗУЕТСЯ | ||
158 | | Латинская строчная буква z с caron | ||||
159 | | Латинская буква Y с diaeresis | ||||
160 | Неразрывный пробел | |||||
161 | ¡ | ¡ | ¡ | Перевернутый восклицательный знак | ||
162 | ¢ | ¢ | ¢ | Знак цента | ||
163 | £ | £ | £ | Знак фунта | ||
164 | ¤ | ¤ | ¤ | Знак валюты | ||
165 | ¥ | ¥ | ¥ | Знак иены | ||
166 | ¦ | ¦ | ¦ | Прерывистая полоса | ||
167 | § | § | § | Знак раздела | ||
168 | ¨ | ¨ | ¨ | Трема | ||
169 | © | © | © | Знак авторского права | ||
170 | ª | ª | ª | Женский порядковый индикатор | ||
171 | « | « | « | Двойной угол влево | ||
172 | ¬ | ¬ | ¬ | Знак нет | ||
173 | | | | Мягкий дефис | ||
174 | ® | ® | ® | Зарегистрированный знак | ||
175 | ¯ | ¯ | ¯ | Макрон | ||
176 | ° | ° | ° | Знак степени | ||
177 | ± | ± | ± | Плюс-минус | ||
178 | ² | ² | ² | Верхний индекс два | ||
179 | ³ | ³ | ³ | Верхний индекс три | ||
180 | ´ | ´ | ´ | Острый знак ударения | ||
181 | µ | µ | µ | Микро знак | ||
182 | ¶ | ¶ | ¶ | Знак абзаца | ||
183 | · | · | · | Точка посередине | ||
184 | ¸ | ¸ | ¸ | Седиль | ||
185 | ¹ | ¹ | ¹ | Верхний индекс один | ||
186 | º | º | º | Мужской порядковый индикатор | ||
187 | » | » | » | Двойной угол вправо | ||
188 | ¼ | ¼ | ¼ | Грубая дробь одна четвертая | ||
189 | ½ | ½ | ½ | Грубая дробь одна вторая | ||
190 | ¾ | ¾ | ¾ | Грубая дробь три четвертых | ||
191 | ¿ | ¿ | ¿ | Перевернутый вопросительный знак | ||
192 | À | À | À | Латинская буква A с grave | ||
193 | Á | Á | Á | Латинская буква A с acute | ||
194 | Â | Â | Â | Латинская буква A с circumflex | ||
195 | Ã | Ã | Ã | Латинская буква A с tilde | ||
196 | Ä | Ä | Ä | Латинская буква A с diaeresis | ||
197 | Å | Å | Å | Латинская буква A с ring above | ||
198 | Æ | Æ | Æ | Латинская буква AE | ||
199 | Ç | Ç | Ç | Латинская буква C с cedilla | ||
200 | È | È | È | Латинская буква E с grave | ||
201 | É | É | É | Латинская буква E с acute | ||
202 | Ê | Ê | Ê | Латинская буква E с circumflex | ||
203 | Ë | Ë | Ë | Латинская буква E с diaeresis | ||
204 | Ì | Ì | Ì | Латинская буква I с grave | ||
205 | Í | Í | Í | Латинская буква I с acute | ||
206 | Î | Î | Î | Латинская буква I с circumflex | ||
207 | Ï | Ï | Ï | Латинская буква I с diaeresis | ||
208 | Ð | Ð | Ð | Латинская буква Eth | ||
209 | Ñ | Ñ | Ñ | Латинская буква N с tilde | ||
210 | Ò | Ò | Ò | Латинская буква O с grave | ||
211 | Ó | Ó | Ó | Латинская буква O с acute | ||
212 | Ô | Ô | Ô | Латинская буква O с circumflex | ||
213 | Õ | Õ | Õ | Латинская буква O с tilde | ||
214 | Ö | Ö | Ö | Латинская буква O с diaeresis | ||
215 | × | × | × | Знак умножения | ||
216 | Ø | Ø | Ø | Латинская буква O с stroke | ||
217 | Ù | Ù | Ù | Латинская буква U с grave | ||
218 | Ú | Ú | Ú | Латинская буква U с acute | ||
219 | Û | Û | Û | Латинская буква U с circumflex | ||
220 | Ü | Ü | Ü | Латинская буква U с diaeresis | ||
221 | Ý | Ý | Ý | Латинская буква Y с acute | ||
222 | Þ | Þ | Þ | Латинская буква thorn | ||
223 | ß | ß | ß | Латинская строчная буква sharp s | ||
224 | à | à | à | Латинская строчная буква a с grave | ||
225 | á | á | á | Латинская строчная буква a с acute | ||
226 | â | â | â | Латинская строчная буква a с circumflex | ||
227 | ã | ã | ã | Латинская строчная буква a с tilde | ||
228 | ä | ä | ä | Латинская строчная буква a с diaeresis | ||
229 | å | å | å | Латинская строчная буква a с ring above | ||
230 | æ | æ | æ | Латинская строчная буква ae | ||
231 | ç | ç | ç | Латинская строчная буква c с cedilla | ||
232 | è | è | è | Латинская строчная буква e с grave | ||
233 | é | é | é | Латинская строчная буква e с acute | ||
234 | ê | ê | ê | Латинская строчная буква e с circumflex | ||
235 | ë | ë | ë | Латинская строчная буква e с diaeresis | ||
236 | ì | ì | ì | Латинская строчная буква i с grave | ||
237 | í | í | í | Латинская строчная буква i с acute | ||
238 | î | î | î | Латинская строчная буква i с circumflex | ||
239 | ï | ï | ï | Латинская строчная буква i с diaeresis | ||
240 | ð | ð | ð | Латинская строчная буква eth | ||
241 | ñ | ñ | ñ | Латинская строчная буква n с tilde | ||
242 | ò | ò | ò | Латинская строчная буква o с grave | ||
243 | ó | ó | ó | Латинская строчная буква o с acute | ||
244 | ô | ô | ô | Латинская строчная буква o с circumflex | ||
245 | õ | õ | õ | Латинская строчная буква o с tilde | ||
246 | ö | ö | ö | Латинская строчная буква o с diaeresis | ||
247 | ÷ | ÷ | ÷ | division sign | ||
248 | ø | ø | ø | Латинская строчная буква o с stroke | ||
249 | ù | ù | ù | Латинская строчная буква u с grave | ||
250 | ú | ú | ú | Латинская строчная буква u с acute | ||
251 | û | û | û | Латинская строчная буква с circumflex | ||
252 | ü | ü | ü | Латинская строчная буква u с diaeresis | ||
253 | ý | ý | ý | Латинская строчная буква y с acute | ||
254 | þ | þ | þ | Латинская строчная буква thorn | ||
255 | ÿ | ÿ | ÿ | Латинская строчная буква y с тремой |
ASCII Набор символов
ASCII используются значения от 0 до 31 (и 127) для управляющих символов.
ASCII используются значения от 32 до 126 для букв, цифр и символов.
ASCII не используйте значения от 128 до 255.
ANSI Набор символов (Windows-1252)
ANSI идентичен ASCII для значений от 0 до 127.
ANSI имеет собственный набор символов для значений от 128 до 159.
ANSI идентична кодировке utf-8 для значений от 160 до 255.
ISO-8859-1 Набор символов
8859-1 идентичен ASCII для значений от 0 до 127.
8859-1 не используйте значения от 128 до 159.
8859-1 идентична кодировке utf-8 для значений от 160 до 255.
UTF-8 Набор символов
UTF-8 идентичен ASCII для значений от 0 до 127.
UTF-8 не используйте значения от 128 до 159.
UTF-8 идентичен ANSI и 8859-1 для значений от 160 до 255.
UTF-8 продолжается от значение 256 с более чем 10 000 различных символов.
Для более близкого взгляда, изучите наш Полный набор символов HTML справочник.
Правило CSS @charset
Вы можете использовать CSS правило @charset для указания кодировки символов, используемой в таблице стилей:
Пример
Установите кодировку таблицы стилей в Юникод UTF-8:
Подробнее о компании читайте здесь CSS Правило @charset.