How to get Unicode code of a character in Python
Unicode is the encoding type or standard which contains the character set of all the languages that exist all around the globe. Each character is mapped to an integer known as a Code point. It uniquely identifies a character among the other characters.
The Unicode encoding came into existence when languages other than English started getting used prominently.
Advantage of using a Unicode encoding
The biggest advantage with Unicode is, it allows the use of different encoding and more diverse characters set with the same set of code points.
This makes easy for the developers from different part of the world to choose the among the characters of their choice without worrying much about the encoding.
How to get the Unicode code of a character in Python?
In Python, we have a few utility functions to work with Unicode. Let’s see how we can leverage them.
Approach 1: Using built-in ord() function
ord() function came into existence only for this purpose, it returns the Unicode code of a character passed to it.
ord(l) – Returns an integer representing the Unicode code of the character l .
How to return the Unicode code of a character using ord() ?
print(ord(u"$")) # Unicode code of $ character #Output #36 print(ord(u"v")) # Unicode code of v character #Output #118 print(ord(u"⁹")) # Unicode code of superscript 9 #Output #8313 print(ord(u"₅")) # Unicode code of subscript 5 #Output #8325 print(ord(u"ल")) # Unicode code of devnagri letter 'ल' #Output #2354
The u prefix before the string tells us that the string is a Unicode string. Since python 3 release, it is not necessary to write the prefix u as all the string by default are Unicode string.
The method chr() is the inverse of the method ord() .
chr() gets the character that a Unicode code point corresponds to.
print(chr(554)) # Get the character from unicode code 554 #Output #Ȫ print(chr(728)) # Get the character from unicode code 728 #Output #˘ print(chr(900)) # Get the character from unicode code 900 #Output #΄ print(chr(1121)) # Get the character from unicode code 1121 #Output #ѡ
That’s all, folks .
2.5. Символы и строки¶
До сих пор наши программы работали только с числами. Но многим программам надо работать с текстовыми данными. Для этого есть два основных объекта — символы и строки.
2.5.1. Символьный тип данных¶
В питоне, чтобы сохранить символ в переменной, надо просто написать
и т.п. В итоге в переменной ch1 хранится символ a , а в ch2 — символ $ .
Вводить символы можно обычной командой input() :
(именно прямо так), выводить — обычным print :
(На самом деле, в питоне нет отдельного «типа» для символов, символ в питоне — это просто строка длины 1, про строки см. ниже. Но часто удобно думать про символы отдельно от строк.)
2.5.2. Коды символов¶
На самом деле, конечно, в памяти компьютера хранятся не символы (т.е. если мы написали ch=»$» , то нигде в памяти не будет нарисован доллар). Компьютер умеет работать только с числами, и вместо символов он хранит тоже числа.
Есть общепринятая договоренность, которая каждому числу от 0 до 255 ставит в соответствие некоторый символ. Точнее, таких договоренностей есть несколько, они называется кодировки, но для латинских букв, цифр и частоупотребимых символов типа того же доллара, запятой или плюса, во всех кодировках соответствующие числа одинаковы. Для русских букв это не так: в разных кодировках им соответствуют разные числа, но это отдельная тема.
Эта общепринятая сейчас кодировка для латинских букв, цифр и частоупотребимых символов называется ASCII, иногда говорят таблица ASCII. Основная часть этой таблицы выглядит так:
Значение кода символа ASCII в Python – как найти
В этом уроке мы узнаем, как найти значение кода символа ASCII в Python и отобразить результат. ASCII — это аббревиатура, обозначающая американский стандартный код для обмена информацией. Определенное числовое значение дается различным символам, которые компьютеры должны хранить и обрабатывать в ASCII.
ASCII чувствительна к регистру. Один и тот же символ, имеющий разный формат (верхний и нижний регистр), имеет разное значение. Например, значение ASCII “A” равно 65, а значение ASCII “a” равно 97.
K = input("Please enter a character: ") print("The ASCII value of '" + K + "' is ", ord(K))
Please enter a character: J The ASCII value of 'J' is 74
Please enter a character: $ The ASCII value of '$' is 36
В приведенном выше коде мы использовали функцию ord() для преобразования символа в целое число, то есть значение ASCII. Эта функция используется для возврата кодовой точки Unicode данного символа.
print("Please enter the String: ", end = "") string = input() string_length = len(string) for K in string: ASCII = ord(K) print(K, "\t", ASCII)
Please enter the String: "JavaTpoint# " 34 J 74 a 97 v 118 a 97 T 84 p 112 o 111 i 105 n 110 t 116 # 35
Юникод также является методом кодирования, который используется для получения уникального номера символа. Хотя ASCII может кодировать только 128 символов, тогда как текущий Unicode может кодировать более 100 000 символов из сотен сценариев.
Мы также можем преобразовать значение ASCII в соответствующее символьное значение. Для этого мы должны использовать chr() вместо ord() в приведенном выше коде.
K = 21 J = 123 R = 76 print("The character value of 'K' ASCII value is: ", chr(K)) print("The character value of 'J' ASCII value is: ", chr(J)) print("The character value of 'R' ASCII value is: ", chr(R))
The character value of 'K' ASCII value is: The character value of 'J' ASCII value is: < The character value of 'R' ASCII value is: L
Заключение
В этом руководстве мы обсудили, как пользователь может преобразовать значение символа в значение ASCII, а также как получить значение символа данного кода ASCII.