Базовые принципы работы с символами в Python

Раздел: Основы Python -> Основы символов

Основные операции с символами в Python

В Python символ не является отдельным типом, а представляет собой строку длиной в один элемент. Самый прямой способ получить символ из строки - использовать индексацию.

s = "Привет"
first = s[0]
print(first)

Python какой символ (какой символ в python)

П

Пояснение:

Индексация начинается с нуля. Отрицательные индексы отсчитывают от конца строки: s[-1] вернёт последний символ.

Возможные проблемы:

Выход за границы строки вызывает IndexError. Например, s[100] при длине строки меньше 101.
Индексация работает только для строк, но не для чисел или других типов.

Как получить символ по его коду Unicode?

Функция chr() принимает целое число (код символа) и возвращает строку из одного символа.

code = 65
char = chr(code)
print(char)

Область применения:

Преобразование ASCII или Unicode кодов в символы. Например, генерация букв алфавита, работа с кодировками.

Типичные ошибки:

Передача числа вне диапазона 0–0x10FFFF вызывает ValueError.
Попытка передать вещественное число приводит к TypeError.

Как узнать числовой код символа?

Обратная операция - функция ord(). Она принимает строку из одного символа и возвращает его Unicode код.

char = 'A'
code = ord(char)
print(code)

Когда это полезно:

Сравнение символов, сортировка, получение кода для последующего преобразования.

Частые затруднения:

Передача строки длиннее одного символа вызывает TypeError.
Для символов вне BMP (суррогатные пары) ord() возвращает код суррогата, а не полный код символа. В Python 3 эта проблема решена для всех символов, но стоит помнить о внутреннем представлении.

Как вставить в строку специальные символы?

Escape-последовательности позволяют включить в строку символы, которые невозможно или сложно ввести с клавиатуры.

print("Строка с новой строкой\nи табуляцией\t")
print("Обратная косая черта: \\")
print("Кавычки: \"\"")

Строка с новой строкой
и табуляцией	
Обратная косая черта: \
Кавычки: ""

Варианты использования:

Форматирование вывода, вставка управляющих кодов (\n, \t), работа с путями файлов (\\) и Unicode через \u или \U.

Ошибки и их решения:

Забытая обратная косая черта перед кавычкой приводит к завершению строки. Решение: использовать экранирование или разные типы кавычек.
В raw-строках (r"...") escape-последовательности не обрабатываются. Это удобно для регулярных выражений и путей Windows.

Как определить, чем является символ: буквой, цифрой или пробелом?

Строковые методы проверки свойств символа возвращают True или False.

c = '5'
print(c.isdigit())   # True
print(c.isalpha())   # False
print(c.isspace())   # False

c2 = 'A'
print(c2.isupper())  # True
print(c2.islower())  # False

True
False
False
True
False

Назначение:

Валидация ввода, фильтрация символов, разбор текста.

Распространённые недоразумения:

Методы проверяют все символы строки. Если строка пустая, возвращают False.
isalpha() признаёт буквами символы многих алфавитов (кириллица, латиница, греческий).

Расширенные примеры работы с символами

Рассмотрим более сложные сценарии, которые часто встречаются на практике.

Генерация таблицы ASCII символов

Пример

for code in range(32, 128):
    print(f"{code:3} -> {chr(code)}")
    # Пауза после каждых 16 строк для наглядности
    if (code - 31) % 16 == 0:
        input("Нажмите Enter для продолжения...")

32 ->   
33 -> !
34 -> "
...
127 -> DEL

Преобразование строки в список кодов и обратно

Пример

text = "Python"
codes = [ord(ch) for ch in text]
print(codes)  # [80, 121, 116, 104, 111, 110]

restored = ''.join(chr(c) for c in codes)
print(restored)  # Python

[80, 121, 116, 104, 111, 110]
Python

Работа с Unicode символами вне ASCII

Пример

# Смайлик с кодом U+1F600
smile = chr(0x1F600)
print(smile)  # ?

# Экранирование в строке
print("\U0001F600")  # ?

?
?

Сравнение символов с учётом регистра без методов

Пример

char1 = 'a'
char2 = 'A'
# Разница кодов символов (строчные и прописные буквы латиницы отличаются на 32)
if abs(ord(char1) - ord(char2)) == 32:
    print("Это одна и та же буква в разных регистрах")
else:
    print("Разные символы")

Это одна и та же буква в разных регистрах

Проверка, является ли символ буквой русского алфавита

Пример

def is_russian_letter(ch):
    code = ord(ch)
    # Диапазон кириллицы (без учёта буквы ё)
    return 0x0400 <= code <= 0x04FF and ch.isalpha()

print(is_russian_letter('Ф'))  # True
print(is_russian_letter('Q'))  # False

True
False

Обработка суррогатных пар (для символов из дополнительных плоскостей)

Пример

# В Python 3 суррогатные пары скрыты, но можно получить код через ord
emoji = "?"
print(len(emoji))        # 1 (строка из одного символа)
print(ord(emoji))        # 128512 (правильный код)
# Для обратной совместимости с UTF-16 можно разбить на суррогаты
high = 0xD83D
low = 0xDE00
surrogate_pair = chr(high) + chr(low)
print(surrogate_pair)    # ? (но такая строка считается состоящей из двух символов)
print(len(surrogate_pair))  # 2

Использование raw-строк для путей Windows

Пример

path = r"C:\Users\Name\Documents"
print(path)  # C:\Users\Name\Documents (без экранирования)

C:\Users\Name\Documents

Преобразование hex-кода в символ

Пример

hex_code = "2665"  # Unicode код сердца ♥
symbol = chr(int(hex_code, 16))
print(symbol)  # ♥

♥

Поиск всех символов определённой категории в строке

Пример

import unicodedata

text = "Python 3.10: αβγ 符号"
letters = [c for c in text if unicodedata.category(c).startswith('L')]
print(''.join(letters))  # Pythonαβγ符号

Pythonαβγ符号

Какой символ в Python - comments

Python какой символ (python)