Как найти слово в строке с помощью языка Python: подробное руководство

Раздел: Текст -> Обработка строк

Поиск слова в строке в Python

Задача поиска конкретного слова в тексте возникает при обработке пользовательского ввода, парсинге логов, анализе документов. В Python существует несколько подходов, от простой проверки подстроки до использования регулярных выражений с границами слов. Выбор метода зависит от требований к точности, учёту регистра, знаков препинания и производительности.

Эффективное решение с границами слов

Наиболее точный способ - применение регулярного выражения с метасимволом \b, обозначающим границу слова. Этот метод гарантирует, что искомая последовательность символов не будет частью другого слова.

import re
text = "Кот в мешке, а котёнок спит."
word = "кот"
pattern = rf"\b{re.escape(word)}\b"
if re.search(pattern, text, re.IGNORECASE):
    print("Слово найдено")
else:
    print("Слово не найдено")

заменить символ на другой python (замена символа в строке на python)

Слово найдено

Strip строки python (метод strip для строк в python)

Функция re.escape экранирует специальные символы внутри искомого слова, а флаг re.IGNORECASE делает поиск регистронезависимым. Это решение подходит для большинства сценариев, включая работу с кириллицей.

Как проверить наличие подстроки без учёта границ слов?

Оператор in - самый простой способ, но он находит любую последовательность символов, включая части слов.

text = "Python - отличный язык"
if "ython" in text:
    print("Найдено")

сколько чисел в строке python (подсчёт количества чисел в строке в python)

Найдено

Python знак в строке (проверка наличия символа в строке python)

Проблема: слово Python не найдено, но его часть обнаружена. Для поиска целого слова такой подход не годится.

Типичная ошибка - предположение, что оператор in ищет только слова. Решение: используйте split или регулярные выражения.

Как найти слово с помощью разбиения строки на слова?

Метод str.split() делит текст по пробельным символам, после чего можно проверить наличие слова в полученном списке.

text = "Кот, собака и попугай."
words = text.split()
if "кот" in words:
    print("Слово найдено")
else:
    print("Не найдено")

сколько символов в строке python (подсчет количества символов в строке в python)

Не найдено

Python убрать пробелы (удаление пробелов из строки в python)

Результат отрицательный, так как в списке ['Кот,', 'собака', 'и', 'попугай.'] слово содержит запятую. Требуется предварительная очистка знаков препинания.

Ошибка: знаки препинания прилипают к словам. Решение: использовать re.split(r'\W+', text) или удалять пунктуацию вручную.

Как выполнить поиск слова с игнорированием регистра и знаков препинания?

Комбинированный подход: сначала удалить пунктуацию, затем привести к нижнему регистру и разбить на слова.

import re
text = "Привет, Мир!"
word = "мир"
clean_text = re.sub(r'[^\w\s]', '', text)
if word.lower() in clean_text.lower().split():
    print("Слово найдено")

числа в строке python задача (задача: числа в строке в python)

Слово найдено

Python количество слов (подсчет количества слов в python)

Проблема: для больших объёмов данных такой способ может быть медленнее регулярных выражений с \b.

Как получить позицию первого вхождения слова в строке?

Метод str.find() возвращает индекс подстроки, но он не различает целые слова. Для точного определения позиции слова требуется дополнительная проверка границ.

import re
text = "Кот и котёнок."
match = re.search(r'\bкот\b', text, re.IGNORECASE)
if match:
    print(f"Найдено на позиции {match.start()}")
else:
    print("Не найдено")

Python слово в строке (поиск слова в строке python)

Найдено на позиции 0

разделить слово python (разделение строки на слова в python)

Обратите внимание: re.search останавливается после первого совпадения. Для поиска всех вхождений используйте re.finditer.

Как найти все вхождения слова в строке?

Функция re.finditer возвращает итератор с объектами совпадений, каждый из которых содержит информацию о позиции и текст.

import re
text = "Кот, кот и ещё один Кот."
word = "кот"
pattern = re.compile(rf"\b{re.escape(word)}\b", re.IGNORECASE)
for match in pattern.finditer(text):
    print(f"Слово '{match.group()}' на позиции {match.start()}")

Слово 'Кот' на позиции 0
Слово 'кот' на позиции 5
Слово 'Кот' на позиции 23

Регулярное выражение скомпилировано для многократного использования. Этот подход удобен для подсчёта и замены.

Как выполнить поиск с учётом Unicode (кириллица, немецкие умлауты)?

В Python модуль re по умолчанию поддерживает Unicode, если не используется флаг re.ASCII. Для кириллицы границы слов \b работают корректно.

import re
text = "Schöne Grüße aus Köln"
word = "Grüße"
if re.search(rf"\b{re.escape(word)}\b", text):
    print("Найдено")

Найдено

Проблема: если текст содержит дефисы или апострофы внутри слов (например, Sankt-Peterburg), \b может не распознать их как часть слова. В таких случаях нужно корректировать регулярное выражение.

Ошибка: символы пунктуации внутри слова разбивают границы. Решение: использовать набор символов для определения слова, например [\w\-]+.

Как заменить найденное слово с сохранением регистра?

В Python нет встроенной функции для замены с учётом регистра, но можно написать простую функцию, используя re.sub с callback.

import re
def preserve_case(match):
    original = match.group()
    if original.isupper():
        return "ЗАМЕНА"
    elif original.istitle():
        return "Замена"
    else:
        return "замена"
text = "Кот и КОТ и кот"
word = "кот"
pattern = re.compile(rf"\b{re.escape(word)}\b", re.IGNORECASE)
result = pattern.sub(preserve_case, text)
print(result)

Замена и ЗАМЕНА и замена

Этот пример демонстрирует гибкость регулярных выражений при замене.

Расширенные примеры поиска слова в строке

Пример 1. Поиск всех слов с подсчётом и извлечением контекста

Рассмотрим задачу извлечения всех вхождений слова python (без учёта регистра) из текста, с выводом окружающих пяти символов слева и справа.

Пример

import re
text = "Python - это язык. Я люблю python, а также PYTHON."
word = "python"
pattern = re.compile(rf".{{0,5}}\b{re.escape(word)}\b.{{0,5}}", re.IGNORECASE | re.DOTALL)
matches = pattern.findall(text)
for i, match in enumerate(matches, 1):
    print(f"{i}: ...{match}...")
print(f"Всего найдено: {len(matches)}")

1: ...Python - это...
2: ...люблю python, а...
3: ...а также PYTHON....
Всего найдено: 3

Флаг re.DOTALL позволяет точке захватывать переносы строк. Обратите внимание: если слово находится в начале или конце строки, захваченный контекст может быть короче пяти символов.

Пример 2. Поиск слова с игнорированием дефисов внутри

Слова, содержащие дефис, например well-being, при поиске через \b могут быть разделены. Чтобы найти такое слово целиком, надо определить границу слова как пробел или начало/конец строки.

Пример

import re
text = "well-being is important. Also wellbeing?"
word = "well-being"
pattern = re.compile(rf"(?:^|[\s])({re.escape(word)})(?:[\s]|$)", re.IGNORECASE)
match = pattern.search(text)
if match:
    print(f"Найдено: {match.group(1)}")
else:
    print("Не найдено")

Найдено: well-being

Группа захвата ( ... ) извлекает само слово без окружающих пробелов. Альтернативное решение - использовать re.escape и явно задать допустимые символы слова.

Пример 3. Поиск слова с сохранением знаков препинания

Если необходимо найти слово, даже если оно окружено знаками препинания (например, "кот!"), удобно использовать re.findall с набором символов слова.

Пример

import re
text = "О, кот! Котёнок? Кот."
word = "кот"
pattern = re.compile(rf"(?matches = pattern.findall(text)
print(f"Найдены вхождения: {matches}")

Найдены вхождения: ['кот', 'Кот', 'Кот']

Отрицательные просмотры назад и вперёд ((?<![\w]) и (?!\w)) не включают граничные символы в результат. В отличие от \b, этот шаблон корректно обрабатывает знаки препинания, так как они не являются \w.

Пример 4. Поиск с использованием множественного условия (несколько слов)

Задача: проверить, содержит ли строка хотя бы одно из заданных слов (например, ошибка, сбой, проблема).

Пример

import re
text = "В системе произошёл сбой."
words = ["ошибка", "сбой", "проблема"]
pattern = re.compile(rf"\b(?:{'|'.join(map(re.escape, words))})\b", re.IGNORECASE)
if pattern.search(text):
    print("Обнаружена проблема")
else:
    print("Всё в порядке")

Обнаружена проблема

Конструкция (?:...) - не захватывающая группа. Объединение слов через | позволяет искать любое из них.

Пример 5. Поиск слова в больших текстах с оптимизацией (предварительная компиляция)

При многократном поиске одного и того же шаблона выгодно скомпилировать регулярное выражение один раз.

Пример

import re
texts = ["Первый Кот", "Второй котёнок", "Третий Кот"]
word = "Кот"
pattern = re.compile(rf"\b{re.escape(word)}\b", re.IGNORECASE)
for i, text in enumerate(texts, 1):
    if pattern.search(text):
        print(f"Строка {i}: найдено")
    else:
        print(f"Строка {i}: не найдено")

Строка 1: найдено
Строка 2: не найдено
Строка 3: найдено

Компиляция улучшает производительность, особенно при поиске в сотнях и тысячах строк. Однако для однократного вызова достаточно re.search.

Поиск слова в строке Python - comments

Python слово в строке (python)