Специализированные библиотеки для эффективной обработки словарей в Python

Раздел: Библиотеки -> Работа со специализированными библиотеками

Основные библиотеки для работы со словарями в Python

Как автоматически добавлять отсутствующие ключи?

Стандартный словарь Python выбрасывает KeyError при попытке обратиться к несуществующему ключу. Для частых операций добавления или инкремента значений удобен класс defaultdict из модуля collections. Он принимает фабричную функцию, которая создаёт значение по умолчанию для новых ключей.


from collections import defaultdict

# Создаём словарь, где отсутствующий ключ даёт 0 (int())
d = defaultdict(int)
d['a'] += 1
d['b'] += 2
print(d)  # defaultdict(, {'a': 1, 'b': 2})
print(d['c'])  # 0 (автоматически создан ключ 'c' со значением 0)

Python библиотеки словари (библиотеки для работы со словарями в python)

defaultdict(, {'a': 1, 'b': 2, 'c': 0})

библиотека python user (пользовательские библиотеки python)

Типичная ошибка:

Передача в качестве фабрики изменяемого объекта без lambda (например, defaultdict(list)) работает корректно, но если фабрике нужны аргументы, используют lambda: defaultdict(lambda: 0). Неверный выбор фабрики приводит к неожиданным типам значений.

Пример ошибки: defaultdict([]) вызовет TypeError: first argument must be callable or None.

Как сохранить порядок добавления элементов?

Начиная с Python 3.7, обычный словарь сохраняет порядок вставки. Однако класс OrderedDict из collections предлагает дополнительные методы: move_to_end, popitem(last=True). OrderedDict полезен, если нужен контроль над порядком или требуется обратная совместимость с Python 3.6.


from collections import OrderedDict

od = OrderedDict()
od['a'] = 1
od['b'] = 2
od['c'] = 3
od.move_to_end('a')  # перемещает 'a' в конец
print(od)  # OrderedDict([('b', 2), ('c', 3), ('a', 1)])

библиотека алгоритмов python (библиотека алгоритмов в python)

OrderedDict([('b', 2), ('c', 3), ('a', 1)])

библиотека скриптов python (библиотека скриптов в python)

Типичная ситуация:

Использование OrderedDict там, где достаточно обычного dict, излишне усложняет код. Если не нужны методы move_to_end или popitem, предпочтительнее стандартный словарь.

Как подсчитать количество вхождений элементов?

Класс Counter из collections упрощает подсчёт хешируемых объектов. Он предоставляет методы most_common, subtract, elements и арифметические операции.


from collections import Counter

cnt = Counter(['a', 'b', 'a', 'c', 'b', 'b'])
print(cnt)                       # Counter({'b': 3, 'a': 2, 'c': 1})
print(cnt.most_common(2))        # [('b', 3), ('a', 2)]

библиотеки работы с файлами python (библиотеки для работы с файлами в python)

Counter({'b': 3, 'a': 2, 'c': 1})
[('b', 3), ('a', 2)]

Python библиотека сети (сетевая библиотека в python)

Особенность:

Counter работает только с хешируемыми объектами. Попытка подсчёта списков (не хешируемых) вызовет TypeError. Для подсчёта вложенных структур применяют преобразование к кортежам.

Как сериализовать словарь для обмена данными?

Модуль json (встроенный) преобразует словарь в строку JSON и обратно. Поддерживаются базовые типы: dict, list, str, int, float, bool, None. Для пользовательских объектов требуется написать собственный кодек.


import json

data = {"name": "Алиса", "age": 30, "skills": ["Python", "SQL"]}
json_str = json.dumps(data, ensure_ascii=False, indent=2)
print(json_str)

loaded = json.loads(json_str)
print(loaded["name"])

{
  "name": "Алиса",
  "age": 30,
  "skills": ["Python", "SQL"]
}
Алиса

Типичная ошибка:

Попытка сериализовать множество (set), datetime или Decimal приводит к TypeError: Object of type set is not JSON serializable. Решение - преобразовать в список или использовать параметр default с кастомной функцией.

Как глубоко сравнить два словаря с детализацией различий?

Библиотека deepdiff (устанавливается через pip install deepdiff) позволяет находить изменения, добавления, удаления на любом уровне вложенности, игнорировать определённые пути или типы.


from deepdiff import DeepDiff

d1 = {"a": 1, "b": {"c": [1, 2, 3]}}
d2 = {"a": 2, "b": {"c": [1, 2, 4]}}
diff = DeepDiff(d1, d2)
print(diff)

{'values_changed': {"root['a']": {'new_value': 2, 'old_value': 1}, "root['b']['c'][2]": {'new_value': 4, 'old_value': 3}}}

Производительность:

На очень больших словарях (сотни тысяч ключей) deepdiff может работать медленно. Рекомендуется предварительно фильтровать данные или использовать параметр exclude_paths.

Как обращаться к вложенным ключам через атрибуты (dot notation)?

Библиотека addict (устанавливается pip install addict) предоставляет класс Dict, который позволяет получать и задавать значения вложенных словарей через точечную нотацию. Это удобно для конфигурационных файлов и работы с большими JSON-ответами.


from addict import Dict

ad = Dict()
ad.user.name = "Иван"
ad.user.age = 25
print(ad.user.name)  # Иван
print(ad.to_dict())  # {'user': {'name': 'Иван', 'age': 25}}

Иван
{'user': {'name': 'Иван', 'age': 25}}

Потенциальная проблема:

Имена атрибутов, совпадающие с методами Dict (например, items, keys), приводят к конфликту. В таких случаях приходится использовать обычную индексацию: ad['items'] = 'value'.

Продвинутые примеры применения библиотек

Вложенный defaultdict произвольной глубины

С помощью defaultdict и лямбда-функции можно создать словарь, автоматически создающий вложенные словари при обращении.

Пример


from collections import defaultdict

nested = defaultdict(lambda: defaultdict(int))
nested['group1']['x'] += 5
nested['group1']['y'] += 2
nested['group2']['x'] += 3
print(nested['group1']['x'])  # 5
print(nested['group2']['x'])  # 3
# Автоматически создан глубокий путь
print(dict(nested))  # {'group1': defaultdict(, {'x': 5, 'y': 2}), 'group2': defaultdict(, {'x': 3})}

5
3
{'group1': defaultdict(, {'x': 5, 'y': 2}), 'group2': defaultdict(, {'x': 3})}

Это удобно для группировки данных по нескольким уровням, например, при обработке логов по дате и типу события.

Сортировка словаря по значениям с сохранением порядка

Сочетание OrderedDict и встроенной сортировки позволяет получить отсортированный по значениям словарь, сохраняющий порядок.

Пример


from collections import OrderedDict

scores = {"Alice": 85, "Bob": 72, "Charlie": 95}
sorted_scores = OrderedDict(sorted(scores.items(), key=lambda x: x[1], reverse=True))
print(sorted_scores)  # Alice и Charlie поменялись местами в соответствии с убыванием

OrderedDict([('Charlie', 95), ('Alice', 85), ('Bob', 72)])

Такой приём применяется для построения рейтинговых таблиц.

Глубокое сравнение с игнорированием определённых ключей

Библиотека deepdiff позволяет исключить из сравнения указанные пути. Это полезно, например, при сравнении конфигураций, где некоторые поля (время, версия) не должны влиять на результат.

Пример


from deepdiff import DeepDiff

cfg1 = {"version": 1, "params": {"host": "localhost", "port": 8080}}
cfg2 = {"version": 2, "params": {"host": "localhost", "port": 9090}}
diff = DeepDiff(cfg1, cfg2, exclude_paths={"root['version']"})
print(diff)

{'values_changed': {"root['params']['port']": {'new_value': 9090, 'old_value': 8080}}}

В результате изменение версии не считается различием.

Загрузка JSON с восстановлением пользовательских типов данных

Модуль json поддерживает механизм object_hook, позволяющий преобразовывать словари-обёртки в нужные объекты. Ниже показано восстановление даты и времени.

Пример


import json
from datetime import datetime

# Дата кодируется в виде словаря с маркером
def decoder(obj):
    if '__type__' in obj and obj['__type__'] == 'datetime':
        return datetime.strptime(obj['value'], '%Y-%m-%dT%H:%M:%S')
    return obj

json_str = '{"event": "старт", "time": {"__type__": "datetime", "value": "2025-03-29T15:00:00"}}'
data = json.loads(json_str, object_hook=decoder)
print(data['time'])               # 2025-03-29 15:00:00
print(type(data['time']))         #

2025-03-29 15:00:00

Таким образом можно безопасно передавать объекты, не поддерживаемые JSON напрямую.

Доступ к глубоко вложенным данным через точечную нотацию с библиотекой addict

При работе с API, возвращающими большой вложенный JSON, addict.Dict значительно упрощает извлечение значений.

Пример


from addict import Dict

response = {
    "status": "ok",
    "data": {
        "user": {
            "profile": {
                "name": "Елена",
                "contacts": {"email": "elena@example.com", "phone": "+7 999 123-45-67"}
            },
            "settings": {"theme": "dark"}
        }
    }
}

ad = Dict(response)
print(ad.data.user.profile.name)        # Елена
print(ad.data.user.profile.contacts.email)  # elena@example.com
print(ad.data.user.settings.theme)      # dark

Елена
elena@example.com
dark

Такой код короче и читаемее, чем цепочка из квадратных скобок с проверками на существование ключей.

Использование defaultdict со счётчиком для группировки списка по префиксам

Комбинируя defaultdict и Counter, можно эффективно группировать данные.

Пример


from collections import defaultdict, Counter

files = ['data_01.csv', 'data_02.csv', 'log_01.txt', 'log_02.txt', 'data_03.csv']
grouped = defaultdict(list)
for f in files:
    prefix = f.split('_')[0]
    grouped[prefix].append(f)

# Теперь посчитаем количество в каждой группе
counts = {k: len(v) for k, v in grouped.items()}
print(counts)  # {'data': 3, 'log': 2}
# Альтернатива с Counter
cnt = Counter(f.split('_')[0] for f in files)
print(cnt)     # Counter({'data': 3, 'log': 2})

{'data': 3, 'log': 2}
Counter({'data': 3, 'log': 2})

Группировка полезна при предобработке наборов файлов или логов.

Библиотеки для работы со словарями в Python - comments

Python библиотеки словари (python)