Product SiteDocumentation Site

26.6.11. Мониторинг и устранение неполадок Ceph

Рекомендуется регулярно проверять состояние кластера Ceph с помощью:
  • встроенных инструментов Ceph;
  • API и веб-интерфейса PVE.
Команды для проверки состояния кластера:
# watch ceph -s # постоянный мониторинг (обновление каждые 2 сек)
# ceph --watch # однократный вывод + поток событий
Состояния кластера:
  • HEALTH_OK — кластер в исправном состоянии;
  • HEALTH_WARN — имеются предупреждения;
  • HEALTH_ERR — обнаружены ошибки.
Если кластер находится в неработоспособном состоянии, указанные команды предоставят обзор текущих событий и подсказки по необходимым действиям.

Примечание

Для остановки выполнения команды нажмите Ctrl+C.

26.6.11.1. Устранение неполадок

Логи на проблемном узле:
  • системные логи (за последние 2 дня):
    # journalctl --since "2 days ago"
    
    или в веб-интерфейсе: СистемаСистемный журнал;
  • логи IPMI и RAID-контроллеров — через интерфейс соответствующего оборудования.
Аварии служб Ceph:
  • просмотр списка зарегистрированных аварий:
    # ceph crash ls
    
  • подробная информация об аварии:
    # ceph crash info <ID_аварии>
    
  • подтверждение обработки всех аварий:
    # ceph crash archive-all
    
Подробные журналы служб Ceph находятся в /var/log/ceph/. Уровень детализации журналов можно настроить в конфигурации Ceph.

26.6.11.2. Типичные проблемы Ceph

Таблица 26.5. Возможные причины проблем

Категория
Примеры
Сетевые проблемы
Перегрузка сети, неисправный коммутатор, отключённый интерфейс, блокировка брандмауэром
Проблемы с дисками
Неисправные диски, ненадёжное подключение, недостаточная производительность (HDD, потребительские контроллеры)
Несоответствие рекомендациям
Нарушение требований к оборудованию или конфигурации Ceph
26.6.11.2.1. OSD не работают/зависают
Неисправный OSD помечается как down, а примерно через 10 минут — как out. В некоторых случаях OSD может автоматически вернуться в рабочее состояние.
Ручное восстановление:
  • в веб-интерфейсе: Любой узелCephOSDвыбрать OSD → кнопки Запуск, In, Перезагрузить.
  • в консоли (на проблемном узле):
    # ceph-volume lvm activate --all
    
Для восстановления неисправного OSD может потребоваться безопасная перезагрузка соответствующего узла или, в крайнем случае, повторное создание либо замена OSD.