Главная

Ушибы

Управление инцидентами и проблемами — понятия и принципы. Описание ключевых процессов управления ит-услугами

Управление инцидентами и проблемами — понятия и принципы. Описание ключевых процессов управления ит-услугами

Процесс управления инцидентами

К сожалению, мир не идеален. В равной степени это относится и к ИТ-услугам. При предоставлении ИТ-услуг могут происходить сбои: услуга может стать недоступна, работать с ошибками, может быть получен несанкционированный доступ к информации и т.д. Т.е. могут возникать негативные отклонения от нормального предоставления услуги. В ITIL эти отклонения называются инцидентами.

Инцидент - незапланированное прерывание или снижение качества ИТ-услуги. Сбой конфигурационной единицы,который еще не повлиял на услугу, также является инцидентом, как, например, сбой одного диска из массива зеркалирования.

В одних случаях инцидент может остаться незамеченным для пользователей, а в других - оказать существенное финансовое, репутационное и другое негативное влияние на бизнес. Если же инцидент все же произошел, то необходимо минимизировать его отрицательное влияние.

Каким образом это сделать? В одном случае - максимально быстро «починить», в другом - в кротчайшие сроки восстановить наиболее важные функции, в третьем - применить обходное решение, и т.д.

Обходное решение (workaround) - уменьшение или устранение влияния инцидента или проблемы, для которых в текущий момент недоступно полное разрешение.

Как правило, деятельность ИТ-подразделений, связанная с устранением инцидентов, оказывает существенно влияние на восприятие ИТ пользователями в целом. Для того, что эффективно управлять этой деятельностью, должен быть определен соответствующий порядок действий. В соответствии с рекомендациями ITIL для этого должен быть выстроен процесс управления инцидентами.

Управления инцидентами (Incident Management) - процесс, отвечающий за управление жизненным циклом всех инцидентов. Управление инцидентами обеспечивает минимизацию влияния на бизнес и восстановление нормального функционирования услуги наиболее быстрым способом.

В рамках достижения цели задачами процесса управления инцидентами являются:

Обеспечение использования стандартных методов и процедур эффективного и оперативного реагирования, анализа, документирования, текущего управления и отчетности в ходе решения инцидентов.
Повышение прозрачности и коммуникаций при решении инцидентов между бизнесом и ИТ.
Улучшение восприятия бизнесом ИТ через профессиональный подход к решению инцидентов.
Совмещение приоритетов в решении инцидентов с приоритетами бизнеса.
Поддержка удовлетворенности пользователей качеством ИТ-услуг.

Деятельность в рамках процесса управления инцидентами

Инциденты могут возникнуть в любой части инфраструктуры. Часто о них сообщают пользователи, но возможно их обнаружение и ИТ-сотрудниками, а на основании информации от систем мониторинга.

В большинстве случаев инциденты регистрируются Service Desk, куда поступают сообщения о них. Регистрация всех инцидентов должна производиться немедленно после поступления сообщения по следующим причинам:

трудно произвести точную регистрацию информации об инциденте, если это не сделано сразу;
мониторинг хода работ по решению инцидента возможен, только если инцидент зарегистрирован;
зарегистрированные инциденты помогают при диагностике новых инцидентов;
Управление проблемами может использовать зарегистрированные инциденты при работе над поиском корневых причин;
легче определить степень воздействия, если все сообщения (звонки) зарегистрированы;
без регистрации инцидентов невозможно контролировать исполнение договоренностей (SLA);
немедленная регистрация инцидентов предотвращает ситуации, когда или несколько человек работают над одним и тем же инцидентом, или никто ничего не делает для разрешения инцидента.

Вся значимая информация об инциденте должна быть зафиксирована и доступна группам поддержки.

Пример информации по инциденту:

При первоначальной регистрации инцидента должна быть проведена его категоризация.

Категория - именованная группа объектов, имеющих что-то общее. Категории используются для объединения похожих объектов. Например, типы затрат используются для группировки однотипных затрат, категории инцидентов - однотипных инцидентов, типы КЕ - однотипных конфигурационных единиц.

Правильная категоризация инцидентов помогает перенаправить их сразу в нужную группу и проводить анализ инцидентов в различных разрезах, а также формирует основу для поиска причин возникновения инцидентов и их устранения в рамках процесса управления проблемами.

Каждом инциденту присваивается определенный приоритет.

Приоритет основывается на влиянии и срочности и используется для определения требуемого времени обработки.

Срочность (urgency) - мера того, насколько быстро с момента своего появления инцидент, приобретет существенное влияние на бизнес.

Степень влияния (impact) - мера воздействия инцидента на бизнес-процесс.

Таким образом, фактически, приоритет — это номер, определяющийся срочностью (насколько быстро это должно быть исправлено) и степенью воздействия (какой ущерб будет нанесен, если не исправить быстро). Приоритет = Срочность х Степень воздействия. На основании приоритета определяется очередность устранения инцидентов.

Приоритет устанавливается с учетом следующих факторов:

Срочность
Влияние на бизнес
Риск для жизни или здоровья (risk to life or limb)
Число затронутых услуг
Финансовые потери
Влияние на репутацию бизнеса
Влияние на соответствие законам и другим нормами др.

С учетом установленного приоритета и существующих соглашений (SLA) пользователь информируется о максимальном расчетном времени разрешения инцидента (крайний срок). Эти сроки также фиксируются. Инциденту присваивается уникальный номер и пользователь информируется о номере инцидента для его точной идентификации при последующих обращениях.

Непосредственно при обращении пользователя специалистами Service Desk должна быть проведена предварительная диагностика инцидента для получения необходимой информации для установления причины инцидента, если это возможно, а также для корректной категоризации и передачу на следующую линию поддержки. Если решение инцидента находится в компетенции сотрудника Service Desk, то он может быть решен сразу. Служба Service Desk направляет инциденты, не имеющие готового решения или выходящие за пределы компетенции работающего с ним сотрудника, группе поддержки следующего уровня с большим опытом и знаниями. Эта группа исследует и разрешает инцидент или направляет его группе поддержки очередного уровня.

В процессе разрешения инцидента различные специалисты могут обновлять регистрационную запись о нем, изменяя текущий статус, информацию о выполненных действиях, пересматривая классификацию и обновляя время и код работавшего сотрудника.

В большинстве случаев ответственной за мониторинг хода решения является Служба Service Desk, как «владелец» всех инцидентов. Эта служба должна также информировать пользователя о состоянии инцидента. Обратная связь с пользователем может быть уместной после изменения статуса, например, направлении инцидента на следующую линию поддержки, изменении расчетного времени решения, эскалации и т. д. Во время мониторинга возможна функциональная эскалация к другим группам поддержки или иерархическая эскалация для принятия руководящих решений.

Эскалация - деятельность, направленная на получение дополнительных ресурсов, когда это необходимо для достижения целевых показателей уровня услуги или удовлетворения ожиданий заказчика. Эскалация может потребоваться в рамках любого процесса управления ИТ-услугами, но наиболее часто ассоциируется с управлением инцидентами, управлением проблемами и управлением жалобами заказчика. Существует два типа эскалации: функциональная эскалация и иерархическая эскалация.

После успешного завершения анализа и разрешения инцидента сотрудник фиксирует информацию о примененном решении. Если на определенных момент времени невозможно полное разрешение инцидента, его влияние, если возможно, должно быть снижено применением обходного решения. В наихудшем случае, если не найдено никакого решения, инцидент остается открытым.

После реализации решения, удовлетворяющего пользователя, группа поддержки направляет инцидент обратно в Service Desk. Service Desk связывается с сотрудником, сообщившим об инциденте, целью получения подтверждения об успешном решении вопроса. Если он это подтверждает, то инцидент может быть закрыт; в противном случае процесс возобновляется на соответствующем уровне. При закрытии инцидента необходимо обновить данные об окончательной категории, приоритете, сервисах, подвергшихся воздействию инцидента и конфигурационной единице, вызвавшей сбой.

Политики и базовые принципы процесса управления инцидентами

Политики процесса управления инцидентами должны выполняться для обеспечения результативности и эффективности процесса, и могут включать следующие аспекты:

Хорошая координация между пользователями и специалистами по решению инцидентов
Решение инцидентов должно происходить в сроки, согласованные с бизнесом
Удовлетворенность пользователей должна обеспечиваться на всех этапах решения инцидентов
Деятельность по управлению инцидентами должна быть согласована с уровнем услуг и задачами поддержки на основе реальных потребностей бизнеса
Все инциденты управляются, а их данные сохраняются в единой системе управления
Все инциденты должны иметь стандартную схему классификации, которая соответствует бизнес процессам предприятия
Записи инцидентов должны регулярно проверяться на предмет правильного ввода и их корректной классификации
Все записи инцидентов по мере возможности должны иметь общие формат и набор информационных полей
Должен быть общий и согласованный с бизнесом набор критериев для определения приоритетов и эскалации инцидентов

Ниже описаны базовые принципы, которые должны быть приняты во внимание при внедрении управления инцидентами.

Временные рамки (Timescales) - для всех этапов обработки инцидентов должны быть согласованы временные рамки (они будут различаться в зависимости от уровня приоритета инцидента). Все группы поддержки должны быть в полной мере осведомлены об этих временных рамках.

Многие инциденты не новы - они связаны с чем-то, что уже произошло ранее и может повториться. По этой причине, будет целесообразно заранее определить «стандартные» модели инцидента и применить их при возникновении соответствующих инцидентов.

Модель инцидента - это предопределенный способ обработки определенного типа инцидентов.

Модель инцидентов может включать следующие аспекты:

Предопределенная последовательность действий по обработке определенного типа инцидентов
Предопределенная ответственность
Меры предосторожности до решения инцидента
Временные рамки и процедуры эскалации
Доказательства деятельности (записи, логи)

В рамках процесса управления инцидента выделяются значительные инциденты.

Значительный инцидент вызывает существенные потери для бизнеса и должны иметь отдельные процедуры обработки.

Инциденты должны отслеживаться на протяжении всего их жизненного цикла, чтобы обеспечить их правильную обработку и отчетность относительно состояния инцидентов. В системе управления инцидентами коды статусов могут быть соединены с инцидентами, чтобы указать, где они относительно жизненного цикла. Примеры их могли бы включать:

На положение инцидента в процессе обработки указывает статус. Примерами статусов могут быть:

новый;
принят;
запланирован;
назначен;
активный;
отложен;
разрешен;
закрыт.

Показатели процесса управления инцидентами

Для управления и оценки эффективности процесса управления инцидентами, а также для обеспечения обратной связи с другими процессами управления, ITIL предлагает использовать следующие основные показатели (CSF и KPI):

CSF Быстрое решение инцидентов, минимизации их влияния на бизнес

KPI Среднее время, затраченное на решение инцидента
KPI Распределение инцидентов по статусам
KPI Процент инцидентов, решенных первой линией поддержки
KPI Процент инцидентов, решенных дистанционно
KPI Количество решенных инцидентов, не повлиявших на бизнес

CSF Поддержка качества ИТ-услуг

KPI Общее количество инцидентов (контрольный показатель)
KPI Размер очереди нерешенных инцидентов по каждой услуге
KPI Количество и процент значительных (major) инцидентов по каждой услуге

CSF Поддержка удовлетворенности пользователей

KPI Средний балл опроса по пользователям /заказчикам
KPI Процент удовлетворенности ответивших по сравнению с общим числом участвующих в опросе

CSF Улучшение прозрачности и коммуникаций при решении инцидентов между бизнесом и персоналом поддержки ИТ

KPI Среднее количество обращений в службу поддержки или других контактов с пользователями по поводу инцидентов, по которым уже было извещение
KPI Количество претензий и проблем по поводу содержания и качества коммуникаций при решении инцидентов

CSF Совмещение приоритетов деятельности по управлению инцидентами с приоритетами бизнеса

KPI Процент инцидентов, решенных без нарушения целей SLA
KPI Средняя стоимость одного инцидента

CSF Обеспечение использования стандартных методов и процедур при решении инцидентов

KPI Количество и процент неправильно назначенных инцидентов
KPI Количество и процент неправильно классифицированных инцидентов
KPI Количество и процент инцидентов, обработанных сотрудниками Service Desk
KPI Количество и процент инцидентов, связанных с изменениями и релизами

Риски и сложности

При внедрении управления инцидентами необходимо учитывать следующие возможные риски и сложности:

Необходимость раннего обнаружения инцидентов - потребуется конфигурацию инструментов управления событиями (мониторинга), а также обучение пользователей информированию об инцидентах
Необходимость тотальной регистрации инцидентов
Необходимость внедрения адекватной автоматизированной системы управления и обеспечения интеграции ее с различными системами управления ИТ (например, CMS)
Необходимость обеспечения высокой доступности единой точки контакта
Необходимость обеспечения следования процессу и выявление случаев обхода процедур процесса — если пользователи будут устранять возникающие ошибки сами или напрямую связываться со специалистами, не следуя установленным процедурам, ИТ-организация не получит информацию о реально предоставляемом уровне услуг, числе ошибок и многое другое. Отчеты руководству также не будут адекватно отражать ситуацию.
Нехватка ресурсов при решении инцидентов, перегруженность инцидентами и откладывание «на потом» — при неожиданном росте количества инцидентов для правильной регистрации может не оказаться достаточно времени, т. к. до окончания ввода информации об инциденте от одного пользователя возникает необходимость обслуживать следующего. В этом случае ввод описания инцидентов может производиться недостаточно точно и процедуры по распределению инцидентов по трупам поддержки не будут выполняться должным образом. В результате решения получаются некачественными и рабочая нагрузка увеличивается еще больше. В случаях, если число открытых инцидентов начинает интенсивно расти процедура экстренного выделения дополнительных ресурсов внутри организации может предотвратить перегрузку персонала.
Отсутствие каталога услуг и соглашений об уровне сервисов (SLA) — если поддерживаемы услуги и продукты недостаточно точно определены, тогда специалистам, вовлеченным в управление инцидентами, бывает трудно обоснованно отказать пользователям в помощи.
Недостаточная приверженность процессному подходу со стороны руководства и персонала - решение инцидентов с помощью процессного подхода обычно требует изменения культуры и более высокого уровня ответственности за свою работу со стороны персонала. Это может вызвать серьезное сопротивление внутри организации. Эффективное управление инцидентами требует от сотрудников понимания и реальной приверженности процессному подходу, а не просто участия.

Ценность для бизнеса

Внедрив процесс управления инцидентами в соответствии с рекомендациями ITIL и решив все сложности, которые могут возникнуть при внедрении, может быть получена следующая ценность для бизнеса в целом:

Возможность снизить незапланированные работы и затраты для бизнеса и ИТ, вызванные инцидентами
Возможность обнаруживать и устранять инциденты, сокращая время простоя и повышая доступность бизнес услуг
Возможность выделять ресурсы ИТ в соответствии с их приоритетом для бизнеса
Возможность инициировать улучшение услуг на основании знания природы инцидентов
Возможность идентифицировать потребности в дополнительном обучении персонала

Процесс управления инцидентами является значительно «заметным» для бизнеса и позволяет относительно быстро увидеть результаты после его внедрения. Поэтому управление инцидентами часто - один из первых процессов, внедряемых при переходе к процессной организации управления ИТ. Дополнительным преимуществом этого является тот факт, что управление инцидентами позволяет «подсветить» другие области при управления ИТ, требующие внимания - тем самым обеспечивая выделение необходимых ресурсов для реализации других процессов ИТ-управления.

Со временем может возникнуть потребность изменения ИТ инфраструктуры. Это может быть вызвано рядом причин - необходимостью устранения проблемы, желанием повысить качество ИТ сервисов, старением инфраструктуры или изменением законодательства.

Опыт показывает, что если изменения должны образом не контролируются, то часто в результате их проведения могут возникать инциденты: сбои в нормальном предоставлении услуг. Причины таких инцидентов могут быть различными: халатность сотрудников, недостаток ресурсов, недостаточная подготовка, слабый анализ воздействия изменения, несовершенство тестирование и т.д. Число инцидентов может увеличиваться, каждый из них будет требовать принятия срочных мер, что в свою очередь может привести к возникновению новых инцидентов. Ежедневное планирование часто не в состоянии учитывать увеличивающуюся рабочую нагрузку.

Изменение - добавление, модификация или удаление чего-либо, способного оказать влияние на ИТ-услуги. В эти рамки необходимо включать все изменения в архитектурах, процессах, инструментах, метриках и документации, а также изменения в ИТ-услугах и других конфигурационных единицах.

За обеспечение контроля над изменениями в ITIL отвечает ряд процессов преобразования услуг (Service Transition): Управление изменениями, Управление сервисными активами и конфигурациями и управления релизами и развертыванием.

Управление изменениями - процесс, отвечающий за управление жизненным циклом всех изменений, способствующий реализации полезных изменений с минимальным прерыванием ИТ-услуг.

В рамках достижения цели задачами процесса управления изменениями являются:

Реагировать на изменяющиеся бизнес-требования заказчика, максимизируя ценность для бизнеса и уменьшая количество инцидентов, сбоев и повторных работ
Реагировать на запросы на изменение со стороны бизнеса и ИТ для обеспечения гарантии соответствия услуг нуждам бизнеса
Гарантировать, что все изменения зарегистрированы, оценены, авторизованы, приоритизированы, запланированы, протестированы, внедрены, документированы, а также проведен их обзор контролируемым образом
Гарантировать, что все изменения конфигурационных единиц регистрируются в системе управления конфигурациями (CMS)
Оптимизировать бизнес-риски

В охват процесса управления изменениями попадают изменения в ИТ-инфраструктуре, процессах, инструментах, метриках и документации, а также изменениях в ИТ-услугах и других конфигурационных единицах.

Деятельность в рамках процесса управления изменениями

На рисунке приведена общая схема процесса управления изменениями. Для обеспечения контроля изменений все изменения должны быть зарегистрированы. При необходимости внесения изменения, входящего в охват процесса, должен быть подан запрос на изменение (request for change, RFC).

Запрос на изменение - формальное предложение на выполнение изменения. Запрос на изменение включает в себя детали предложенного изменения и может быть записан в бумажном или электронном виде. Термин «запрос на изменение» часто неверно употребляется в значениях «запись об изменении» или «изменение» само по себе.

В рамках процесса управления изменения в ITIL выделяется три типа изменений:

Стандартное изменение - предавторизованное изменение, с низким риском, относительно обычное и следующее какой-либо процедуре или рабочей инструкции. Например, сброс пароля или обеспечение нового сотрудника стандартным оборудованием. Для внедрения стандартных изменений RFC не требуется, они записываются и отслеживаются с использованием другого механизма, такого как запросы на обслуживание.

Экстренное изменение - изменение, которое должно быть внедрено как можно быстрее, например, для разрешения значительного инцидента или установки обновления безопасности. Процесс управления изменениями обычно предусматривает специальную процедуру для управления экстренными изменениями.

Нормальное изменение - изменение, не являющееся срочным или стандартным. Нормальные изменения обрабатываются по определённым шагам процесса управления изменениями.

Таким образом, если изменение попадает в категорию стандартных, то оно должно управляться в рамках процесса управления запросами на обслуживание. Является ли определенное изменение стандартным или нормальным устанавливается для каждой организации самостоятельно. Для экстренных изменений обычные процедуры не используются, так как необходимые ресурсы предоставляются незамедлительно.

Ниже приведен пример информации, которая может включаться в запросы на изменение (RFC):

идентификационный номер запроса;
номер проблемы/известной ошибки (если имеется), связанной с запросом;
описание и определение соответствующих конфигурационных единиц;
причина изменения, включая обоснование и ожидаемый бизнес-результат;
текущая и новая версия изменяемой конфигурационной единицы;
имя, адрес и номер телефона лица, направляющего запрос;
дата подачи;
предварительная оценка необходимых ресурсов и времени;
и т.д.

Запрос на изменение создается инициатором, в качестве которого может выступать отдельный человек или группа людей. Если требуется значительное изменение, может потребоваться предложение об изменении (change proposal).

Предложение об изменении - документ, содержащий высокоуровневое описание потенциальной услуги или значительного изменения, соответствующее экономическое обоснование и ожидаемый график внедрения. Предложения об изменениях обычно создаются в рамках процесса управления портфелем услуг и передаются в процесс управления изменениями для авторизации. В рамках процесса управления изменениями оценивается потенциальное влияние на другие услуги, совместно используемые ресурсы и на общий план изменений.

Все полученные запросы на изменения должны быть зарегистрирован и для каждого изменения должна быть создана запись об изменении (change record).

Запись об изменении - запись, содержащая детальную информацию об изменении. Каждая запись об изменении документирует жизненный цикл одного изменения. Запись об изменении создается для каждого полученного запроса на изменение, даже если он впоследствии будет отклонён.

После регистрации запроса на изменение (RFC) Управление изменениями делает первичную проверку, нет ли среди них неясных, нелогичных, непрактичных или ненужных запросов. Такие запросы отклоняются с объяснением причин. Сотруднику, направившему запрос, всегда должна быть предоставлена возможность для защиты своего запроса.

Для того чтобы оценить изменение ITIL предлагает ответить на 7 вопросов (7 ‘R’s):

Кто инициатор? (RAISED) (Who RAISED the change?)
Какова причина? (REASON) (What is the REASON for the change?)
Какой требуется результат? (RETURN) (What is the RETURN required from the change?)
Какие риски связаны с изменением? (RISKS) (What are the RISKS involved in the change?)
Какие ресурсы требуются для проведения изменения? (RESOURCES) (What RESOURCES are required to deliver the change?)
Кто отвечает за построение, тестирование и внедрение изменения? (RESPONSIBLE) (Who is RESPONSIBLE for the build, test and implementation of the change?)
Какие взаимоотношения между этим и другими изменениями? (RELATIONSHIP) (What is the RELATIONSHIP between this change and other changes?)

Если запрос на изменения (RFC) принимается в работу, в запись об изменении включается информация, необходимая для дальнейшей обработки изменения.

Позднее к записи может добавляться следующая информация:

назначенный приоритет;
оценка степени воздействия и требующихся затрат;
категория;
рекомендации руководителя процесса управления изменениями;
дата и время авторизации изменения;
запланированная дата проведения;
план возврата к исходному состоянию;
требования по поддержке;
план проведения изменения;
информация о разработчике и сотрудниках, ответственных за проведение изменения;
фактическая дата и время проведения изменения;
дата проведения оценки результатов;
результаты испытания и обнаруженные проблемы;
причины отклонения запроса (если необходимо);
оценка результатов.

После приема запроса на изменение (RFC) определяются его приоритет и категория. Приоритет показывает, насколько важным является данный запрос по сравнению с другими. Это, в свою очередь, определяется его срочностью и степенью воздействия.

Пример системы кодирования приоритетов:

Низкий приоритет — изменение желательно, но его внедрение может быть отложено до более удобного времени (например, до следующего релиза или планового обслуживания).
Обычный приоритет — нет особой срочности и высокой степени воздействия, но изменение не следует откладывать.
Высокий приоритет — изменение касается серьезной ошибки, затрагивающей ряд пользователей, или новой нетипичной ошибки, затрагивающей большую группу пользователей, или связано с другими срочными вопросами.
Наивысший приоритет — запрос на изменение (RFC) касается проблемы, серьезно влияющей на важнейший для заказчиков сервис. Изменения с таким приоритетом классифицируются как «экстренные».

Низкая степень воздействия — изменение, требующее выполнения небольшого объема работ.
Существенная степень воздействия — изменение, требующее значительных усилий и оказывающее существенное воздействие на ИТ-услуги. Эти изменения обсуждаются на совете по изменениям (CAB) для определения необходимых усилий (ресурсов и др.) и потенциального воздействия.
Наивысшая степень воздействия — изменение, требующее значительных усилий. руководителю процесса необходимо предварительно получить авторизацию на выполнение изменения руководства ИТ или руководящего комитета ИТ, после чего изменение представляется на рассмотрение совета по изменениям (CAB).

Совет по изменениям - группа людей, помогающая осуществлять оценку, приоритизацию, авторизацию и составление графика изменений. В состав совета по изменениям обычно входят представители поставщика ИТ-услуг, бизнеса и третьих сторон (например, подрядчики).

Эти коды могут быть представлены в цифрах, например: низкая степень=1/ высшая степень = 3

Большинство изменений относятся к двум первым категориям. На основании оценки влияния изменения должен быть определён уровень авторизации изменения (полномочные лица, change authority), например, как это показано на рисунке.

В добавление к классификации должны быть также определены группы, участвующие в работе над техническим решением, и услуги, затрагиваемые изменением.

Если соответствующими полномочными лицами принято положительное решения в отношении изменения, об утвержденных изменениях сообщают соответствующим техническим специалистам, которые будут разрабатывать и внедрять эти изменения. В рамках процесса управления изменениями осуществляется координация внедрения. Непосредственная же разработка, тестирование и внедрение осуществляется в рамках процесса управления реализмами и развертыванием. Внедрение изменения происходит после одобрения результатов тестирования в рамках процесса управления изменениями.

В рамках процесса управления изменениями осуществляется ведение графика изменений.

График изменений - документ с перечнем всех утвержденных изменений и плановых дат их реализации, а также с примерными сроками реализации более поздних изменений.

Члены совета по изменениям (CAB) дают рекомендации по планированию изменений, так как необходимо учитывать наличие персонала, ресурсов, затраты, различные аспекты задействованных услуг, а также мнение заказчиков. Совет по изменениям (CAB) играет роль консультативного органа и собирается на регулярной основе. Информация о планировании изменений должна распространяться заранее до совещания совета по изменениям. Соответствующая документация и информация о пунктах повестки дня также должны рассылаться до совещания.

Повестка дня совещания совета по изменениям должна включать ряд постоянных пунктов, в том числе:

Неуспешные или неавторизованные изменения
Запросы на изменения (RFC), предложенные на рассмотрение членам совета по изменениям в порядке приоритетов
Запросы на изменения (RFC), рассмотренные советом по изменениям
Планирование изменения и обновление графика изменений
Оценки проведенных изменений
Процесс управления изменениями, дополнения и изменения процесса
Достижения процесса и выгоды для бизнеса, полученные с помощью процесса управления изменениями
Незавершенные изменения и изменения в процессе обработки
Планирование запросов на изменение к рассмотрению на следующем совете по изменениям
Проверка неавторизованных изменений, обнаруженных процессом управления сервисными активами и конфигурациями

Как часть общей схемы проведения изменения должна разрабатываться процедура возврата к исходному состоянию на случай, если изменение не обеспечивает достижение необходимого результата. Управление изменениями не должно одобрять проведение изменения при отсутствии процедуры возврата.

Необходимо давать оценку произведенным изменениям, за возможным исключением стандартных изменений. При необходимости совет по изменениям (CAB) принимает решение о проведении последующих дополнительных мероприятий. Должны быть рассмотрены следующие вопросы:

Изменение достигло поставленных целей?
Пользователи и заказчики удовлетворены?
Не возникло побочных эффектов?
Объем ресурсов, использованных для внедрения изменения, соответствовал запланированному?
Изменение было внедрено своевременно и без превышения затрат?
План внедрения функционировал корректно?
План восстановления функционировал корректно, если это было необходимо?
И т.д.

Если изменение осуществлено успешно, запрос на изменение (RFC) может быть закрыт. Это происходит на этапе оценки результатов внедрения (PIR). Если же изменение закончилось неудачно, процесс возобновляется с того места, где он вызвал сбой, с использованием нового подхода. Иногда бывает лучше сделать возврат назад и создать новый или модифицированный запрос на изменение (RFC). Продолжение работы с неудачным изменением часто приводит к ухудшению ситуации.

Оценка результатов внедрения (PIR) - обзор, выполняемый после внедрения изменения или проекта. Оценка результатов внедрения определяет успешность изменения или проекта и выявляет возможности для улучшения.

В зависимости от природы изменения оценку можно проводить или через несколько дней, или через несколько месяцев. Например, оценка изменения в использующемся ежедневно персональном компьютере может быть совершена через несколько дней, а изменение в системе, использующейся раз в неделю, может быть сделана только через три месяца.

Проведение экстренных изменений

Как бы хорошо ни проводилось планирование, могут быть изменения, требующие наивысшего приоритета. Экстренные изменения очень важны для компании и они должны осуществляться как можно скорее. Они требуют отдельных процедур для срочной обработки, но с сохранением общего контроля со стороны процесса управления изменениями. В случае возникновения такой ситуации может быть организовано совещание совета по экстренным изменениям (eCAB).

Совет по экстренным изменениям (еСAB) - группа людей в составе совета по изменениям, которые принимают решения по экстренным изменениям. Решение о составе участников совета по экстренным изменениям может быть принято непосредственно при организации совещания. Необходимость участия определяется исходя из сути срочного изменения.

Если для этого нет времени или если запрос поступил в нерабочее время, должен существовать альтернативный способ получения авторизации изменения. Это не обязательно должна быть встреча «лицом к лицу», вместо нее можно провести телефонную конференцию.

Политики и базовые принципы процесса управления изменениями

Политики процесса управления изменениями должны выполняться для обеспечения результативности и эффективности процесса, и могут включать следующие аспекты:

Абсолютная недопустимость неавторизованных изменений, создание культуры изменений
Соответствие управления изменениями процессам управления изменениями и проектами заказчиков
Категоризация изменений, например инновационные, исследовательские, превентивные, корректирующие изменения
Определение ответственности за изменения на всех стадиях жизненного цикла услуги
Разделение ответственности за управление
Создание единой точки ответственности за изменения для уменьшения вероятности конфликтующих изменений и риска сбоев в продуктивной среде

Показатели процесса управления изменениями

Для управления и оценки эффективности процесса управления изменениями, а также для обеспечения обратной связи с другими процессами управления, ITIL предлагает использовать следующие основные показатели:

Процент изменений, удовлетворивших требованиям заказчика
Польза от изменения, выраженная как «ценность сделанных улучшений» + «предотвращенное негативное воздействие» по сравнению с затратами на проведение изменения
Уменьшение количества нарушений услуг, дефектов и переделок, вызванных неточными спецификациями или недостаточной оценкой влияния
Уменьшение количества неавторизованных изменений
Уменьшение очереди запросов на изменения, процента незапланированных изменений и срочных исправлений
Уменьшение количества изменений, потребовавших восстановления
Уменьшение количества неуспешных изменений
Среднее время исполнения по срочности/приоритету/типу
Количество инцидентов, связанных с изменением
Точность оценки изменений

Ценность для бизнеса

Внедрив процесс управления изменениями в соответствии с рекомендациями ITIL и решив все сложности, которые могут возникнуть при внедрении, может быть полученна следующая ценность для бизнеса в целом:

Выставление приоритетов запросам на изменение от бизнеса и заказчиков и реакция на них
Внедрение изменений, соответствующих согласованным требованиям к услугам оптимально по затратам
Уменьшение количества неуспешных изменений, приводящих к прерыванию услуги, дефектам и переделкам
Проведение изменений в соответствии с временными рамками, определенными бизнесом
Отслеживание изменений в рамках жизненного цикла услуги и активов своих заказчиков
Лучшая оценка качества, времени и стоимости изменений
Оценка рисков, связанных с изменениями услуг (вводом или выводом из эксплуатации)
Увеличение производительности персонала за счет минимизации количества незапланированных или «срочных» изменений, и, как следствие, увеличение доступности услуг
Сокращение среднего времени восстановления за счет более быстрого и успешного внедрения корректирующих изменений
Поддержка связи с процессом изменений бизнеса для выявления возможностей совершенствования бизнеса

Хотели бы Вы, чтобы предоставляемые вам услуги была качественными? Думаю, да. Одной из основных задач ITSM, и ITIL в том числе, является предоставление качественных ИТ-услуг.

Управление ИТ- услугами (IT service management, ITSM) - внедрение и управление качественными ИТ-услугами, которые соответствуют потребностям бизнеса.

Не всегда мнение провайдеров ИТ-услуг и заказчиков в отношении качества услуг сходится.

Качество - способность продукта, услуги, или процесса предоставлять ожидаемую потребителем ценность. Например, качество компонента может считаться высоким, если его работа оправдывает ожидания и обеспечивает требуемую надежность.

Выше приведено определение качества в соответствии с ITIL. Т.е. если мы хотим предоставлять качественные услуги, необходимо чтобы они соответствовали ожиданиям заказчика.

Как гласит известно утверждение: «Нельзя управлять тем, что нельзя измерить». Таким образом, чтобы обеспечить предоставление качественных услуг, необходимо сначала ожидания заказчика в отношении ИТ-услуг выяснить, согласовать, возможно в чем-то ограничить, например, если требование заказчика нереализуемо, и представить в измеримом виде. Дальше остается обеспечивать соответствие фактических параметров услуги ожиданиям заказчика и подтверждать это предоставлением соответствующей отчетности.

В соответствии с ITIL за согласование и документирование целевых показателей уровня услуги и ответственностей в соглашении об уровне услуги (SLA) и требованиях к уровню услуг (SLR) для каждой услуги и связанной с ней ИТ-деятельностью отвечает процесс управления уровнем услуг, который является жизненно важным процессом для каждой организации-поставщика ИТ-услуг.

Управление уровнем услуг (service level management) - процесс, отвечающий за обсуждение и заключение выполнимых соглашений об уровне услуг, и обеспечивающий их выполнение. Управление уровнем услуг отвечает за соответствие процессов управления ИТ-услугами, соглашений операционного уровня и внешних договоров согласованным целевым показателям уровня услуги. Управление уровнем услуг отслеживает и предоставляет отчётность по уровням услуг, проводит регулярную оценку услуг совместно с заказчиками и определяет необходимые улучшения.

Соглашении об уровне услуги (service level agreement, SLA) - cоглашение между поставщиком ИТ-услуг и заказчиком. Соглашение об уровне услуг описывает ИТ-услугу, документирует целевые показатели уровня услуги, указывает зоны ответственности сторон - поставщика ИТ- услуг и заказчика. Одно соглашение об уровне услуг может распространяться на множество ИТ-услуг или множество заказчиков.

Требование к уровню услуг (service level requirement, SLR) - требование заказчика к ИТ-услуге. Требования к уровню услуг основаны на бизнес-целях и используются для переговоров и согласования целевых показателей уровня услуги.

Через формирование целевых значений уровня услуг управление уровнем услуг задает требования и параметры работы для ряда других операционных и тактических процессов ITIL, таких как: управление инцидентами, управления запросами на обслуживание, управление проблемами, управление изменениями, управление релизами, управление доступностью и др.

Целевой показатель уровня услуги (service level target) - обязательства, зафиксированные в соглашении об уровне услуг. Целевые показатели уровня услуги основываются на требованиях к уровню услуг и нужны для обеспечения того, чтобы ИТ-услуга соответствовала бизнес-целям. Целевые показатели уровня услуги должны соответствовать критерию SMART, и обычно основаны на ключевых показателях эффективности.

Если эти целевые значения уровня услуг соответствуют и точно отображают требования бизнеса, тогда услуга, предоставляемая поставщиками услуг, будет вровень с требованиями бизнеса и удовлетворит ожидания заказчиков и пользователей в отношении качества услуги. Если цели не соответствуют бизнес-нуждам, тогда деятельность поставщиков услуг и уровень услуг не будет соответствовать бизнес-ожиданиям и могут появиться проблемы. Соглашению об уровне услуги - уровень гарантии или заверения относительно уровню качества услуги, предоставляемой поставщиком услуг для каждой услуги, предоставляемой бизнесом.

Управление уровнем услуг — это процесс, который связывает поставщика ИТ-услуг и заказчика. Этот процесс имеет следующие задачи:

Определять, документировать, согласовывать, осуществлять мониторинг, готовить отчетность и проводить оценку в отношении уровня предоставляемых ИТ услуг
Обеспечивать и улучшать отношения и коммуникации с бизнесом и заказчиками
Обеспечивать наличие точных и измеримых целей для всех ИТ услуг
Осуществлять мониторинг и повышать удовлетворенность заказчиков качеством услуг
Обеспечивать ясность и недвусмысленность ожиданий в отношении уровня услуг со стороны ИТ и заказчиков
Обеспечивать внедрение проактивных улучшений уровня услуг в случаях, когда это оправдано и рационально.

Управление уровнем услуги должен обеспечивать постоянную связь и коммуникацию менеджеров организаций заказчиков и бизнеса. Это должно давать представление бизнесу о поставщике услуг и поставщику ИТ-услуг о бизнесе.

В охват процесса управления уровнем услуг должно быть включено:

Организация отношений с бизнесом
Обсуждение и согласование текущих требований и целей, документирование и сопровождение SLA для предоставляемых услуг
Обсуждение и согласование требований и целей, документирование и сопровождение SLR для планируемых новых и изменяемых услуг.
Формирование и сопровождение соглашений операционного уровня (OLA) для поддержки целей SLA.
Оценка и согласование с целями SLA всех внешних договоров (UC) - совместно с управлением поставщиками.
Предупреждение сбоев, снижение рисков и внедрение улучшений услуг совместно тс другими процессами.
Предоставление отчетности и оценку в отношении всех услуг и анализ всех отклонений от целей SLA.
Инициация и координация плана совершенствования услуг (SIP).

Соглашение операционного уровня (operational level agreement, OLA) - соглашение между поставщиком ИТ-услуг и другой частью той же организации.

Внешний договор (underpinning contract, UC) - договор между поставщиком ИТ-услуг и третьей стороной. Третья сторона предоставляет товары или услуги, поддерживающие предоставление ИТ-услуг для заказчика. Внешний договор определяет предмет и зоны ответственности, необходимые для достижения согласованных целевых показателей уровня услуги в одном или нескольких соглашениях об уровнях услуги.

План совершенствования услуг (service improvement plan, SIP) - формальный план для внедрения улучшений в процессе или ИТ-услуге.

Деятельность в рамках процесса управления уровнем услуг

На рисунке приведена общая схема процесса управления уровнем услуг.

По мере усиления зависимости бизнеса от ИТ-сервисов возрастает спрос на высококачественные ИТ-услуги. Как было определено выше, качество услуги определяется ожиданиями заказчика, а также постоянным управлением этими ожиданиями, стабильностью услуги и приемлемостью уровня расходов. Поэтому самый лучший способ обеспечить соответствующий уровень качества — обсуждение этого вопроса с самим заказчиком.

Требования заказчиков должны быть представлены в поддающихся измерению значениях, с тем чтобы можно было их использовать при разработке и мониторинге ИТ-услуг. Если метрики не согласованы с заказчиком, то нельзя будет проверить, насколько услуги соответствуют достигнутым договоренностям.

Первым шагом к заключению соглашения о предоставляемых в настоящий момент или в будущем ИТ-услугах должны стать идентификация и определение потребностей заказчика в виде требований к уровню услуг (SLR). Помимо выполнения этого вида деятельности в самом начале данного процесса, рекомендуется делать это регулярно по запросам заказчика или по инициативе самой ИТ-организации и охватывать ею как новые, так и уже существующие услуги.

Первичное определение того, что следует включать в требования к уровню услуги и соглашения об уровне услуг - очень непростая задача. Следует учитывать возможности и ограничения всех процессов в отношении измеримости и достижимости тех или иных целей услуги.

Если существуют какие-либо сомнения в достижимости целей услуги, затребованной бизнесом, то можно включить соответствующие цели в пилотное соглашение для мониторинга и оценки в течение контрольного гарантийного периода. Это поможет получить необходимую статистику и провести необходимые коррекции.

Хотя многие организации стремятся в первую очередь документировать предоставляемые услуги, заключив соответствующие соглашения об уровне услуг, согласование требований к уровню услуги для новых разрабатываемых или приобретаемых услуг также является очень важной задачей.

Требования к уровню услуги должны быть интегральной частью критериев проектирования услуг, в которые входят также функциональные спецификации. Они должны с самых ранних стадий проектирования определять критерии тестирования и обкатки для различных стадий проектирования и разработки или закупки. Требования к уровню услуги будет постепенно уточняться на каждом этапе жизненного цикла, становясь пилотным соглашение об уровне услуг на этапе начальной поддержки. Проект соглашения об уровне услуг должен быть подписан и формализован перед передачей услуги в эксплуатацию и использование.

Опыт показывает, что часто заказчики сами не могут четко определить свои ожидания, они просто предполагают, что им будут предоставлены некоторые услуги без каких-либо определенных договоренностей. Заказчику может понадобиться помощь в понимании и формулировании требований, особенно в отношении мощностей, безопасности, доступности и непрерывности. Будьте готовы к тому, что первичные требования не будут тут же согласованы и утверждены. Может потребоваться несколько итераций в обсуждении требований до того, как приемлемый баланс между желаниями и возможностями будет достигнут. Эти итерации могут требовать перепроектирования сервисного решения.

Следует заметить, что для поддержки новых услуг могут потребоваться дополнительные ресурсы. Часто имеют место ожидания, согласно которым и так уже перегруженный персонал волшебным образом справится с дополнительной нагрузкой, вызванной новыми услугами.

Используя проект соглашения как основу, можно вести переговоры с заказчиками или их представителями, чтобы завершить определение содержания соглашений об уровне услуг и начальные цели уровня услуги, и с поставщиками, чтобы обеспечить уверенность в достижимости этих целей.

Управление уровнем услуги должно проектировать подходящую структуру соглашений об уровне услуги для гарантии того, что все услуги и все заказчики охвачены в нужном объеме относительно нужд организации. Существует ряд возможных вариантов структур, включая нижеследующие:

соглашения об уровне услуги, основанные на одной услуге;
соглашения об уровне услуги, базирующиеся на заказчиках;
многоуровневые соглашения об уровне услуг.

Соглашения об уровне услуги, основанные на одной услуге - это когда соглашение об уровне услуги затрагивает одну услугу для всех заказчиков этой услуги. Например, Соглашение об уровне услуги может быть заключено для услуги электронной почты, затрагивая всех заказчиков этой услуги. Тем не менее, могут возникнуть трудности, если появятся отличия в требованиях различных заказчиков одной услуги, или если характеристики инфраструктуры означают, что различные уровни услуг неизбежны.

Например: персонал головного офиса может связываться с помощью быстрой локальной сети, тогда как локальные офисы должны использоваться медленной линией глобальной сетью. В таких случаях могут быть даны отдельные цели в одном соглашении. Тем не менее, до тех пор, пока предоставляется общий уровень услуг во всех областях бизнеса, например для услуги электронной почты, соглашения об уровне услуг, основанные на одной услуге, могут служить примером эффективного подхода. В одном соглашении могут быть несколько уровней услуг, например золотой, серебряный или бронзовый.

Соглашения об уровне услуги, базирующиеся на заказчиках - соглашение с индивидуальной группой заказчиков, покрывающее все услуги, которые они используют. Например, соглашения могут быть достигнуты путем покрытия финансовым отделом организации финансовых систем, бухгалтерских систем, расчетных систем, систем счетов, систем закупок и любых других ИТ-систем, которые они используют. Заказчики часто предпочитают такие соглашения, так как все их требования в этом случае покрываются одним документом. Как правило, достаточно одной подписи со стороны заказчика, что упрощает согласование.

Комбинация любых вариантов структуры возможна при условии отсутствия дублирований.

Некоторые организации используют многоуровневую структуру соглашений об уровне услуг. Она может включать в себя, например, три уровня:

корпоративный уровень покрывает все общие вопросы управления уровнем услуг, применимые ко всем заказчикам в организации, как правило, эти разделы не требуют частого пересмотра;
уровень заказчиков описывает особенности предоставления услуг конкретным заказчикам или группам бизнес единиц, характерные для всех предоставляемых им услуг;
уровень услуг описывает специфику отдельных услуг, предоставляемых определенному заказчику или группе заказчиков.

Такая структура позволяет размеру моглашения об уровне услуги оставаться в управляемых пределах, предупреждает ненужное дублирование и снижает потребность в частых обновлениях. Однако это предполагает дополнительные усилия для поддержания целостности связей в каталоге услуг и в системе управления конфигурациями .

Многоуровневые соглашения об уровне услуг увеличивают управляемость и уменьшают дублирование документации в организации. Это означает, что обновления происходят только когда требуется. В пределах организации могут быть изменены названия уровней, например: корпоративный, отдел и сервис или группа, бизнес-область и сервис.

Необходимо убедиться, что администрирование многоуровневых SLA контролируется, так как любое введенное изменение будет иметь влияние на других уровнях. Это касается любых изменений, сделанных в корпоративном SLA - они должны быть сообщены другим уровням. Администрирование многоуровневых SLA сложное, но оно проще, чем администрирование большого количества SLA, не объединенных в такую иерархию.

Многие организации считают необходимым использовать стандарты и/или шаблоны соглашений, которые используются как основа при подготовке конкретных соглашений об уровне услуг. Такие шаблоны могут быть использованы для разработки набросков (проектов) соглашений.

Разработка стандартов и образцов обеспечивает последовательную разработку всех соглашений, что в свою очередь облегчает их последующие использование, управление и эксплуатацию.

Определение ролей и ответственностей - часть соглашения об уровне услуги. Следует рассматривать три перспективы - ИТ-поставщик, ИТ-заказчик и фактический пользователь.

Формулирование соглашения должно быть ясным и кратким и не должно оставлять место для неясностей. Как правило, не требуется написание соглашений в правовой терминологии, и простой язык помогает обычному пониманию. Полезно привлекать независимых лиц для финальной вычитки, которые не были вовлечены в создание проектов соглашений.

Важно, чтобы задокументированные и согласованные цели были разъяснены, специфичны и недвусмысленны, так как они предоставляют базу для отношений и обеспечения качества предоставляемой услуги.

Не следует включать в соглашение об уровне услуг требования, будущее предоставление которых не может мониториться и измеряться на согласованном уровне. Важность этого не может быть переоценена, также как включение пунктов, которые не могут эффективно мониториться, почти всегда приводит к спорам и возможной потере доверия со стороны заказчика. Немало организаций поняли это на своих ошибках и как результат получили огромные издержки как в финансовом плане, как и в собственном имидже. Совершенно необходимо, чтобы были определены обстоятельства, препятствующие выполнению соглашений и действия в случае возникновения таких обстоятельств.

Следует оценить и при необходимости обновить существующие возможности в области мониторинга. В идеальном варианте это должно быть сделано до или одновременно с проектированием соглашения об уровне услуг, что поможет использовать мониторинг при утверждении предлагаемых целей.

Крайне важно, чтобы мониторинг соответствовал восприятию услуги заказчиком. К сожалению, часто этого очень непросто достичь. Например, мониторинг отдельных компонентов, таких как сеть или сервер, не гарантирует, что услуга будет доступна заказчику так, как он этого ожидает. Заказчик часто тревожится только об услуге, которую не может получить, хотя сбой может касаться и других услуг. Полную картину невозможно получить, не обеспечивая мониторинга всех компонентов и услуги в целом, а это сложно и дорого. Соответственно, пользователи должны знать, что им следует сообщать об инцидентах немедленно, особенно - об инцидентах, связанных с производительностью, чтобы помочь работе поставщика по мониторингу.

Существует ряд важных параметров, которые невозможно померить с помощью средств мониторинга, таких, как восприятие услуг заказчиками (и оно не обязательно совпадает с результатами мониторинга). Например, даже в случае, когда произошел ряд инцидентов, заказчик может сохранять позитивное восприятие услуги благодаря заметным и правильным действиям по исправлению ситуации. Разумеется, возможна и обратная картина, когда заказчик остается неудовлетворенным в отсутствие нарушений соглашения об уровне услуг.

Для начала стоит попробовать управлять ожиданиями заказчиков. Это значит сформировать верные ожидания и цели, а затем систематически проактивно их корректировать, помня, что «удовлетворенность = восприятие - ожидания» (при значении большем или равном нулю заказчик удовлетворен). Соглашение об уровне услуг - это просто документы, и сами по себе не заменяют качество предоставляемой услуги (хотя и могут влиять не поведение и могут способствовать развитию должной культуры услуги, что даст и кратко- , и долгосрочный положительный эффект). Определенная степень терпения должна быть проявлена и быть частью ожиданий.

Там, где предоставляемые услуги оплачиваются заказчиком, цены можно использовать для управления спросом. (Заказчики могут получить все, что могут обосновать - при условии соответствия стратегии предприятия - и имеют на это авторизованный бюджет, который ограничен.) Там, где взаиморасчетов нет, необходимо заручится поддержкой высшего руководства, ограничивающей нереалистичные ожидания заказчиков.

периодическое анкетирование и опросы заказчиков;
обратная связь на встречах по оценке услуг;
обратная связь при проведении оценки проведенных изменений;
телефонные опросы, проводимые службой Service Desk;
анкеты удовлетворенности, раздаваемые при выполнении обслуживания и др. контактах;
общение с группами пользователей (на форумах и т.п.);
анализ жалоб и благодарностей.

Там, где возможно, стоит определить целевые значения удовлетворенности и контролировать их как часть соглашения об уровне услуг. Обеспечьте наличие ответа на любое проявление обратной связи со стороны пользователей, демонстрируя им, что их комментарии были включены в ваш план действий (План улучшения услуг). Все измерения удовлетворенности должны оцениваться, отклонения - анализироваться, по результатам анализа должны планироваться корректировки.

Поставщики услуг зависят от собственных команд поддержки и внешних партнеров или поставщиков. Они не могут гарантировать выполнение соглашений об уровне услуг, если внутренние и внешние зависимости не поддерживают те же цели. Контракты с внешними поставщиками - обязательны, но многие организации находят полезным также формирование простых соглашений между внутренними группами, обычно именуемых соглашениями операционного уровня. «Поддерживающие соглашения» - общий термин для всех поддерживающих соглашений операционного уровня, соглашений об уровне услуг и контрактов.

Соглашения операционного уровня не должны быть слишком сложными, но должны устанавливать четкие цели для групп поддержки, обеспечивающие исполнение целей соглашения об уровне услуг. Например, если соглашение об уровне услуг требует устранять инциденты за определенное время, Соглашение операционного уровня должны включать соответствующие ограничения для каждого элемента в цепочке поддержки. Очевидно, что цели в соглашение об уровне услуг в этом случае не должны совпадать с целями в поддерживающих соглашениях, так как соглашения об уровне услуг определяют общее время, включающее в себя работу нескольких групп, для каждой из которой может быть согласовано поддерживающее соглашение.

В Соглашения об уровне услуг следует включить время ответа на обращения, время эскалации инцидентов техническим специалистам, время их реакции. Также должны быть определены часы поддержки для каждой поддерживающей группы. Если существуют специальные процедуры контакта для персонала (телефонная линия для обращений в нерабочее время и т.п.), это также следует документировать.

Соглашение операционного уровня следует контролировать на соответствие установленным в соглашениях об уровне услуг и поддерживающих контрактах целям, формировать соответствующую отчетность и доводить ее до менеджеров команд поддержки. Это может помочь выявить потенциальные проблемные области, требующие корректировок в работе или в соглашениях. Серьезное внимание следует уделить разработке формальных соглашений операционного уровня для всех внутренних команд, участвующих в поддержке и предоставлении операционных услуг.

Соответственно, перед подписанием нового или пересмотренного соглашения об уровне услуг важно проанализировать существующие контрактные соглашения и, где необходимо, обновить их. Это может потребовать дополнительных затрат, со стороны ИТ или заказчика. В последнем случае требуется согласование этих затрат с заказчиком, или в контракты следует включить более мягкие цели. Эту проверку надо проводить совместно с управлением поставщиками, чтобы обеспечить не только исполнение требований процесса управления уровнем услуг, но и соответствие другим ограничениям, в частности - контрактным политикам и стандартам.

Как только соглашение об уровне услуг согласовано и принято, следует обеспечить мониторинг и формирование отчетности о достигаемом уровне услуг. Операционная отчетность должна формироваться часто (не реже, чем еженедельно), и, если возможно, отчеты об отклонениях должны формироваться по факту отклонений (или угрозы отклонений) от соглашения об уровне услуг. Часто выполнение соглашения об уровне услуг на начальном этапе эксплуатации новой услуги затруднено из-за большого количества поступающих запросов на изменение. Рекомендуется ограничить разрешенное число запросов на изменение на этом этапе.

Механизмы формирования отчетности, интервалы и формат предоставления отчетов должны быть согласованы с заказчиками. То же касается частоты и формата встреч по оценке услуг. Рекомендуются регулярные интервалы, синхронизированные с предоставлением регулярной отчетности.

Периодическая отчетность должна формироваться и направляться заказчикам или их представителям и соответствующим ИТ менеджерам за несколько дней до встреч по оценке услуг, чтобы возможные сложности и несогласия были устранены до встречи и не мешали оценивать услуги.

Периодическая отчетность должна содержать детали производительности в сравнении с целями соглашений об уровне услуг, а также описание тенденций и действий по улучшению качества услуг. Удобно бывает включать в отчеты соглашений об уровне услуг таблицы на первой странице отчета, чтобы можно было составить быстрое представление о соответствии услуги целям. Менеджеры ИТ могут запросить промежуточную отчетность для оценки исполнения соглашения операционного уровня и контрактов. Формирование отчетности - это развивающийся процесс, первый результат вряд ли будет финальным.

Процесс управления уровнем услуг должен определить потребности в отчетности и автоматизировать ее подготовку, насколько это возможно. Вариативность, точность и простота распространения отчетов - важная часть критериев выбора средства автоматизации. Сервисная отчетность должна не только включать в себя подробности о производительности услуг, но также предоставлять историческую информацию о прошлых значениях и тенденциях, что позволит оценить результативность мер по совершенствованию услуг и спланировать их.

Следует организовать периодические встречи с заказчиками для совместной оценки услуг по итогам прошедшего периода и случившихся отклонений и трудностей. Обычно это встречи ежемесячные или, по крайней мере, ежеквартальные.

На этих встречах должны планироваться меры по исправлению слабых мест в предоставлении и потреблении услуг. Решения должны протоколироваться, а их исполнение - отслеживаться и проверяться на следующих встречах.

Особое внимание следует уделить прерываниям услуг; должны быть выяснены причины и возможные меры по предотвращению повторов таких инцидентов. Если решено, что установленные ранее цели недостижимы, может быть принято решение об оценке, повторном обсуждении и согласовании целей услуги. Если прерывание услуги было связано с зависимостью от третьих сторон, может возникнуть необходимость в пересмотре поддерживающих соглашений. Анализ потерь, связанных с прерыванием услуги, дает важную информацию для планирования рациональных улучшений. Постоянное стремление к совершенствованию должно учитывать интересы бизнеса, концентрируя усилия в наиболее важных и выгодных областях.

О ходе и результатах исполнения плана улучшения услуг должна формироваться отчетность для оценки соблюдения плана и результативности предпринятых мер.

Все виды соглашений должны поддерживаться в актуальном состоянии. Они должны находиться под контролем управления изменениями и конфигурациями и периодически проверяться, не реже одного раза в год, для обеспечения актуальности, полноты и соответствия бизнес нуждам и стратегии.

Эти проверки должны обеспечивать актуальность соглашений с точки зрения охвата и установленных целей, подтверждая, что соглашения не утратили валидность (пригодность) вследствие каких-либо изменений в инфраструктуре, бизнесе, поставщиках и т.д. При обновлении соглашений вносимые изменения должны проводиться под контролем управления изменениями. Если соглашения отражены в системе управления конфигурациями как КЕ, этот контроль осуществлять легче, а его результаты достовернее.

Проверки должны также касаться общих стратегических документов, чтобы можно было быть уверенными в соответствии соглашений стратегии ИТ и бизнеса и политикам.

Очень важно, чтобы процесс управления уровнем услуг сформировал отношения доверия и уважения с бизнесом, особенно с ключевыми его представителями. Для того, чтобы это было возможным, процесс управления уровнем услуг должен выполнять следующие виды деятельности:

подтверждать списки заинтересованных сторон, заказчиков, бизнес руководителей и пользователей;
содействовать поддержанию точных данных в портфеле и каталоге услуг;
обеспечивать гибкость и готовность отвечать на нужды бизнеса, заказчиков и пользователей, понимание текущих и планируемых бизнес процессов и их требований к новым и изменяемым услугам, документирование и обсуждение этих требований с бизнесом, заказчиками и пользователями, формируя долгосрочные отношения;
обеспечивать полное понимание стратегии, планов, потребностей и задач бизнеса, заказчиков и пользователей, развивая партнерство между ними и ИТ;
регулярно проводить обзор работы и изучение опыта заказчиков - внутренних и внешних - и передавать соответствующую информацию в ИТ;
обеспечивать наличие и результативность процедур взаимодействия и их постоянное улучшение;
организовывать и проводить исследования удовлетворенности заказчиков, обеспечивая их анализ и действия по результатам;
представлять поставщика услуг на встречах групп пользователей;
проактивно исследовать рынок, анализируя использование услуг и влияя на портфель и каталог услуг;
работать с бизнесом, заказчиками и пользователями для того, чтобы обеспечить, что ИТ обеспечивает уровень услуг, соответствующий текущим и будущим нуждам бизнеса;
способствовать осведомленности о услугах и пониманию услуг;
повышать осведомленность о бизнес выгодах от использования новых технологий;
способствовать определению и обсуждению корректных, достижимых и реалистичных требований к уровню услуги и соглашений об уровне услуг между ИТ и бизнесом;
обеспечивать понимание бизнесом, заказчиками и пользователями их отношений с ИТ и зависимостей;
способствовать учету улучшений и совершенствований.

Процесс управления уровнем услуг также должен включать действия и процедуры по регистрации и управлению жалобами и благодарностями. Регистрация часто выполняется службой Service Desk и выполняется подобно регистрации инцидентов и запросов на обслуживание. Определения жалобы и благодарности должны быть согласованы с заказчиками вместе с точками и процедурами контакта. Все жалобы и благодарности должны регистрироваться и передаваться соответствующим сторонам. По всем жалобам также должны предприниматься действия и решения, удовлетворяющие инициатора. На случай, когда этого не происходит, должны быть определены контакты и процедуры эскалации. Все серьезные жалобы должны анализироваться и доводиться до сведения руководства. По статистике, тенденциям, действиям и результатам в области обработки жалоб и благодарностей должна формироваться отчетность.

Показатели процесса управления уровнем услуг

CSF Важно обеспечить управление качеством сервисов в целом, включая охват и уровень предоставления:

KPI Доля снижения несоответствий целям SLA
KPI Доля снижения угроз несоответствий
KPI Доля улучшений в восприятии и удовлетворенности заказчиков достижениями SLA на основании встреч по оценке сервисов и опросов удовлетворенности
KPI Доля снижения несоответствий, связанных с зависимостью от третьих сторон (UC)
KPI Доля снижения несоответствий, связанных с зависимостью от внутренних подрядчиков (OLA)

CSF Предоставление сервисов в соответствии с договоренностями за приемлемые деньги:

KPI Число и доля повышения числа полностью документированных SLA
KPI Доля улучшений в SLA, направленных на совершенствование уже предоставляемых сервисов
KPI Доля снижения стоимости предоставления сервисов
KPI Доля снижения стоимости мониторинга и отчетности по SLA
KPI Доля повышения скорости разработки и согласования SLA
KPI Частота встреч по оценке сервисов

CSF Управление интерфейсом между бизнесом и пользователями:

KPI Повышение числа сервисов, покрытых SLA
KPI Документирование и согласование процесса и процедур SLM
KPI Снижение времени ответа и исполнения для запросов на SLA
KPI Повышение доли SLA, пересматриваемых вовремя
KPI Снижение доли невыполненных SLA, подлежащих пересмотру
KPI Снижение доли SLA, требующих корректировки
KPI Повышение охвата OLA и UC при снижении числа соглашений за счет их консолидации и централизации
KPI Наличие документальных свидетельств улучшений по выявленным отклонениям от SLA
KPI Снижение числа и тяжести несоответствий целям SLA
KPI Эффективная оценка и обработка всех отклонений и несоответствий от SLA, OLA, UC

ITIL выделяет субъективные и объективные показатели эффективности управления уровнем услуг. Объективные:

Число или доля достигнутых целей услуги
Число и степень (тяжесть) отклонений и нарушений
Число актуальных SLA (up-to-date)
Число услуг, по которым своевременное предоставляется отчетность и проводится оценка

Субъективные:

Улучшения удовлетворенности заказчиков

Риски и сложности

При внедрении управления уровнем услуг необходимо учитывать следующие возможные риски и сложности:

Недостаток точных входных данных, вовлеченности и заинтересованности со стороны бизнеса и заказчиков
Потребность в ресурсах и инструментарии для согласования, документирования, мониторинга, отчетности и оценки соглашений и уровней услуг
Процесс может стать излишне бюрократичным, ориентированным на административные процедуры, а не на фактическое проактивное улучшение услуг
Доступ и поддержка корректных и актуальных CMS и SKMS
Неисполнение процедур SLM
Бизнес ориентированные метрики слишком сложно мерить и улучшать, поэтому они не собираются
Несоответствующий задачам уровень контакта и согласования
Высокие ожидания и низкая удовлетворенность заказчиков
Неэффективные коммуникации с бизнесом

Процесс управления проблемами

При предоставлении ИТ-услуг так или иначе случаются инциденты (сбои). И если у вас должным образом организован процесс управления инцидентами и процесс управления событиями, то негативное влияние от возникающих инцидентов будет минимизировано. Если происходят инциденты, значит для этого существует какая-то неизвестная причина. Процесс управления инцидентами начинает действовать с появлением инцидента и прекращает свою работу после исправления ситуации. Это означает, что корневая причина возникновения инцидента не всегда бывает установлена и инцидент может повториться снова. В ITIL эта причина называется проблемой.

Проблема - причина одного или нескольких инцидентов. Обычно при создании записи о проблеме причина неизвестна, и за дальнейшее её расследование отвечает процесс управления проблемами.

Для выяснения корневых причин возникновения как существующих, так и потенциальных ошибок в предоставлении услуг, в рамках процесса управления проблемами производится изучение инфраструктуры и имеющейся информации, включая базу данных инцидентов.

Управление проблемами - процесс, отвечающий за управление жизненным циклом всех проблем. Управление проблемами проактивно предотвращает возникновение инцидентов и минимизирует влияние тех инцидентов, которые не могут быть предотвращены.

Управление проблемами включает в себя проактивные (упреждающие) и реактивные виды деятельности. Задачей реактивных составляющих процесса управления проблемами является выяснение корневой причины прошлых инцидентов и подготовка предложения по ее ликвидации. Проактивное управление проблемами помогает предотвратить инциденты путем определения слабых мест в инфраструктуре и подготовки предложений по ее усовершенствованию.

Таким образом, задачами процесса управления проблемами являются:

Предотвращение возникновения проблем и связанных с ними инцидентов
Прекращение повторения инцидентов
Снижение влияния инцидентов, которые не могут быть предотвращены

Деятельность в рамках процесса управления проблемами

В принципе, любой инцидент, возникший по неизвестной причине, может быть связан с проблемой. На практике инициировать проблему имеет смысл делать только тогда, когда инцидент повторяется, возможно его повторение или если это единичный, но серьезный инцидент.

Деятельность по «идентификации проблем» часто выполняют координаторы проблем. Однако бывает так, что персонал, изначально не вовлеченный в эту работу, например, специалисты по управлению мощностями, тоже может выявлять проблемы. Такие «находки» также следует регистрировать как проблемы.

Регистрационные детали проблем схожи с деталями инцидентов, но в случае проблемы не нужно включать в описание информацию о пользователе и т. д. Однако инциденты, связанные с конкретной проблемой, следует идентифицировать и соответствующим образом регистрировать. Ниже даются примеры случаев, когда могут быть идентифицированы проблемы:

Управление инцидентами не может привязать (match) инцидент к существующим проблемам или известным ошибкам
Анализ тенденций инцидентов показывает, что может существовать проблема
Необходим анализ причины значительного (major) инцидента
Другие ИТ-функции определили, что возможна проблема
Персонал Service Desk не смог определить причину инцидента и есть подозрение, что этот инцидент может повториться
Анализ инцидента группой поддержки показал, что есть (или может существовать) проблема
Уведомление от поставщика о существовании проблемы, которую нужно решить

Возможными признаками проблем могут быть:

Инциденты, повторяющиеся в:

Один и тот же временной промежуток
В одной предметной области (категории)
В одном и том же CI или группе однотипных CI
В одних и тех же локации, заказе, подразделении

Объем однотипных инцидентов превышает некий уровень
Для решения инцидента применено обходное решение
Превышение предельного срока обработки инцидента(ов)

Анализ тенденций позволяет обнаружить области, которым требуется особое внимание. Независимо от метода обнаружения проблемы, все значимые данные о проблеме должны быть зафиксированы в записи о проблеме (problem record):

Информация о пользователе(-ях)
Информация об услуге(-ах)
Информация об оборудовании
Время регистрации
Приоритет, категория
Описание связанных инцидентов
Предпринятые для диагностики и решения действия

Запись о проблеме - запись, содержащая детальное описание проблемы. Каждая запись о проблеме документирует жизненный цикл одной проблемы.

Также, как и инциденты, проблемы должны быть классифицированы. Проблемы можно классифицировать по областям (категориям). Классификация проблемы выполняется одновременного с анализом степени ее воздействия, т. е. уровня серьезности проблемы и ее влияния на услуги (срочность и степень воздействия). Вслед за этим проблеме присваивается приоритет, точно так же, как в процессе управления инцидентами. Затем на основе результатов классификации за проблемой закрепляются ресурсы и персонал и определяется время, необходимое для ее решения.

Классификация проблемы включает в себя следующее:

Известная ошибка - проблема, имеющая задокументированные корневую причину и обходное решение. Известные ошибки создаются и управляются на протяжении их жизненного цикла в рамках процесса управления проблемами. Известные ошибки также могут быть выявлены разработчиками или подрядчиками.

Классификация не является статичной, она может меняться на протяжении жизненного цикла проблемы. Например, наличие обходного решения или быстрого решения поможет снизить срочность проблемы, в то время как новые инциденты могут привести к усилению степени воздействия проблемы.

Расследование и диагностика являются итеративными фазами процесса, они неоднократно повторяются, каждый раз приближаясь все ближе к намеченному результату. Часто делаются попытки воспроизвести инцидент в условиях тестирования. Для решения проблемы могут потребоваться дополнительные знания, например, для анализа и диагностики проблемы можно привлечь специалистов из группы поддержки.

После определения причины проблемы и обходного решения, проблеме присваивается статус «Известной ошибки». Во многих случаях обходное решение для проблемы уже имеется изначально, даже если ошибка найдена самими разработчиками. Но в некоторых случаях обходное решение нужно найти, а затем передать его в процесс управления инцидентами.

Обходное решение - уменьшение или устранение влияния инцидента или проблемы, для которых в текущий момент недоступно полное разрешение. Например, перезапуск отказавшей конфигурационной единицы. Обходные решения для проблем документируются в записях об известных ошибках.

Персонал, участвующий в управлении проблемами, определяет, что необходимо сделать для решения проблемы. Специалисты сравнивают различные решения, принимая во внимание соглашения об уровне услуг (SLA), возможные издержки и выгоды. Все работы по выработке решения должны быть зафиксированы в системе, у персонала должны быть средства для мониторинга проблем и определения их статуса.

На предыдущих этапах происходит выбор оптимального решения. Однако может быть принято решение не исправлять известную ошибку, например, по причине экономической нецелесообразности.

После окончания этапа выбора существует достаточно информации для подачи запроса на изменение. Далее исправление проблемы (известной ошибки) будет произведено под контролем процесса управления изменениями.

Изменение, предназначенное для решения проблемы, должно быть рассмотрено при оценке результатов внедрения до закрытия проблемы. Если изменение дало ожидаемый результат, проблема может быть закрыта, и в базе данных о проблемах ее статус будет изменен на статус «решена». Управление инцидентами будет проинформировано об этом и инциденты, связанные с этой проблемой, тоже могут быть закрыты.

Оценка результатов внедрения - обзор, выполняемый после внедрения изменения или проекта. Оценка результатов внедрения определяет успешность изменения или проекта и выявляет возможности для улучшения.

В течение всего процесса информация об обходных решениях и быстрых исправлениях передается в управление инцидентами. Пользователи также могут информироваться об этом.

Политики и показатели процесса управления проблемами

Политики процесса управления проблемами должны выполняться для обеспечения результативности и эффективности процесса, и могут включать следующие аспекты:

Проблемы должны отслеживаться отдельно от инцидентов
Все проблемы должны храниться и управляться единой системой управления
Все проблемы должны иметь стандартную схему классификации, которая соответствует бизнес процессам предприятия

Для управления и оценки эффективности процесса управления уровнем услуг, а также для обеспечения обратной связи с другими процессами управления, ITIL предлагает использовать следующие основные показатели (CSF и KPI):

CSF Минимизация влияния на бизнес инцидентов, которые не могут быть предотвращены

KPI Количество известных ошибок добавляется KEDB
KPI Процент актуальности KEDB (по аудиту базы данных)
KPI Процент инцидентов, закрытых службой поддержки («первой точкой контакта»)
KPI Среднее время решения инцидентов, по которым открыта проблема

CSF Поддержка качества ИТ-услуг путем устранения повторяющихся инцидентов

KPI Общее количество проблем (как контрольный параметр)
KPI Размер очереди по проблемам для каждой ИТ-услуги
KPI Количество повторно случившихся инцидентов для каждой ИТ-услуги

CSF Обеспечение качества и профессионализма в решении проблем для поддержания уверенности бизнеса в возможностях ИТ

KPI Количество значительных проблем (открытых, закрытых и очередь)
KPI Процент успешно выполненных обзоров значительных проблем
KPI Процент обзоров значительных проблем, завершенных успешно и в срок
KPI Количество и процент проблем, назначенных неправильно
KPI Количество и процент проблем с неверной категоризацией
KPI Очередь накопившихся нерешенных проблем и её тенденция
KPI Количество и процент проблем, превысивших сроки решения
KPI Процент проблем, решенных в рамках целей SLA целей
KPI Средняя стоимость решения одной проблемы

Ценность для бизнеса

Внедрив процесс управления инцидентами в соответствии с рекомендациями ITIL и решив все сложности, которые могут возникнуть при внедрении, может быть полученная следующая ценность для бизнеса в целом:

Повышение качества ИТ сервисов посредством контроля, документирования и/или исключения ошибок в инфраструктуре.
Сокращение количества инцидентов.
Повышение продуктивности персонала
Применение постоянных решений вместо непрерывного «латания дыр».
Систематическая деятельность по накоплению знаний.
Возможность разрешать большее количество инцидентов на первой линии поддержки.
Снижение стоимости усилий при тушении пожаров или разрешения повторных инцидентов

Процесс управления сервисными активами и конфигурациями

В каждой организации имеется информация об ИТ-инфраструктуре. Часто для структурирования и обобщения имеющейся информации разрабатываются различные схемы, которые вешаются на стену. Этот способ действительно позволяет в определенных случаях оперативно получать информацию о конфигурации компонентов инфраструктуры и их взаимосвязях, но при этом имеет ряд недостатков:

сложность актуализации: при внесении каждого изменения схему необходимо перерисовать и печатать заново, в противном случае на нее нельзя полагаться в случае необходимости
ограниченный охват: компоненты инфраструктуры могут быть очень тесно переплетены между собой и не всегда все элементы могут быть отражены на схеме
ограниченность информации: как правило, для каждого элемента указывается только самая важная информация, например, доменное имя или IP-адрес
сложность анализа: при большом охвате схемы и при наличии различных сложных взаимосвязей между компонентами, анализ таких схем затруднителен

Выстроенный в соответствии с рекомендациями ITIL процесс управления сервисными активами и конфигурациями позволяет использовать имеющиеся данных об ИТ-инфраструктуре наиболее эффективным образом, избежав при этом указанных недостатков и получив дополнительные преимущества.

Управление сервисными активами и конфигурациями (SACM) - процесс, отвечающий за обеспечение того, что все активы, необходимые для предоставления услуг, контролируются, а точная достоверная информация о них доступна, когда это необходимо. Эта информация включает в себя конфигурацию активов и взаимоотношения между ними.

Управления сервисными активами и конфигурациями включает в себя два подпроцесса:

Управление активами (Asset Management) - деятельность или процесс, отвечающий за отслеживание и предоставление отчётности о ценности и владении активами на всём протяжении их жизненного цикла
Управление конфигурациями (Configuration Management) - деятельность или процесс, отвечающий за управление информацией о конфигурационных единицах, необходимой для предоставления ИТ-услуг, включая их взаимоотношения.

Задачи процесса управления сервисными активами и конфигурациями:

Идентифицировать, контролировать, документировать, предоставлять отчеты и проверять сервисные активы и конфигурационные единицы, включая версии, базовые конфигурации, компоненты, их атрибуты и взаимосвязи
Отвечать за управление и защиту и защищать целостность сервисных активов и конфигурационных единиц (и, где уместно, принадлежащих заказчику) в течение жизненного цикла услуги, гарантируя, что используются только авторизованные компоненты и проводятся только авторизованные изменения
Обеспечивать целостность активов и конфигураций, требуемую для управления услугами и ИТ инфраструктурой, создавая и поддерживая точную и полную систему управления конфигурациями

Ядром процесса является система управления конфигурациями (CMS). CMS позволяет обеспечить хранение всей необходимой конфигурационной информации, ее анализ и представление в различных разрезах.

Система управления конфигурациями (configuration management system, CMS) - набор инструментов, данных и информации, которые используются для поддержки процесса управления сервисными активами и конфигурациями. CMS - часть общей системы управления знаниями по услугам, включает в себя инструменты для сбора, хранения, управления, обновления, анализа и представления информации обо всех конфигурационных единицах и их взаимоотношениях. CMS может также включать в себя информацию об инцидентах, проблемах, известных ошибках, изменениях и релизах. CMS поддерживается процессом управления сервисными активами и конфигурациями и используется всеми процессами управления ИТ-услугами.

Конфигурационная единица (КЕ) - любой компонент или другой сервисный актив, которым необходимо управлять для того, чтобы предоставлять ИТ-услугу. Информация о каждой конфигурационной единице регистрируется в форме конфигурационной записи в системе управления конфигурациями и поддерживается актуальной в течение всего жизненного цикла процессом управления сервисными активами и конфигурациями. Конфигурационные единицы находятся под контролем процесса управления изменениями. Обычно они включают в себя ИТ-услуги, оборудование, программное обеспечение, здания, людей и документы, такие как процессная документация и соглашения об уровне услуг.

Конфигурационными единицами могут быть технические средства, все виды программного обеспечения, активные и пассивные сетевые элементы, серверы, системные блоки, документация, процедуры, услуги и все другие ИТ-компоненты, контролируемые ИТ-организацией, и т.д. В CMS хранятся следующие типы объектов:

записи о конфигурационных единицах, включающие соответствующие им атрибуты
взаимоотношения (связи) между конфигурационными единицами

Атрибуты позволяют учитывать информацию, необходимую для определённого типа конфигурационных единиц. Например, для серверов и ноутбуков может быть интересна такая информация, как производитель, доменное имя, срок гарантии и т.д. При этом для программного обеспечения эта информация скорее всего будет отличаться.

Атрибут - часть информации о конфигурационной единице. Например, наименование, местоположение, номер версии и стоимость. Атрибуты КЕ записываются в базу данных управления конфигурациями (CMDB) и поддерживаются как часть системы управления конфигурациями (CMS).

Таким образом, каждая конфигурационная единица должна относится к определенному типу (классу), определяющей единые атрибуты для всех КЕ этого типа (класса) и перечень возможных взаимосвязей КЕ данного типа с КЕ другого типа.

Тип КЕ - категория, которая используется для классификации конфигурационных единиц. Тип КЕ определяет, какие атрибуты и взаимоотношения требуются для конфигурационной записи. Обычные типы КЕ - оборудование, документация, пользователь и т.п.

Совокупность КЕ и их взаимоотношений фактически представляют собой конфигурационную модель. На рисунке представлен пример конфигурационной модели.
CMS позволяет эффективным образом учитывать необходимую конфигурационную информацию, анализировать и представлять в различном виде, включая графический. CMS предоставляет информацию другим процессам управления услугами:

для оценки влияния инцидентов и проблем
для оценки влияния изменений
для планирования и проектирования новых и изменяемых услуг
для планирования обновления технологий и ПО
для планирования пакетов релиза и тиражирования услуг
для оптимизации использования активов и затрат

Таким образом, в случае если управление сервисными активами и конфигурациями реализовано эффективно, то этот процесс может дать, например, информацию о следующем:

Финансовая информация и политика компании в отношении продуктов

Какие ИТ-компоненты используются в настоящее время по каждой модели (версии) и на протяжении какого времени?
Какие тенденции существуют в разных группах продуктов?
Какова текущая и остаточная стоимость ИТ-компонентов?
Какие ИТ-компоненты нужно выводить из операционной среды и какие требуют модернизации?
Сколько будет стоить замена определенных компонентов?
Какие имеются лицензии и достаточно ли их?
Какие контракты на сопровождение следует пересмотреть?
Какова степень стандартизации инфраструктуры?

Выявление неисправностей и оценка результатов

Какие ИТ-компоненты необходимы для поддержки процесса восстановления в случае чрезвычайной ситуации?
Будет ли работать план восстановления на случай чрезвычайных обстоятельств, если была изменена конфигурация инфраструктуры?
Какие ИТ-компоненты будут затронуты при развертывании новых сервисов?
Как оборудование подключено к сети?
Какие программные модули входят в каждый из комплектов программного обеспечения?
Какие ИТ-компоненты затрагиваются изменениями?
Какие запросы на изменение (RFC) конкретных ИТ-компонентов находятся на рассмотрении и какие инциденты и проблемы произошли в прошлом и сейчас продолжают оставаться актуальными?
Какие ИТ-компоненты вызывают известные ошибки?
Какие ИТ-компоненты были закуплены у конкретного поставщика в течение определённого периода?

Предоставление услуг и выставление счетов

Какие конфигурации ИТ-компонентов являются существенными для определенных услуг?
Какие ИТ-компоненты используются в том или ином месте и кем?
Какие стандартные ИТ-компоненты может заказать пользователь и какие из них поддерживаются (каталог продуктов)?

Деятельность в рамках процесса управления сервисными активами и конфигурациями

На рисунке приведена схема типовых деятельностей по управлению конфигурациями.

В материалах ITIL «планирование» означает деятельность по организации самого процесса управления конфигурациями. Управление и планирование как вид деятельности, применяется как на этапе создания, так и на этапе совершенствования процесса. Основным результатом планирования является «План управления конфигурациями».

План управления конфигурациями содержит.

Описание процесса управления конфигурациями
Высокоуровневое описание системной архитектуры
План значительных мероприятий (идентификации, крупных релизов и проч.)

План является «живым» документом и подлежит регулярному пересмотру. За актуализацию плана отвечает менеджер процесса управления конфигурациями.

Деятельность по идентификации конфигураций включает:

Определение и документирование критериев по выбору конфигурационных единиц и составляющих их компонентов
Выбор конфигурационных единиц и компонентов на основе документированных критериев
Присвоение уникальных идентификаторов
Определение атрибутов для каждой КЕ
Определение момента, когда КЕ берется под контроль процесса
Определение владельца, ответственного за каждую КЕ

В зависимости от масштаба ИТ инфраструктуры и сложности правил учета, идентификация может занимать много времени и требовать значительное количество ресурсов. Поэтому работы по идентификации должны тщательно планироваться.

Деятельность по управлению КЕ включает следующие аспекты:

Поддержание данных CMDB в актуальном состоянии
Обеспечение целостности данных CMDB (понятны происхождение и история изменений каждой КЕ)
- Ограничение доступа на изменение данных CMDB
- Обеспечение антивирусной защиты средств управления CMDB
- Обеспечение резервного копирования и возможности восстановления данных
Правила контроля должны быть разработаны на этапе планирования процесса
Правила передачи контроля от проектов или поставщиков
Процедуры контроля должны соответствовать типам КЕ

В деятельность по учету статуса конфигураций и отчетности входит:

Поддержка конфигурационных записей в ходе жизненного цикла услуги и архивация их в соответствии с соглашениями, внешними требованиями, передовым опытом и стандартами (например ISO 9001)
Управление документированием, получением и консолидацией текущего статуса конфигурации и статусов всех предшествующих конфигураций для обеспечения корректности, своевременности, целостности и безопасности информации
Обеспечение доступности информации о статусе в течение жизненного цикла услуги
Документирование изменений CI от приемки до вывода из эксплуатации
Обеспечение правильного документирования базовых конфигураций

Верификация и аудит:

Верификация - проверка КЕ на соответствие стандартам или функциональным требованиям:

При первичной регистрации в CMDB
При получении оборудования или ПО от поставщика
При вводе в эксплуатацию

Аудит - проверка соответствия между актуальным состоянием КЕ (как есть) и описанием КЕ в CMDB (как должно быть)

Стандартный аудит
Упрощенный аудит
Текущий (операционный) аудит

Спустя небольшой промежуток времени после внедрения новой системы / процесса управления конфигурациями
Перед и после крупных изменений в ИТ инфраструктуре
Перед развертыванием нового ПО для проверки готовности продуктивной среды
После восстановления от крупного сбоя (чрезвычайной ситуации)
По факту обнаружения большого количества расхождений (например, в рамках операционного аудита)
Регулярно (с заранее определенной периодичностью)
Время от времени («внезапные» проверки)

Показатели процесса управления сервисными активами и конфигурациями

Для управления и оценки эффективности процесса управления изменениями, а также для обеспечения обратной связи с другими процессами управления, ITIL предлагает использовать такие основные показатели, как например:

Процент улучшения поддержки жизненного цикла актива по принципу: не слишком много, не слишком поздно
Степень соответствия поддержки потребностям бизнеса
Активы, идентифицированные как причина сбоев в предоставлении услуг
Увеличение скорости решения инцидентов и восстановления услуг через более быстрое определение сбойных КЕ
Выявление связей между специфическими типами КЕ, инцидентами и проблемами
Более эффективное использование сервисных активов
Более эффективное использование закупленных лицензий, средняя стоимость лицензии на одного пользователя
Более точные бюджет и оплата за использование активов
Более эффективные аудиты активов
Улучшение качества и точности информации об активах
Меньше ошибок, вызванных работой с устаревшими данными
Уменьшение количества и объемов аудита
Уменьшение использования неавторизованного оборудования и ПО, что ведет к уменьшению стоимости и рисков в поддержке услуг
Уменьшение времени и снижение стоимости при диагностике и решении инцидентов и проблем
Уменьшение времени идентификации активов, проблемных по производительности
Уменьшение количества неуспешных изменений, причиной чего явилась неверная оценки влияния, некорректные данные в CMS или плохой контроль версий
Снижение рисков благодаря раннему обнаружению несанкционированных изменений

Сложности

При внедрении управления сервисными активами и конфигурациями необходимо учитывать следующие возможные сложности:

Убеждение персонала технической поддержки соблюдать политики учета, что часто воспринимается как препятствие в быстрой поддержке услуг.
Привлечение и обоснование выделения фондов для процесса, так как, обычно, процесс не виден подразделениям заказчика, обладающим полномочиями по выделению фондов. Обычно финансируется как «невидимый» элемент управления изменениями и других более «заметных» процессов
Подход: «собираем все данные, которые возможно», что ведет к перегрузке процесса, а также к невозможности его поддерживать
Недостаток приверженности и поддержки руководства, не понимающего ключевую роль процесса

При одновременной обработке нескольких инцидентов необходимо расставлять приоритеты. Обоснованием для назначения приоритета служит уровень важности ошибки для бизнеса и для пользователя. На основе диалога с пользователем и в соответствии с положениями Соглашений об Уровнях Услуг (Service Level Agreements – SLAs) Служба Service Desk назначает приоритеты, определяющие порядок обработки инцидентов. При эскалации инцидентов на вторую, третью или более линии поддержки, тот же приоритет должен быть соблюден, но иногда он может быть скорректирован по согласованию со Службой Service Desk.

степень воздействия инцидента : степень отклонения от нормального уровня предоставления услуги, выражающаяся в количестве пользователей или бизнес-процессов, подвергшихся воздействию инцидента;

срочность инцидента : приемлемая задержка разрешения инцидента для пользователя или бизнес-процесса.

Приоритет определяется на основе срочности и степени воздействия. Для каждого приоритета определяется количество специалистов и объем ресурсов, которые могут быть направлены на разрешение инцидента. Порядок обработки инцидентов одинакового приоритета может быть определен в соответствии с усилиями, необходимыми для разрешения инцидента. Например, легко разрешаемый инцидент может быть обработан перед инцидентом, требующим больших усилий.

При Управлении Инцидентами существуют способы снижения степени воздействия и срочности, такие, как переключение системы на резервную конфигурацию, перенаправление очереди печати и др.

Рис. 4.2. Определение степени воздействия, срочности и приоритета

Степень воздействия и срочность также могут сами меняться во времени, например, при росте количества пользователей, подвергшихся воздействию инцидента или в критические моменты времени.

Степень воздействия и срочность могут быть объединены в матрицу, как показано в табл. 4.1.

Таблица 4.1. Пример системы кодирования приоритетов

Эскалация

Если инцидент не может быть разрешен первой линией поддержки за согласованное время, необходимо привлечение дополнительных знаний или полномочий. Это называется эскалацией, которая происходит в соответствии с рассмотренными выше приоритетами и, соответственно, временем разрешения инцидента.

Различают функциональную и иерархическую эскалацию:

Функциональная эскалация (горизонтальная) – означает привлечение большего количества специалистов или предоставление дополнительных прав доступа для разрешения инцидента; при этом, возможно, происходит выход за пределы одного структурного ИТ-подразделения.

Иерархическая эскалация (вертикальная) – означает вертикальный переход (на более высокий уровень) в рамках организации, так как для разрешения инцидента недостаточно организационных полномочий (уровня власти) или ресурсов.

Задачей Руководителя Процесса Управления Инцидентами является заблаговременное резервирование возможностей для функциональной эскалации в рамках линейных подразделений организации так, чтобы разрешение инцидентов не требовало регулярной иерархической эскалации. В любом случае, линейные подразделения должны предоставить для этого процесса достаточное количество ресурсов.

Первая, вторая и n-линия поддержки

Выше была изложена маршрутизация инцидента, или функциональная эскалация. Маршрутизация определяется требуемым уровнем знаний, полномочий и срочностью. Первой линией поддержки (называемой также поддержкой 1-го уровня) обычно является Служба Service Desk, второй линией – подразделений, осуществляющие Управление ИТ-инфраструктурой, третья – отделы разработки и архитектуры программного обеспечения, и четвертая – поставщики. Чем меньше организация, тем меньше в ней уровней эскалации. В больших организациях Руководитель Процесса Управления Инцидентами может назначить Координаторов инцидентов в соответствующих подразделениях для поддержки своей деятельности. Например, координаторы могут играть роль интерфейса между процессной деятельностью и линейными организационными подразделениями. Каждый из них координирует деятельность собственных групп поддержки. Процедура эскалации графически представлена на рис. 4.3.

Рис. 4.3. Эскалация инцидента (источник: OGC)

4.2. Цель

Целью Процесса Управления Инцидентами является скорейшее восстановление нормального Уровня Услуг, определенного в Соглашении об Уровне Услуг (Service Level Agreement – SLA), с минимальными возможными потерями для бизнес-деятельности организации и пользователей. Кроме того, Процесс Управления Инцидентами должен вести точную регистрацию инцидентов для оценки и совершенствования процесса и предоставления необходимой информации для других процессов.

4.2.1. Преимущества использования процесса

Для бизнеса в целом:

Своевременное разрешение инцидентов, ведущее к уменьшению потерь для бизнеса;

Повышение производительности работы пользователей;

Независимый, ориентированный на потребности заказчика мониторинг инцидентов;

Доступность объективной информации о соответствии предоставляемых услуг согласованным договоренностям (SLA).

Для ИТ-организации:

Улучшенный мониторинг, позволяющий проводить точное сопоставление уровня производительности ИТ-систем с соглашениями (SLA);

Эффективное руководство и мониторинг выполнения соглашений (SLA) на основе достоверной информации;

Эффективное использование персонала;

Предотвращение потерь инцидентов и Запросов на Обслуживание или их неправильной регистрации;

Повышение точности информации в Конфигурационной Базе Данных (Configuration Management Database – CMDB) за счет ее проверки при регистрации инцидентов в привязке к Конфигурационным Единицам (Configuration Item – CI);

Повышение удовлетворенности пользователей и заказчиков.

Отказ от использования Процесса Управления Инцидентами может привести к следующим отрицательным последствиям:

Инциденты могут быть потеряны или, наоборот, необоснованно восприняты как чрезвычайно серьезные из-за отсутствия ответственных за мониторинг и эскалацию, что может привести к снижению общего уровня обслуживания;

Пользователи могут перенаправляться к одним и тем же специалистам «по кругу» без успешного разрешения инцидента;

Специалисты могут постоянно отрываться от работы телефонными звонками пользователей, из-за чего им становится трудно эффективно выполнять свою работу;

Могут возникать ситуации, когда несколько человек будут работать над одним и тем же инцидентом, непродуктивно теряя время, и примут противоречивые решения;

Может ощущаться недостаток информации о пользователях и предоставляемых услугах, необходимой для принятия руководящих решений;

Из-за указанных выше возможных проблем затраты компании и ИТ-организации на поддержку услуг будут выше, чем реально требуется.

4.3. Процесс

На рис. 4.4 показаны входы и выходы процесса, а также виды деятельности, которые охватывает этот процесс.

Рис. 4.4. Положение Процесса Управления Инцидентами

4.3.1. Входы процесса

Инциденты могут возникнуть в любой части инфраструктуры. Часто о них сообщают пользователи, но возможно их обнаружение и сотрудниками других отделов, а также автоматическими системами управления, настроенными на регистрацию событий в приложениях и технической инфраструктуре.

4.3.2. Управление конфигурациями

Конфигурационная База Данных (Configuration Management Database - CMDB) играет важную роль в Управлении Инцидентами, так как она определяет связь между ресурсами, услугами, пользователями и Уровнями Услуг (сервисов). Например, Управление Конфигурациями показывает, кто является ответственным за компонент инфраструктуры, что делает возможным более эффективное распределение инцидентов по группам специалистов. Кроме того, эта база данных помогает решать оперативные вопросы, например, перенаправление очереди печати или переключение пользователя на другой сервер. При регистрации инцидента в регистрационные данные добавляется связь (link) с соответствующей Конфигурационной Единицей (Configuration Item – CI), позволяющая предоставить более подробную информацию об источнике ошибки. В случае необходимости может быть обновлен статус соответствующей компоненты в CMDB.

4.3.3. Управление Проблемами

Эффективное Управление Проблемами требует качественной регистрации инцидентов, что значительно облегчит поиск корневых причин. С другой стороны, Управление Проблемами помогает Процессу Управления Инцидентами, предоставляя информацию о проблемах, известных ошибках, обходных решениях и быстрых исправлениях .

4.3.4. Управление Изменениями

Инциденты могут быть решены путем внесения изменений, например, заменой монитора. Управление Изменениями предоставляет Процессу Управления Инцидентами информацию о запланированных изменениях и их статусах. Кроме того, изменения могут вызвать инциденты, если изменения произведены неправильно или содержат ошибки. Процесс Управления Изменениями получает информацию о них из Процесса Управления Инцидентами.

4.3.5. Управление Уровнем Услуг

Управление Уровнем Услуг контролирует выполнение договоренностей (соглашений – SLA) с заказчиком о предоставляемой ему поддержке. Сотрудники, участвующие в Управлении Инцидентами должны хорошо знать эти соглашения, чтобы использовать необходимую информацию при контактах с пользователями. Кроме того, регистрационные данные об инцидентах требуются при составлении отчетов для проверки выполнения согласованного Уровня Услуг.

4.3.6. Управление Доступностью

Для определения показателей доступности услуг Процесс Управления Доступностью использует регистрационные данные об инцидентах и данные мониторинга статуса, предоставляемые Процессом Управления Конфигурациями. Аналогично Конфигурационной Единице (CI) в Конфигурационной Базе Данных (CMDB), сервису (услуге) может быть также назначен статус «не работает» . Это может быть использовано для проверки действительных показателей доступности услуги и времени реагирования поставщика. При осуществлении такой проверки необходима фиксация времени действий, произошедших в процессе обработки инцидента, от момента обнаружения и до закрытия.

4.3.7. Управление мощностями

Процесс Управления Мощностями получает информацию об инцидентах, связанных с функционированием самих ИТ-систем, например, инцидентах, произошедших в связи с недостатком дискового пространства или медленной скоростью реакции и т.д. В свою очередь, информация об этих инцидентах может поступать в Процесс Управления Инцидентами от системного администратора или от самой системы на основе мониторинга своего состояния.

Ни рис. 4.5. показаны этапы процесса:

Рис. 4.5. Процесс Управления Инцидентами

Прием и регистрация инцидента (Acceptance and Recording) – принимается сообщение и создается запись об инциденте.

Классификация и начальная поддержка (Classification and Initial Support) – присваиваются тип, статус, степень воздействия, срочность, приоритет инцидента, SLA и т.п. Пользователю может быть предложено возможное решение, даже если оно только временное.

Если вызов касается Запроса на Обслуживание (Service Request) , то инициируется соответствующая процедура.

Привязка (или сопоставление – Matching) – проверяется, не является ли инцидент уже известным инцидентом или известной ошибкой, нет ли для него уже открытой проблемы, и нет ли для него известного решения или обходного пути.

Расследование и диагностика (Investigation and Diagnosis) – при отсутствии известного решения производится исследование инцидента с целью как можно быстрее восстановить нормальную работу.

Решение и восстановление (Resolution and Recovery) – если решение найдено, то работа может быть восстановлена.

Закрытие (Closure) – с пользователем связываются, чтобы он подтвердил согласие с предложенным решением, после чего инцидент может быть закрыт.

Мониторинг хода работ и отслеживание (Progress monitoring and Tracking) – весь цикл обработки инцидента контролируется, и если инцидент не может быть разрешен вовремя, производится эскалация.

4.4. Виды деятельности

4.4.1. Прием и регистрация

В большинстве случаев инциденты регистрируются Службой Service Desk, куда поступают сообщения о них. Регистрация всех инцидентов должна производиться немедленно после поступления сообщения по следующим причинам:

Трудно произвести точную регистрацию информации об инциденте, если это не сделано сразу;

Мониторинг хода работ по решению инцидента возможен, только если инцидент зарегистрирован;

Зарегистрированные инциденты помогают при диагностике новых инцидентов;

Управление Проблемами может использовать зарегистрированные инциденты при работе над поиском корневых причин;

Легче определить степень воздействия, если все сообщения (звонки) зарегистрированы;

Без регистрации инцидентов невозможно контролировать исполнение договоренностей (SLA);

Немедленная регистрация инцидентов предотвращает ситуации, когда или несколько человек работают над одним звонком, или никто ничего не делает для разрешения инцидента.

Место обнаружения инцидента определяется по признаку, откуда пришло сообщение о нем. Инциденты могут быть обнаружены следующим образом:

Обнаружен пользователем : он докладывает об инциденте в Службу Service Desk.

Обнаружен системой : при обнаружении события в приложении или технической инфраструктуре, например, при превышении критического порога, событие регистрируется как инцидент в системе регистрации инцидентов и, при необходимости, направляется в группу поддержки.

Обнаружен сотрудником Службы Service Desk : сотрудник производит регистрацию инцидента.

Обнаружен кем-либо в другом подразделении ИТ : этот специалист регистрирует инцидент в системе регистрации инцидентов или докладывает о нем в Службу Service Desk.

Необходимо избегать двойной регистрации одного инцидента. Поэтому при регистрации инцидента следует проверить, нет ли аналогичных открытых инцидентов:

Если есть (и они касаются того же инцидента) , информация об инциденте обновляется или же инцидент регистрируется отдельно и устанавливается связь (привязка) к главному инциденту; при необходимости изменяется степень воздействия и приоритет, и добавляется информация о новом пользователе.

Если нет (отличается от открытого инцидента) , производится регистрация нового инцидента.

В обоих случаях продолжение процесса одинаково, хотя в первом случае последующие действия гораздо проще.

При регистрации инцидента производятся следующие действия:

Назначение номера инцидента : в большинстве случаев система автоматически назначает новый (уникальный) номер инцидента. Часто этот номер сообщается пользователю, чтобы он мог ссылаться на него при дальнейших контактах.

Запись базовой диагностической информации : время, признаки (симптомы), пользователь, сотрудник, принявший вопрос в обработку, место произошедшего инцидента и информация о затронутой услуге и/или технических средствах.

Запись дополнительной информации об инциденте : добавляется информация, например, из скрипта (script) или процедуры опроса или из Конфигурационной Базы Данных – CMDB (обычно на основе взаимоотношений Конфигурационных Единиц, определенных в CMDB).

Объявление сигнала тревоги : если происходит инцидент, имеющий высокую степень воздействия, например, сбой важного сервера, производится предупреждение других пользователей и руководства.

4.4.2. Классификация

Классификация инцидентов направлена на определение его категории для облегчения мониторинга и составления отчетов. Желательно, чтобы опции классификации были как можно шире, но при этом требуется более высокий уровень ответственности персонала. Иногда пытаются объединить в одном перечне несколько аспектов классификации, таких, как тип, группа поддержки и источник. Это часто вносит путаницу. Лучше использовать несколько коротких перечней. В данном разделе рассматриваются вопросы, относящиеся к классификации.

Центральная процессинговая система – подсистема доступа, центральный сервер, приложение.

Сеть – маршрутизаторы, сегменты, концентратор (hub), IP-адреса.

Рабочая станция – монитор, сетевая карта, дисковод, клавиатура.

Использование и функциональность – услуга (сервис), возможности системы, доступность, резервное копирование (back-up), документация.

Организация и процедуры – заказ, запрос, поддержка, оповещение (коммуникации).

Запрос на Обслуживание – запрос пользователя в Службу Service Desk на поддержку, предоставление информации, документации или оказание консультации. Это может быть выделено в отдельную процедуру или обработано таким же образом, как реальный инцидент.

Приоритет

После этого назначается приоритет, чтобы быть уверенными, что группа поддержки уделит инциденту необходимое внимание. Приоритет - это номер, определяющийся срочностью (насколько быстро это должно быть исправлено) и степенью воздействия (какой ущерб будет нанесен, если не исправить быстро).

Приоритет = Срочность х Степень воздействия.

Услуги (сервисы)

Для определения услуг, подвергшихся воздействию инцидента, может быть использован перечень существующих договоренностей (соглашений) об Уровне Услуг – SLA. Этот перечень позволит также установить время эскалации для каждой из услуг, определенных в SLA.

Группа поддержки

Если Служба Service Desk не может разрешить инцидент незамедлительно, то определяется группа поддержки, которая будет заниматься разрешением инцидента. Основой для распределения (маршрутизации) инцидентов часто является информация о категориях. При определении категорий может потребоваться рассмотрение структуры групп поддержки. Правильное распределение инцидентов имеет существенное значение для эффективности Процесса Управления Инцидентами. Поэтому одним из ключевых показателей эффективности (KPI) Процесса Управления Инцидентами может быть число неправильно распределенных обращений.

Сроки решения

С учетом приоритета и соглашения SLA пользователь информируется о максимальном расчетном времени разрешения инцидента. Эти сроки также фиксируются в системе.

Идентификационный номер инцидента

Абонент информируется о номере инцидента для его точной идентификации при последующих обращениях.

Статус

Статус инцидента указывает на его положение в процессе обработки инцидента. Примерами статусов могут быть:

Запланирован;

Назначен;

Активный;

Отложен;

Разрешен;

4.4.3. Привязка (сопоставление)

После классификации проводится проверка, не возникал ли аналогичный инцидент ранее и нет ли готового решения или обходного пути. Если инцидент имеет те же признаки, что и открытая проблема или известная ошибка, то может быть установлена связь с ними.

4.4.4. Расследование и диагностика

Служба Service Desk или группа поддержки направляет инциденты, не имеющие готового решения или выходящие за пределы компетенции работающего с ним сотрудника, группе поддержки следующего уровня с большим опытом и знаниями. Эта группа исследует и разрешает инцидент или направляет его группе поддержки очередного уровня.

4.4.5. Решение и восстановление

После успешного завершения анализа и разрешения инцидента сотрудник записывает решение в систему. В некоторых случаях необходимо направить Запрос на Изменение (RFC) в Процесс Управления Изменениями. В наихудшем случае, если не найдено никакого решения, инцидент остается открытым.

4.4.6. Закрытие

После реализации решения, удовлетворяющего пользователя, группа поддержки направляет инцидент обратно в Службу Service Desk. Эта служба связывается с сотрудником, сообщившим об инциденте, с целью получения подтверждения об успешном решении вопроса. Если он это подтверждает, то инцидент может быть закрыт; в противном случае процесс возобновляется на соответствующем уровне. При закрытии инцидента необходимо обновить данные об окончательной категории, приоритете, сервисах (услугах), подвергшихся воздействию инцидента и Конфигурационной Единице (CI), вызвавшей сбой.

4.4.7. Мониторинг хода решения и отслеживание

4.5. Контроль процесса

Основой контроля процесса являются отчеты для различных целевых групп. Руководитель Процесса Управления Инцидентами является ответственным за эти отчеты, а также за составление списка рассылки и графика составления отчетов. Отчеты могут включать специализированную информацию для следующих функциональных подразделений:

Руководителю Процесса Управления Инцидентами отчет необходим для :

Идентификации недостающих звеньев процесса;

Идентификации нарушений исполнения соглашений об Уровне Услуг (SLA);

Отслеживания хода выполнения процесса;

Определения тенденций развития.

Руководство Линейными ИТ-подразделениями – отчет для руководства группы поддержки; он также может быть полезен в Управлении ИТ-подразделениями. Отчет должен содержать следующую информацию:

Прогресс в решении инцидентов;

Время разрешения инцидентов в различных группах поддержки.

Управления Уровнем Сервисов (Услуг) – отчет должен, прежде всего, содержать информацию о качестве предоставляемых услуг. Руководитель Процесса Управления Уровнем Услуг должен получать всю информацию, необходимую для составления Отчетов об Уровне Услуг перед заказчиками. Отчеты для заказчиков должны предоставлять информацию о том, выполняются ли соглашения в отношении Уровня Сервисов (услуг) в рамках Процесса Управления Инцидентами.

Руководителей других процессов ИТ Сервис-менеджмента – отчеты для руководителей других процессов должны быть, в первую очередь, информативными, то есть содержать всю необходимую им информацию. Например, Процесс Управления Инцидентами на основе регистрационных записей об инцидентах может предоставлять следующую информацию:

Число обнаруженных и зарегистрированных инцидентов;

Число разрешенных инцидентов, с разделением по времени разрешения;

Статус и число неразрешенных инцидентов;

Инциденты с разбивкой по периодам возникновения, группам заказчика, группам поддержки и временем разрешения в соответствии с соглашением (SLA);

4.5.1. Критические факторы успеха

Для успешного Управления Инцидентами необходимо следующее:

Актуальная Конфигурационная База Данных (CMDB), помогающая оценить степень воздействия и срочность инцидентов. Эта информация также может быть получена от пользователя, но в этом случае она, возможно, будет менее полной и достаточно субъективной, что приведет к увеличению времени разрешения инцидентов.

Для оценки производительности процесса необходимо четко определить контрольные параметры и измеряемые оценки, часто называемые показателями эффективности. Отчет по этим показателям производится регулярно, например раз в неделю, чтобы получить картину изменений, по которой можно было бы определить тенденции. Примерами таких параметров являются:

Общее количество инцидентов;

Среднее время разрешения инцидентов;

Среднее время разрешения инцидентов по приоритетам;

Среднее число инцидентов, разрешенных в рамках соглашений (SLA);

Процент инцидентов, разрешенных первой линией поддержки (без направления в другие группы);

Средняя стоимость поддержки на инцидент;

Число решенных инцидентов на одно рабочее место или на одного сотрудника службы Service Desk;

Инциденты, решенные без посещения пользователя (удаленно);

Число (или процент) инцидентов с первоначально некорректной классификацией;

Число (или процент) инцидентов, неправильно распределенных в группы поддержки.

4.5.3. Функции и роли

Реализация процессов проходит в горизонтальной плоскости через иерархическую структуру организации. Это возможно только при четком определении ответственности и полномочий, связанных с реализацией процессов. Для повышения гибкости может быть использован ролевой подход (т.е. определение ролей). В небольших организациях или в целях снижения общих расходов возможно комбинирование ролей, например, совмещение ролей Руководителя Процессов Управления Изменениями и Управления Конфигурациями.

Руководитель Процесса Управления Инцидентами

Во многих организациях роль Руководителя Управления Инцидентами играет менеджер Службы Service Desk. В сферу ответственности Руководителя Процесса Управления Инцидентами включается следующее:

Мониторинг эффективности и рациональности работы процесса;

Контроль работы групп поддержки;

Развитие и сопровождение системы Управления Инцидентами.

Персонал групп поддержки

Первая линия поддержки несет ответственность за регистрацию, классификацию, сопоставление (привязку), распределение по группам поддержки, разрешение и закрытие инцидентов.

Остальные группы поддержки, прежде всего, принимают участие в расследовании, диагностике и разрешении инцидентов в рамках установленных приоритетов.

4.6. Затраты и проблемы

4.6.1. Затраты

Затраты, связанные с Управлением Инцидентами, включают первоначальные затраты на внедрение (например, расходы на разработку процесса, обучение и инструктаж персонала), выбор и закупку инструментальных средств поддержки процесса. Выбор инструментальных средств может занять значительное количество времени. Кроме того, существуют операционные расходы, связанные с оплатой работы персонала и использованием инструментальных средств. Эти затраты во многом зависят от структуры Управления Инцидентами, диапазона видов деятельности, включенных в процесс, сфер ответственности и числа подразделений.

4.6.2. Проблемы

При внедрении Управления Инцидентами могут возникнуть следующие проблемы:

Пользователи и ИТ-специалисты работают в обход процедур Управления Инцидентами – если пользователи будут устранять возникающие ошибки сами или напрямую связываться со специалистами, не следуя установленным процедурам, ИТ-организация не получит информацию о реально предоставляемом Уровне Услуг, числе ошибок и многое другое. Отчеты руководству также не будут адекватно отражать ситуацию.

Перегруженность инцидентами и откладывание «на потом» – при неожиданном росте количества инцидентов для правильной регистрации может не оказаться достаточно времени, т. к. до окончания ввода информации об инциденте от одного пользователя возникает необходимость обслуживать следующего. В этом случае ввод описания инцидентов может производиться недостаточно точно и процедуры по распределению инцидентов по группам поддержки не будут выполняться должным образом. В результате решения получаются некачественными и рабочая нагрузка увеличивается еще больше. В случаях, если число открытых инцидентов начинает интенсивно расти, процедура экстренного выделения дополнительных ресурсов внутри организации может предотвратить перегрузку персонала.

Эскалация – как известно, в рамках Процесса Управления Инцидентами возможна эскалация инцидентов. Слишком большое число эскалаций может оказать отрицательное воздействие на работу специалистов, которые из-за этого отрываются от своей запланированной работы.

Отсутствие Каталога Услуг и Соглашений об Уровне Сервисов (SLA) – если поддерживаемые услуги и продукты недостаточно точно определены, тогда специалистам, вовлеченным в Управление Инцидентами, бывает трудно обоснованно отказать пользователям в помощи.

Недостаточная приверженность процессному подходу со стороны руководства и персонала – решение инцидентов с помощью процессного подхода обычно требует изменения культуры и более высокого уровня ответственности за свою работу со стороны персонала. Это может вызвать серьезное сопротивление внутри организации. Эффективное Управление Инцидентами требует от сотрудников понимания и реальной приверженности процессному подходу, а не просто участия.

Примечания:

Под «цепочкой» понимается цепь создания прибавочной стоимости. – Прим. ред.

В литературе по ITIL понятие «функция» ассоциировано с вертикальным (линейным) подразделением организации, выполняющим соответствующие функциональные обязанности и фактически является его синонимом. – Прим. ред.

Service Request.

Request for Change (RFC).

Configuration Item (CI).

Key Performance Indicators – KPI.

Performance Indicators.

Effectiveness and Efficiency.

Т.е. программного обеспечения. – Прим. ред.

Процессы управления инцидентами и управления проблемами во многом похожи, но имеют и существенные различия. Опишем каждый из процессов по отдельности, а затем сравним их с различных точек зрения, обсудив способы реализации.

Управление инцидентами

Основная цель процесса управления инцидентами (incident management) - восстановление нормальной работоспособности системы в максимально короткие сроки и минимизация отрицательного влияния на бизнес, пользующийся службами, работоспособность которых оказалась нарушенной . Под «нормальным функционированием служб» понимается функционирование, соответствующее зафиксированному в соглашении об уровне обслуживания (service level agreement,SLA ).

К инцидентам не могут быть отнесены события, не касающиеся качества предоставляемых ИТ-услуг, а также те, которые, снижая это качество, не выходят за оговоренные в SLA рамки. Особое место занимают случаи, когда клиент не ощутил на себе наличия инцидента (скажем, если все необходимые меры были приняты в автоматическом режиме или обслуживающим персоналом еще до того, как качество реально снизилось). Примеры: автоматическое архивирование данных и освобождение рабочего диска при приближении к моменту его переполнения; переход на резервный сервер при сбоях основного и т.д. Тем не менее, такие случаи не могут быть исключены из списка инцидентов. Правильная организация требует отработки и таких инцидентов в соответствии с полной процедурой (т.е. с последующим отображением в отчетах и принятием необходимых мер по их предотвращению в будущем).

Всякому процессу управления инцидентами можно дать формальное краткое описание путем перечисления набора характеристик.

Входными данными для описания инцидентов служат:

детальное описание инцидента, полученное от Service Desk, служб обеспечения оперативного функционирования сетей или серверов и т.д.;
описание конфигураций и элементов, возможно связанных с инцидентом. Описания берутся из CMDB, базы данных единиц конфигурации, к которым относятся все элементы ИТ-инфраструктуры (оборудование, программное обеспечение, документация, предоставляемые службы и т.д.);
информация (при ее наличии) из базы проблем и базы известных ошибок;
описание способа разрешения.

Результат процесса управления инцидентами может быть следующим:

запрос на временное внесение изменений для устранения инцидента, обновленная регистрационная запись инцидента, включающая способ разрешения и/или обхода;
разрешенный (устраненный) и закрытый инцидент;
сообщение для клиента;
управленческая информация (отчет).

Возможные мероприятия по управлению инцидентами:

определение и регистрация инцидента;
классификация инцидента и начальная помощь;
исследование и диагностика;
разрешение инцидента и восстановление системы;
закрытие инцидента;
собственность, мониторинг, отслеживание и взаимодействие.

Роли и функции управления инцидентами:

группы поддержки первой, второй и третьей линий, а также группы специалистов и внешние партнеры (роли); менеджер управления инцидентами (роль); менеджер Service Desk (функция).

Возможные метрики:

общее число инцидентов;
среднее время устранения или обхода инцидента по различным типам инцидентов;
процент инцидентов, устраненных за время, не превышающее оговоренного в SLA;
средняя стоимость устранения инцидента;
процент инцидентов, закрытых без привлечения иных специалистов;
число и процент инцидентов, устраненных удаленно (без визита к пользователю).

В целях обеспечения соблюдения временных рамок, выделенных для выполнения тех или иных действий, применяется функциональная и иерархическая эскалация. Под «эскалацией» понимается организационный механизм, помогающий контролировать время устранения инцидента; он должен использоваться при реализации всех мероприятий в процессе разрешения инцидента. Его суть состоит в необходимости либо обязательной передачи информации об инциденте более квалифицированным специалистам, либо информировании руководства о невозможности устранить инцидент в оговоренные сроки.

Передача инцидента от Service Desk на вторую линию поддержки (функциональная эскалация) требуется при невозможности устранить инцидент на первой линии. Автоматизированная функциональная эскалация возможна, но должна быть тщательно спланирована в соответствии с SLA.

Иерархическая эскалация оказывается необходимой при невозможности устранения инцидента либо за выделенное время, либо с необходимым качеством. Как правило, она осуществляется персоналом службы Service Desk в соответствии с их опытом и вручную. Автоматизированная иерархическая эскалация тоже используется и может строиться на основе учета временных интервалов. Целесообразно чтобы она осуществлялась до времени, установленного в SLA; при этом соответствующий руководитель получит возможность предпринять дополнительные действия.

Эффект от внедрения процесса управления инцидентами

Перечислим наиболее важные полезные качества, которые приобретаются в результате внедрения процесса управления инцидентами. Для бизнеса в целом это:

снижение отрицательного воздействия на бизнес со стороны инцидентов, достигаемое повышением эффективности и сокращении времени при их устранении;
проактивное (упреждающее) определение необходимости расширения и коррекции важных для бизнеса систем;
доступность необходимой для бизнеса управленческой информации, соотнесенной с условиями SLA.

Ряд полезных качеств приобретает и работа ИТ-подразделения:

усовершенствованный мониторинг, позволяющий измерить производительность в соответствии с SLA;
улучшенная информация для управления качеством обслуживания;
более оптимальная загрузка персонала и более эффективная его работа;
исключение потерь и некорректного учета инцидентов и запросов;
более точное ведение базы данных единиц конфигурации CMDB;
лучшее удовлетворение потребностей клиентов.

Работа же без системы управления инцидентами может обернуться рядом неприятностей. Отсутствие лиц, ответственных за устранение и эскалацию инцидентов, приводит к путанице при устранении сбоев и снижает качество обслуживания. Специалисты службы поддержки отвлекаются от исполнения своих обязанностей, что снижает эффективность их труда. Пользователи для устранения инцидентов и проблем вынуждены общаться друг с другом, отвлекаясь от основных обязанностей. Всякий раз приходится заново анализировать инциденты - даже те, которые происходят регулярно и должны быть известны.

Управление проблемами

Основная цель процесса управления проблемами - минимизация неблагоприятного влияния на основную деятельность организации инцидентов и проблем, возникающих в результате ошибок в ИТ-инфраструктуре, а также предотвращение повторного возникновения инцидентов, связанных с этими ошибками. Для этого осуществляется поиск и выяснение причин инцидентов, и осуществляются действия, направленные на улучшение ситуации или устранение выявленных причин.

Процесс управления проблемами носит как реактивный, так и проактивный характер. Первый вариант касается разрешения проблем, связанных с возникшими инцидентами, второй направлен на выявление и устранение проблем, способных привести, но пока не приведших к возникновению инцидентов.

Контроль проблем и ошибок вместе с проактивным управлением проблемами составляют сферу ответственности процесса управления проблемами. На языке формальных определений, «проблема» - это неизвестная основная причина возникновения одного или нескольких инцидентов, а «известная ошибка» - успешно диагностированная проблема, для которой найден обходной путь или способ устранения.

Как и для процесса управления инцидентами, приведем группы основных характеристик процесса управления проблемами. Хотя некоторые из них и совпадают, указать их все имеет смысл, поскольку речь идет о разных процессах.

Входными данными для описания служат:

детали инцидента, заимствованные из управления инцидентами;
детальное описание конфигураций из CMDB;
все известные обходные пути (из управления инцидентами).

Возможные мероприятия:

контроль проблем и ошибок;
проактивное предотвращение проблем;
идентификация трендов;
анализ накапливаемой информации и подготовка отчетов;
подготовка управленческой информации.

Результаты могут быть следующими:

описание новых известных ошибок;
запросы на внесение изменений;
обновленная регистрационная запись проблемы, включающая вариант решения проблемы и/или любой доступный обходной путь;
для разрешенных проблем закрытая регистрационная запись проблемы;
поиск аналогов инцидента среди известных ошибок и рассматриваемых проблем;
управленческая информация.

Роли и функции: сотрудники, ответственные за обработку проблем (роли); менеджер управления проблемами (роль).

Возможные метрики:

число инициированных запросов на внесение изменений, а также влияние этих запросов на надежность и доступность охваченных ими служб;
время, затраченное на работы по исследованию и диагностике на каждое подразделение, с учетом деления на типы проблем;
число и влияние возникших инцидентов до выявления причины проблемы или до регистрации известной ошибки;
отношение объема усилий по немедленной помощи и поддержке к плановому;
число проблем и ошибок, сгруппированных по различным признакам (статус, службы, влияние, категории, пользовательские группы);
среднее и максимальное время, расходуемое на закрытие проблемы или согласование известной ошибки, рассчитываемое с момента регистрации проблемы, сгруппированное по кодам влияния и группам поддержки;
ожидаемое время устранения открытых проблем;
общее затраченное время на все закрытые проблемы.

Эффект от внедрения процесса управления проблемами

Перечислим наиболее важные полезные качества, которые приобретаются в результате внедрения процесса управления проблемами.

Качество служб. Управление проблемами помогает поддерживать непрерывный цикл постоянного повышения качества ИТ-служб.
Сокращение числа инцидентов. Процесс управления проблемами является инструментом для сокращения числа возникающих инцидентов, отрицательно влияющих на бизнес организации.
Непрерывное решение. В результате работы процесса сокращается число и влияние на бизнес уже решенных проблем и известных ошибок.
Усовершенствованное обучение. Процесс основывается на концепции использования накопленных знаний из прошлого и предоставляет возможности для анализа трендов и предотвращения сбоев, либо снижения их значимости и влияния на основной бизнес.
Увеличение числа инцидентов, разрешаемых при первом обращении. Это достигается путем предоставления в распоряжение Service Desk рекомендаций по путям предотвращения и обхода возникающих инцидентов.

В свою очередь, отказ от реализации процесса сулит ряд неприятностей. Действующая исключительно «по факту» служба поддержки начинает действовать только тогда, когда услуга уже не доступна. Складывается инфраструктура, предполагающая применение пользователями ИТ-средств самостоятельно. Неэффективная, дорогая и слабо мотивированная служба поддержки многократно решает одни и те же проблемы, никак не учитывая предыдущий опыт.

Реализация и внедрение

Мы уже обращали внимание на основное отличие рассматриваемых процессов, учтенное в формировании ключевых метрик качества. Задачей управления инцидентами является устранение инцидентов в максимально короткие сроки. Управление же проблемами должно исключить возможность повторного возникновения инцидента по той же самой (а иногда - и по аналогичным) причинам.

В организационном плане это означает, что никто не может исполнять обязанности по обоим этим процессам одновременно, поскольку он был бы не в состоянии правильно расставить приоритеты. В качестве выхода из положения при традиционной ограниченности штата рекомендуется четко определить в инструкциях временные или иные рамки, позволяющие специалисту однозначно исполнять роль только в одном из процессов. Например, сотрудник службы эксплуатации сетей банка в критичное для работоспособности время прохождения основных платежей обязан при возникновении сбоев предпринять все меры по максимально быстрому устранению этих сбоев и восстановлению работоспособности систем, исполняя роль специалиста по управлению инцидентами. В относительно менее критичное время этому специалисту запрещается реагировать на возникающие инциденты и предписывается заниматься анализом накопленной информации о сбоях и поиском их причин и, тем самым исполнять мероприятия по управлению проблемами.

Допустимо (и рекомендуется) совмещение функций Service Desk и функций управления инцидентами. Однако важно помнить, что это разные процессы: первичное общение с пользователями не входит в функции процесса управления инцидентами. К тому же, пользователь может обратиться в службу поддержки не только в связи с возникшим инцидентом, но и по иной причине (потребность в информации, необходимость пополнения расходуемых материалов и т.д.). С другой стороны, при некоторых способах реализации (например, в случае построения службы поддержки на основе Web-технологий, когда пользователь самостоятельно вносит все необходимые данные в формы) необходимость выделенной службы Service Desk оказывается под вопросом. В то же время ни в коем случае нельзя отказываться от управления инцидентами - откуда бы ни поступило сообщение об их возникновении, кто-то обязательно должен отвечать за их устранение.

Понятно, что реализация управления проблемами при отсутствии управления инцидентами практически невозможна: основой и источником данных для рассмотрения проблемы является информация, накапливаемая в ходе анализа и обработки инцидентов. Порой оказывается допустимым внедрение только управления инцидентами. Обычно управление проблемами отсутствует у фирм-посредников - имея свою собственную диспетчерскую службу, такие компании организуют прием и регистрацию обращений клиентов, помогают им при наличии возможности устранить инцидент при помощи консультации, передают более сложные заявки субподрядчикам и контролируют их действия, реализуя тем самым управление инцидентами. В то же время, они не занимаются анализом проблем, поскольку не являются собственно эксплуатирующей организацией. Часто исключают управление проблемами и в случае, если нет возможности или желания этим заниматься. В отдельных случаях даже рекомендуется для анализа проблем привлекать внешних специалистов, поскольку для этого требуется очень высокая квалификация, а также дорогостоящее оборудование. Примером могут служить традиционные обращения в компании, специализирующиеся на построении и обслуживании телекоммуникаций, для определения реальной загрузки сетей передачи данных: соответствующее оборудование стоит дорого, а необходимость его использования возникает чрезвычайно редко.

В отношении средств автоматизации ITIL рекомендует, как минимум, наличие возможностей глубокой интеграции между инструментарием для управления проблемами и инцидентами. Действительно, при анализе проблем важно иметь возможность рассмотрения всех зарегистрированных инцидентов с различных точек зрения. В свою очередь, для более эффективного общения с пользователями при возникновении новых инцидентов, соответствующим специалистам необходим доступ к находящимся в рассмотрении или уже закрытым проблемам и известным ошибкам.

Это легко понять на примере следующей ситуации. Пользователь обращается в службу поддержки с сообщением о резком увеличении времени отклика от сервера. Оператор, просматривая список анализируемых проблем, находит запись о выполнении работ по анализу снижения производительности сервера, после чего сообщает пользователю, что его сообщение зарегистрировано и связано с рассматриваемой проблемой, а устранение ожидается через такое-то время, о чем пользователю будет сообщено дополнительно. При отсутствии возможности просмотра списка проблем, оператор не мог бы связать инцидент с конкретно анализируемой проблемой, в дальнейшем быстро отследить факт его устранения и сообщить об этом пользователю.

Производители инструментария стараются учитывать упомянутые рекомендации. Например, HP OpenView Service Desk 3.0 имеет модульную структуру. В виде отдельного модуля реализованы возможности регистрации и управления обращений пользователей, инцидентов и проблем, что вполне соответствует упомянутым рекомендациям: интеграция в данном случая является максимально полной. Пользователи системы, построенной на основе этого продукта, имеют возможность строить связи между регистрационными записями всех перечисленных типов, осуществлять поиск по контексту и с учетом этих связей, определять известные способы решения проявляющихся неисправностей. Разделение этих функций может снизить эффективность работы инструментального средства, а как следствие - и качество реализации процессов. В то же время, в основе всякого решения по управлению ИТ-инфраструктурой лежит учет имеющегося оборудования, приложений, документации и т.д. - всего того, что и составляет эту инфраструктуру. Такие возможности также доступны в рамках HP Service Desk 3.0. Кроме того, в виде отдельных модулей реализованы возможности, предназначенные для автоматизации управления изменениями и управления соглашениями SLA. Интеграция всех перечисленных модулей реализуется в максимально полном объеме, предоставляя возможность использовать рассматриваемый продукт в качестве основы для построения комплексной системы управления ИТ.

Продукт компании Remedy строится несколько сложнее, основой его является Remedy Action Request System, устанавливаемая на сервере. К системе в качестве прикладной части могут дополнительно приобретаться функциональные модули: Help Desk, Asset Management, Change Management и Service Level Agreement. Каждый из модулей может использоваться как самостоятельно (без других прикладных модулей), так и в составе комплексного решения. Вопросы автоматизации процессов управления проблемами и инцидентами, как и в случае решения от HP, реализуются в модуле Remedy Help Desk. При этом имеются некоторые отличия и реализуются отдельные собственные подходы к пониманию данных процессов, но основные пожелания и требования ITIL полностью учтены.

Для успешного внедрения процессов управления инцидентами и проблемами

необходимо выполнение, как минимум, следующих условий.

Наличие актуальной и своевременно обновляемой базы CMDB. Если эта база недоступна, информация об имеющих отношение к инциденту единицах конфигурации будет добываться вручную, что существенно увеличит время обработки инцидента и повысит ее сложность.
Доступность обновляемой базы знаний по ошибкам/проблемам и способам их разрешения, а также обхода. Наличие такой базы позволяет быстро разрешать многие проблемы. Желательно иметь возможность подключения к ней аналогичных баз, разработанных другими организациями и компаниями. Возникающие при этом вопросы совместимости могут привести к большим сложностям, поэтому рекомендуется использовать решения с открытой архитектурой, содержащие средства для импорта и экспорта данных. В последнее время все чаще в качестве стандартного способа доступа к информации используется Web-интерфейс, являющийся удобным и понятным, а также широко распространенным.
С точки зрения потенциально конфликтной ситуации между управлением проблемами и управлением инцидентами (из-за их разных целей), необходимо организовать совместную работу и сотрудничество исполнителей обоих процессов. При этом нельзя забывать о том, что из тех же соображений один и тот же человек не может исполнять и те и другие обязанности одновременно: ему будет очень трудно найти баланс интересов.
Организация эффективной автоматизированной системы регистрации инцидентов с возможностями детальной и качественной классификации, являющейся чрезвычайно важным элементом для организации функционирования как службы Service Desk, так и рассматриваемых процессов в чистом виде. Использование для этих целей бумажных технологий не рекомендуется.

Весьма удобно, если инструментальные средства, используемые для реализации рассматриваемых процессов, обладают следующими дополнительными возможностями:

автоматической регистрацией инцидентов, происходящих в наиболее важных устройствах (серверы, сетевое оборудование и т.д.), для чего может потребоваться создание дополнительных интерфейсов;
автоматической эскалацией инцидентов при нарушении временных графиков;
гибкой маршрутизацией инцидентов, поскольку персонал служб поддержки может быть размещен в различных помещениях и зданиях;
автоматическим поиском необходимых данных в базе CMDB;
специальными решеними для облегчения классификации инцидентов;
интеграцией с телефонными системами;
наличием разнообразных диагностических модулей.

Проиллюстрируем перечисленные возможности на примере уже упоминавшегося Service Desk 3.0. Будучи представителем семейства продуктов HP OpenView, Service Desk содержит возможности получения сообщений от других продуктов данного семейства, в том числе от Network Node Manager, средства мониторинга и управления сетевыми устройствами, и VantagePoint Operations, средства мониторинга и управления серверами и приложениями. Данные продукты могут в автоматическом режиме, на основании собираемой информации о контролируемых объектах, генерировать запросы для Service Desk, которые автоматически передаются и анализируются операторами службы поддержки или обрабатываются в автоматическом режиме. При соответствующей настройке источниками аналогичных сообщений могут стать и иные диагностические средства. Продукт предусматривает возможности автоматического информирования путем отправки сообщений руководителей соответствующих уровней при нарушении сроков устранения инцидента. В нем реализованы расширенные возможности по поиску необходимой информации среди уже учтенных проблем, инцидентов и иных данных. В продукте представлены возможности интеграции с почтовыми, телефонными и пейджинговыми системами.

В виду актуальности и полезности перечисленных дополнительных возможностей, производители программных решений стараются включать их в свои продукты. Многое из сказанного о HP Service Desk относится и к продуктам других производителей, в том числе, Remedy, Tivoli, CA, Peregrin, FrontRange.

Тем, кто берется за работу по внедрению рассматриваемых процессов, надо быть готовым к разнообразным трудностям. Среди них:

отсутствие поддержки со стороны руководства и персонала, что может вести к недостатку ресурсов для реализации;
непонимание потребностей бизнеса, отсутствие согласованных уровней обслуживания, слабо определенные цели, возможности и ответственности различных служб;
сопротивление изменениям и невозможность внесения изменений в сложившуюся практику работы;
недостаток знаний для разрешения инцидентов, неправильная подготовка персонала, слабо формализованные правила взаимодействия пользователей со службами поддержки и различных служб между собой;
слабая интеграция с другими процессами, некачественные средства автоматизации, невозможность связать регистрационные записи инцидентов и соответствующих им проблем существенно снижает возможности процесса, в том числе, возможности прогнозирования проблем.

***

Мы остановились на двух наиболее часто упоминаемых в связи с устранением возникающих неисправностей процессах управления элементами ИТ. Являясь довольно понятными на интуитивном уровне, данные процессы при этом сложны для реализации с точки зрения необходимости четкого соблюдения организационных мероприятий и процедур. Будучи во многом схожими, процессы управления инцидентами и управления проблемами обладают и существенными различиями, проистекающими из их основных целей. Максимальную важность при внедрении процессов приобретают используемые для этих целей средства автоматизации. К сожалению, первоисточники по ITIL доступны очень ограниченному кругу заинтересованных: стоят они весьма недешево, заказать их непросто, а получить - еще сложнее. Изложенные в статье требования и пожелания к инструментарию основываются на реальном опыте эксплуатации разнообразных средств и анализе путей решений возникавших при этом вопросов.

Литература

1. З. Алехин. ITIL - основа концепции управления ИТ-службами. «Открытые системы». 2001, № 3
2. З. Алехин. Service Desk - цели, возможности, реализации. «Открытые системы». 2001, № 5-6
3. CCTA. Best Practice for Service Support. London: The Stationery Office, 2000

Заурбек Алехин ([email protected]) - руководитель проекта компании i-Teco (Москва).

Что такое инцидент

Согласно принятому в ITIL определению под «инцидентом» понимается «любое событие, не являющееся элементом нормального функционирования службы и при этом оказывающее или способное оказать влияние на предоставление службы путем ее прерывания или снижения качества».

Приложения:

служба недоступна;
ошибка в приложении, не дающая клиенту нормально работать;
исчерпано дисковое пространство.

Оборудование:

сбой системы;
внутренний сигнал тревоги;
отказ принтера.

Заявки на обслуживание:

поступление заявки на получение дополнительной информации, совета, документации;
забытый пароль.

Большинство групп ИТ-специалистов имеет отношение к устранению тех или иных инцидентов. Служба Service Desk отвечает за мониторинг процесса устранения всех зарегистрированных инцидентов, поскольку является собственником всех таких инцидентов. Этот процесс в большей степени реактивный; для эффективного реагирования на инциденты должен быть определен формальный метод работы сотрудников, включающий использование необходимого программного обеспечения.

Те инциденты, которые не могут быть разрешены непосредственно службой Service Desk, должны быть переадресованы соответствующим специалистам. Способ разрешения инцидента или вариант его обхода должны быть установлены и доведены до пользователей как можно быстрее. Это вытекает из главной цели - минимизации отрицательного влияния на основную деятельность пользователей. После устранения причины инцидента и восстановления службы до оговоренного в SLA уровня инцидент закрывается.

Данную книгу можно назвать практической энциклопедией. В ней дан максимальный охват проблематики обеспечения информационной безопасности, начиная с современных подходов, обзора нормативного обеспечения в мире и в России и заканчивая рассмотрением конкретных направлений обеспечения информационной безопасности (обеспечение ИБ периметра, противодействие атакам, мониторинг ИБ, виртуальные частные сети и многие другие), конкретных аппаратно-программных решений в данной области. Книга будет полезна бизнес-руководителям компаний и тем, в чью компетенцию входит решение технических вопросов обеспечения информационной безопасности.

Все права защищены. Никакая часть этой книги не может быть воспроизведена в какой бы то ни было форме и какими бы то ни было средствами, включая размещение в сети Интернет и в корпоративных сетях, а также запись в память ЭВМ для частного или публичного использования, без письменного разрешения владельца авторских прав. По вопросу организации доступа к электронной библиотеке издательства обращайтесь по адресу

mailto:%[email protected]

[email protected]

Кроме того, 26 ноября 2004 г. были задержаны остальные шестеро подозреваемых, в числе которых были трое сотрудников абонентской службы самой компании «Вымпелком». В ходе следствия выяснилось, что сайт был создан бывшим студентом Московского государственного университета, не работавшим в данной компании.

Делопроизводство по данному инциденту стало возможным благодаря вынесенному в 2003 г. определению Конституционного суда, признавшего, что в детализации вызовов содержится тайна телефонных переговоров, охраняемая законом.

Возможности инсайдера

Двое из числа выявленных среди участников инцидента сотрудников компании «Вымпелком» работали операционистами в компании, а третий являлся бывшим сотрудником и на момент преступления работал на Митинском рынке.

Работа в самой компании операционистами свидетельствует о том, что данные сотрудники имели непосредственной доступ к информации, предлагаемой к продаже на сайте www.sherlok.ru. Кроме того, так как бывший сотрудник компании уже работал на Митинском рынке, то можно предположить, что со временем одним из каналов сбыта данной информации или какой-либо еще информации из баз данных компании «Вымпелком» мог стать и данный рынок.

Последствия

Основными последствиями для компании «Вымпелком» от данного инцидента могли быть удар по репутации самой компании и потеря клиентов. Однако данный инцидент был предан огласке непосредственно благодаря активным действиям самой компании.

Кроме того, предание огласки данной информации могло негативным образом сказаться на клиентах компании «Вымпелком», так как детализация разговоров позволяет сделать вывод о текущей деятельности абонента, его сфере интересов и круге знакомств.

В марте 2005 г. Останкинский районный суд города Москва приговорил подозреваемых, в числе которых трое сотрудников компании «Вымпелком», к различным штрафам . Так, организатор группы оштрафован на 93 000 рублей. Однако работа сайта www.sherlok.ru была прекращена на неопределенный срок только с 1 января 2008 г.

Крупнейшая утечка персональных данных за всю историю Японии

Аннотация

Летом 2006 г. произошла самая крупная утечка персональных данных за всю историю Японии: сотрудник полиграфического и электронного гиганта Dai Nippon Printing украл диск с приватными сведениями почти девяти миллионов граждан.

Описание инцидента

Японская фирма Dai Nippon Printing, специализирующаяся на выпуске полиграфической продукции, допустила крупнейшую утечку в истории своей страны. Хирофуми Йокояма, бывший сотрудник одного из подрядчиков компании, скопировал на мобильный винчестер и украл персональные данные клиентов фирмы. В общей сложности под угрозу попали 8,64 млн человек, так как похищенная информация содержала имена, адреса, телефоны и номера кредитных карт. В похищенной информации содержались сведения о клиентах 43 различных компаний, например о 1 504 857 клиентах компании American Home Assurance, 581 293 клиентах компании Aeon Co и 439 222 клиентах NTT Finance .

После похищения данной информации Хирофуми открыл торговлю приватными сведениями порциями от 100 000 записей. Благодаря стабильному доходу инсайдер даже покинул постоянное место работы. К моменту задержания Хирофуми успел продать данные 150 000 клиентов крупнейших кредитных фирм группе мошенников, специализирующихся на онлайн-покупках. Кроме того, часть данных уже была использована для мошенничества с кредитными картами.

Более половины организаций, данные клиентов которых были похищены, даже не были предупреждены об утечке информации.

Последствия

В результате данного инцидента убытки граждан, которые пострадали из-за мошенничества с кредитными картами, ставшего возможным только вследствие этой утечки, составили несколько миллионов долларов. Всего пострадали клиенты 43 различных компаний, в том числе Toyota Motor Corp., American Home Assurance, Aeon Co и NTT Finance. Однако более половины организаций даже не были предупреждены об утечке.

В 2003 г. в Японии был принят закон Personal Information Protection Act 2003 (PIPA), но прокуратура не смогла его применить в реальном судебном разбирательстве по данному делу в начале 2007 г. Обвинение не смогло инкриминировать инсайдеру нарушение закона PIPA. Его обвиняют лишь в краже винчестера стоимостью 200 долларов.

Не оценили. Запорожский хакер против украинского банка

Аннотация

Бывший системный администратор одного из крупных банков Украины перевел через банк, в котором раньше работал, со счета региональной таможни на счет несуществующей днепропетровской фирмы-банкрота около 5 млн гривен.

Описание инцидента

Карьера системного администратора началась после того, как он окончил техникум и был принят на работу в один из крупных банков Украины в отдел программного и технического обеспечения. Спустя некоторое время руководство заметило его талант и решило, что он больше принесет пользы банку в качестве начальника отдела. Однако приход нового руководства в банке повлек за собой и кадровые перестановки. Его попросили временно освободить занимаемую должность. Вскоре новое руководство начало формировать свою команду, а его талант оказался невостребованным, и ему предложили несуществующую должность заместителя начальника, но уже в другом отделе. В результате таких кадровых перестановок он стал заниматься совершенно не тем, в чем разбирался лучше всего.

Системный администратор не мог мириться с таким отношением руководства к себе и уволился по собственному желанию. Однако ему не давала покоя собственная гордость и обида на руководство, кроме того, ему хотелось доказать, что он лучший в своем деле, и вернуться в отдел с которого началась его карьера.

Уволившись, бывший системный администратор решил вернуть у бывшего руководства интерес к своей персоне посредством использования несовершенства применяемой практически во всех банках Украины системы «Банк-Клиент» . План системного администратора состоял в том, что он решил разработать свою программу защиты и предложить ее банку, вернувшись на свое прежнее место работы. Реализация плана заключалась в проникновении в систему «Банк-Клиент» и внесении в нее минимальных изменений. Весь расчет был сделан на то, что в банке должны были обнаружить взлом системы.

Для проникновения в указанную систему бывший системный администратор воспользовался паролями и кодами, которые узнал еще в процессе работы с данной системой. Вся остальная информация, необходимая для взлома, была получена с различных хакерских сайтов, где в подробностях были расписаны различные случаи взломов компьютерных сетей, методики взлома и размещалось все необходимое для взлома программное обеспечение.

Создав в системе лазейку, бывший системный администратор периодически проникал в компьютерную систему банка и оставлял в ней различные знаки, пытаясь привлечь внимание к фактам взлома. Специалисты банка должны были обнаружить взлом и забить тревогу, но, к его удивлению, проникновения в систему никто даже не замечал.

Тогда системный администратор решил изменить свой план, внеся в него коррективы, которые бы не смогли остаться незамеченными. Он решил подделать платежное поручение и перевести по нему через компьютерную систему банка крупную сумму. С помощью ноутбука и мобильного телефона со встроенным модемом системный администратор около 30 раз проникал в компьютерную систему банка: просматривал документы, счета клиентов, движение денежных средств - в поисках подходящих клиентов. В качестве таких клиентов им были выбраны региональная таможня и днепропетровская фирма-банкрот .

Получив в очередной раз доступ к системе банка, он создал платежное поручение, в котором с лицевого счета региональной таможни снял и перечислил через банк на счет фирмы-банкрота 5 млн гривен. Кроме того, им целенаправленно было сделано несколько ошибок в «платежке», что в свою очередь должно было еще больше способствовать привлечению внимания со стороны специалистов банка. Однако даже такие факты были не замечены специалистами банка, обслуживающими систему «Банк-Клиент», и они спокойно перечислили 5 млн гривен на счет уже не существующей фирмы.

В действительности системный администратор рассчитывал на то, что денежные средства не будут переведены, что факт взлома будет обнаружен до перевода средств, но на практике все оказалось по-другому и он стал преступником и его липовый перевод перерос в кражу.

Факт взлома и хищения денежных средств в особо крупных размерах были обнаружены только через несколько часов после перевода, когда работники банка позвонили на таможню - подтвердить перевод. Но там сообщили, что такую сумму никто не перечислял. Деньги в срочном порядке были возвращены назад в банк, а в прокуратуре Запорожской области заведено уголовное дело.

Последствия

Банк не понес никаких потерь, так как деньги были возвращены владельцу, а компьютерная система получила минимальные повреждения, вследствие чего руководство банка отказалось от каких-либо претензий в адрес бывшего системного администратора.

В 2004 г. указом президента Украины была усилена уголовная ответственность за компьютерные преступления: штрафы от 600 до 1000 не облагаемых налогом минимумов, лишение свободы - от 3 до 6 лет. Однако бывший системный администратор совершил преступление до вступления в силу указа президента.

В начале 2005 г. состоялся суд над системным администратором. Его обвинили в совершении преступления по части 2 статьи 361 Уголовного кодекса Украины - незаконное вмешательство в работу компьютерных систем с нанесением вреда и по части 5 статьи 185 - кража, совершенная в особо крупных размерах. Но так как руководство банка отказалось от каких-либо претензий в его адрес, то статью за кражу с него сняли, а часть 2 статьи 361 поменяли на часть 1 - незаконное вмешательство в работу компьютерных систем.

Бесконтрольный трейдинг в банке Societe Generale

Аннотация

24 января 2008 г. Societe Generale объявил о потере 4,9 млрд евро из-за махинаций своего трейдера Жерома Кервьеля . Как показало внутреннее расследование, в течение нескольких лет трейдер открывал сверхлимитные позиции на фьючерсы на европейские фондовые индексы. Общая сумма открытых позиций составила 50 млрд евро.

Описание инцидента

С июля 2006 по сентябрь 2007 г. компьютерная система внутреннего контроля 75 раз (именно столько раз Жером Кервьель осуществлял несанкционированные операции либо его позиции превышали допустимый лимит) выдавала предупреждение о возможных нарушениях. Сотрудники отдела мониторинга рисков банка не осуществляли детальных проверок по этим предупреждениям .

Впервые экспериментировать с неавторизованным трейдингом Кервьель начал уже в 2005 г. Тогда он занял короткую позицию на акции Allianz, ожидая падения рынка. Вскоре рынок действительно упал (после террористических акций в Лондоне), так были заработаны первые 500 000 евро. О своих чувствах, которые он испытал от своего первого успеха, Кервьель впоследствии рассказал следствию: «Я уже знал, как закрыть мою позицию, и был горд за полученный результат, но вместе с тем и удивлен. Успех заставил меня продолжать, это было как снежный ком… В июле 2007 г. я предложил занять короткую позицию в расчете на падение рынка, но не встретил поддержки со стороны своего руководителя. Мой прогноз оправдался, и мы получили прибыль, на этот раз она была вполне легальной. Впоследствии я продолжал проводить такого рода операции на рынке либо с согласия начальства, либо при отсутствии его явного возражения… К 31 декабря 2007 г. моя прибыль достигла 1,4 млрд евро. В тот момент я не знал, как объявить об этом моему банку, так как это была очень большая, нигде не задекларированная сумма. Я был счастлив и горд, но не знал, как объяснить своему руководству поступление этих денег и не навлечь на себя подозрение в проведении несанкционированных сделок. Поэтому решил скрыть мою прибыль и провести противоположную фиктивную операцию…» .

В действительности в начале января того же года Жером Кервьель вновь вступил в игру с фьючерсными контрактами на три индекса Euro Stoxx 50, DAX и FTSE, помогавшими ему обыгрывать рынок в конце 2007 г. (правда, тогда он предпочитал занимать короткую позицию). По подсчетам, в его портфеле накануне 11 января было 707, 9 тыс. фьючерсов (каждый стоимостью по 42,4 тыс. евро) на Euro Stoxx 50, 93,3 тыс. фьючерсов (192,8 тыс. евро за 1 штуку) на DAX и 24,2 тыс. фьючерсов (82,7 тыс. евро за 1 контракт) на индекс FTSE. В целом спекулятивная позиция Кервьеля равнялась 50 млрд евро, т. е. была больше стоимости банка, в котором он работал .

Зная время проверок, он в нужный момент открывал фиктивную хеджирующую позицию, которую позже закрывал. В результате проверяющие никогда не видели ни одной позиции, которую можно было назвать рискованной. Их не могли насторожить и крупные суммы сделок, которые вполне обычны для рынка фьючерсных контрактов по индексам. Подвели его фиктивные сделки, проводимые со счетов клиентов банка. Использование счетов различных клиентов банка не приводило к видимым для контролеров проблемам. Однако по истечении определенного времени Кервьель начал использовать счета одних и тех же клиентов, что привело к «ненормальной» активности, наблюдаемой за данными счетами, и, в свою очередь, привлекло внимание контролеров . Это стало концом аферы. Выяснилось, что партнером Кервьеля по мультимиллиардной сделке был крупный немецкий банк, якобы подтвердивший астрономическую транзакцию по электронной почте. Однако электронное подтверждение вызвало у проверяющих подозрения, для проверки которых в Societe Generale была создана комиссия. 19 января в ответ на запрос немецкий банк не признал эту транзакцию, после чего трейдер согласился дать признательные показания .

Когда удалось выяснить астрономические размеры спекулятивной позиции, генеральный директор и председатель совета директоров Societe Generale Даниэль Бутон заявил о своем намерении закрыть открытую Кервьелем рискованную позицию . На это ушло два дня и привело к убыткам в 4,9 млрд евро.

Возможности инсайдера

Жером Кервьель проработал пять лет в так называемом бэк-офисе банка, т. е. в подразделении, которое непосредственно никаких сделок не заключает. В нем занимаются только учетом, оформлением и регистрацией сделок и ведут контроль за трейдерами. Данная деятельность позволила понять особенности работы систем контроля в банке.

В 2005 г. Кервьеля повысили. Он стал настоящим трейдером. В непосредственные обязанности молодого человека входили элементарные операции по минимизации рисков. Работая на рынке фьючерсных контрактов на европейские биржевые индексы, Жером Кервьель должен был следить за тем, как меняется инвестиционный портфель банка. А его основной задачей, как объяснил один из представителей Societe Generale, было сокращать риски, играя в противоположном направлении: «Грубо говоря, видя, что банк ставит на красное, он должен был ставить на черное». Как у всех младших трейдеров, у Кервьеля был лимит, превышать который он не мог, за этим следили его бывшие коллеги по бэк-офису. В Societe Generale существовало несколько уровней защиты, например трейдеры могли открывать позиции только со своего рабочего компьютера. Все данные об открытии позиций автоматически в реальном времени передавались в бэк-офис. Но, как говорится, лучший браконьер - бывший лесничий. И банк совершил непростительную ошибку, поставив бывшего лесничего в положение охотника. Жерому Кервьелю, имевшему за плечами почти пятилетнюю практику контроля за трейдерами, не составило большого труда обойти эту систему. Он знал чужие пароли, знал, когда в банке проходят проверки, хорошо разбирался в информационных технологиях .

Причины

Если Кервьель и занимался мошенничеством, то не в целях личного обогащения. Это говорят его адвокаты, это же признают и представители банка, называя действия Кервьеля иррациональными. Сам Кервьель говорит, что действовал исключительно в интересах банка и хотел только доказать свои таланты трейдера .

Последствия

Его деятельность по итогам 2007 г. принесла банку около 2 млрд евро прибыли. Во всяком случае так говорит сам Кервьель, утверждая, что руководство банка наверняка знало, чем он занимается, но предпочитало закрывать глаза до тех пор, пока он был в прибыли .

Закрытие открытой Кервьелем рискованной позиции привело к убыткам в 4,9 млрд евро.

В мае 2008 г. Даниэль Бутон покинул пост генерального директора Societe Generale, на этой должности его сменил Фредерик Удеа . Год спустя он был вынужден уйти и с поста председателя совета директоров банка. Причиной ухода стала острая критика со стороны прессы: Бутона обвиняли в том, что подконтрольные ему топ-менеджеры банка поощряли рискованные финансовые операции, осуществляемые сотрудниками банка.

Несмотря на поддержку совета директоров, давление на господина Бутона усиливалось. Его отставки требовали акционеры банка и многие французские политики. Президент Франции Никола Саркози также призвал Даниэля Бутона уйти с поста, после того как стало известно, что в течение полутора лет до скандала компьютерная система внутреннего контроля Societe Generale 75 раз, т. е. всякий раз как Жером Кервьель осуществлял несанкционированные операции, выдавала предупреждение о возможных нарушениях .

Сразу после обнаружения потерь Societe Generale создал специальную комиссию по расследованию действий трейдера, в которую вошли независимые члены совета директоров банка и аудиторы PricewaterhouseCoopers. Комиссия пришла к выводу, что система внутреннего контроля в банке была недостаточно эффективной. Это привело к тому, что банк не смог предотвратить столь крупное мошенничество. В отчете говорится, что «сотрудники банка не проводили систематических проверок» деятельности трейдера, а сам банк не располагает «системой контроля, которая могла бы предотвратить мошенничество» .

В отчете о результатах проверки трейдера говорится, что по итогам расследования принято решение «существенно укрепить процедуру внутреннего надзора за деятельностью сотрудников Societe Generale». Это будет сделано при помощи более строгой организации работы различных подразделений банка и координации их взаимодействия. Также будут приняты меры, позволяющие отслеживать и персонифицировать трейдерские операции сотрудников банка посредством «укрепления системы ИТ-безопасности и разработки высокотехнологичных решений по персональной идентификации (биометрии)».

Примеры авиационных происшествий и инцидентов.

Произошло несколько инцидентов высокого уровня и авиационных происшествий из-за человеческих факторов. Сайт интернета по Человеческим факторам при авиационном обслуживании и инспекциях (HFAMI) содержит 24 доклада NTSB об инцидентах, причинами которых стали человеческие факторы. В Великобритании произошло несколько происшествий и инцидентов. Подробности о них содержаться на сайте AAIB. Некоторые из этих инцидентов приведены ниже:

Инцидент с Боингом-737,(Алоха рейс 243), Мауи, Гавайи, Апрель 1988;
Инцидент с ВАС 1-11, G-BJRT (British Airways рейс 5390), Дидкот, Оксфордшир, 10 июня 1990.
Инцидент с А-320, G-KMAM в Лондонском аэропорту Гатвик 26 августа 1993;
Инцидент с Боингом-737, G-OBMM около Дэвинтри 23 февраля 1995.

Инцидент, произошедший с рейсом Алоха № 243 в апреле 1988 связан с тем, что 18 футов верхней обшивки кабины во время полета были сорваны. Самолет перед полетом проверялся согласно требованиям США двумя авиационными инспекторами. Один инспектор имел стаж работы 22 года, а второй, старший из них 33 года. Ни один не обнаружил трещин во время инспекции. Анализы, проведенные после инцидента обнаружили наличие свыше 240 трещин в обшивке этого самолета на время инспекции. Вытекающие из этого определили много проблем связанных с человеческими факторами ведущими к ненадлежащим инспекциям.

В результате инцидента с рейсом Алоха, в США была разработана программа исследования проблем связанных с человеческими факторами с акцентированием на проведение инспекций.

10 июня 1990г. в Великобритании самолет ВАС 1-11 (British Airways рейс 5390) вылетел из аэропорта Бирмингема. После набора высоты 17,300 футов в кабине пилотов было выдавлено давлением наружу левое лобовое стекло. Это стекло было заменено перед полетом. Оказалось, что из 90 крепящих болтов 84 оказались меньшего диаметра, чем необходимо. Командира корабля наполовину вытянуло из кабины через отверстие окна и его удерживали члены экипажа, пока второй пилот не произвел благополучную посадку в аэропорту Саутгэмптона.

Начальник смены (SMM) из-за недокомплекта людей во время ночной смены, решил провести замену лобового стекла самостоятельно. Он просмотрел Инструкцию (ММ) и пришел к выводу, что это простая работа. Он решил заменить крепежные болты и взяв один в качестве образца (7D)

стал подбирать другие для замены. Кладовщик сказал ему, что для замены требуются болты (8D), однако из-за их нехватки на складе, начальник смены решил, что подойдут болты (7D). (Так как они стояли на месте до этого). Тем не менее, он визуально сравнил болты и потрогал их и по ошибке выбрал болты 8С, которые длиннее и тоньше. Также он не заметил, что при установке, углубление для головки болта (потай) глубже, чем необходимо. Он сам выполнил работу и подписал сертификат выпуска. Процедура не требовала проведения углубленной или вторичной проверки. К этому инциденту имеют отношение несколько человеческих факторов, включающие неправильное определение размеров болтов начальником смены, плохое освещение на складе, не использование очков, практика проведения работ и возможные факторы конструкции и организации работы.

Самолет А-320 в Великобритании в августе 1993г. Во время первого полета после замены закрылка произошло резкое сваливание направо сразу же после взлета. Самолет вернулся в Гатвик и благополучно приземлился. Расследование показало, что во время обслуживания, для того, чтобы заменить правый закрылок, спойлеры были переведены в режим обслуживания и сдвинуты при незавершенной процедуре; соответственно отбортовки и флажки не были установлены. Назначение отбортовок и спойлеров инженерами недостаточно понималось.

Это непонимание частично было вызвано знакомство и привычка к самолету другого

типа (Боинг 757) и выразилось в недостаточном обозначении состояния спойлеров во время передачи смен. Запертый спойлер не был обнаружен во время проведения пилотом стандартных проверок.

В феврале 1995г. на самолете Боинг 757-400 обнаружилась потеря давления масла на обоих двигателях. Самолет развернулся и благополучно приземлился в аэропорту Лутона. Расследование показало, что предыдущей ночью на самолете проводилось бороскопическое исследование обоих двигателей и кожухи приводов роторов высокого давления, после выполнения работ не были установлены. В результате этого, во время полета было потеряно почти все масло из обоих двигателей. Инженер по линейному обслуживанию первоначально должен был выполнить эту работу, но по различным причинам он передал работу контролеру базового обслуживания. Контролер не имел при себе необходимых документов по работам. Контролер и слесарь выполнили работу, не смотря на многочисленные перерывы, но не установили кожухи роторов. На земле не были проведены испытания двигателей на холостых оборотах для обнаружения течей масла. Работа была расписана как выполненная.

Во всех трех инцидентах в Великобритании, инженеры, принимавшие участие в обслуживании оценивались компаниями как высоко квалифицированные, компетентные и надежные работники. Все инциденты характеризовались следующим:

отсутствовало достаточное количество персонала;
имелось давление по времени;
Все ошибки произошли ночью;
Проводилась передача смен;
Все задействованные лица выполняли долгие ручные работы;
Имелся элемент отношения «Могу значит делаю»;
Имелись перерывы в работе;
Не удалось использовать подтвержденную информацию или процедуры;
Инструкции были противоречивы;
Было сделано недостаточное предварительное планирование, оборудования и запчастей.

Инциденты и аварии – Нарушение человеческих факторов.

Во всех вышеуказанных примерах аварии или инциденты могли бы быть предотвращены, если одна из многих операций была бы сделана иначе. В некоторых случаях, при привлечении нескольких работников, результат их труда может быть улучшен, если один из них правильно отреагировал на конкретное действие или спросил о нем. В каждой конкретной ситуации, однако, работники не опознают и не реагируют на признаки потенциальной опасности, не реагируют на них, как от них ожидается, или позволяют себе отвлекаться на работы руками, оставляя себя открытыми для совершения ошибки.

Также как и при многих других инцидентах и авариях примеры указанные выше, включают в себя серии проблем человеческих факторов, которые формируют цепь ошибок (См. рис.3). Если одно из звеньев этой цепи будет разорвано принятием мер, которые могут предотвратить проблему в одной или нескольких стадиях ее развития, инцидент может быть предотвращен.

Рис 3. Цепь ошибок.

Разделы