Résumé
thumb|Exemple de cluster à haute disponibilité La haute disponibilité ou high availability (HA) est un terme souvent utilisé en informatique, à propos d'architecture de système ou d'un service pour désigner le fait que cette architecture ou ce service a un taux de disponibilité convenable. La disponibilité est aujourd'hui un enjeu important des infrastructures informatiques. Ces coûts se chiffrant en milliards d'euros à l'échelle d'un pays. L'indisponibilité des services informatiques est particulièrement critique dans le domaine de l'industrie, notamment en cas d'arrêt d'une chaîne de production. Deux moyens complémentaires sont utilisés pour améliorer la disponibilité : la mise en place d'une infrastructure matérielle spécialisée, généralement en se basant sur de la redondance matérielle. Est alors créé un cluster de haute-disponibilité (par opposition à un cluster de calcul) : une grappe d'ordinateurs dont le but est d'assurer un service en évitant au maximum les indisponibilités ; la mise en place de processus adaptés permettant de réduire les erreurs, et d'accélérer la reprise en cas d'erreur. ITIL contient de nombreux processus de ce type. La disponibilité se mesure souvent en pourcentage : L'amalgame est souvent fait, à tort, entre la haute disponibilité et le plan de reprise d'activité. Il s'agit de deux tâches différentes, complémentaires pour atteindre la disponibilité continue. De nombreuses techniques sont utilisées pour améliorer la disponibilité : la redondance des matériels et la mise en cluster ; la sécurisation des données : RAID, snapshots, , BCV (Business Copy Volume), SRDF (Symmetrix Remote Data Facility), DRBD ; la possibilité de reconfigurer le serveur « à chaud » (c’est-à-dire lorsque celui-ci fonctionne) ; mode dégradé ou un mode panique ; plan de secours ; et sécurisation des sauvegardes : externalisation, centralisation sur site tiers. La haute disponibilité exige le plus souvent un local adapté: alimentation stabilisée, climatisation sur plancher, avec filtre à particules, service de maintenance, service de gardiennage et de sécurité contre la malveillance et le vol.
À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.
Cours associés (2)
CIVIL-426: Machine learning for predictive maintenance applications
The course aims at developing machine learning algorithms that are able to use condition monitoring data efficiently and detect occurring faults in complex industrial assets, isolate their root cause
CS-487: Industrial automation
This course consists of two parts:
  1. architecture of automation systems, hands-on lab
  2. handling of faults and failures in real-time systems, including fault-tolerant computing
Séances de cours associées (11)
Cohérence répliquée: niveaux et compromis
Explore les niveaux de cohérence répliqués, les compromis et les implications sur les performances et la disponibilité du système.
Réplication : Stratégies et techniques
Explore les stratégies de réplication dans les systèmes distribués, couvrant la réplication synchrone, asynchrone et la résolution des conflits.
Ingénierie des systèmes décentralisés: DHT de corbeille
Couvre le Chord DHT en ingénierie décentralisée des systèmes, en mettant l'accent sur la fiabilité, la redondance et l'entretien des structures.
Afficher plus
Publications associées (41)
Concepts associés (10)
Noyau de système d'exploitation
Un noyau de système d’exploitation, ou simplement noyau, ou kernel en anglais, est une des parties fondamentales de certains systèmes d’exploitation. Il gère les ressources de l’ordinateur et permet aux différents composants — matériels et logiciels — de communiquer entre eux. En tant que partie du système d’exploitation, le noyau fournit des mécanismes d’abstraction du matériel, notamment de la mémoire, du (ou des) processeur(s), et des échanges d’informations entre logiciels et périphériques matériels.
Uptime
L'uptime (en français durée de fonctionnement) est un terme informatique désignant le temps depuis lequel une machine, ou un logiciel informatique, tourne sans interruption. En cas de redémarrage, l'uptime est remis à zéro. La commande « uptime » permet de consulter cette durée pour les ordinateurs utilisant un système d'exploitation de type UNIX. Un temps de fonctionnement sans redémarrage peut être considéré dans certains cas comme un signe de robustesse et de stabilité d'un produit informatique.
Basculement (informatique)
thumb|Schéma d'un couple de serveurs permettant le basculement en cas de panne. Le basculement (en anglais, fail-over qui se traduit par passer outre à la panne) est la capacité d'un équipement à basculer automatiquement vers un réseau ou un système alternatif ou en veille. Cette capacité existe pour tout type d'équipement réseau : du serveur au routeur en passant par les pare-feux et les commutateurs réseau (switch). Le basculement intervient généralement sans action humaine et même bien souvent sans aucun message d'alerte.
Afficher plus