Un point de défaillance unique (single point of failure ou SPOF en anglais) est un point d'un système informatique dont le reste du système est dépendant et dont une panne entraîne l'arrêt complet du système.
Le point de défaillance unique a comme principale caractéristique de ne pas être protégé (redondant). Il est donc un risque pour la disponibilité du système. Dans la définition , le mot anglais single souligne le caractère unique et donc fragile du « composant ».
La notion de point de défaillance unique est fortement liée à celle de service, dans la mesure où un problème sur le point concerné entraîne une interruption de service.
La présence d'un point de défaillance unique dans un système augmentant la probabilité d'apparition d'un déni de service, elle entraîne un risque sur la qualité de service.
Dans un cadre de haute disponibilité, il est impossible de laisser des points individuels de défaillance dans un système.
Potentiellement, tous les éléments d'une architecture physique peuvent devenir des points individuels de défaillance. Les éléments principaux sont :
le proxy ;
le pare-feu (firewall) ;
le routeur ;
l'opérateur réseau ;
le serveur de répartition de charge ;
le serveur de service (HTTP, LDAP, Base de données, stockage, etc.) ;
tout câble ou interface réseau ;
l'alimentation électrique.
Selon les conditions où se situe l'hébergement de services à distance, on peut également l'appliquer au centre de données où est hébergé l'architecture :
catastrophe naturelle (risque sismique, d’inondation, de fontis (effondrement de sols (à Paris par exemple, en raison des nombreuses carrières))) ;
catastrophe industrielle (catastrophe nucléaire et zone d'exclusion nucléaire associée, explosion d'une usine pétrochimique) ;
risque de bombardement, lors d'une guerre ;
risque d'incendie (les centres sont généralement équipés de protection contre les incendies).
Il en va de même pour nombre d'éléments de l'architecture logicielle, dans le cadre d'une Architecture Orientée Service (SOA).
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.
vignette|Fichier GIF animé de 8 algorithmes ECT dans un réseau 802.1aq. La source est surlignée en violet, la destination en jaune. Les lignes violettes sont des chemins entre la source et la destination et l'épaisseur indique combien de chemins traversent un lien donné. La tolérance aux pannes (ou « insensibilité aux pannes ») désigne une méthode de conception permettant à un système de continuer à fonctionner, éventuellement de manière réduite (on dit aussi en « mode dégradé »), au lieu de tomber complètement en panne, lorsque l'un de ses composants ne fonctionne plus correctement.
thumb|Répartition de charge entre deux serveurs accédés par 4 postes clients, ici le switch et le répartiteur sont deux points de panne potentiels, aucun des deux n'est doublé.En informatique, la répartition de charge () désigne le processus de répartition d’un ensemble de tâches sur un ensemble de ressources, dans le but d’en rendre le traitement global plus efficace. Les techniques de répartition de charge permettent à la fois d’optimiser le temps de réponse pour chaque tâche, tout en évitant de surcharger de manière inégale les nœuds de calcul.
Un calcul distribué, ou réparti ou encore partagé, est un calcul ou un traitement réparti sur plusieurs microprocesseurs et plus généralement sur plusieurs unités centrales informatiques, et on parle alors d'architecture distribuée ou de système distribué. Le calcul distribué est souvent réalisé sur des clusters de calcul spécialisés, mais peut aussi être réalisé sur des stations informatiques individuelles à plusieurs cœurs. La distribution d'un calcul est un domaine de recherche des sciences mathématiques et informatiques.
Computing is nowadays distributed over several machines, in a local IP-like network, a cloud or a P2P network. Failures are common and computations need to proceed despite partial failures of machin
Explore les architectures fiables, la détection des erreurs, les structures tolérantes aux pannes et la fiabilité des logiciels à travers des exemples tels que la défaillance du missile Patriot et le double contrôleur ABB.
Explore l'évaluation de la fiabilité, la maintenance préventive, la fiabilité, les modèles Markov, FMEA, FTA et l'intégrité de la sécurité logicielle dans l'automatisation industrielle.
Explore la fiabilité dans l'automatisation industrielle, couvrant la fiabilité, la sécurité, les caractéristiques des pannes et des exemples de sources de défaillance dans diverses industries.
Distributed skyline computation is important for a wide range of domains, from distributed and web-based systems to ISP-network monitoring and distributed databases. The problem is particularly challenging in dynamic distributed settings, where the goal is ...
We propose a novel, minimally intrusive approach to adding fault tolerance to existing complex scientific simulation codes, used for addressing a broad range of time-dependent problems on the next generation of supercomputers. Exascale systems have the pot ...
Current online applications, such as search engines, social networks, or file sharing services, execute across a distributed network of machines. They provide non-stop services to their users despite failures in the underlying network. To achieve such a hi ...