thumb|Exemple de cluster à haute disponibilité
La haute disponibilité ou high availability (HA) est un terme souvent utilisé en informatique, à propos d'architecture de système ou d'un service pour désigner le fait que cette architecture ou ce service a un taux de disponibilité convenable.
La disponibilité est aujourd'hui un enjeu important des infrastructures informatiques. Ces coûts se chiffrant en milliards d'euros à l'échelle d'un pays. L'indisponibilité des services informatiques est particulièrement critique dans le domaine de l'industrie, notamment en cas d'arrêt d'une chaîne de production.
Deux moyens complémentaires sont utilisés pour améliorer la disponibilité :
la mise en place d'une infrastructure matérielle spécialisée, généralement en se basant sur de la redondance matérielle. Est alors créé un cluster de haute-disponibilité (par opposition à un cluster de calcul) : une grappe d'ordinateurs dont le but est d'assurer un service en évitant au maximum les indisponibilités ;
la mise en place de processus adaptés permettant de réduire les erreurs, et d'accélérer la reprise en cas d'erreur. ITIL contient de nombreux processus de ce type.
La disponibilité se mesure souvent en pourcentage :
L'amalgame est souvent fait, à tort, entre la haute disponibilité et le plan de reprise d'activité. Il s'agit de deux tâches différentes, complémentaires pour atteindre la disponibilité continue.
De nombreuses techniques sont utilisées pour améliorer la disponibilité :
la redondance des matériels et la mise en cluster ;
la sécurisation des données : RAID, snapshots, , BCV (Business Copy Volume), SRDF (Symmetrix Remote Data Facility), DRBD ;
la possibilité de reconfigurer le serveur « à chaud » (c’est-à-dire lorsque celui-ci fonctionne) ;
mode dégradé ou un mode panique ;
plan de secours ;
et sécurisation des sauvegardes : externalisation, centralisation sur site tiers.
La haute disponibilité exige le plus souvent un local adapté: alimentation stabilisée, climatisation sur plancher, avec filtre à particules, service de maintenance, service de gardiennage et de sécurité contre la malveillance et le vol.
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.
The course aims at developing machine learning algorithms that are able to use condition monitoring data efficiently and detect occurring faults in complex industrial assets, isolate their root cause
Un noyau de système d’exploitation, ou simplement noyau, ou kernel en anglais, est une des parties fondamentales de certains systèmes d’exploitation. Il gère les ressources de l’ordinateur et permet aux différents composants — matériels et logiciels — de communiquer entre eux. En tant que partie du système d’exploitation, le noyau fournit des mécanismes d’abstraction du matériel, notamment de la mémoire, du (ou des) processeur(s), et des échanges d’informations entre logiciels et périphériques matériels.
L'uptime (en français durée de fonctionnement) est un terme informatique désignant le temps depuis lequel une machine, ou un logiciel informatique, tourne sans interruption. En cas de redémarrage, l'uptime est remis à zéro. La commande « uptime » permet de consulter cette durée pour les ordinateurs utilisant un système d'exploitation de type UNIX. Un temps de fonctionnement sans redémarrage peut être considéré dans certains cas comme un signe de robustesse et de stabilité d'un produit informatique.
thumb|Schéma d'un couple de serveurs permettant le basculement en cas de panne. Le basculement (en anglais, fail-over qui se traduit par passer outre à la panne) est la capacité d'un équipement à basculer automatiquement vers un réseau ou un système alternatif ou en veille. Cette capacité existe pour tout type d'équipement réseau : du serveur au routeur en passant par les pare-feux et les commutateurs réseau (switch). Le basculement intervient généralement sans action humaine et même bien souvent sans aucun message d'alerte.
Limited availability of representative time-to-failure (TTF) trajectories either limits the performance of deep learning (DL)-based approaches on remaining useful life (RUL) prediction in practice or even precludes their application. Generating synthetic d ...
2023
The landscape of computing is changing, thanks to the advent of modern networking equipment that allows machines to exchange information in as little as one microsecond. Such advancement has enabled microsecond-scale distributed computing, where entire dis ...
EPFL2023
,
Live-streaming platforms broadcast user-generated video in real-time. Recommendation on these platforms shares similarities with traditional settings, such as a large volume of heterogeneous content and highly skewed interaction distributions. However, sev ...