2017-02-27 - Rapport mission NUC 2017

Luc Weber, Sergi Blanco, Vincent Megevand

Aspects généraux

Ce projet avait pour but de changer les serveurs informatiques qui avaient atteint leurs limites d'âge et d'installer de nouvelles machines avec une distribution récente.

Les machines choisies en remplacement sont des NUCs I7 de Intel pour le logiciel d'observation et un cluster de serveurs de disques NAS de Synology monté en RAID faisant office de serveur LDAP (users, groups) et DNS (domain name server).

Ce cluster est composé d'un serveur actif et d'un serveur passif. Ce type de cluster est aussi nommé HA pour "High Avaibility" car en cas de panne du serveur actif, le serveur passif, miroir du serveur actif, prend immédiatement le rôle du serveur actif. A noter que ces 2 serveurs ont chacun des alimentations redondantes.

La capacité disque a été diminuée de 60%. Toutefois la capacité actuelle de 5.3[TB] permet de garder des données d’observation sur plus d’une année.

Les serveurs argos1, argos2, castor, castor1, castor2 et castor3 ont été retirés du rack des serveur. Les Sunray ont tous été retirés et 2 NUCs ont pris le rôle des stations auxiliaires grâce à leur capacité d'y connecter simultanément 2 écrans (HDMI). Une de ces stations auxiliaire sert à la DRS.

Les NUCs sont placés directement dans la salle de contrôle avec des connexions directes sur les divers écrans.

La station d'observation est un NUC (glslogin1) connecté à un écran 4k (UltraHD). Il fait office de serveur DHCP primaire.

A sa gauche un NUC (glsdrs) tournant une machine virtuelle (glsvirtualdrs) pour la réduction avec 2 écrans 24 pouces HD.

A sa droite un NUC (glsaux) pour l'exécution des taches auxiliaires: météo, suivit de la pression des température, Web, etc ... avec également 2 écrans 24 pouces HD.

Un quatrième NUC (glslogin2) est utilisé comme station de réserve. Il sert également pour la calibration parallèle et le développement. Il connecté au deuxième écran 4k (UltraHd) qui peut servir d'écran de réserve. Il fait office de serveur DHCP secondaire.

Le cinquième NUC, acquis en 2016 est utilisé pour le monitoring des sondes de la station. Il est connecté à un écran Dell et boot directement avec l'application de monitoring.

Ces modifications ont donné les avantages suivants:

Simplification du système informatique grâce à l'utilisation du NAS qui découple l'aspect observation du système.
Certainement une meilleure fiabilité du serveur de disque grâce au NAS monté en cluster HA
Rapidité (facteur 2.7 pour le logiciel d'observation) et surtout accélération du graphisme (edp).
Baisse de la consommation électrique (prolonge la durée de vie sous UPS)
Moins de bruit dans le centre de calcul

Réorganisation du centre de Calcul

Les LCUs (Local Control Unit) ont été rassemblée dans le rack LCU.

Le rack serveur a été allégé suite au retrait des serveurs. Il y a beaucoup d'espace à disposition et il contient maintenant; le cluster de NAS, un UPS, un switch instrument (avec spare), un KVM (avec spare)

Le Giga-Switch des Sunray, maintenant inutile a été déplacé dans le rack LCU pour remplacer le switch LCU moins rapide (10/100)

A noter qu'une multiprises secteur a été placée sous le PDU (Ip-Power) du rack LCU dans le but de le remplacer en cas de panne ce dernier.

VPN

Les ingénieurs de l'ESO (jdupeyro@eso.org, dgaytan@eso.org) ont configuré le router ESO (armoire réseau informatique, local de pompes) pour avoir un VPN sur le sous réseau local de Genève (réseau La Silla: 10.10.132.0, réseau Genève: 10.10.133.0, routeur Genève: 129.194.64.228, routeur ESO: 134.171.80.170)

Réseau informatique

Un plan à jour du réseau informatique a été dessiné sur la base des relevés dans la station:

voir infographie...

Une partie du câblage Sunray (jaune) est restée en place et offre 3 connexions filaire sur le réseau instrument dans la salle de contrôle.

La couleur jaune du câblage est choisie pour représenter le réseau instrument.

Le switch instrument (rack server) est plein, toutefois il est possible de récupérer (et perdre) rapidement les 3 connections vers le centre de calcul (cable jaune, voir ci-dessus) et 2 autres en connectant les LCUs glstspa et glstser sur le switch instrument dans l'armoire réseau informatique (ARI) du local de pompes. Rem: ceci n'a pas été fait immédiatement car le switch instrument de l'armoire réseau informatique est le dernier switch 10/100. Lors d'une future mise en place d'un giga switch instrument, les connexions seront récupérées.

Reconfiguration du câblage qui liait le Switch instrument du rack server au switch instrument de l'armoire réseau informatique. L'ancien câblage passait par les prises murales, maintenant par le patch panel ARI. Les 2 câbles suspendus entre les racks server et LCU ont été supprimés ou câblé sur les torches existantes.

Monitoring

glsmonitor affiche les valeurs des capteurs/sondes de la station.
La couleur de champs indique le status: vert==OK, orange==Warning, rouge==Alarm, gris==Too Old

Pointer la souris sur un champ affiche des données supplémentaires ainsi que parfois un court message d'aide sur les actions à entreprendre en cas d'alarme.

glsmonitor entre en session sous le nom de l'utilisateur "meul" (Monitoring EULer) et démarre automatiquement l'application de monitoring (java -Xms2048m -Xmx2048m -jar /home/weber/Meul.jar).

PDU ou IP-Power

Un PDU permet la commutation du secteur sur des prises électriques, c'est à dire arrêt et démarrage à distance.

Deux nouveaux PDU ont été installé. Un dans l'armoire des pompes et un dans le REM et complètent les deux PDUs du rack LCU et du Rack Server (glsippower01, 02, 03, 04).

Tout les LCUs, 4 des 5 NUCs et le NAS ont leur alimentation secteur contrôlée au travers des 4 interfaces Web des 4 PDUs.

Il reste 18 connecteurs libres (sur 32) reparti dans la station aux 4 endroits.

UPS

Le fait que les serveurs ont été supprimés donne une plus longue durée d'alimentation au rack serveur, c'est à dire principalement au NAS.

Le management du shutdown est maintenant entièrement fait sur glsserv par le deamon upsd.pl (monitoring des 4 UPS, logs, envoi des mails, envoi shutdown). Les logs sont sous /var/log/messages (grep de L1, L2, L3 ou srv).

Shutdown - Reboot

Quelques commandes qui ne demandent pas les privilèges de root:

T_reboot_lcu, T_shutdown_lcu: pour tout les LCUs
T_reboot_servers, T_shutdown_servers: pour les 5 NUCs
T_shutdown_euler pour arrêter tout sauf les NAS

Attention "T_shutdown_euler" doit etre lancé à La Silla et ne doit pas être lancée dans un ssh, car la machine qui lance ce scripts termine par un arrêt d'elle-même. En ssh elle tuera son "hôte ssh" avant la fin du script et donc ne terminera pas la séquence de shutdown. Cette commande est utilisée par upsd.pl sur glsserv pour effectuer le shutdown de la station lors du monitoring des UPS.

Installation du cluster de NAS

L'installation du cluster NAS a consisté à installer un serveur de disques, un serveur LDAP (users, passwords et groups) et un domain name server (DNS). Cette installation est faite une fois pour toute et contrairement aux NUCs et aux LCUs on n'imagine pas réinstaller un NAS (sauf en cas de panne majeure évidemment)

Le NAS tourne linux et demande des mises à jour: sécurité ou correction, soit du système, soit de certaines applications.

Ces mises à jour sont demandées par mail à t4-support, c'est naturellement Vincent qui les fera sur le site. Pour assurer la fiabilité de la station, chaque mise à jour serait d'abord testée à Genève.

A noter que le NAS envoie mensuellement des mails renseignant sur le statut des disque.

Nous possédons 2 disques spare de 2[TB] en cas de panne de disque (hot swap).

Sauvegarde précédent système (argos1)

Le transfert de toutes les données Euler présentes sur argos1 ont normalement été transférées sur le NAS (/gls) c'est à dire environ 4[TB] de données.

Une sauvegarde des homes et d'une partie du système a été sauvegardé sous /gls/ArchiveArgos1/:

etc/
exportFedora/
home/
lib/
opt/
var/
WWW/

Statut argos1

argos1 est stocké dans un ancien rack, déconnecté du secteur et hors réseau. Il peut redémarrer mais il est absolument déconseillé de le connecter au réseau (pour notamment éviter des réinstallation de fichiers systèmes sur les LCUs par Puppet). Ainsi seul un transfert par disque ou clé USB est encore possible (et testé).

Installation NUC

L'installation est décrite ici:

installation-dun-nuc

Elle nécessite l'emploi de 2 clés USB stockées à La Silla. Une clé de boot et un clé d'installation pour l'ensemble du logiciel d'observation, serveur d'installation des LCU, fichiers système, scripts d'installation, etc ...

Le contenu de la clé d'installation est synchronisé sur le NAS de Genève sous /gls/nuc2017/
A noter que la version équivalente mais pour les installations genevoises (avec sous réseau 10.10.133.0) est à l’observatoire sous /obs/ccd2/t4/nuc2017/

Le script d'installation est sous import/bin/install.sh, il est normalement maintenu à jour et sauvegardé sur la clé d'installation et sur Genève. Il consiste en une installation automatique avec installation des paquets et copies de certains fichiers système depuis la clé USB (ex: dhcpd.conf) et d'une série de proposition de commande permettant de finaliser l'installation du NUC selon son usage (server relay mail, serveur DHCP primary ou secondary, ...)

Serveur de disques

Le NAS exporte les partitions suivantes montées sur les point de montages suivants:

export_gls sur /gls/
export_home sur /home/
export_import sur /opt/import/
export_intel sur /opt/import
export_t4 sur /opt/t4/
PXE_install sur /PXE_install

L'espace disque total à disposition est de 5.3 [TB], on consomme environ 1.6[TB] par année de données brutes (Coralie, Ecam, Pisco)

Serveur DHCP

Le serveur DHCP primaire est sur glslogin1, le secondaire sur glslogin2. C'est une configuration nécessitée par le fait que le NAS ne peut pas assumer cette fonction quand il est monté en cluster HA.

La configuration DHCP est définie dans les fichiers /etc/dhcp/dhcpd.conf et /etc/dhcp/peer.conf. Il a une version de peer.conf pour le serveur primaire et une pour le serveur secondaire.

Le référence pour les fichiers peer.conf est sous /opt/import/etcNuc/dhcp/

Serveur LDAP

Les NIS ont été abandonnés au profit de LDAP. Les scripts pour la gestion des utilisateurs (adduser et rmuser) ont été mis à jour. Rem: ces utilitaires ne peuvent fonctionner pleinement que si l'administrateur qui les utilise possède un compte à l'observatoire de Genève et des clés ssh à jour (du au ssh sur Genève pour récupérer le No d'utilisateur), avant on utilisait les clé de Denis Megevand.

Un tri a été effectué et une cinquantaine d'utilisateurs n'ont pas été remis dans le système (ancien collaborateur par exemple) mais les home directories sont toutefois archivés.
Un ensemble de scripts a été développé pour la création de la base LDAP à partir des NIS. Ces scripts ont eu un usage unique. Voir /opt/import/ldap/

Les homes argos1 (jusqu'à janvier 2017) sont sauvegardés sous /gls/ArchiveArgos1/home/
A noter qu'avec la perte des NIS, la commande domainname retourne "(none)", ainsi un alias permet de l'émuler et retourne ainsi "glsnet" (l'alias est défini dans $THOME/scripts/t4_beta.csh)

Mail

Utilisation du serveur postfix. Tout les NUC et LCUs sont normalement capable d'envoyer des mails en utilisant le serveur relai glsmail (alias sur glslogin1).

Le référence pour les fichiers de configuration est sous /opt/import/etcNuc/postfix/

Serveur d'installation de LCU

La structure mise en place par Gilles Simond a été récupérée et mise à jour pour permettre l'installation de LCU interagissant avec les nouveaux serveurs (disques, LDAP, DNS, DHCP, mail)

Seule l'installation des plus récents LCU à été testée (SL6.7)

Clonage de disques LCU

Le clonage de disque avec l'Icy-Box s'est révélée efficace. Un clonage (500[GB]) nécessite 2-3 heures. Ainsi nous partons sur l'idée de cloner l'ensemble des disques LCU dans le but d'une maintenance préventive et d'une réparation plus aisée le cas échéant.

Logiciel d'observation (version beta)

L'utilisation d'une nouvelle distribution Linux a eu comme conséquence directe l'utilisation de librairies et packages (perl ou autres) plus récents qui ont demandé des modifications du logiciel d'observation. Ainsi la seule version du logiciel à jour est la version beta.
Les développeurs doivent récupérer ces modifications pour mettre à jour leurs propres versions alpha.

Logiciel de réduction (DRS)

Sergi Blanco a fabriqué une machine virtuelle tournant la version la plus récente possible capable de faire tourner la DRS (SL5.11)

Son usage est simple: il suffit de se logger sur glsdrs, puis d'effectuer un ssh sur glsvirtualdrs. Le reste de la procédure est inchangée.

Clés d'installation et installation depuis zéro

Ce qui suit n'est pas fondamentalement testé, mais l'ensemble des développements et des éléments nécessaires à l'installation de la station se trouve sur 3 clés USB:

clé de boot Ubuntu
clé d'installation de NUC (permet d'installer le NAS) -
clé avec les catalogues (observatoire + catalogues stellaire UCAC, DSS, etc...)

A partir de ces 3 clés on devrait pouvoir reconstruire un système avec un NAS et des NUCs opérationnels qui avec le serveur d'installation sur NAS devrait permettre la réinstallation des LCUs. Le fait d'avoir les archives de argos1 permettrait de comprendre certains disfonctions en comparant les plus récents fichier avec les anciennes références inchangées.

Un certains nombre de fichiers configurés sont copiés dans la partie système (/etc) mais également dans /opt/import/ qui est archivé sur la clé de distribution et également sur Genève.