Road Book La Silla

Infos et journal de mission

Ce qui est fait (les point de détails sont retirés)

Installation de tout les NUC avec la clé de distribution
Validation du logiciel d'observation
Validation de la réduction avec sur la machine virtuelle
Restructuration du centre de calcul (retrait des serveurs, retrait câblage inutile)
Validation du rapatriement des données sur Geneve (raw et services)
Bios version KY0042 (evite les probleme HDMI sur les 4 Nucs (Par Vincent avant la mission)
Recuperation des utilisateurs et anciennes données
Base de donnée sur glsmonitor (glsnuc01) démarrage du monitoring automatique
Test serveur d'installation SL6.7 sur NAS
Clonage de Disque LCU

Remarques:

lors de la fin de nuit, l'arrêt de edp provoque une erreur que le système détecté (popup message), le popup propose d'ignorer les futurs problèmes de ce type.

Journal

En gras les actions à faire ou problème à corriger (mettre normal une fois réglé)

26/02/2017 (LW)

Equilibrage des Phases, mis le rack LCU sur L2, L1 reste le plus chargé: L1=3.8[A] L2=2.9[A] L3=2.3[A]. On peut récupérer 0.7[A] en changeant de phase (si possible) IpPower03(armoires local de pompes)(glstser+glstspa) et 0.7[A] en changeant de phase (si possible) IpPower04(rem)(glstreg+glstopt)
Inscrit le nom de la phase utilisée sur les prises du le centre de calcul. Test avec un fer a repasser pour voir la consommation qui change sur les ampèremètres. Parfait. Les prises murales du centre de calcul n'ont que L1 et L2.
Concernant les valeurs affichées sur les IPpower

ippower01: 0.8[A] (ups SRV) (synology)
ippower02: 1.8[A] (ups L2)(5 LCU rack service + Nuc et écran 4k)
ippower03: 0.7[A] (ups L1) (2 LCU armoires pompes)
ippower04: 0.7[A] (ups L1)(2 LCU REM)

Mis les 4 Nuc de gauche (glslogin1, glsdrs, gluaux, glsmonitor + ecran 4k) sur une raquette reliée à IpPower02 (L2), update de la config. Reste éteint quand le courant revient (comme les LCUs et les Synologys), reset de 30[s]
edp (modif hier concernant les catalogues) je renomme Private en Favorites. retrait petit bug concernant l'initialisation des catalogues "favoris" opération à double supprimée
réglé tout les .ssh/known_hosts des NUCs pour permettre les commande T_* en setuid. Utiliser sous root /opt/t4/beta/bin/Linux_4.4_x86_64/T_show_date, corriger les erreurs de /root/.ssh/known_hosts jusqu'au moment que T_show_date ne donne plus d'erreur.

Test sous le nom de bonvin de T_shutdown_euler (OK)
Installation du mail sur glsaux, glsdrs selon install.sh, puis OK
Idem sur glsmonitor (marche pas)
mise a jour de dhcp.conf (et sur la cle)
Recuperation de weber (beta) en weber(alpha) er recompilation en alpha
je met un alias domainname qui retourne glsnet (c'est une commande utilisée dans le soft, mais qui est liee aux NIS), donc bricolage dans t4_beta.csh
synchronisation de la cle d'installation (PXE_install, import, beta)
synchronisation de la cle sur le NAS de Geneve
réinstallation de glslogin2 from scratch.
test de fonctionnement (simulation alpha) + test fonctionnement ABTR sur un image de test (OK)

25/02/2017 (LW)

mise au point de T_shutdown_euler
réglé les authorized_keys des NUC (synchro sur la clé d'installation)
ssh-copy-id des keys root de glsserv vers toutes les machine
ajout de la calibration drift selon spec Maxime
création d'un menue private pour edp avec la liste des "préférés" dans ~/edpcatalist.txt
mail Nico pour problems de rapartiement nuit 2017-02-22 (fichiers de test ABTR supprimés en cours de journée)
syncho cle de distribution sur Nas geneve: sudo -s ; rsync -avHl --delete /media/weber/InstallEuler/ weber@10.10.133.104:/gls/nuc2017/ | grep -v '/$'
récupération d'une raquette dans l'ancien rack. Le but: mettre la raquette sur UPS pour la distribution de UPS sur les NUC.
entreposé les ancien serveur dans le rack Sun (coupole)
Poster réseau informatique en place
Correction ordre du nom-prénom dans adduser

24/02/2017 (LW)

Début de crash durant led pose tungstene: 2 cas le 16 et le 23 février avec Vivien. Quelque chose tue les semaphores de l'imager. Quelque [ms] plus tard on voit la fin uif-fork dans processus. Le problème est que il y a une fin de uif-fork à chaque pose.....
depuis 2016/10/19 il n'y a plus de logbooks/full_logbook_<user> ---> purée il était fait par argos2 !!!!!!! ahhhhhhhh. maintenant il est fait sur la meme machine (~15[s] pour les grosses nuits). Modif dans tlog.pl pour rajouter des grep -a.
remarque: le rsh ne marche pas entre les glslogin(!) malgré un hosts.equiv correct.
réglé le problème du LOG: (grep -a) dans le mail de fin de nuit dans grep_and_log_mail.prc
plus (+) de log dans UIF
suppression du code inutile dans uif.pl (stripchart, mercator et p7)
supprimé pro_valid (inutile et on a l'archive) renommer $THOME/prc2 en $THOME/prc (enfin correct)
supprimé les reference a argos1 dans toutes le procédures
sauvegarde beta sur clé d'installation
archivage PISCO (1.2[TB]), starcats/ (58[GB])et catalogues/ (30[GB])
mise en ordre des commandes T_* pour les shutdown, reboot etc. Maintenant ces commandes peuvent etre lancées depuis un Nuc ou depuis glsserv qui sera responsable des shutdown demandé par UPS (voir upsd)

23/02/2017 (LW+VM)

dernier test ABTR sur ancienne images. Résultats comparables, donc OK
debut de mis a jour du shutdown par UPS
il va faloir rééquilibrer les phase UPS, certainement mettre le rack LCU sur L2 ou L3 (L1 est a 5[A])
on se pose des questions sur la stratégie de shutdown. Comme c'est glsserv qui gère cela, si son UPS est à cours de batterie il doit tout descendre, sinon plus personne ne le fera ! Par contre on a des doutes sur le Synology. Si on l'arête par soft, impossible de le redémarrer. Les PC on peu car on a accès au BIOS qui permet un redémarrage lors que le courant revient. Pour le synology, on a pas accès au BIOS. Bref faut encore investiguer
Visite de Luz, Catalina et Javier qui (avec l'autorisation de ESO (Ivo) et Geneve) va faire une séquence drone pour notre Pub. Quelques mouvement de coupole pour le Fun.
Descente de Vincent

22/02/2017 (LW)

ABTR ne marche pas

installation du module perl: Linux::Inotify2
probleme avec la commande column de starlink, je change l'ordre du PATH dans /etc/csh/login.d/40t120.csh
dans les log, probleme avec la lecture de CURRENT/c2_jumo (rfi_jumo), etrange le link est sur une version de avril 2016. impossible de voir d'ou cela vient (reeference a glspc14), je refais le link a la main (a surveiller debut mars)
manquait cpimag que je recupere ici: https://heasarc.gsfc.nasa.gov/docs/software/fitsio/cexamples.html. Il se compile avec gcc -lfitsio
recompilation de $CDATA/UCAC3/src/ucac3.c (make)
tentative inutile de recuperer sextractor et scamp sur argos1 (pas les bonne librarie au run-time) (bonen chose, argos1 est toujours vivant, mais sans metytre le reseau, gare a puppet qui peut tout casser)
instalation de sextractor (apt-get)
change de sex en sextractor dans les scripts
l'installtion de scamp avec apt-get ne fonctionne pas. Elle fait un acces sur simbad au lieu de la base local. J'ai des sgros doute sur la compatibilite du fichier de config alors je recupere scamp sur le site scamp: http://www.astromatic.net/software/scamp click sur click here to generate a source package of the latest development version
Installation de libfftw3-dev, libatlas-base-dev, libatlas-dev, libcurl4-openssl-dev (pas faciel de tout trouver. Mai cela semble fonctionner.
update de /opt/import (imcopy, scamp, install.sh) puis de la cle

17/02/2017 (LW)

Fin des doc câblage Patch et Switch
suppression des /home des utilisateurs qui n'ont pas été mis dans LDAP
configuration du synologyCluster pour les notifications par mail (ControlPanel->Notification->EnableEmailNotifications->CustomSmtpServer->glsmail.glsnet + RecipientsEmailAdress->t4-support@unige.ch) + mail pour prevent t4-support des notifications
Descente à La Serena, retour mercredi 22.

16/02/2017 (VM LW)

Fin du schéma informatique
Quelques étiquetages (VM)
Panne DNS ESO semble t'il
Suppression des fils qui font un pont entre ls 2 rack T4-127: mis directement sur le switch instrument rack server, T4-128: inutile.
passage de la liaison aller retour switch instrument rack server -> switch instrument armoire réseau par le patch panel ARI au lieu des prise murales L105-9 et L105-10

Remarque: Le switch instrument rack server est plein. Pour le futur on peut récupérer :

3 ports en passant les 3 câbles jaunes instruments qui vont dans la salle de contrôle (il faut les sortir de la torche qui traverse le local d'un rack à l'autre)
2 port (une fois qu'on a un switch GigaBit cote armoire réseau) en branchant glstspa et glstser directement dessus au lieu de passer par le patch pannel

15/02/2017 (VM LW)

Relevé du réseau informatique
La connection du switch instrument du local des pompes passe par le patch panel ARI et plus par les prises L105
dessin du schéma avec yEd
fuite dans l'enceinte coralie. Vincent répare en changeant la férule

14/02/2017 (SB VM LW)

en VPN sur NAS Geneve: Scrubbing et update de GSM et PHP 5.6
en VPN sur Geneve: copie de l'installation genevoise (celle qui est sur la clé) sur le NAS dans le but de le mettre a jour depuis Geneve. Ainsi à Geneve, sur obslogin1:/obs/ccd2/t4/nuc2017/ contient la distribution avec l'adresse 10.10.133.0 et sur le NAS Geneve: /gls/nuc2017 contient la distribution avec l'adresse 10.10.132.0 avec les mise à jours liées à l'installation sur Euler.
Sous /PXE_install:pxelinux.cfg update de glscora et glsserv pour emploi avec NAS (ils avaient la config argos1)
Correction sur glslogin de dhcp.conf (il y avait glspcora et glspecam) restait dhcp et restant glscora et glsecam
reinitialisation physique de l'offset coupole (contact avec Charles)
Mise a jour du serveur d'installation pour SL6.7
Installation de glscora (SL6.7) avec le serveur d'installation sur NAS (OK)
Test de Clonage de disque LCU avec le Icy-Box (OK)
tri des disques dur en stock à la Silla, 6 inutiles, les spare de argos1 semble compatibles avec ceux du NAS (2TB), le reste sera utile pour les clones des disques des LCU actuels
test xrunall sans la partie 6 écran et écran 4K.
Adaptation du scripts rmuser qui travaille maintenant avec LDAP. Mise sur la clé de distribution

13/02/2017 (SB VM LW)

Arrivée
Test adduser avec Vincent + passwd et doc

06/02/2017 (SB VM LW)

Création d'un document de travail entre moi et Sergi pour déterminer la liste exhaustive des modif effectuée sur les Nuc et les LCU dans le but de mettre à jour la clé d'installation et le serveur de distribution
Avec Vincent on trouve la sonde jumo.tair. Elle est a la sortie du ventilateur tangentiel, donc c'est la température du local (une fois que les 4 retours sont pulsés dans les 2 tuyaux qui ont les corps de chauffe)
Dans Meul* mis le reference des température des REM et RPM a la température du caillebotis (plus logique que schwaemmle.ext), maintenant qu'on a caillebotis autant l'utiliser:o)
Constat que les mails ne passent pas vers le relayhost (depuis les NCU 2 et 4 et les LCU). plus le temps de debugger, le laisse le bebe a sergi
Retour a la serena à 16h45

05/02/2017 (SB LW)

Mise à jour de Meul, Meulplot et Meulrepport pour meilleur description de judo.trepri, changement des warnings/alarms pour moteurs rotations, ajout des jumo(s).pourcent dans le meulrepport journalier.Petit problème de nom entre MeulPlot et Meulplot (le jar passe définitivement à MeulPlot.jar) l'utilitaire sur glsnet est meulplot (plus simple)
NTP sur LCU:

sur glserv* le fichier /etc/dhcpd.conf contient maintenant: option ntp-servers sg5tim.ls.eso.org, hq-000-ds01.hq.eso.org, hq-000-ds02.hq.eso.org; (suppression de tymeserver de l'est avec 100 [s] de différence). En rebutant tout les LCUs en ayant enlever toutes les reference a server ou pool, mais laissant les peer, on obtient

glscora, glsserv, glstspa: les 3 serveurs sont rajoutés automatiquement sous forme de IP
glspc17: idem mais en plus rajoute argos1 et argos2 (maxpool 6)
glstopt, glstreg, glstser, glspisco, glspc20: aucun rajout => je mets les 3 IP à la main

ntpq -p ne fonctionne pas du glstreg, dommage c'est juste le réglage du télescope
ntpstat ne fonctionne pas dut glspisco (glspc18)

update des config NTP sous PXE_install et synchronisation de PXE_install sur la clé de distribution
synchronisation de t4/beta/ sur la clé de distribution
remis glstspa sur KVM
glstspa:/etc/inittab avait id:5:initdefault: au lieu de 3 (boot x11 et x11 n'est pas installé)
glstspa était relié sur le KVM au travers d'un carte DVI. Mauvais plan elle ne donne rien. Remis en ordre avec le VGA de la carte mère.
la config ntp.conf est mis a jour par /sbin/dhclient-script, qui a été modifie a la silla avec argos1 et argo2 hardcodé (pas terrible le concept), je retire tout des glst* (mettre a jour la distrib)
dhclient -r to relâcher le ip dhclient pour le redemander (et mettre a jour la config)
/etc/sysconfig/networking/devices/ifcfg-eth0 mis PEERNTP=yes pour les glst* (mettre a jour la distrib) et dans /etc/sysconfig/network-scripts/ifcfg-eth0 pour tout les autres. Avec cela c'est le serveur DHCP qui distribue les serveur NTP (qui met a jour le fichier /etc/dhcp.conf)
mise en place de l'utilitaire adduser qui utilise maintenant LDAP au lieu de NIS
petite modification dans /etc/csh/login.d/10.gls.csh (cel d'installation à jour) pour les action écran.

04/02/2017(SB LW)

Rapport concernant la rotation coupole. La coupole a tourné seul du à un arrêt météo. Les sondes rotation coupole ne sont pas monitorée par Meul. Le faire.
Nettoyage a sec des écrans ultraHD (ne pas utiliser de nettoyant liquide: http://www.samsung.com/us/support/answer/ANS00046181/)
inspection pour comprenne si la clim intérieur Coralie est en panne. Il n'y a plus de régulation, le Jumo est a 100% en permanence. Le ventilateur tourne, il me semble que l'aspiration est faible. mais j'attends une confirmation de Fleury
NTP sur les LCU: je retire argos1 et argo2 comme serveur te met les serveur de la silla xg5tim.ls.eso.org et timeserve.ls.eso.org a tous sous forme de nom et non de IP. Le groupe des glst* garde les peer comme avant. Il est curieux de constater que le seul qui est besoin d'etre à l'heure (glstreg) ne permet pas les commande comme ntpq -p.
Concernant les problème de perte de HDMI sur l'ancien 4k, j'ai testé sans succès la technique qui consiste a déconnecter l'écran du 220 pendant 10 minutes et le rallumer avec le HDMI enfiché, il semblait pourtant que c'était une bonne technique pour certains écrans Samsung.

03/02/2017(SB VM LW)

Fin de creation de la base de donneees des services (4h17 sur glsnuc01 (glsmonitor))
Mise a jour java de Meul pour la nouvelle adresse de la BDD service
update de tout les crons pour la gestion des services et update de la BDD (sous le nom de weber)
check meulplot OK
firmware du 4k du luc coté observation (l'ancienne 4k) (revision 1480 (ancienne 1440). on remarque qu'il ne faut pas éteindre l'écran si on est en session et seulement sur l'ancien écran. sinon on perd la session (visuellement). On échange les 2 écrans pour plus de sureté.
demande à MC de cable catégorie 6 pour connexion switch server et LCU + NAS _LCU (11 câbles donc un de 12[m] )si possible jaune)
mis gestreg, glsttopt, glstser sur IP-Power
les 4 IP powers sont reconfiguré (mettre un temps de reset adapté pour les Beckhoff et faire une doc pour le reboot (utiliser le bouton reset et non off on, préciser aussi qu'il faut le faire si les status sont vert mais que les machine ont été descendue par soft)
installation dfits (mis a jour sur la cle de distribution)
Ce qui suit est le magic-touch de sergi
Le serveur postgresql ne démarrait pas au boot, la cause était le listen_adress qui doit etre mis à 0.0.0.0, sinon au démarrage, si le réseau n'est pas prêt, le fait de mettre une adresse IP, fait casser le démarrage. changer la doc
démarrage automatique du monitoring de euler sur l'écran de glsmonit. pour cela auto-login avec l'utilisateur meul (adduser) et mis /opt/t4/beta/srcipt/meul comme script de démarrage.
correction du NTP de glspc20 qui avait la config genevoise
constant que glstspa n'a pas la meme distribution que les autre glst* !
correction des problème perl et des locales (mis en_US.UTF-8) dans /etc/default/locale (et sur la clé d'installation
correction sur mon mac des préférence réseau. il faut mettre DNS 10.10.132.101 et Domaines de recherche glsnet
debug du son concernant le logiciel d'observation. il restait dans Tsongplay les ssh sur glsnuc01 pour envoyer les sons. Réparé.
Les sons courts sont inaudibles, il semble que le temps de démarrage de la sortie audio est trop lente. Dans un premier temps, vu qu'on a que des son court, ceux sont répétés 2 fois. A remarquer que si un deuxième son sort moins de 5 secondes après le premier, c'est ok. (Peut-etre une action à coder en enregistrant le unix du dernier son. Mettre également un son court en premier plutôt que le doubler).

Panne de courant

on constate que le redémarrage nécessite un mode d'emploi
il faut programmer le temps de reset des Beckhoff (30[s] TBC)
mettre le 4k et un NUC sur UPS (pour avoir un minimum de contrôle)
3 ups donne un temps de plus de 50 minutes, mais L! lui 9 minutes. Cette valeur semble fausse au vu des voyants lumineux
On profite pour tester le shutdown soft des LCU: ok

02/02/2017(SB VM LW)

Le problème de son sur glslogin1 semblait venir du HDMI, le fait d'éteindre l'écran, fait perdre le son. Mettre a jour le firmware du 4k (rem le 4K récent n'a pas ce problème)
Mise hors fonction des switch Sunday
Les switch SunRay (Gigabit) sont mis à la place des switch du rack LCU (100[Mb]) on passe de 12[s] à 9[s] pour une lecture Ecam (10 minutes de gain sur la nuit)
Le câblage jaune dans la salle d'observation est le réseau Instrument. 4 vont vers les NUC, 1 vers l'imprimante (on va peut-etre passer l'imprimante sur le réseau observateur) On a laissé 4 câbles a disposition. La connexion sur le réseau Instrument est ainsi visuellement simplifiée.
Un switch temporairement mis en place (noir / 8 ports) est retiré. Le câblage inutile également.
Les NAS sont sur un IP-Power (PDU)
L'UPS rack serveur n'alimente que les NAS
Mettre le glslogin1 et le 4k sur UPS
Passage a ds9 pour l'affichage des image ECAM nouvellement crées (le passage du soft ecam_rtd_srv donnait un segmentation violation) l'utilisation de ds9 et absolument plus simple car l'application xpaset permet de communiquer directement (sans soft en C) avec un ds9 lancé en mode -sync. Bref je récupère le soft de Gilles pour tout ce qui est de la partie notification des fichiers crées et fait le l'utilitaire ecam_ds9_srv (modif de runall.pl et processes.pl). A noter qu'il n'y a pas besoin d'un équivalent du serveur ESO rtdServer
finalisation de login utilisateurs, le login dans /etc/csh/login.d/10gls.csh ajuste les réglages concernent le power management des écran (pas d'extinction). Update de la clé de distribution.
installation de glsnuc01 (glsmonitor), c'est le nuc anciennement utilise pour la conenction sur le 4K
check des rdb avnt creation de la base (quelque mauvais fichier (accelerometre et reduction). Certain fichier de reduction ont des ligne vide (QC), mettre un defaut.
installation de postgres et creation de la base euler. Lancement de la creation de base en milieu de nuit.

01/02/2017 (SB VM LW)

passage des LCU glsecam et glspisco dans le rack LCU (como se hace)
arrêt des castors, avec argos1 bruit centre de calcul diminue nettement, L'arret de ces machine fait également gagner 4 [A]. L'Ups serveur ne sert plus qu'aux NAS. Parfait
Vincent remet la porte sur le rack LCU
suppression des câbles inutiles
voir dans le futur si on peux réutiliser les switch SunRay dans le rack LCU (plus rapide que les actuels)
test fonctionnement glsecam avec 1 ou 2 connexion internet. Pas de différence de vitesse, on laisse qu'un cable RJ45
réglé le problème du changement d'instrument
showserv fonctionne, manquait 2 package perl et starbase, plus un bug X11. Update de la clé d'installation.
problème de son sur glslogin1 (premier 4K) résolu
glslogin2 perd sa connection ntp et en meme temps 3h! Le serveur ntpd refuse de démarrer, puis redémarre après plsueirs tentative et tout se remet en ordre. Peut-etre lié au point suivant.
Quelques problème lors de T_show_date, les Lcus ne sont pas reconnus. La commande host donne une erreur. mais après quelques essais tout se remet en p;lace te tout fonctionne. C'est un problème qui s'est déjà présenté et qui doit etre compris et résolu.
Mise en place des fichier login utilisateur pour actes au logiciel d'observation. Il sont sous /etc/csh/login.d, sont lancés par /etc/csh.login qui (c'est la modif:) source dans /etc/csh.cshrc. Update de la clé d'installation.
Lancement de la nuit avec réduction, flat, observation et réduction sur la machine virtuelle.

31/01/2017 (SB VM LW)

Passage des LCU sous LDAP et DNS du NAS
Arrêt de argos1
On decide de donner les noms glslogin1 et glslogin2 aux nouveau Nuc (observation et spare). Ces noms était déjà des alias de argos1 et argos2. On garde dans un premier temps ces nom du coté ESO et attribuons les meme IP a glsnuc03 et glsnuc05. Ainsi de l'extérieur. pas de soucis pour la transfert des données. On imagine supprimer definitement argos1 et argos2 dans le futur.
les serveur LCU (ecam, télescope, pisco) utilise la meme stratégie pour se connecter à l'inter qui les a lancé par rsh. Il ont tous le meme problème qui dit: "could not résolve hostname glslogin2" par exemple et quelque soit le host c'est le meme problème. Le point commun entre ces serveur est qu'il font un gethostbyname() suivit d'un gethostbyaddr(). Cette séquence genèse le problème (a tester avec un programme de test). La solution est de mettre dans le fichier /etc/hosts les ip/nom de glslogin1 et glslogin2.
Nous avons des problèmes de blocages des LCU, certains génère des kernel panic. Pour remédier à cela, sur tout les LCU on supprimer les services autosfs et puppet. Attention rien n'est fait dans le serveur d'installation. Toute ceci est à tester plus tard.
La suppression de autofs force a fabriquer quelques links sur les Lcu (Attention rien n'est fait dans le serveur d'installation. Toute ceci est à tester plus tard.):

glstreg: /net/glstreg/export -> /export
glstopt: /net/glstopt/export -> /export
glstser: /net/gstser/export -> /export
glsecam: /bet/glsecam/export -> /export
glspisco: /net/glspisco/export -> /export

Démontage des 6 écrans
Première nuit d'observation. Comme le passage d'instrument laissait des terminaux inter, on préfère passer une nuit sans changement d'instrument
Durant la nuit Sergi finalise la réduction sur la machine virtuelle (glsvirtualdrs)

30/01/2017

Arrivée de Sergi, Vincent et moi
Mise en fonction du VPN avec Jorge Dupeyron (jdupeyro@eso.org) sa présence physique était absolument nécessaire. Le VPN fonctionne
Correction de la config pour l'envoi des mail
test de x2go (en remplacement de NoMachine). Depuis La Silla, en VPN, on a lancé le softs d'observation sur le NUC de geneve. Le comportement a l'air correct. Temps de reaction correcte. Par contre dans le mode où l'on prend le contrôle de Desktop remote (donc sans login) le test n'est pas concluant. trop lent. En résumé remote observation OK, contrôle du desktop de l'observateur pénible.
Réductions des observations chilienne selon demande de Francesco

23/01/2017

Verification de l'accès aux LCU par /mnt/<hosts> depuis les NUCs - OK
Skype avec Michael concernant le bruit CCD Ecam, il en ressort que probablement c'est la coupole qui serait responsable, sur un transit de 4h , il y a ~ 300 poses, et 38 mouvement de coupole. Durant la meme nuit il y a 43 image avec problème, on ne sait pas si cette différence serait du a des erreur durant les flats. A analyser plus en profondeur....
Jabber avec Olive et Gilles. La connection avec le routeur qui servira de VPN n'était pas accessible. Gilles corrige la config pour avoir "remote management arable". Connection possible après cela.
Coup de fil au responsable ESO pour la mise en place du VPN, il me donne le mot de passe, mais on decide de le rappeler lundi la semaine prochaine avec Sergi qui a de meilleures compétence et comme il n'y a pas d'urgence
sur glstspa (modifié hier pour NTP) le fichier /var/lib/ntp/drift est mis à jour. Parfait
Je remarque que glspc20 n'est pas à l'heure, stop->start de ntpd ou reboot met la meme erreur: "ntpd: Synchronizing with time server: [FAILED]" le fishier de drift date du 5 janvier. Je supprime argos1 et argos2 du fichier /etc/ntp.conf, mais pas mieux. Stance -f ne donne pas d'information sensible.

22/01/2017

Compilation sous $THOME/src/weber/t_remote et links (concerne tout les utilitaire genre T_show_date)
L'envoi de T_show_date revele que le root de glsnuc04 ne partage pas ses clé ssh. lors du meme test glsnuc04 ne reconnais pas les nom des LCU, pourtant le ssh fonctionne.
Je decide de remettre glsnuc05 en fonction sur le 4K (puisque c'est le serveur dhcp secondaire), j'en profite pour sortir les nouveaux écran. Ainsi on a glsnuc02 avec un écran glsnuc04 avec 2 écrans.
sur glsnuc05 sous root, je fabrique des cles RSA (ssh-keygen -t rsa -b 2018) et effectue une connection sur chaque LCU. Le directory /root/.ssh est mis sur la clé de distribution sous import/root/.ssh avec les bonnes protections et bon owner. Ce directory fait partie de la distribution.
installation de glsnuc02 depuis la cle de boot. Je confirme qu'il faut utiliser la partition UEFI:USB pour que l'installation fonctionne. Ce changement pas rapport à l'installation a geneve est peut-etre du à l'installation du nouveau BIOS. Bref on en reste là pour l'installation de xubuntu
installation de glsnuc03 qui valide l'installation des NUC
glstspa a 3h de retard, ntpq -p donne "ntpd: read: Connection refused" l'arret de deamon donne "failed" et apres un start, ntpq -p fonctionne, mais pour un temps limité. Le plus simple est de prendre la config de glstopt et visiblement le luc se remet a l'heure. Curieusement le fichier rift ne se met pas a jour.
modif du fichier /etc/ntp.conf: ajout des server de l'ESO (la silla et HQ (garching)) selon la config de argos1. Avec cela il ne va pas sur les serveurs standard Ubuntu mais sur le GPS de La Silla. Sauvetage sur clé, mais pas d'installation particulière. A faire plus tard.

21/01/2017

Test logiciel d'observation sur NUC

étrange t120sdb donne une division par zéro dans le stripchart! je met un garde fou
test changement d'instrument OK
test fin de nuit
modification position écran de spesdb, tu, ts dans config/environnement_1_screen_4K
le problème du domainname est résolu, cette commande donne le domainname des NIS (que l'on n'utilise plus). Il faut donc taper dnsdomainname qui lui ne donne rien!
mis la bonne version de /etc/hosts.equiv dans PXE_install/distrib/install_data/common/hosts.equiv (sur la clé et sur le NAS)
mis oem-audio-hda-daily-lts-xenial-dkms_0.201701200732~ubuntu16.04.1_all.deb dans /opt/import/packages (sur la clé et sur le NAS)
modification de install.sh pour installation du module audio (ci-dessus) et installation de mpg123 (pour mp3) (sur la clé et sur le NAS)
installation de ldap sur glspisco
synchronisation de THOME sur la clé d'installation
Essai d'installation du mail. Plus d'info et de log dans ~weber/README.luc.nuc2017.txt. Mail à Sergi. En résumé: les mails semblent partir, mais n'arrivent pas! Constat étrange! la connection sur smtphost.hq.eso.org fonctionne, mais pas l'envoi par sendmail. Pourtant le log dit message sent!
installation de glsnuc04. La clé de boot donne un message indiquant "Unable to installGRUB in /dev/nvme" fatal error. Le système permet d'autre choix de devices, mais pas de validation possible (OK disabled). Tentative de récupérer (WEB) l'image de boot et de l'installer sur une autre clé, mais cette clé n'est pas reconnue (REM: 22/01/2017 elle était formatée XFAT et le XFAT n'est pas reconnu. J'avais choisi XFAT comme formatage sur le mac car le formatage FAT ne marchait pas. Cela était du au nom que j'avais choisi: "ubuntu 16.04.1" le nom était trop long et contenait des espaces. Bref avec le nom xubuntu le formatage FAT a fonctionné et la clé fonctionne). La solution a été choisir le boot sur "UEFI: USB:..:OS Boot Loader" au lieu de "USB:...:Boot Drive". L'installation a fonctionné. Le plus étonnant est que la clé fabriquée n'as pas cette partie UEFI:USB....
Installation postgres temporaire sur glsnuc04 et transfert de la base par backup et restore avec PgAdminIII. Bon exercice.
Arrivée de l'étudiant chili, première expérience sur un télescope, seul et sympa......

20/01/2017

Lancement du logiciel d'observation sur glsnuc05

la commande id weber montre maintenant tout les groupes (hier non!)
suppression des fichiers cachés sous ~weber, notamment .nedit, mais pas .ssh! Cette opération sera a faire chez tout le monde pour éviter des incohérence avec l'ancien système
Problème avec perl, incompatibilité de version entre perl et Tk. Tk était installe dans le soft t4, mais retiré à geneve. Ici j'avais synchronisé la beta pour etre sur d'envoir les exécutable 2.6. Avec cette synchronisation j'ai remis un vieux Tk qui ne devait pas etre là. Bref syncho --delete de beta/perl de la clé et tout est rentré dans l'ordre
le rsh donne permission denied sur les LCU, modif de /etc/hosts.equiv sur tout les LCU et argos1 et pupet afin de rajouter les glsnucXX (et glscora). Avec cela OK. !!! A mettre dans install.sh <= ok le 21/01/2017!!!
pas de son, il fallait installer apt-get install dkms et dpkg -i oem-audio-hda-daily-lts-xenial-dkms_0.201701200732~ubuntu16.04.1_all.deb pour que le driver son fonctionne. !!! A mettre dans install.sh <= ok le 21/01/2017!!!

je profite d'installer mpg123 qui permet jouer les mp3. Cela peut servir. !!! A mettre dans install.sh <= ok le 21/01/2017!!!
Debug inutile du spesdb qui restait uncal lors de démarrages successifs. C'est parce que le spe_srv n'était pas tué par processes, et donc on se reconnectait dessus et sans reconnexion la phase de calibration (@spe_stat) n'est pas effectuée. En fait il ne s'y inscrivait pas car les info de connection étaient sur glsnuc05:~weber et spe_srv les cherchait sur argos1:~weber. En copiant ~/.processes_coralie de glsnuc05 sur argos1, tout a fonctionné..... perte de temps, mais bon rafraîchissement de mémoire.
La commande domainname retourne "(none)" sur glsnuc05. Normal c'est le domainname des NIS (plus en usage sur les NUC)
test de mettre weber dans le groupe sudo avec usermod -aG sudo weber, pour simplifier le passage sous root, mais cela ne marche pas. Une solution a trouver donc.
Mis a jour du monitoring de Euler avec les dernier fichiers de config (la ligne FP_pression était rouge, pression trop basse (plus bas que limite min), maintenant la limite min est le minimum possible (~))
Correction du comportement different de t120sdb. le min/ne ne réduisait pas la fenêtre et laissant un espace inutilisé. En comparaison avec spesdb qui fonctionnait correctement selon le meme principe, mais spesdb packait la fenêtre (minmax_pannel) en left au lieu de bottom. Ca a mieux marché, mails la solution était de mettre (finalement pour les 2) $MW->resizable(1,1)!
debug de l'entrée du user et mail dans xrunall. plus de va et vient entre le dialogbox.

19/01/2017

changement owner recursif root:root sur /PXE_install
remplacement 10.10.133 en 10.10.132 sous /PXE_install et la cle: /media/obs/InstallEuler/PXE_install/
archivage argos1:/gls/data/starcats sur la cle USB StarCatalogues/starcats
installtion de LDAP sur NAS
LDAP: installtion utilisateur et groupe (on retire les anciens observateurs, les groupes leuven et guest)
LDAP: mis tous suaf chile dans le groupe docker
mis a jour des scripts pour les installtion LDAP
Installation DNS sur NAS
mis a jour des scripts pour les installtion DNS
on donne un IP fixe a glsnuc05 (edit wired connection) IP=10.10.132.39, mask=255.255.255.128, gateway (routeur selon dhcpd.conf) =10.10.132.126, dns=10.10.132.101, 134.171.81.250, 134.171.80.251, search domains=glsnet
Installation DHCP secondaire sur glsnuc05, ajustement de peer.conf sur argos1 pour le failover sur glsnuc05
dhcpd.conf est modifie pour avoir les DNS suivants: 10.10.132.101, 134.171.81.250, 134.171.80.251
sur le NAS-> controlPanel->network on pose preferred DNS=10.10.132.101 (lui-meme) et alternative DNS=134.171.81.250
installation de LDAP sur glstspa voir ce document. Comportement etrange en rappor t aux messages, mais tout fonctionne bien
test fonctionnement dhcp serveur secondaire sur glsnuc05
test fonctionnement dhcp serveur primaire sur argos1 et secondaire sur glsnuc05
mise a jour du NAS avec sauvetage de la configuration
installation de NFS (fstab) sur glstspa (on arrete l'automonteur chkconfig autofs off)
sur glstspa on monte export_gls, export_home, export_t4 du NAS (stab)
mise a jour de la clé de distribution afin d'avoir une procédure simplifiée
mis a jour de la doc
creation d'un doc simplifiee pour l'isntallatiuon du NUC

Remarque, le changement de mot de passe avec ldap sur glstspa ne fonctionne pas.Message suspect "Password fails quality checking policy" alors que le passwd est parfait

remarque:

LDAP fonctionne, mais l'assignation des groupes donne des resultats etranges lors de l'interrogation de la base par differents moyens (depuis le NAS, depuis jXplorer ou avec les commandes id ou ldapsearch), il semble qu'il y ait quelque chose a regler... mais cela fonctionne.

18/01/2017

installation de glsnuc05, on lui donne un IP fixe (edit wired connection) IP=10.10.132.39, mask=255.255.255.128, gateway (routeur selon dhcpd.conf) =10.10.132.126, dns (on garde argos1) = 10.10.132.81, search domains=glsnet
modif de /media/obs/InstallEuler/import/bin/install.sh: 133 en 132, rajout des machines locales pour rsh
modif de /media/obs/InstallEuler/import/etcNuc/ldap.conf: 133 en 132
modif de /media/obs/InstallEuler/import/etcNuc/ldap.secret (mis le password de root)
mis root:root pour ldap.cong et ldap.secret + protection rw juste pour root
mis temporairement les IP pour /media/obs/InstallEuler/import/etcNuc/dhcp/peer.conf_FOR_PRIMARY: 132.37 (glsnuc03) 132.39 (glsnuc05)
mis temporairement les IP pour /media/obs/InstallEuler/import/etcNuc/dhcp/peer.conf_FOR_SECONDARY mis 132.39 (glsnuc05) 132.81 (argos1)
A verifier dans /media/obs/InstallEuler/import/etcNuc/dhcp/peer.conf_FOR_PRIMARY (/etc/dhcp/peer.conf): la valeur mclt=1800 est-elle correct? en contradiction aux baux de 86400[s] dans dhcpd.conf
A verifier: protection des fichiers postfix
lancement de bash -x /media/obs/InstallEuler/import/bin/install.sh
l'installation de docker indique entre 30 et 60 minutes!!! Mais apres arret du script et relance immediate du apt-get concerne, totu passe en 30 seconde.... etrange
rajout de plusieurs apt-get update
umount de /home car l'installation monte le /export_home sur /home et perd le home original de obs. cela plante l'installation de x2go
synchronisation de argos1:/opt/t4/beta (pour etre sur d'avoir les exe des LCU
synchronisation de la cle: /opt/t4/beta, /PXE_install, /opt/intel, /opt/import
update documentation