Vous êtes ici : Accueil / TECHNICAL PAGES / Documentation / Missions / 2010..2014 / 2010-12-01 - Informatique

2010-12-01 - Informatique

La_Silla/Missions/20101201_Informatique


 

 

1. MISSION INFORMATIQUE DÉCEMBRE 2010 (Mission des argonautes)

 

1.1. Rapport de mission

 

1.1.0.1. Lundi 29 novembre 2010

  • Arrivée à La Silla de Michel Crausaz, Gregory Lambert, Denis Mégevand, Dominique Naef, Gilles Simond, Luc Weber. Sophie Saesen est sur place.
  • Demandé à l'ESO de nous monter les caisses de matériel arrivées à la bodega.
  • Déballage des trois caisses, vérification du matériel, tri (MC, GL, DM, GS)
  • Validation du soft d'observation sur les glspc (LW)
  • Installation des deux serveurs sur un chariot dans la base de la coupole (GS)

 

1.1.0.2. Mardi 30 novembre 2010

  • Réunion du matin: fixer la noms des machines, discussion réseau, programme de la journée:
    • serveurs: argos1 , argos2

    • ancien glspc17: passer la roue des filtres sur le PC de ECAM, renommer cette machine en glspc16 et l'utiliser comme LCU de spare.

    • nouveau glspc17 (ancien glstspa): redevient glstspa , spare des PC Beckhoff.

    • nouveau PC ECAM: nommé glspc17 , installé avec serveur imager ECAM et serveur roue des filtres.

    • nouveau PC PISCO: nommé glspc18 .

  • Montage mécanique du rack dans le local machines (MC, GL)
  • Discussion de l'emplacement des machines dans le rack (MC, DM, GS)
  • Remontage du focuser de PISCO (DM, DN, GL, GS)
  • Validation de spectro_srv, pm_srv et torture tests sur les PC (LW)
  • Allumer les serveurs argos et vérification de l'état de marche. Commencer à mettre les noms définitifs (GS)
  • Rapatrier les serveurs de Genève (GS)

 

1.1.0.3. Mercredi 1er décembre 2010

  • Suite de l'installation des serveurs argos: réinstallation de argos1 (GS)
  • Alignement de PISCO (DM, LW, GL): démontage caméra, installation lunette Takahashi, réglages, remise en place caméra
  • Suite du montage du rack (MC, GL)
  • Transfert des machines castor dans nouveau rack, recablage (MC, GS)
  • Redémarrage des machines pour la nuit (DN, GS, DM), tout refonctionne nominalement
  • Début de nuit : test du focus de PISCO (DN, GS, DM)

 

1.1.0.4. Jeudi 2 décembre 2010

  • Suite de l'installation des serveurs argos: installation et test du serveur de Sunrays sur argos1 (GS)
  • Suite du montage du rack (MC, GL)
  • Suite de l'installation des machines castor, des KVM et des switches dans nouveau rack, recablage propre (MC, GS)
  • Formation de Gregory sur le système T4 (LW)
  • Redémarrage des machines pour la nuit (MC, GS, DM):
    • problème avec les glspc qui ne bootent plus par dhcp sur castor dans nouveau rack,
    • configuration réseau fixe pour les glspc jusqu'à compréhension du problème.

 

1.1.0.5. Vendredi 3 décembre 2010

  • Problèmes réseau dans la nuit: protocole dhcp semble fragile entre anciens et nouveaux switches (GS, MC, DM)
  • Suite de l'installation des serveurs argos: installation et test du serveur DHCP sur argos1 (GS, DM)
  • Suite du montage et suppression de l'ancien rack (MC)
  • Suite de l'installation du nouveau rack, recâblage propre (MC, GS)
  • Câblage des sunray sur le nouveau rack + installation hardware d'argos
  • Formation de Grégory sur UNIX (LW, DM)
  • Synchronisation des répertoires de castor, castor2 et megere sur argos1 (GS, LW)
  • Nuit : pas d'observation cette nuit, le point de non-retour est atteint, nouveau serveur pas encore 100% prêt

 

1.1.0.6. Samedi 4 décembre 2010

  • Suite du câblage du rack, étiquetage des câbles (MC)
  • Connexion des deux PC Beckhoff, écran clavier rack (MC)
  • Mécanique du tiroir (GL)
  • Suite de l'installation des logiciels T4 sur argos1:
    • validation observation Coralie en alpha (LW, GS, DN)
    • impossible d'installer les librairies T120 jouvence de Maire ! => SW télescope LCU ancienne version

  • Préparation de la config dhcp pour nouvelles machines (DM)
  • Formation UNIX, suite (GL)
  • Nuit : observation sans problème avec Coralie (DN)

 

1.1.0.7. Dimanche 5 décembre 2010

  • Fin du montage du rack et écran glspc18 (MC)
  • Transfert du HW ECAM et PISCO sur nouveaux LCU (MC, GS)
  • Check et debug de diverses procédures liées à Coralie (LW)
  • Installation ECAM et PISCO côté inter (GS)
  • Adaptation adduser et rmuser (DM)
  • Formation UNIX, suite (GL)
  • Nuit : seconde nuit d'observation avec Coralie (DN)

 

1.1.0.8. Lundi 6 décembre 2010

  • Installation du son sur les sunrays (pas fini) (GS)
  • Validation EulerCAM (GS)
  • Schéma du hardware (MC)
  • Nuit : première nuit avec Coralie ET Eulercam :
    • Plantée en fin de nuit, problèmes de parcage, reboot d'argos1 et de glspc11 (DN, GS)

 

1.1.0.9. Mardi 7 décembre 2010

  • Validation PISCO (GS): problème avec le RS-232 de PISCO qui ne répond pas.
  • Debug divers problèmes SW (LW)
  • Problème télescope Euler :
    • Retrouvé horizontal avec la canne connectée.
    • Investigations sur le schéma de blocage et les causes de ce problème.
    • Pas de dégats heureusement.
  • Fermeture panneau du rack (MC)
  • Relevé des adressees réseaux pour le schéma (MC, GS, DM)
  • Formation Greg électricité bâtiment (MC)
  • Résolution problème screenblank (GS)

 

1.1.0.10. Mercredi 8 décembre 2010

  • Départ de Michel Crausaz
  • Pompage Coralie (GL)
  • groupefroid validé et installé dans showserv (LW, CM)
  • Validation PISCO: installation d'un PC Windows pour tester avec le programme fabricant (GS)
  • Discussion futur réseau avec Andy Wright (DM, GS, GL, DN)
  • Validation scamp et ABTR (LW)
  • Installation/validation de rtd (GS)
  • Mails config réseau à Andy (DM)

 

1.1.0.11. Jeudi 9 décembre 2010

  • Suite pompage Coralie (GL)
  • Ajout/suppression de comptes (GL, DM)
  • Mise en place nouveau réseau WiFi ESO "Swiss User LAN" par Andy Wright

  • Dépannage de PISCO (port série inopérant depuis 2 jours (GS, DM, GL): problèmes de connectique: OK)
  • Validation commandes remote pour rack Coralie (LW)

 

1.1.0.12. Vendredi 10 décembre 2010

  • Le son fonctionne sur les sunrays (GS). Reste à installer les scripts (GS-11/12).
  • Préparation serveur d'install SL4.3 (GS)
  • Debug du serveur imageur ECAM, problème de position mémoire (GS)
  • Nettoyage message des serveurs sur les consoles de glspc (LW, GS)
  • Correspondance flats PISCO - ECAM: Z P <-> U E (LW)

  • Script pour afficher les processes serveurs des LCU (DM)
  • Nuit : validation correspondance flats PISCO - ECAM (DN) : Z P saturé. A revoir.

 

1.1.0.13. Samedi 11 décembre 2010

  • Test du serveur Eulercam (GS) OK avec mémoire sous la limite de 1GB.
  • Tests d'arrêt des castors (LW) OK tout fonctionne sans les castors.
  • Définir poses LED dans edp (LW)
  • Script pour tuer les processes serveurs des LCU (DM)
  • Mise à jour des description du système informatique et des reboot (DM)
  • passage des crontabs weber et maire sur argos1 (LW)
  • Synchronisation des BACKUPS des données de services sur argos1 (DM)
  • Nuit : problèmes PISCO :
    • Certaines images ont une partie inversée.
    • Le câble du rotateur se toronne à nouveau, initialisation du wrap à revoir.

 

1.1.0.14. Dimanche 12 décembre 2010

  • Debug des lookup tables des filtres PISCO et ECAM (LW)
  • Nettoyage des logs (LW)
  • Rapatriement des reduced, mise en place du cron (LW)
  • Fichier de configuration de Puppet (GS)
  • Configuration de Nagios (GS)
  • Serveur Web La Silla sur argos (GS)
  • Script pour rebooter toutes les machines (DM)
  • passage des crontabs restantes sur argos1 (DM)
  • Installation castor2 en SL4.3 (DM, GS)
  • Installation du group coralie (protection DRS), trigger et DRS sur castor2. Validation technique (DM)
  • Nuit : tests DRS castor2, petits problèmes de synchro. Fin de validation scientifique lundi de jour.

 

1.1.0.15. Lundi 13 décembre 2010

  • Installation argos2 (GS, GL)
  • Suppression et réinstallation des users chile, leuven, dominique (GL)
  • Modification adduser et rmuser (DM)
  • Validation des users chile et leuven (LW, DN, DM) problème de LD_LIBRARY_PATH !
  • Recompiler les inter de Charles (LW)
  • Changer tous les .sm (DM)
  • Configuration de sm pour rdb et diags (DM)
  • Installation scisoft et ghostview sur castor1 et castor2 pour scripts list_coralie_* (DM, GS)
  • Mail à Andy pour alias DNS et config transfert données (DM)
  • Nuit : test de configuration user geneve: dominique. Il s'avère que certaines variables d'environnement ne sont pas initialisées. Investigation en cours.

 

1.1.0.16. Mardi 14 décembre 2010

  • Modification du squelette d'installation pour nouvel utilisateur et des scripts add/rmuser (DM)
  • Finalisation de la configuration son des Sunrays (GS)
  • Installation des nouveaux switches du réseau des opérations "Netgear G724" pour le problème de dhcp (DM, GS)
  • Problème au test de reboot de argos1 - réinstallation complète du serveur de Sunrays (GS, DM)
  • Nuit : A cause de ce problème de reboot et de la réinstallation du serveur de Sunrays, Dominique n'a pu commencer sa nuit qu'à 23:30 environ. A part ce raccourcissement, elle s'est bien passée.

 

1.1.0.17. Mercredi 15 décembre 2010

  • Dernier jour ! On ne touche plus rien de vital.

  • Correction de petits bugs dans les scripts adduser, rmuser et T_reboot_LCU (DM)
  • Correction des tables de group de castor1 et castor2, endommagées par certains scripts ci-dessus (GS)
  • Continuation du travail sur la page de rapport de nagios (GS)
  • Scripts de transfert des disques d'argos1 sur argos2 et retour (GS, DM)
  • Tests du transfert des disques en cas de panne d'argos1 (GL, GS, DM)
  • Tests de reboot de toutes les machines. (GL, GS, DM) Tout fonctionne.

Fin de la mission des argonautes. L'équipe technique (GL, DM, GS, LW) redescend à La Serena.

La mission est réussie, le passage aux nouveaux serveurs est fait, toute la manip fonctionne, et la plupart des programmes installés sont maintenant plus solides qu'avant, car le passage aux nouvelles machines a permis de regarder de plus près certains petits problèmes et de les corriger. Quelques outils supplémentaires ont été installés, et les deux machines principales (argos1 pour l'observation et castor1 pour la réduction) ont été doublées par un spare correctement installé (argos2 et castor2).

Il reste quelques choses secondaires à faire, notamment la réinstallation de la météo, d'un serveur de Sunrays secondaire, des PC de la cuisine, l'inclusion des températures dans Nagios, etc. Il restera aussi la configuration et les tests du nouveau réseau demandé par l'ESO, ainsi que les tests de la nouvelle bande passante dédiée, dès que celle-ci sera installée. Certaines choses pourront être faites à distance, d'autres par Gregory, et d'autres devront attendre une prochaine mission technique.

Au niveau scientifique, un minimum de temps d'observation a été perdu, soit moins de 2 nuits sur 17. Grâce à Dominique, pas mal de problèmes ont pu être détectés très vite et corrigés le lendemain. La méthode de validation durant la mission technique a très bien fonctionné, et la plupart des "gros" problèmes rencontrés étaient dûs aux instabilités propre au travail technique de jour. Espérons que de possibles nouvelles instabilités dans le logiciel d'observation soient rapidement mises en évidence et corrigées.

 

1.2. Détails des opérations faites et à faire

NB: Biffer ce qui est fait (sur mac mode graphique: uniquement avec firefox), en mode texte pour biffer: - - ( xxx ) - - : xxx

exemple:

  • faire la page Wiki

 

1.3. OpérationsPrioritaires

  • fixer les nom des machines :o)) argos1 argos2

  • synchronisation de TDATA (castor->argos) (pour les services, No uniques, email user, ...)

  • Luc: tester les nouvelles versions spectro_srv + pm_srv en alpha sur glspc11 (compilation sur le LCU) utilisation avec castor (avant démontage)

  • arrêt et transfert des services (en fonction de l'operation précédente) normalement à part groupe froid, les LCU travaillent sur leurs propres disques et c'est donc glssr1 qui doit avoir les bon liens (rsync ci-dessus)

 services/accelerometre -> /net/glspc14/export/diskA/services/accelerometre
 services/c2_jumo -> /net/glspc14/export/diskA/services/c2_jumo
 services/c2_lakeshore -> /net/glspc14/export/diskA/services/c2_lakeshore
 services/c2_temp -> /net/glspc14/export/diskA/services/c2_temp
 services/climatisation -> /net/glspc14/export/diskA/services/climatisation
 services/coralie -> /net/glspc14/export/diskA/services/coralie
 services/cryostat -> /net/glspc14/export/diskA/services/cryostat
 services/externe -> /net/glspc14/export/diskA/services/externe
 services/jumo -> /net/glspc14/export/diskA/services/jumo
 services/lakeshore -> /net/glspc14/export/diskA/services/lakeshore
 services/pm -> /net/glspc11/export/diskA/services/pm/
 services/pression -> /net/glspc14/export/diskA/services/pression
 services/tele -> /net/glspc14/export/diskA/services/tele
 services/tfibre -> /net/glspc14/export/diskA/services/tfibre
 services/MAINTENANCE/topt_srv -> /net/glstopt/export/gls/data/services/MAINTENANCE/topt_srv
 services/MAINTENANCE/tser_srv -> /net/glstser/export/gls/data/services/MAINTENANCE/tser_srv
 services/MAINTENANCE/treg_srv -> /net/glstreg/export/gls/data/services/MAINTENANCE/treg_srv
 services/MAINTENANCE/ecam_srv -> /net/glstspa/export/gls/data/services/MAINTENANCE/ecam_srv/
 systeme/MESURE_ZERO_COUPOLE_DO_NOT_ERASE -> /net/glstser/export/gls/data/systeme/MESURE_ZERO_COUPOLE_DO_NOT_ERASE

 

1.4. Système

  • Installer sendmail

  • supprimer fsck du boot

  • réinstaller station météo et site y relatif

 

1.5. Utilitaires système

Utilitaires d'usage général à développer, ces commandes devraient pouvoir être exécutées par "all"

  • remove serveurs (logiciel d'observation) sur tout les LCU

  • liste des serveurs (logiciel d'observation) présents sur les LCU

  • reboot de tous les LCU

  • adaptation des scripts adduser et rmuser

 

1.6. Installation logiciel d'observation

  • mettre à jour listes des applications en usage selon $OPSYS (voir ~weber/src/administration/LISTE_APP*)
  • mettre à jour ~weber/src/administration/t4_beta.csh (+ok et alpha) avec LD_LIBRARY_PATH $OPSYS sensitif ($PATH aussi?) mettre en beta+ok

  • tester la commande groupefroid (charles) avant de lancer les services (crontab). doit sortir les info à l'ecran

  • installer les crontab castor des développeurs (maire, weber, etc) sur les nouvelles machines(voir remarques ci-dessus pour test de groupefroid)

 castor:luc:
 0 * * * * /home/weber/src/perl/services_comprime.pl -last > /home/weber/LOGFILES/services_comprime.log 2>&1
 castor:charles:
 0 12 * * * /opt/t4/beta/scripts/groupefroid 60 > /dev/null
 castor:root:
 3 1 * * * scp /gls/data/systeme/user2mail.rdb megevand@obslogin1.unige.ch:/obs/scratch/data/systeme/all_emails.rdb
 castor:megevand:
 05 12 * * * rsync -avL /gls/data/services/[Saejpt]* /gls/data/services/c[2lor]* /gls/data/services/focus /gls/data/services/lakeshore /gls/BACKUP/services/
 
 castor2:luc:
 50 * * * * /opt/t4/beta/scripts/sync_my_raw >> /gls/data/services/MAINTENANCE/log/sync_my_raw.log 2>&1
 castor2:root:
 */2 * * * * rsync -aHl /export/meteo/ alecto:/export/diskA1/WWW/htdocs/wview > /dev/null 2>&1
 */2 * * * * rsync -aHl /export/meteo/ megere:/export/diskA1/WWW/htdocs/wview > /dev/null 2>&1
 25 * * * * /opt/t4/beta/src/weber/perl/Tsync_BACKUP.pl > /dev/null 2>&1
  • recuperer les dernières version alpha de Charles (développement depuis envoi des machines) UNIQUEMENT T120 le resté est sous cvs

  • tester la commande moxa (charles)

  • tester la commande groupefroid (charles) c'est le cron de charles qui donne la commande globale et la commande précise (un .pl) est à tester avant de passer le cron de charles sur glssr1. Il doit donner une de mesure (~140 char).

  • tester les 2 programmes de surveillance et affichage des températures journalieres -> nécessite une communication SSH (charles)

  • tester la compilation des serveurs directement sur chaque LCU (voir l'independance à Castor)

 

1.7. Coralie

  • tester les commandes turn_on_thorium et shutdown_coralie depuis spesdb (--(les commandes fait un rsh et utilise $OPSYS, ce qui ne peut pas marcher modifié en \$OPSYS à tester))--

  • tester les commandes turn_on_thorium et shutdown_coralie

  • installation de spectro_srv et pm_srv en fonction de $OPSYS (link sur LCU pour Linux_2.6_i686 et $THOME pour Linux_2.6_x86_64)

  • test nouveaux serveurs spectro_srv et pm_srv (x86_64) sur LCU (i686) garder les 2 versions si incompatibilité

 

1.8. Télescope

  • Dans la procédure t120_fin_de_nuit tester la fin du déplacement de la coupole avant de terminer la procédure. Mettre à jour procédure $THOME/prc/t120/cupola_attente_fin_position.prc. Pour le test: cupola /actu (résultat dans cupposmes), renvoyer à 180 degres: cupola /eamov=cupposmes+180 ; @cupola_attente_fin_position ; doit rendre la main lorsque la coupole s'arrête. Mettre cette procédure dans fin_de_nuit.prc

 

1.9. Synchronisation et recupération

  • /gls/data/ (raw,reduced,msg,system,services (+log) ...)

  • flatfields?

  • ...

 

1.10. Amélioration logiciel d'observation

  • procedures: les test (if) ne doivent plus être " .eq.1 " mais " .ne.0 " (attention ator(.true) return -1)

  • s'assurer que le mode hancheck pour gop (hsync et dsync sont false) (update de libgop.c et recompilation de GOP.pm)
  • t4_abtr doit pouvoir être lancé depuis n'importe quel directory (mettre les fichiers tempo dans $HOME)
  • harmoniser les messages de log (format d'écriture)

  • encore des warnings dans les pmod_lib* (swig pour perl)
  • mettre le nom des fichiers et les tunix dans les log de ecam_rtd
  • champ masque toujours présent dans edp (status?) a supprimer (ref:clovis)

  • sauvetage de l'image par ecam_srv, la sauver dans un fichier temporaire et changer de nom à la fin, corriger t4_abtr qui n'aura plus besoin de tester la taille du fichier. Tester si on peut le faire en rsh depuis le serveur (mais c'est con de hardcoder la machine dans le serveur), ainsi, peut-être le mv déclenche le inotify2 et ainsi carrément plus besoin du t4_basic_abtr_watchdir.pl qui se base sur la taille (voir tout cela avec Gilles).

  • rajouter le email de l'observateur dans les descripteurs FITS (env var), s'en servir dans TcheckRsync . pl (a Genève) pour envoyer un mail personalisé en cas de réussite de synchronisation. Mettre à jour également les textes des mails. Il y a castor et castor2 dans ces mails)

  • rajouter un onglet groupe froid dans showserv

  • faire un touch de "NUIT_CHILIENNE" sur raw Genève lors des (non-)synchronisations des nuits chiliennes

  • logger sous forme de fichier de service les timings Coralie
  • logger sous forme de fichier de service le courant de moteur focus (et autres...)
  • crashlog disparait aux changements d'instrument (pas bon)
  • flat_uif vérifier que le abort fonctionne durant la boucle de mesure
  • flat_uif: valeur initiale (125 sec pour le matin TBC)
  • pointage du télescope immédiat lors du changement d'instrument
  • faire le sendmail du email de l'observateur dans xrunall en background

 

1.11. Développement et debug logiciel observation

  • Changement d'instrument avec télescope non demarré

  • edp affichage des paramètres concernant la lune (+debug altitude, voir mail DomTom )

  • fonctionnement de inotify2 pour la détection des nouvelles images (->Ne marche toujours pas avec NFS)

  • utilisation de sextrator et scamp en local (sans rsh sur castor3), test de ABTR dans ce mode

  • timing des poses dans edp (ajustement pour ecam et nouveau mode de lecture)+ timing pose focus

 

1.12. BUG CONNU

  • processes est limité à 32 connections (bug config perl): pour pallier à ceci, les afficheurs et les prompteurs ne s'enregistrent pas. Il faut implémenter le "pkill prompter gaff" pour l'arret complet. REM: mis kill -15 au lieu de kill -9 dans processes sauf pour changement d'instrument (les prompter seront donc à double ... à vérifier)

  • le tail de l'affichage du progress-bar traine après la fin de nuit

  • gestion des CTRL-C dans inter ne fonctionne pas (core dump)

 

1.13. Hardware

  • Déballer + contrôler le materiel envoyé de Genève tout OK

  • Déplacer le rack castor dans la salle de controle et recâbler pour que tout refonctionne comme avant idée finalement abandonnée

  • Monter le nouveau rack dans le local Info + câblage électrique raquette grise (230V local Info) + câblage électrique raquette orange UPS (TEUPS T4 et PISCO)

  • Déplacer et Installer UPS castor + cablage electrique raquette orange UPS (castor)

  • Déplacer et recâbler le KVM

  • Déplacer les machines castor dans le nouveau rack + câbler réseau info

  • Installer les nouvelle machines, --(les switchs, câbler réseau info, etc pour tests

  • Quand tout fonctionne, déplacer les switchs pour les SUN-RAY + câbler reseau info

  • Supprimer les serveurs de Sunrays

  • Installer le PC PISCO + tranceivers USB et RS232

  • Faire un schéma bloc du nouveau rack et du resinfo en général A mettre au net à Genève (MC)

  • etc...............

 

Documents
Actualités
Dimanche 12/12 07/01/2022
Lundi 13/12 07/01/2022
Mercredi 15/12 02/01/2022
Vendredi 17/12 16/12/2021
Jeudi 16/12 16/12/2021