Aktuality:Problémy s AFS
V poslední době registrujeme potíže s souborovým systémem AFS. Zatím se nepodařilo zjistit přesný důvod, provoz AFS podrobně monitorujeme, na odstranění závady se pracuje. Omlouváme se uživatelům za způsobené potíže.
Projevy u klientů
- prodlužuje se odezva od souborového systému
- nelze číst nebo ukládat do části AFS stromu
- systém hlásí, že požadovaná část AFS je nedostupná (Input/Output Error)
Projevy na serveru
- zůstanou pouze 2 volná vlákna pro příchozí požadavky (pravděpodobně servisní vlákna)
- po využití všech vláken narůstá počet procesů čekajících na vlákno (tzv. wprocs)
- při dosažení limitu (v konfiguraci -L serveru je limit wproc=300) se odešle VBUSY klientům, a wproc se vyčistí, avšak se neuvolní žádné vlákno pro zpracování dalších příchozích požadavků a cyklus se opakuje
- tento stav se nazývá meltdown
Postihované servery
- uživatelské (elektra1, elektra2, elektra3)
- projektové (eurynome1, eurynome2)
- repliky (harpia)
Hledání řešení (chronologicky)
- navýšení volných vláken (neuspěšné)
- navýšení počtu dostupných konexí (neúspěšné)
- hledání zdroje problémů v logách a dumpech, problematická se zdá být učebna TY110 (úspěšné)
- na radu vývojářů upgrade souborových serverů (neúspěšné)
- konzultace s vývojáři: problém může nastat v případě nekorektně nastavených klientů (úspěšné), detaily viz:
- http://grand.central.org/rt/Ticket/Display.html?id=19461 (přihlašovací údaje: guest, guest)
- http://www.mail-archive.com/openafs-info@openafs.org/msg22155.html
Řešení
Problém vyčerpání AFS FileServeru, který poskytuje klientům data je způsoben nekorektně nastavenými klienty.
Příčina spočívá v tom, že klient, který nemá po instalaci nastaveno nové SID, k serveru přistupuje pod stejnou
identitou jako ostatní, podle níž byl klient nainstalován. Tento problém se týká hlavně učeben, které nejsou
ve správě CIV a jejich instalace spočívá v rozkopírování jednoho nakonfigurovaného stroje na ostatní.
Jak postupovat po okopírování jedné stanice na druhou:
- počítače musí mít unikátní SID - změnit nástrojem ghostwalk nebo newsid
- po změně SID je potřeba znova stanice zařadit do domény
- staré SID je uložené v souboru AFSCache (obvykle umístněném v C:\), který by bylo třeba smazat. Znamená to zastavit AFS klienta, smazat AFSCache a klienta opět spustit. Cache se vytvoří znovu.
- jsou-li na počítačích firewally, je vhodné zkontrolovat, že je povolena příchozí komunikace v UDP na porty 7001, 7002 a 7003.
Zjistit, jaké UUID má daný klient lze provést vzdáleně příkazem:
cmdebug HOSTNAME -addrs