<html><div style='background-color:'><DIV>
<P>Hello. Sorry I did not follow up on my problem before. I have been busy since we got everything working correctly.</P>
<P>Our problem was with the server node, not any of the compute nodes. All of our motherboards were all ASUS A7V266-E. We maxed the server node out with 1.5GB ram and it also had two 3Com 3C905C-TX-NM 100Mbit network cards (one for the outside world and one for the cluster).</P>
<P>Our ordinary computations are CPU bound, so networking is not normally the bottleneck, which is why we can get away with 100Mbit. I was running a stress test that saturates the network and all of the CPUs in the system and we were&nbsp;observing the server node dropping network activity and sometimes locking hard. The root filesystem would be unreadable upon rebooting, which meant re-install and try again. We tried changing many options; different distributions, less memory, different A7V266-E board, different power supply, different kernel, different LAM-MPI, and different 3C905-C-TX-NM cards; all without success.</P>
<P>We determined that we had stubled upon a strange undocumented hardware incompatibility error. We then bought an ASUS P4B266 motherboard and a 2.2 GHz P4&nbsp;to put in the server node. We also put 1GB of DDR ram&nbsp;and 2 3C905C-TX-NM cards into the server. We used the same graphics adapter as before. This new motherboard worked fine. We stress tested the system for a full 24 hours and we did not have any problems. The rest of our compute nodes have been running fine with the A7V266-E and a single 512MB DDR ram chip.</P>
<P>If there is root filesystem corruption, there may be a hardware problem; as was our case. We think that we had a bad combination of ram, motherboard, coupled with the dual network cards that was causing the problem. I would suggest testing another power supply, swapping ram chips, and finally trying to replace the motherboard/processor. No amount of network satuation should cause the machine to lock up hard and corrupt the OS drive.</P>
<P>Hope this helps. If you have any questions, don't hesitate to ask. If you try to email me, send it to bwbug because if you are not in my address book, hotmail will filter it for me.</P>
<P>Gregory Alan Hildstrom</P>
<P><A href="mailto:ghildstr@hotmail.com">ghildstr@hotmail.com</A></P>
<P>240-626-3703<BR></P></DIV>
<DIV></DIV>
<DIV></DIV>&gt;From: Frank Summers <SUMMERS@STSCI.EDU>
<DIV></DIV>&gt;To: ghildstr@hotmail.com, bwbug@bwbug.org 
<DIV></DIV>&gt;Subject: beowulf network problem? 
<DIV></DIV>&gt;Date: Mon, 7 Oct 2002 16:47:21 -0400 
<DIV></DIV>&gt; 
<DIV></DIV>&gt;In June, Gregory Hildstrom posted that his cluster was experiencing 
<DIV></DIV>&gt;some lock-ups, possible due to a high NFS load. I've jst had a user 
<DIV></DIV>&gt;begin running some computations on my cluster that appear to 
<DIV></DIV>&gt;be causing a similar problem. I haven't looked at his code to determine 
<DIV></DIV>&gt;the NFS load, but it sends lots of MPI traffic across the network. 
<DIV></DIV>&gt; 
<DIV></DIV>&gt;Over the last week several of my nodes have gone catatonic - alive, 
<DIV></DIV>&gt;but not responding. About half the time, they have woken up, 
<DIV></DIV>&gt;although with their system clocks out of sync. Other times I've 
<DIV></DIV>&gt;had to hard reboot. 
<DIV></DIV>&gt; 
<DIV></DIV>&gt;The last failure indicates what Gregory had found - no operating 
<DIV></DIV>&gt;system on the drive. 
<DIV></DIV>&gt; 
<DIV></DIV>&gt;I was just wondering if Gregory or anyone else had found a 
<DIV></DIV>&gt;solution to this problem (beyond banning the offending user). 
<DIV></DIV>&gt;I've had a gigabit ethernet switch on order for some time, but 
<DIV></DIV>&gt;purchasing was slow and it got stuck at a west coast dock. 
<DIV></DIV>&gt; 
<DIV></DIV>&gt;Frank 
<DIV></DIV>&gt; 
<DIV></DIV>&gt;-- 
<DIV></DIV>&gt;Space Telescope Science Institute 410-338-4749 
<DIV></DIV>&gt;3700 San Martin Drive 410-338-4767 (FAX) 
<DIV></DIV>&gt;Baltimore, MD 21218 summers@stsci.edu 
<DIV></DIV>&gt; http://terpsichore.stsci.edu/~summers/ 
<DIV></DIV></div><br clear=all><hr>Send and receive Hotmail on your mobile device: <a href='http://g.msn.com/1HM1ENUS/c152??PI=44364'>Click Here</a><br></html>