 ARPA PI                                                        SLDSPPNT  <        EÎ    ¨Ì.¨Ì¡D                       ÜÅ  ­Þí       >   EÎ  =   Ä      Ì   :  è   8  "  4  Z   :  Ž  À  È  ª  	ˆ   :  2   8  l  X  ¤   :  ü  ø  6  €  .   :  ®     è   4     :  8  Ð  r  F  B   :  ˆ  Œ  Â  †  !N   :  #Ô  Ü  $  ˆ  %ê   :  (r  Ì  (¬  î  .x   :  0f  h  0   €  3   :  5ˆ  Ü  5Â  :  7ž   :  9Ø  ¤  :  Ä  ;¶   :  >z   8  >´   ä  >ì   :  ?Ð   p  @
   J  @z     @Ä      @à   :  @à   $  A  J  A>   H  Bˆ   @  BÐ   V  C   V  Cf   V  C¼     D     D$     DB     DX      Dt   :  Dt   x  D®   ¤  E&ÿþÎÿÿæ   ÿÿ    G/Ðÿ‚þÔ Y ä   ÿÿ    G-<ÿèÿFÿ¾ÿ^     ÿÿ       ÿ¾ÿ@ÿèÿd     ÿÿ       ÿèÿÊÿ¾ÿâ     ÿÿ       ÿ¾ÿÄÿèÿè     ÿÿ       ÿ þàÿ  Ì     ÿÿ          Initial	 NOW Prototypess    m   Processor	Bus	Network	O/S     $             Sparc 10s	S-Bus	CM-5 NET	SunOS         		M-Bus	ATM                  #HP 9000/735s	Graphics Bus	FDDI	HPux               J   IBM RS6000	MCA	Vulcan Net	AIx      ÿÿÿÿ                           þòþ˜i  G2ø G5° G6” ^ÿþÎÿÿ·   ÿÿ    G-¸ÿ.þÂ
8   ÿÿ   G-¼   Challenges in NOWm    m   Engineering:     ô   	¡ O.S. fast path      d  <	Ð ~10 instructions on user message for the current process        	(no "stacks")         	¡ Network Interface Card         8	Ð Keep fast-path fast (detect the common case quickly)         	Ð fast critical sections        E	Ð Establish network protection domain (network process ID and check))     ¼  2	Ð Adaptation to memory bus, graphics bus, I/O bus         	Ð  Flow control and retry (???)       ¡ Network fabric       )Ð is it ATM or an MPP network derivative?                 Basic Questions:         ,	¡ Management of "shared bandwidth" resource     h   B	¡ Light-weight flow-control for shallow, nearly reliable networks        	\                  G.Ü            þòþ˜i   /‚0 /~( /~h SÿþÎÿÿÂ   ÿÿ    G+Pÿ:þàÿˆÿ|   ÿÿ        þÔ f ð  ÿÿ        ÿ  $  
   ÿÿ        ÿú $ *
   ÿÿ       ÿÖÿ" ÿ^    ÿÿ         6ÿÖ `    ÿÿ        1ÿL Z ”   ÿÿ   $ G/ ÿNþæÿwÿ   ÿÿ   $ G, ÿ·þÞÿÒÿ¾   ÿÿ    G- ÿ¸ÿ"ÿˆÿ"     ÿÿ       ÿŠÿ"ÿ³ "   ÿÿ   $ G-pÿ@ ÿŽ º   ÿÿ       ÿ½ ÿØ ü   ÿÿ    G/Hÿ¾ `ÿŽ `     ÿÿ        –þÎ Ô ê   ÿÿ   G-¼   From here to N.O.W.I    m   9(3) Nearly Reliable Switched Network     Shared Resource        !(1) Full unix	Ð disks, VM, . . .         Network Interface Adaptor      d   +(2) Access Bus	Ð cache, mem, graphics, I/O˜       Network Interface Adaptor      d   xThe communication architecture should be compatible with current O/S, a range of busses, and a range of modern networks.     :              G*Ì            þòþ˜i   G2ø G5° G6” ^ÿþÎÿ _   ÿÿ    G-hÿ:þÎ ³2   ÿÿ   G,è   Status: Active Messages on MPPs     m   Summer 91	nCUBE prototype      ˜   Jan 92	CM-5 prototype          June 92	CMAM release via FTP         Sept 92	Installed world-wide        Feb 93	TMC Product                   3Current Languages	Id, Split-C, pSather, PC++, . . .         /Current Libraries	CMMD, Lapack, Multipol, . . .               ,   Developments:f        	nCUBE	(at Syracuse)         5	Paragon	Dedicated msg processor, shared reliable net       " ä (     	Meiko CS-2	Processor in the NI                              G,€   
     	    þòþ˜i   /‚0 /~l /‹t  ÿþÎÿÿ_   ÿÿ    G.Üÿ5þÚÿL    ÿÿ    G.”ÿkÿ¬ÿ‚ 1   ÿÿ    G-¸ÿ¹ xÿÐ õ   ÿÿ    G,p 1ÿÐ Z G   ÿÿ   $ G- ÿãÿ4 ÿ‹   ÿÿ   $ G-pÿ¡ÿ¬ÿÊ    ÿÿ   $ G,Lÿ×     ]   ÿÿ   $ G.pÿ^ÿ^ÿjÿ¦    ÿÿ       ÿ| Bÿ¬ „    ÿÿ       ÿâ œ < Z    ÿÿ        Hÿ¾ ÿ|    ÿÿ       ÿâÿjÿ¸ÿ     ÿÿ       ÿ² ÿÐ 6    ÿÿ          *       ÿÿ            ÿÜ    ÿÿ         ÿÜÿîÿî    ÿÿ        þæ Þ g   ÿÿ   Z G,   Perspective    m   Beware the "Big Message Spiral"        High Overhead¨     ÿ   Big Messages     ÿ   SophisticatedBuffering/     ÿ   ComplexProtocols"     ÿ   HigherOverheadŽ     ÿ   BiggerMessagesâ     ÿ   bAlternative:	 low latency networks, fast network interfaces + 	simple communication primtiives       @ B ä              G-´            þòþ˜i   /‚0 /~( /~è SÿþÎÿ »   ÿÿ    /oÐ   %Programming Models on Active MessagesÊ    m              G-¤            þòþ˜i   /‚0 /~( /Œ¼ Sþûþ¼ÿ ‘   ÿÿ    G-ÐÿËÿvÿâÿç   ÿÿ    G+pÿâÿšÿâÿŽ     ÿÿ       ÿâÿŽ  ÿŽ     ÿÿ         ÿŽ  ÿš     ÿÿ       ÿ: <ÿd r   ÿÿ       ÿ: xÿd „   ÿÿ       ÿj <ÿv r   ÿÿ       ÿš <ÿÄ r   ÿÿ       ÿˆ <ÿ” r   ÿÿ       ÿš xÿÄ „   ÿÿ       ÿ: ºÿd ð   ÿÿ       ÿ: ¨ÿd ´   ÿÿ       ÿj ºÿv ð   ÿÿ       ÿš ºÿÄ ð   ÿÿ       ÿˆ ºÿ” ð   ÿÿ       ÿš ¨ÿÄ ´   ÿÿ       ÿ×  ~!   ÿÿ   ¢ G+¼ÿâ ÿú H     ÿÿ       ÿî   H     ÿÿ         6  Z     ÿÿ         Zÿî N     ÿÿ          º   ®     ÿÿ          ®  ®     ÿÿ         ®  º     ÿÿ        H º H ®     ÿÿ        H ® f ®     ÿÿ        f ® f º     ÿÿ       ÿj xÿv „   ÿÿ       ÿˆ xÿ” „   ÿÿ       ÿˆ ¨ÿ” ´   ÿÿ       ÿj ¨ÿv ´   ÿÿ       ÿþ¼ÿþÇ   ÿÿ    G+dÿBþÄÿyÿ=   ÿÿ   2 G+ðÿFÿvÿpÿ¬   ÿÿ       ÿFÿ¬ÿpÿâ   ÿÿ       ÿpÿvÿšÿ¬   ÿÿ       ÿpÿ¬ÿšÿâ   ÿÿ       ÿ.ÿ¬ÿ¸ÿ¬     ÿÿ       ÿpÿ^ÿp       ÿÿ        0þÈ ã x   ÿÿ   G.ÜÿÖ,ÿô>   ÿÿ         , >   ÿÿ        %& <<   ÿÿ    G-    $Compiling "Global Address" Languages    m   FORALL . . .    ÿ   CSend, Send, . . .Compute localRec, Rec, . . .ComputeBarrier                 Fortran-D,HPF, . .         2¡ Compiler has already allocated the buffer space!     6   @¡ Compiler knows which processor and what address to store into!        $¡ Compiler knows if it is available!     €   -=> Construct simple memory-to-memory transfer         %	(i.e., write or put or bulk version)          *¡ For user decomposition, use read or get!        ?                   G.h         ,   þòþ˜ ZÝkÂ¢ [  € ° \  ÿþÎÿ —   ÿÿ    G+p þÔ Tÿ" A ÿÿ       ÿvþÔÿ¬ÿ" A ÿÿ       ÿ¾þÚ ÿ A ÿÿ       ÿƒþÔÿšÿ%   ÿÿ    G/ ÿÅþ°ÿÜÿ   ÿÿ    G.p 1þÔ Hÿ%   ÿÿ    G, $ÿd Nÿ² A ÿÿ       ÿ‚ÿdÿâÿ¬ A ÿÿ       ÿèÿp ÿ¦ A ÿÿ       ÿ¡ÿdÿ¸ÿµ   ÿÿ    G/ÿïÿp ÿ¿   ÿÿ    G/ 1ÿd Hÿµ   ÿÿ    G/Pÿdþøÿvþø     ÿÿ       ÿ¬þøÿ¾þø     ÿÿ       ÿ^ÿÐ „ÿÐ    ÿÿ        þø þø     ÿÿ        Tþø `þø     ÿÿ       ÿÊÿ
ÿÐÿ|    ÿÿ       ÿîÿpÿôÿ
    ÿÿ        ÿ ÿv    ÿÿ        ÿ ÿv    ÿÿ       ÿpÿˆÿ‚ÿˆ     ÿÿ        Nÿˆ `ÿˆ     ÿÿ        ÿˆ $ÿˆ     ÿÿ       ÿÜÿˆÿèÿˆ     ÿÿ       ÿ³ÿ"ÿÊÿG   ÿÿ    G/ÿ×ÿÿîÿT   ÿÿ    G+| ÿ $ÿJ   ÿÿ    G-$ÿ5þ¼ÿLÿ‡   ÿÿ    G-lÿÊ    f A ÿÿ       ÿˆ ÿ¸ ` A ÿÿ       ÿÝ ÿô i   ÿÿ    G-¼ÿ¾ <ÿÊ <     ÿÿ          < ` A ÿÿ        < < H <     ÿÿ          <  <     ÿÿ       ÿŽ lÿ¬ ~   ÿÿ       ÿè l  ~   ÿÿ          l  Z    ÿÿ       ÿÊ Þ  , A ÿÿ       ÿˆ äÿ¸& A ÿÿ       ÿÝ Þÿô/   ÿÿ    G,Àÿ¾ÿÊ     ÿÿ               ÿÿ       ÿ|ÿˆ     ÿÿ         ä <& A ÿÿ        B N     ÿÿ       ÿ” Àÿ² Ò   ÿÿ       ÿè Æ  Ø   ÿÿ       ÿ” êÿ” Ò    ÿÿ       ÿú Ø  ê    ÿÿ       ÿ5ÿúÿL ì   ÿÿ    G/Lÿ¬ „ÿô Æ    ÿÿ       ÿ² Àÿô ~    ÿÿ        ‹ÿ² ¢ÿæ   ÿÿ    G-  ÂþÔ ëÿ]   ÿÿ   $ G-Ð Á   Ø   ÿÿ    G-ÄÿeþÎÿ|þå   ÿÿ    G,ìÿeÿ ÿ|ÿ¹   ÿÿ    G+h £þ° ºÿ\   ÿÿ    G-pÿ•  ÿ¬ V   ÿÿ    G,¤  ð 0?   ÿÿ    G.¬ÿv <ÿˆ <     ÿÿ       ÿw ÿŽ )   ÿÿ    G-Øÿkÿ‚-   ÿÿ    G-´ ÿú 0 L   ÿÿ    G+”ÿ öÿ¦K   ÿÿ    G, ÿŽ NÿŽ l    ÿÿ          %Send & Receive from Simple Primitives     m   compute      ¼   Send s,Q     ÿ   compute      ¼   compute      ¼   Recv P,t     ÿ   compute      ¼   req         ready      t   data     ÿ   Blocking Send&Receive      ]   compute      ¼   compute      ¼   Non-Blocking Send&Receive      ]   Time         3 Messages3 times Latency     ÿ   Copying and Buffer ManagementQ         P     ’   Q     ÿ   Fundamental Costs:     à   Send s,Q     ÿ   Recv P,t     ÿ   P     ’   Q     ÿ   Recv Q,t     ÿ   Send s,P     ÿ              G-         E   þòþ˜i Œ /‚0 /~l /‡0  ÿþÎÿÿê   ÿÿ    /u„ÿ@ÿ.ÿ|ÿp   ÿÿ       ÿSÿ@ÿjÿ]   ÿÿ    /x¬ÿ@ÿ|ÿ^ÿ¦     ÿÿ       ÿ^ÿ¦ÿ|ÿ|     ÿÿ       ÿ^ÿ¦ÿ^ Z     ÿÿ       ÿ@ `ÿ| ¢   ÿÿ       ÿS rÿj    ÿÿ    /u¤ÿ‰ÿ(ÿ²ÿƒ   ÿÿ   $ /xpÿ‰ Zÿ² µ   ÿÿ   $ /u°ÿ5ÿ ÿL 1   ÿÿ    /xÜÿÜþþ é ö   ÿÿ  
 /x` þø  Ò     ÿÿ       ÿâÿd äÿd     ÿÿ       ÿâÿ¦ äÿ¦     ÿÿ       ÿâ  ä      ÿÿ       ÿâ x ä x     ÿÿ          Message Passing Costs     m   NI       NI       SendOverhead     ÿ   ReceiveOverhead    ÿ   Network Latency         #Machine	Year	Send+Recv	Cycles	FLOPS     L  ¼   @   			overhead	per msg	per msg          H   nCUBE/10	87	400 µs	  4000	   600     t   iPSC/2	88	700 µs	10000	  225         nCUBE/2	90	150 µs	  3000	  330     ú   #    w/ A M.		  25 µs	    500	    555    Q   iPSC/860	91	160 µs	  6400	3200     Q   Delta	91	  55 µs	  2100	1100         CM5	92	  95 µs	  3200	  310     <   $    w/ A.M.		    3 µs	    100	    10        î              G*„            à      h EJäÿÿÿÿÿÿþÎÿ •   ÿÿ    G.¬ H ` À    ÿÿ        HÿX Àÿˆ   ÿÿ       ÿ ÿ^ÿÄÿ‚   ÿÿ       ÿXþæÿÄÿ‚   ÿÿ       ÿX `ÿÄ ü   ÿÿ       ÿÊþæÿô ü  ÿÿ       ÿÖÿ²ÿè 
   ÿÿ       ÿÖ ÿè <
   ÿÿ       ÿ×ÿ¾ÿî 7   ÿÿ    G/ÿpÿ@ÿ ÿj    ÿÿ       ÿ  xÿˆ ¢    ÿÿ       ÿš Zÿ” N     ÿÿ       ÿ  Zÿ  N     ÿÿ       ÿ¦ Zÿ¬ N     ÿÿ       ÿÝþøÿôÿE   ÿÿ    G/ÿ^ÿÿ”ÿF   ÿÿ       ÿ^ ºÿ” ê 
  ÿÿ       ÿ‚ ¢ÿ¸ Ò   ÿÿ       ÿ/þ¼ÿF %   ÿÿ    G.h Hþæ ÀÿX   ÿÿ        H ` À ü   ÿÿ        Æþæ ð ü  ÿÿ        Òÿ² ä 
   ÿÿ        Ò  ä <
   ÿÿ        Óÿ¾ ê 7   ÿÿ    G,  ~ÿL Òÿ¸    ÿÿ        Ì < ¢ r    ÿÿ        Z ~ T r     ÿÿ        ` ~ ` r     ÿÿ        f ~ l r     ÿÿ        Ùþø ðÿE   ÿÿ    G/0 þÂ 6 Y   ÿÿ    G.ˆÿ  `ÿÄ „   ÿÿ       ÿ§ÿdÿ¾ÿ   ÿÿ    G,Ìÿ§ fÿ¾ ƒ   ÿÿ    G, xÿ@ –ÿX
   ÿÿ        ~ÿF œÿ^
   ÿÿ        „ÿL ¢ÿd
   ÿÿ        ÿX ®ÿp
   ÿÿ        …ÿŽ ®ÿÕ   ÿÿ   $ G.¨ ~ x œ 
   ÿÿ        „ ~ ¢ –
   ÿÿ        Š „ ¨ œ
   ÿÿ        –  ´ ¨
   ÿÿ       ÿœÿ‚ÿÅ    ÿÿ   $ G.ÜÿqÿXÿˆÿ¡   ÿÿ    G-ÿw <ÿŽ …   ÿÿ    G-T IÿŽ rÿß   ÿÿ   $ G,À I  r c   ÿÿ   $ G+¼ÿ³ÿÊY   ÿÿ    G,¤ NÿF lÿ^
   ÿÿ        T „ r œ
   ÿÿ          "A Communication "machine language"    m   Data         PC    L   Network         +CM5: register Ð to Ð register communication/        Data         PC    L   Network         +nCUBE/2: memory Ð to Ð memory communication/        NI        NI        
SystemDMA     X   User-levelMemory Mapped         (1.6 µs)         (1.7 µs)         (21 inst10+1 µs)      H   (34 inst10+3 µs)      H   
(+5µs int)     G              G.x         5   þòþ˜i î /‚0 /~( /~( <ÿþÎÿÿ›   ÿÿ    G/ÿš ~ÿ¾ Æ
  ÿÿ       ÿ  rÿÄ º
  ÿÿ       ÿ:þàÿÐÿ|   ÿÿ       ÿ: ZÿÐ ö   ÿÿ       ÿF fÿŽ ê   ÿÿ       ÿT mÿ} ç   ÿÿ  $ G, ÿ¦ fÿÊ ®
  ÿÿ       ÿ­ fÿÄ °   ÿÿ    G/0ÿ@þìÿˆÿp   ÿÿ       ÿNþóÿwÿm   ÿÿ  $ G,ÌÿÖþà   ö  ÿÿ       ÿâÿ¬ÿô 
   ÿÿ       ÿâ ÿô 6
   ÿÿ       ÿãÿ¸ÿú 1   ÿÿ    G/ÿŽÿpÿâÿ²    ÿÿ       ÿÜ 6ÿ¬ `    ÿÿ        $þÈ é2   ÿÿ   G*ˆÿ¦ Tÿ  H     ÿÿ       ÿ¬ Tÿ¬ H     ÿÿ       ÿ² Tÿ¸ H     ÿÿ       ÿéþò  ÿ?   ÿÿ    G/   Active Messages    m  PrimaryComputation        Handler      X  PrimaryComputation        Data         PC    L   IKey Idea: associate a small user-level handler directly with each message  (    ¬       /   7  â            6¡ Sender injects the message directly into the network        +¡ Handler executes immediately upon arrival$        b	Ð pulls the message out of the network and integrates it into the ongoing computation, or replies         Q¡ No buffering (beyond transport), no parsing, no allocation	primitive scheduling          Network                    G/4            þòþ˜i   /‚0 /~( /„ä UÿþÎÿ µ   ÿÿ    G,¸ÿ@ÿ.ÿ|ÿp   ÿÿ       ÿSÿ@ÿjÿ]   ÿÿ    G.ˆÿ@ÿ|ÿ^ÿ¦     ÿÿ       ÿ^ÿ¦ÿ|ÿ|     ÿÿ       ÿ^ÿ¦ÿ^ Z     ÿÿ       ÿ@ `ÿ| ¢   ÿÿ       ÿS rÿj    ÿÿ    G.Üÿ‰ÿ(ÿ²ÿƒ   ÿÿ   $ G/Pÿ‰ Zÿ² µ   ÿÿ   $ G/0ÿ5ÿ ÿL 1   ÿÿ    G-TÿÜþþ Î ö   ÿÿ  	 G/  þø  Ò     ÿÿ       ÿâÿd äÿd     ÿÿ       ÿâÿ¦ äÿ¦     ÿÿ       ÿâ  ä      ÿÿ       ÿâ x ä x     ÿÿ          %Conventional Message Passing Overhead    m   NI       NI       SendOverhead     ÿ   ReceiveOverhead    ÿ   Network Latency         #Machine	Year	Send+Recv	Cycles	FLOPS     L  ¼   @   			overhead	per msg	per msg          H   nCUBE/10	87	400 µs	  4000	   600     t   iPSC/2	88	700 µs	10000	  225         nCUBE/2	90	150 µs	  3000	  330     ú   iPSC/860	91	160 µs	  6400	3200     Q   Delta	91	  55 µs	  2100	1100         CM5	92	  95 µs	  3200	  310     <                         G+„   "     !    à SharedMemory     ÿþÎÿÿ$   ÿÿ    G+ìÿ: *ÿÀ>   ÿÿ   G/ÿÐþÔÿèÿú   ÿÿ       ÿÑþàÿèÿá   ÿÿ    G/ÿîþÔ 6ÿú   ÿÿ       ÿú * JJ   ÿÿ   G,ÿÜ    *     ÿÿ       ÿûþò ÿ9   ÿÿ    G.pÿûÿš ÿË   ÿÿ    G+pÿšþÒÿÇÿ"   ÿÿ  $ G-Tÿšÿ&ÿÇÿv   ÿÿ  $ G/0ÿšÿzÿÇÿÅ   ÿÿ  $ G/PÿšÿÈÿÇÿý   ÿÿ  $ G.ÜÿÖ  ÿd $     ÿÿ        †þò ÷ §   ÿÿ   l G.ˆ   Goals:    m   Simple primitives  to support     F   Ð   efficient implementation of          parallel languages and c         communication librariesU     à   	Ð pay for what you need     à   Communication Architecture    ¢   Efficient Mapping  to Machines    <   L   that we know how to build on        a large scale.     M   nCUBE          CM5     ÿ  SharedMemory      ‚  MsgPassingÿ     ÿ  DataParallel      A  	DataFlow     ÿ   Assumption: communication within a parallel program	Ð two logically related entities 	   executing at the same time      on the same task !        Ç    ?   #           G/,   %     $    þòþ˜i < /‚0 /„Ü /… õÿmþÿÿ½ ì   ÿÿ  K G,ÌÿâÿF ƒ Æ   ÿÿ   G/   :Active Messages:Simple, Fast, and Flexible Communication    m  David E. Culler    ;  Computer Science Division       U.C. Berkeley            E  Arpa PI       9/29/93    ü   &           G.d   (     '    e default format        ÿþÎÿÿ   ÿÿ    /wX ûU   ÿÿ    /w`ÿþ°ÿJ     ÿÿ        ùþªþ÷   ÿÿ    /wÜ   Title     m   © D.E.Culler 93t   
    
ARPA PI ##    þÃÿLÿÒ µ                 )                +     *    is n   -     ,   le.  ÿÿÿÿ                                 "³                   
a ? $
e c H
a ‡ l
a « 
o                            
a ? $
e c H
a ‡ l
a « 
o   k ª ‹                 
a ? $
e c H
a ‡ l
a « 
o    "                     
a ? $
e c H
a ‡ l
a « 
o   Ö                       
a ? $
e c H
a ‡ l
a « 
o                                      ÄªUªUªUªU   ¸ á¤               
   1
    Þæ 
€€ÿÿ    Þþ 
    Ð@                d d d      Xÿÿÿÿÿÿ Y       ZÝkÂ¢ [  € ° \    Ô  ]A«Têÿ ^ò×V„ì _ü ó}/      d d d      Xÿÿÿÿÿÿ Y       ZÝkÂ¢ [  € ° \    Ô  ]A«Têÿ ^ò×V„ì _ü ó}/      d d d  	    Xÿÿÿÿÿÿ Y       ZÝkÂ¢ [  € ° \    Ô  ]A«Têÿ ^ò×V„ì _ü ó}/    3    4    5         $      e     r    þ”þím               /{¨ /„                       ,   (     :     9   t an    H H    (ÚÿâÿáFùE(ü    H H    (Ú    d       '                     @                          ÿÿÿJÿÿþã@   , Œ>       G58   . G2ø G4€þòþ˜iþ”þím   ; G,`             Q l p U      G-4 G,t   /   0   7   6   2   8    Ù'Ð  @   <        ­Þí                                                  