Reprints from my posting to SAN-Tech Mailing List and ...

2011/06/11

[san-tech][02097] Re:US HEC/HPC Resilienceレポート

Date: Tue, 16 Feb 2010 16:12:03 +0900
--------------------------------------------------
[san-tech][02096] US HEC/HPC Resilienceレポート 

Resilienceといえば Open MPIにも
Open Resilient Cluster Manager (ORCM) プロジェクト
  http://www.open-mpi.org/projects/orcm/
が立ち上がっています。

MPI関係では、オハイオ州立大学 Panda教授の率いる
Network Based Computing Lab, The Ohio State University.
  http://nowlab.cse.ohio-state.edu/

Fault Tolerance Backplane (FTB)
  http://nowlab.cse.ohio-state.edu/projects/ftb-ib/index.html
プロジェクトがあります。



他にも
Resilience Summit 2009, October 14, 2009.
  http://www.csm.ornl.gov/srt/conferences/ResilienceSummit/2009/index.html
"Increasing Fault Resiliency in a Message-Passing Environment"
 Rolf Riesen, Sandia National Laboratories
"Transparent Process-level Fault Tolerance for MPI: Challenges and Solutions"
 Frank Mueller, North Carolina State University
"Designing Fault Resilient and Fault Tolerant Systems with InfiniBand"
 D.K. Panda, The Ohio State University

2009 National HPC Workshop on Resilience, 8/12 -14/2009
  http://institute.lanl.gov/resilience/conferences/2009/
"Fault Tolerance and MPI - Can They Coexist?"
 Rich Graham (Oak Ridge National Laboratory)

等あります。
他にも各種学会でたくさん発表されているはずです。

よくみたら
MPI 3.0 Standardization Effort
  http://meetings.mpi-forum.org/MPI_3.0_main_page.php
Fault Tolerance
  http://meetings.mpi-forum.org/mpi3.0_ft.php
がありますね。

0 件のコメント:

コメントを投稿