Reprints from my posting to SAN-Tech Mailing List and ...

2011/06/11

[san-tech][02463] 講演資料:HPC Resilience 系 2件 (Resilience 2010, 2010/05/17 & FTXS 2010, 2010/06/28)

Date: Thu, 15 Jul 2010 17:26:59 +0900
--------------------------------------------------
HPC系ですが、Resilienceについてのワークショップ 2件の講演資料です:

3rd Workshop on Resiliency in High Performance Computing (Resilience)
in Clusters, Clouds, and Grids, May 17, 2010
  http://xcr.cenit.latech.edu/resilience2010/

1st Workshop on Fault-Tolerance for HPC at Extreme Scale (FTXS 2010)
 June 28th, 2010
  http://institute.lanl.gov/resilience/workshops/ftxs2010/

どちらも同じページから講演資料のダウンロードが可能です。
2018年の ExaFlopsに備えて、これから用語の定義等をしていくのでしょう
(一部内容が重なったりもしています)


概論は、例えば Resilience 2010の
Welcome/Introduction
 Christian Engelmann, Workshop Program Chair
  http://xcr.cenit.latech.edu/resilience2010/docs/introduction.pdf
Discussion:
"Towards Resilience Standardization"
 Chokchai (Box) Leangsuksun, Workshop Co-Chair
  http://xcr.cenit.latech.edu/resilience2010/docs/resilience_standardization.pdf

FTXS 2010
"Introduction / Welcome / Level-Setting"
 Nathan DeBardeleben, Resilience Thrust Leader
 DoD / Center for Exceptional Computing
  http://institute.lanl.gov/resilience/workshops/ftxs2010/FTXS_Keynote.pdf
※スライドのバックは綺麗

"Using Cloud Constructs and Predictive Analysis to Enable Pre-Failure
 Process Migration in HPC Systems", Resilience 2010
  http://xcr.cenit.latech.edu/resilience2010/docs/pre-failure_process_migration_in_HPC_systems.ppt

は、[san-tech][02199] OVIS: A Tool for Intelligent, Scalable, Real-Time Monitoring of Large Computational Clusters
  http://ovis.ca.sandia.gov
SLURM: A Highly Scalable Resource Manager
  https://computing.llnl.gov/linux/slurm/
を組み合わせたプロトタイプを検討しています。

HPC Resilience Consortium Wiki!
  http://resilience.latech.edu/mediawiki/index.php/Main_Page
※関連情報をここに集めるようにしています

0 件のコメント:

コメントを投稿