調査ステータス
このページは、殴り書き.txtに含まれるリンクと議論を、どこまで裏取りできたかを管理するためのページです。
元メモから抽出した主要リンク
| 対象 | URL | 現時点の扱い |
|---|---|---|
| 木更津高専チームの参加記 | https://zenn.dev/chizuchizu/articles/7e77fe8d44244b | 経験談。2025年AI課題の実験方針、困りごと、運用知の参考にする |
| 2026年大会公式ページ | https://www.hpcadvisorycouncil.com/events/2026/APAC-AI-HPC/ | 確定。スケジュール、表彰、主催情報の一次情報 |
| 2025年日本チーム入賞プレスリリース | https://www.tuat.ac.jp/documents/tuat/outline/disclosure/pressrelease/2025/20251209_01.pdf | 確定。日本チーム受賞、理研R-CCS支援の一次情報 |
| 2025年大会結果公式PDF | https://www.hpcadvisorycouncil.com/pdf/8th-apac-hpc-ai-competition.pdf | 確定。2025年の課題と結果の一次情報 |
| OpenFOAM HPC Committee repo | https://develop.openfoam.com/committees/hpc | 確定。OpenFOAMベンチマーク候補の一次情報。ただし2026年大会で使うケースは未確定 |
| Dynamo benchmarks | https://github.com/ai-dynamo/dynamo/tree/main/benchmarks | 要確認。ベンチマーク候補・参考実装。大会ルールそのものではない |
| Dynamo Qwen3 recipe | https://github.com/ai-dynamo/dynamo/tree/main/recipes/qwen3-235b-a22b-fp8 | 要確認。TensorRT-LLM向けrecipeであり、SGLang課題との関係は大会側確認が必要 |
| 既存mdBook公開先 | https://namacha411.github.io/hpcai-meeting-minutes/ | チーム内成果物。公式情報ではない |
確定情報と未確定情報
確定
- 2026年大会はHPC-AI Advisory Council、NSCC Singapore、NCI Australia、Firmus Technologiesなどが関係するAPAC HPC-AI Competitionである。
- 2026年大会の主要日程は公式ページで公開されている。
- 2025年大会は、HPC側でNWChem、AI側でDeepSeek-R1 671B + SGLangが課題だった。
- 2025年大会では、理研R-CCSが支援した日本チームが複数入賞した。
- Qwen3-235B-A22Bは、Qwen公式モデルカード上で総235B、活性化22BのMoEモデルとして説明されている。
要確認
- 2026年HPC課題の正確なOpenFOAMケース、メッシュサイズ、評価コマンド、許可される変更範囲。
- 2026年AI課題がSGLang固定なのか、Dynamo/TensorRT-LLM recipeをどの範囲で参照するのか。
- Qwen3.5など、メモ上の提案が大会設計に反映されるかどうか。
- ランダム重みで測るのか、実モデル重みで測るのか。
- 評価指標が総スループットだけなのか、TTFT、TPOT、p95 latency、request success rateなども含むのか。
- 2026年大会の実機。チームは
富岳(A64FX)を前提に最適化を調査しているが、運営メモでは「4ノード・100+コアのCPUクラスタ」とされ、2025年は玄界が使われたとの情報もある。実機は未確定。 -Ofast系の許容範囲。演算順序変更・近似・精度劣化を伴うため、大会でどこまで許可されるか。昨年は精度低下・収束条件変更が禁止だった。- system-level tuning(CPU周波数スケーリング、NUMAトポロジ最適化、ファイルシステム/ストレージアクセス)が今年も許可されるか。昨年ルールには記載あり。
- scratch領域の利用可否。重みや中間ファイルをscratchに置けるか。
玄界では不可だった可能性あり。 - 利用可能なプロファイリングツール(
mpiP/Score-P/Scalasca/nsys等)が実機で使えるか。
調査で見えた論点
- OpenFOAMはMPIによる領域分割、I/O形式、decomposeParDict、ソルバ設定が性能に影響する。
- LLM推論はprefillとdecodeで計算特性が違う。PD disaggregationはこの差を利用する設計。
- 高い総スループットだけを追うと、1リクエストあたりの体感速度が悪化する場合がある。評価指標の定義確認が重要。
- 大会ではルール違反になり得る最適化がある。量子化、モデル品質を落とす変更、実験的機能の扱いは必ずルールで確認する。