ハクソク

世界を動かす技術を、日本語で。

CS336: ゼロからの言語モデル構築

2026年6月1日原文(cs336.stanford.edu)

概要

本コースは 言語モデル の開発プロセス全体を学ぶことを目的
Python や 深層学習、 システム最適化 の知識が前提
実装中心で、 課題のコード量が多い ため十分な時間確保が必要
GPU計算資源 利用方法や提出ルールも詳細に案内
課題提出・遅延・再評価 などの運用ルールも明確化

コース概要と言語モデルの重要性

言語モデル は現代のNLPアプリケーションの基盤
単一の汎用システムで様々な下流タスクに対応可能
AI・ML・NLP 分野の発展に伴い、深い理解が科学者・技術者に不可欠
このコースでは 言語モデルの開発プロセス を一から体験
オペレーティングシステム開発型の教育手法を参考に、 データ収集・前処理、モデル構築、学習、評価、デプロイ前検証 までを網羅

受講前提条件

Python の高い習熟度
- 課題の大半がPythonで出題
- 他のAI科目より コード量が桁違い に多い
- ソフトウェアエンジニアリング能力 も必須
深層学習・システム最適化経験
- PyTorch の利用経験必須
- メモリ階層 などシステム基礎知識が必要
大学レベルの数学
- 線形代数（行列・ベクトル演算）
- 微積分
確率・統計の基礎
- 確率分布、平均、標準偏差 など
機械学習の基礎
- ML/DLの基本概念 理解
5単位 の重めの実装型コースであるため、時間配分に注意

課題構成

Assignment 1: 基礎
- トークナイザー、モデルアーキテクチャ、オプティマイザー実装
- ミニマルなTransformer言語モデルの学習
Assignment 2: システム
- モデル・層のプロファイリング・ベンチマーク
- FlashAttention2 のTriton実装によるAttention最適化
- メモリ効率を考慮した分散学習コード構築
Assignment 3: スケーリング
- Transformer各コンポーネントの機能理解
- トレーニングAPIを用いたスケーリング則の推定
Assignment 4: データ
- Common Crawl の生データを前処理・フィルタリング・重複除去
Assignment 5: アラインメント・推論・RL
- 教師あり微調整・強化学習 による推論能力向上
- 任意課題： 安全性アラインメント 手法の実装（DPO等）

GPU計算資源と自習

自宅学習者向けに クラウドGPU 利用案内
- Modal（スポンサー）： $6.25/時、月$30無料枠
- Lambda Labs： $6.69/時
- RunPod： $4.99/時
- Nebius： $5.50/時（プリエンプティブル$3.05/時）
- Together： $7.49/時、8GPU以上
CPUで実装検証→GPUで本番実行 推奨
課題ごとの推奨GPU数あり

オナーコード（倫理規定）

スタディグループ は可、だが 課題は各自提出
グループで作業した場合は メンバー名を明記
AIツール利用規定
- ChatGPT等のLLMは 低レベル質問や概念理解 には可
- 直接的な解答生成は禁止
- AI補完機能（GitHub Copilot等） は無効化推奨
既存コードの参照は禁止 （指定がある場合を除く）
提出はGradescopeのみ、メール提出不可
締切まで何度でも再提出可 （最終版のみ採点）
遅延提出は6日分まで、1課題最大3日
再評価申請は成績公開後3日以内にGradescope上で申請

スケジュール（抜粋）

3/30 ：概要・トークナイゼーション、Assignment 1配布
4/1 ：PyTorch・リソース計算
4/6 ：アーキテクチャ・ハイパーパラメータ
4/8 ：Attention代替手法・Mixture of Experts
4/13 ：GPU・TPU
4/15 ：カーネル・Triton、Assignment 1提出・Assignment 2配布
4/20, 4/22 ：並列処理
4/27, 5/4 ：スケーリング則
5/6 ：評価、Assignment 3提出・Assignment 4配布
5/11, 5/13 ：データ（ソース、フィルタリング等）
5/18, 5/20 ：中間・後期学習（SFT/RLHF、RLVR）、Assignment 4提出・Assignment 5配布
5/25 ：Memorial Day（休講）
5/27, 6/1, 6/3 ：アラインメント・ゲスト講義、Assignment 5提出

スポンサー

Modal による計算資源提供

このコースは 実践的な言語モデル開発力 を徹底的に鍛える内容となっており、 現場で通用するスキル獲得 を目指す受講者に最適です。

Hackerたちの意見

もう一度これをリリースしてくれてありがとう！今年の変更点は何なの？

└

TAだよ。最大の変更点は、第二課題（分散）でメモリやプロファイリング、分散タスクをたくさん追加したことと、第五課題（アライメント）で今年はほとんどのRLタスクが新しいものになったことだね。課題3（スケーリング法則）も完全に更新されたけど、かなりのリソースがないと実行が難しいかもしれない。外部の学生が無料でシミュレーション実験を行える方法を考えてるよ！課題1（基礎）は最も準備に時間をかけたもので、今年はちょっとしたモダナイゼーションやバグ修正が必要だっただけだよ。

リチャード・ソッカーが教えてたcs224dの思い出があるなぁ。今はちょっと古いけど、トランスフォーマー以前の時代に作られたもので、当時はNLPにディープラーニングを応用する素晴らしい入門だったよ。 [1] https://cs224d.stanford.edu

└

同じようなことを考えてた。インターネットの可能性に気づいた瞬間だった。トップの研究大学の大学院生じゃなくても、最前線について学べるんだって。

自習用のGPU計算彼らがB200のために提案しているのは、1時間あたり$4.99から始まるんだ。これって、本当に必要なのかな？自分でゼロからLLMを作ってるけど、初期段階ではVast.aiの4090で十分なんだよね。

└

自分のLLMをトレーニングするのにGPUすら必要ないよ。

└

これらは対象の受講者（スタンフォードの学部生や修士課程）にとって十分手頃だと思うよ。

└

教育機関が必要なリソースを提供しないのは変だよね？

└

TAだよ。全然違うよ！実際、最初の課題にはローカルコンピュータ（MシリーズGPU）でも対応できるようにセクションを追加したんだ。課題2では、GPUにTritonサポートが必要な地域がいくつかあるけど、もっと安いGPUでも適応できるよ。今年はスタンフォードの学生向けにBlackwell GPUを手に入れられたから、書き方もそれに合わせてるんだ。

└

疑念を持つのは正しいよ。4060Ti（16GB）でTinyStoriesデータセットのSLMをかなり良い感じにトレーニングできたから、問題はなかったよ。「議論の余地がある小さい」モデルより大きいモデルにアイデアをスケールアップしようとしなければ、問題にはならないと思う。

└

FPGAと似たような感じだと思うな。 - 実際の使用ケースに必要なハードウェアは比較的小さいんだ。なぜなら、製品用の{モデルやビットストリーム}はサイズ最適化が進んでいて、ターゲットの使用ケースで良い結果を得るために必要ないものは全部削ぎ落とされてるから。 - でも、{計算カーネルやIPブロック}を設計するために試行錯誤したり学んだりする時に必要なハードウェアは、もっとパワフルで高容量じゃないとダメだよ。なぜなら、実験は意図的に最適化とは逆の方向に進むから。可読性や内省性、デバッグ可能性を重視して作られるから、結果的に{モデルやビットストリーム}が膨れ上がって最適化が崩れちゃうんだよね。（ここで言いたいのは、「他の誰かが完成させたモデルを使って、自分のプロンプトで試す」ってのは、安上がりな実験の一種なんだ。これは「誰かが作ったFPGAビットストリームを、自分の$20のFPGAにデプロイして、自分の入力信号を与える」ことと同じように安い。でも、これはこのコースで自分のモデルを設計するためにやる実験とは違うよ！）

みんなは自分で学ぶのが好きなのか、オープンな学びのコミュニティを作ることに興味があるのか、ちょっと気になるな。

Hacker Newsで議論の続きを見る