Io_uring、kTLS、Rustを用いたゼロシステムコールHTTPSサーバー

2025年8月22日原文(blog.habets.se)

概要

ウェブサーバの高容量化の歴史と技術進化の流れを解説
epollやio_uringなどLinuxにおけるスケーラブルI/O手法の紹介
kTLSやdescriptorless filesなど最新最適化技術の概要
Rust製ウェブサーバ「tarweb」での実践例と課題
io_uring利用時の安全性やメモリ管理の難しさに言及

世紀転換期の高容量ウェブサーバ需要とC10k問題

世紀転換期に 高容量ウェブサーバ の需要急増
C10k問題論文の登場による 同時1万接続 の課題提起
当時の主流は プリフォーク方式 によるプロセス生成コスト削減
1リクエストごとにプロセス生成が一般的だった時代背景
スレッド化、poll()/select()の導入による 軽量化とコンテキストスイッチ削減

select()/poll()の限界とepollの登場

select()/poll()は 大量接続に非スケーラブル
- 毎ループで 巨大な配列 をカーネルに渡す必要
Linuxの epoll （他OSではkqueue）の登場で効率化
epollは 差分管理 でsyscallコスト削減
メインループ例：epollで新規/読込/書込を効率管理
ただしsyscall自体のコストが相対的に目立つ段階へ

io_uringによる非同期I/O最適化

syscallごとにカーネルへ命令する従来方式からの脱却
io_uring は命令をキューに書き込み、カーネルが非同期に処理
例：accept()をキューへ投入、完了時にキューから結果取得
ほぼ全てのI/O操作を メモリ操作だけで完結 可能
忙しいサーバならsyscall不要（straceでも何も表示されない）

マルチコア時代の設計とNUMA最適化

現代CPUは 多コア化、理想は1コア1スレッド運用
各スレッドをコアにバインド、 共有リードライト構造体を回避
NUMA構成では ローカルノードのメモリ のみ利用推奨
リクエスト負荷の完全分散は今後の課題

メモリ割当とリスク管理

ユーザ空間・カーネル空間の両方で メモリ割当 発生
コネクションごとの固定チャンク割当で フラグメント防止
カーネル側もバッファ管理が必要、socket optionで調整可能
RAM不足回避 が安定運用の必須要件

kTLSによるカーネルTLS最適化

kTLS はTLS暗号化/復号をカーネルにオフロード
ハンドシェイク後は sendfile() が使え、ユーザ空間とのコピー削減
NICのハードウェア対応時は CPU負荷の大幅削減 も可能

descriptorless filesとregister_files

ファイルディスクリプタの ユーザ・カーネル間受け渡しコスト 削減
register_filesによる descriptorless files 導入
ユーザ空間で見える番号は整数値で、/proc/pid/fdには現れない
io_uring専用で、ulimitのfd制限は適用

Rust製ウェブサーバ「tarweb」の実践

tarweb ：単一tarファイルを配信するRust製ウェブサーバ
io_uring、 kTLS、Rustの組み合わせで最新技術を実装
kTLS有効化にはsetsockopt()が必要、io_uring側のPRで対応
TLSライブラリ（rustls）がハンドシェイク時にメモリ割当実施の可能性
1リクエストごとにsyscallゼロでHTTPS応答可能

ベンチマークと今後の課題

現時点で ベンチマーク未実施
コード整備後に測定予定

io_uring利用時の安全性とメモリ管理

io_uring はバッファの寿命管理が難しい
操作完了までバッファを 解放・上書き不可
Rustのio-uring crateは 安全性保証が弱い
Rust本来の「コンパイル通過＝安全」には未到達
pinningやborrowを活用した safer-ring crate の必要性

Hackerたちの意見

これめっちゃクールだね！似たようなことをずっと考えてたから、誰かがついにやってくれて嬉しい。GG！BPFの部分もRustでAyaを使って書くのをおすすめするよ。[1] - https://github.com/aya-rs/aya

straceの代わりに何を使えばいいの？何が起こってるか見たいんだけど。

└

eBPFベースのツールを使う必要があると思うよ。

└

perfを使ってスタックトレースを見たり（待機やロックのオフCPUイベントも）、ebpfもね。

いい記事だったし、素晴らしい仕事だね。パフォーマンステストが楽しみ！君の書いた内容は、11歳の時にデータベースやバックエンドを設定しようとして、オンラインでたくさんのcgi-binを見つけた時の知識とつながったよ。今思うと、それらはリクエストごとに新しいプロセスを立ち上げてたんだね。https://en.wikipedia.org/wiki/Common_Gateway_Interface 大きなゲームフォーラムで、数十TBのデモダウンロード用にsendfileが使えるようになった時のことを覚えてる。それだけでも同時接続数が大きく改善された。こういうエンジニアリングはもうやらないって思ってたけど、これやNetflixの40ms追加、GTA 5の70%のロード時間短縮を考えると、もっと影響力のある仕事ができるかもしれないね。https://netflixtechblog.com/life-of-a-netflix-partner-engine... https://nee.lv/2021/02/28/How-I-cut-GTA-Online-loading-times...

└

CGIだけじゃなくて、HTTPセッションはCERNやApacheの系譜でサーバー全体のフォークコピーが一般的だったんだよね！Apacheは徐々に良い答えを出してきたけど、共通のアドオンとのAPIがちょっと移行を難しくしてたから、nginxみたいなウェブサーバーが登場したんだ。これは記事にあるアーキテクチャに近い形で、最初からイベント駆動のI/Oで作られてるからね。

これのベンチマークを見てみたいな；4日前に試して、標準のepoll実装を作ったけど、uringを使ったnginxには勝てなかった。これは傲慢な夜には簡単なタスクじゃないから、君が素晴らしい数字を出せることを願ってるよ；俺のは悲しい結果だったけど、君の実装の大部分はやってないから、単に「バッチ」呼び出しを試しただけなんだ。頑張ってね、楽しんで！

素晴らしい読み物だった。次はDPDKスタイルのフルカーネルバイパスを見てみたいな。

└

これ知ってるか分からないけど、LUNAはもうこれをやってるよ。 https://www.usenix.org/system/files/atc23-zhu-lingjun.pdf

例えば、書き込み操作を提出する時、そのバイトのメモリ位置は解放されたり上書きされたりしてはいけない。 > io-uringクレートはこれにあまり役立たない。APIは借用チェッカーがコンパイル時に君を守ることを許可していないし、ランタイムチェックもしていないように見える。こういうコメントは前にも見たことがあって、io_uringの周りに安全な非同期Rustライブラリを構築するのは実際かなり難しい印象を受けてる。ちょっと残念だね。確か、tokioチームのアリスも最近はこれらの難しさを乗り越えようとする興味があまりないって言ってたと思う。現状のパフォーマンスが「十分良い」からね。[1] https://boats.gitlab.io/blog/post/io-uring/

└

io_uringの周りに安全なインターフェースを構築する正しい方法は、リング所有のバッファを使って、バッファが必要な時にリングにリクエストし、書き込みを開始する時にそのバッファをリングに返すことだと思う。

└

俺の考えでは、Rustの借用チェッカーがあまりサポートしてない所有権モデルがあるんだ。名前が思いつかないから「ホットポテト所有権」って呼んでるけど、基本的なアイデアは、バッファを所有権として渡して、渡した相手が（最終的には）返してくれることを期待するってこと。これは非レキシカルな借用の問題みたいなもので、純粋に安全なRustで自分で実装しようとしたときに、「バッファを返す」ってのが本当に書きづらいってすぐに気づいたんだ。

Hacker Newsで議論の続きを見る

ハクソク