概要
- AI時代 の到来により、 データシステム は第三世代へ突入
- 従来の レガシープラットフォーム ではAIワークロードに対応不可
- Spiral は機械消費を前提とした新インフラを構築
- Vortex フォーマットで圧倒的なスループットとセキュリティを実現
- 未来は マシンスケール、今こそ進化の時
データシステムの三世代
-
第一世代 :人間規模の入力・出力、Postgresなどのアプリケーションデータベースが主流
-
第二世代 :ビッグデータ時代、機械規模の入力、データレイクとデータウェアハウスの分岐とLakehouseへの収束
-
第三世代 :AI時代、機械規模の出力が求められ、従来システムでは対応困難
- 第一世代 :人がプロフィールを作成・閲覧・更新するなど、明確なアクションを前提
- 第二世代 :Webスケールでの自動データ収集やイベント記録、大規模な分析に特化
- 第三世代 :AIが大量かつ高速に全データを消費、従来のダッシュボードや集計では不十分
機械が求めるもの
- NVIDIA H100 などのGPUは、1秒間に400万枚の100KiB画像を消費可能な帯域幅
- AIワークロード ではペタバイト級データの高速スキャン・ランダムアクセス・検索が必須
- Parquetやオブジェクトストレージは1KB~25MBのデータで非効率、S3遅延でネットワークオーバーヘッドが膨大
- ベクトル埋め込み・小画像・大規模ドキュメント など、現行システムが苦手なデータ形式
現状インフラの限界とその症状
- 価格性能問題 :AIエンジニアがParquet→Arrow→テンソル変換→キャッシュ→学習という非効率な手順を強いられる
- セキュリティ問題 :データベース資格情報やS3バケット権限の乱用、監査ログの形骸化
- 根本原因 :第二世代ツールの寄せ集めで第三世代の課題に対応しようとする構造的ミスマッチ
既存アプローチの限界
- Lakehouse :データレイクとウェアハウスの継ぎ接ぎ、統一的なストレージ・権限・APIの不統一
- WebDataset :AI向けに即応性はあるが、表現力・パフォーマンス・ガバナンス不足
- OpenAI・Anthropic などは既存データウェアハウスを使わず独自インフラを構築
SpiralとVortexのアプローチ
- Vortex :最先端のカラムナファイルフォーマット、Linux Foundationに寄贈
- Parquet比で10~20倍速のスキャン、5~10倍速の書き込み、100~200倍速のランダムリードを実現
- S3からGPUへの直接デコード対応、CPUボトルネックを排除
- Spiral :Vortex上に構築されたデータベース、オブジェクトストアネイティブ・統合ガバナンス・マシンスケールスループット・単一API
- Fearless permissioning :高速性とセキュリティを両立する権限管理を基盤に内蔵
- 1KB~25MBの「不気味の谷」問題を解消、データサイズごとに最適格納・アクセス
- 資金調達 :Amplify Partners・General Catalystから2200万ドル
Spiralがもたらす価値
- GPUの帯域を最大限活用、データロードの手順を1クエリに短縮
- セキュリティ悪夢の解消 :時限・粒度の細かい権限管理と監査
- AIエンジニア の生産性向上、インフラ作業からAI開発へ集中可能
マシンスケールの未来
- 現行システム非対応 の超高速・多様なデータアクセスを実現
- AIリーダーとラガードの格差拡大、AI対応データインフラの構築が将来の優位性に直結
- コンピュータビジョン・ロボティクス・マルチモーダルAI 分野の設計パートナーと協業
- データインフラに10%以上の時間を費やしているなら相談推奨
結論:進化か、取り残されるか
- 懐疑論 が否定に変わるほど、AI時代の変革は既に進行中
- インフラの進化は必須、 Spiral はその最前線
- 未来は待ってくれない、進化を主導するか、取り残されるかの選択
- 連絡先:hello at spiraldb dot com
- まだスプレッドシート管理の方は今は対象外
- Taylor Swift、 Postgres、著者は同世代
- テーブルは流行の波のように再興
- Rust 由来の「fearless」用語も採用