ソフトデリートの課題

2026年1月21日原文(atlas9.dev)

概要

ソフトデリート 設計の複雑さと落とし穴についての考察
archived_atカラム 方式の問題点と運用上のリスク
アーカイブ方法の代替案 （アプリイベント、トリガー、WALベースCDCなど）の紹介
各方式のトレードオフ と運用負担についての比較
新規プロジェクトへの推奨策 としてトリガー方式を提案

ソフトデリート設計の課題

多くのソフトウェアプロジェクトで ソフトデリート （deletedフラグやarchived_atカラム）を実装
顧客が誤ってデータを削除しても 復元が容易 になり、カスタマーサポートの負担軽減
監査やコンプライアンス 目的でアーカイブデータの保持が必要な場合も多い
archived_atカラム方式は クエリや運用、アプリケーションコード に複雑さが波及
実際の復元は稀で 大半のアーカイブデータは読まれない ため、テーブルに大量の「死んだデータ」が蓄積
- アクセスパターンによっては データ量が膨大 になりうる
APIやTerraformとの連携不備で 不要なレコード再作成が繰り返され、死んだ行が増大
ストレージコストは安価 だが、アーカイブデータの扱いを放置しやすい
バックアップ復元時 に死んだデータが障害となり、復元や再構築に時間がかかるリスク

archived_atカラム方式の運用上の問題

クエリや運用作業の複雑化
- 常にアーカイブ済みデータを除外する必要
- インデックス設計の工夫が必要
- 手動クエリや分析時のクエリが冗長化
- アーカイブデータの誤混入リスク
関連テーブルやマッピングテーブル が絡むと複雑さが増大
マイグレーション時 に古いアーカイブデータへの対応が難しい
復元処理 がAPIの通常作成処理と乖離しやすく、不具合の温床
- 標準API経由での復元に統一することで運用の簡素化が可能

代替案1：アプリケーションレベルのアーカイブ

レコード削除時に アプリケーション層でイベント発行 （例：SQSへ送信、S3へアーカイブ）
主DBとアプリケーションコードが単純化
非同期処理で外部リソースのクリーンアップも容易
JSON形式でデータを柔軟に保存可能
トレードオフ：
- アプリケーションコードのバグ でアーカイブ漏れが発生しやすい
- インフラ構成が複雑化 （複数サービス・メッセージキューが必要）
- S3上のアーカイブ検索が困難 でカスタマーサポート用の追加ツールが必要

代替案2：トリガーによるアーカイブ

削除前にトリガーでアーカイブテーブルへコピー
アーカイブテーブルは 汎用JSONカラム で設計可能
サンプルテーブル・トリガー関数例
- archiveテーブル：id, table_name, record_id, data, archived_at, caused_by_table, caused_by_id
- トリガーで 削除元テーブル名やID、削除理由を記録
外部キーのカスケード削除対応
- セッション変数で 親子関係の削除理由 を伝播
トレードオフ：
- 削除時のパフォーマンス低下 （トリガーの分だけオーバーヘッド）
- アーカイブテーブルの肥大化
- しかし、 本番テーブルはシンプルなまま運用可能
- アーカイブの削除やパーティション分割も容易
- クエリやインデックスの効率維持
- マイグレーションやバックアップも容易

代替案3：WALベースのChange Data Capture（CDC）

PostgreSQLの WAL（Write-Ahead Log） を利用して変更履歴を外部システムへ転送
代表的なツール： Debezium （Kafka連携）、pgstream、wal2json、pg_recvlogical
DELETEイベントのみ抽出し、外部ストレージへ保存
トレードオフ：
- 運用負担が大きい （KafkaやDebeziumの監視・保守が必要）
- WAL蓄積によるディスク圧迫リスク
  - max_slot_wal_keep_sizeで制御可能
  - レプリケーションスロットの監視・アラートが必須
- スキーマ変更時の調整が難しい
メリット：
- アプリケーションやDBスキーマを変更せずに運用可能
- 複数の出力先（S3, Elasticsearch等）に同時転送が可能
- 本番DBのクエリ負荷が増えない

代替案4：削除を適用しないレプリカ

削除クエリを適用しないPostgreSQLレプリカ のアイデア
過去データのクエリが容易
削除情報の追跡・分離やスキーマ移行時の整合性に課題
運用コストやストレージコスト も無視できない

結論と推奨策

新規プロジェクトで ソフトデリート が必要なら、 トリガー方式 が最適解
- 本番テーブルのクリーンさ
- 運用・クエリ・マイグレーションの容易さ
- 追加インフラ不要
より複雑な要件や既存のKafka基盤がある場合は WALベースCDC も検討
ご意見・ご質問はatlas9@eabuc.comまで

Hackerたちの意見

どこでもソフトデリートが導入されてる会社で働いたことがあるけど、関係ない内部システムでもそうだったな…文化的なものかもしれない！大学の教授に拡張プロジェクトでソフトデリートを実装してないって怒られたのを今でも覚えてる。彼の言葉では、「ビジネスの世界ではデータは絶対に削除されない！！」ってさ。

└

でも教授は修正については何も言わなかったの？

└

でも…本当にそうなんだ。データを完全に削除するのは、将来の分析を台無しにする簡単な方法だよ。ストレージは安いし、データは絶対に削除しない方がいい。

僕が働いてる業界（銀行）から来てる意見かもしれないけど、逆の考え方を持ってるよ。ソフトデリートの利点はね：* スキーマから明らか：deleted_atカラムがあれば、テーブルを正しくクエリできる（行がDELETEされてないと思ったり、別のテーブルを探す必要がない）。* 一つのやり方：分析クエリや管理ページは同じデータセットを見れるから、歴史的データのために別々の処理をする必要がない。* DELETEは多くのユースケースではあまり発生しないだろうし。* ソフトデリートされた行がパフォーマンスに大きな影響を与えるとは思わない。直感的に言っても、クエリはO log(N)であるべきだからね。* 元に戻すのがすごく簡単で、すべての関係がそのまま残るから、データが他の場所に移動しているわけじゃない（実際には、こういう元に戻す必要はあまり感じてないけど）。ほとんどの場合、さらに進んで行を完全に不変にして、新しい行を使って更新を処理するのが好きだ。これで歴史的データを参照するのがすごく楽になる。もしこの記事で説明されているログアプローチをやっていたら、INSERT/UPDATE/DELETEされた行のコピーを別のテーブルに保持するデータベーストリガーを使うかな。そうすれば、すべて同じデータベースに残るから、クエリも簡単だし、他の場所に複製するのも楽だ。

└

DELETEは多くのユースケースではあまり発生しないだろうその前提を考えると、他のポイントも納得できるよ。50%-70%がソフトデリートされているテーブルを見たことがあるけど、それはパフォーマンスに明らかに影響してた。 > 元に戻すのがすごく簡単それは元に戻すことが実際に起こるかどうか、削除と復元の行為が監査記録を必要とするかどうかによるね。要するに、ソフトデリートがうまく機能するケースもあれば、そうでないケースもある。導入する前に分析が必要だね。

└

これを試す機会はなかったけど、ポストグレスでソフトデリートされたアイテムを別のドライブに保存するためにテーブルパーティションを使うことを探求したいと思ってた。できるはずだし、パフォーマンス向上にもつながるかもしれない。そうすれば、削除されたアイテムがパフォーマンスにあまり影響を与えることはないだろう。

└

不変のDBセマンティクスを実装してるなら、Datomicや他の代替案を考えてみるのもいいかも。そうすれば、すべてに対してそれが無料で得られるし、さらに素晴らしい機能としてタイムトラベルもついてくる。これで、DBの完全で一貫した状態をいつでも見ることができるんだ！

└

キャリアの全てを通じてデータベースに関わってきたけど、トリガーが大嫌いなんだ。問題は、誰もトリガーをきれいに保つ権限を持っていないこと。結局、トリガーはあらゆる種類の遅いコードのゴミ捨て場になっちゃう。だから、データベースをFirebaseみたいに扱うのはやめて、レコードやフィールドを適当に扱うのはやめてほしい。データベースはビジネスプロセスのストレージとして扱うべきなんだ。ビジネスプロセスはすべてのリクエストの保持を要求するから、レコードをソフトデリートするリクエストも保持する必要があるし、レコードを復元するリクエストも必要だよ。データベースにゴミが多すぎるなら、このレコードはこの日までにアーカイブされるっていうフィールドを作る必要がある。その日になったら、そのレコードを別のテーブルやファイルに移動させて、管理者だけがアクセスできるようにするんだ。もちろん、そのアーカイブの記録も残しておく必要があるよ。リクエストログにゴミが多すぎる？それなら、そのためのアーカイブプロセスも作らなきゃね。これらの原則は新しいものじゃないよ。アメリカの「一般に認められた記録保持の原則」に沿ったものだし、他の国にも似たような基準があるんだ。

└

DELETEは多くのユースケースではあまり多くないと思うけど、ユーザーにもう必要ないものを削除してもらうのが一つの問題だと思う。

└

銀行におけるソフトデリートは、監査可能性というもっと大きな問題へのバンドエイドに過ぎない。ソフトデリートで元の記録を保持できるけど、修正をしないと監査可能性は失われる。正しい方法は、イベントソーシングを使うことだよ。変更はすべてイベントとして記録されるべきで、削除もその一部（イベントとオブジェクトの両方）としてね。パフォーマンスの観点からはさらに問題があるけど、同期やスナップショットはそのためにあるんだ。あるいは、メインテーブルを別のイベントテーブルでバックアップして、定期的に「再構築」を行う方法もあるよ。

└

前の職場（保険会社）のコアシステムは、君が最後に説明した解決策に沿って動いていたよ。各テーブルは、あるオブジェクトに関する時点情報の追加専用ログなんだ。だから、現在の状態は最も高いタイムスタンプの行にあり、過去の状態は適切なフィルターで観察できる。これは本当に強力なアプローチだね。

データベースは事実を保存するもの。レコードを作成すること＝新しい事実。「レコードを削除する」こと＝新しい事実。でも、テーブルから行を消すこと＝消えた事実。それはほとんどの場合、良くないよ。稀にレコードの量が技術的なハードルになることもあるけど、その場合は事実を別のデータベースに移動すればいい。大量の事実を消したいと思ったことは、ほとんどゼロだね。

Hacker Newsで議論の続きを見る

ハクソク