HNに聞く: ローカルでのRAGの実施方法は？

2026年1月14日

概要

RAG（Retrieval-Augmented Generation）のローカル実装方法の概要
依存関係を最小限に抑えるための一般的なアプローチ
ベクターデータベースやセマンティックサーチの利用状況
Knowledge GraphやHypergraphの活用事例
内部コードや複雑なドキュメントへの適用例

RAGをローカルで最小依存で実現する方法

RAG のローカル実装では、 軽量なツール やライブラリの利用が主流
ベクターデータベース （例：FAISS、Annoy）は 高性能かつ依存関係が少ない ため人気
セマンティックサーチには、 sentence-transformers や OpenAI embeddings などの 軽量モデル を活用
Knowledge Graph や Hypergraph は、 大規模な構造化データ や 複雑な関係性 が必要な場合に限定的に利用
内部コードや複雑なドキュメント は、 テキスト分割・埋め込み生成・インデックス化 の3段階で処理

具体的な構成例

FAISS ：C++ベースでPythonバインディングがあり、 高速な類似検索 が可能
Annoy ：シンプルで インストールが容易、Pythonのみで完結
Chroma や Milvus などの他のベクターストアは、 やや重め だが選択肢
sentence-transformers ： 事前学習済みモデル で日本語も対応、 小規模環境向け
Elasticsearch ： BM25やベクトル検索 両対応だが、 依存関係がやや多い

Knowledge Graph・Hypergraphの活用状況

Knowledge Graph は エンティティや関係性 を明示的に管理したい場合に利用
Hypergraph は 複雑な多対多関係 を表現したい特殊用途に限定
一般的なRAG用途では、 ベクトル検索やセマンティックサーチが主流
GraphDB や Neo4j のようなツールは、 依存関係が増えるため限定的

内部コード・複雑ドキュメント対応の工夫

コードやドキュメントを関数・クラス単位で分割 し、 埋め込み生成
検索時に類似度スコアで候補を絞り込み、 RAGモデルに渡す
依存関係を減らすため、Dockerや仮想環境を活用 するケースも多い
YAMLやJSON形式でメタデータを管理 し、検索精度を補助

まとめ

最小依存構成 では、 FAISSやAnnoy＋sentence-transformers の組み合わせが主流
Knowledge Graph や Hypergraph は 必要性に応じて限定的に利用
内部コードや複雑ドキュメント でも、 テキスト分割と埋め込み検索 で十分対応可能

Hackerたちの意見

コードにはベクターデータベースを使わない方がいいよ。埋め込みは遅いし、コードには向いてない。コードにはbm25+トライグラムがいい結果を出して、検索応答もサクサクだしね。

└

スタティック埋め込みモデルは結構速いの見つけたよ。lee101/gobedはGPUで1msだし :) でもコード用にトレーニングする必要があるかな。大きなコードのLLM埋め込みも高品質だし、要はパレートフロンティアの理想的な場所がどこかってことだね。確かに、コードの場合はbm25やrgが多いけど、検索の質が本当に重要なら、もう少し複雑な解決策も可能だよ。

└

AIがドキュメントへのアクセスをもっと必要としてるから、ドキュメント検索にRAGを使うのはどう思う？

└

同意だね。ここで誰かがgrepにハイブリッドテキスト/ベクター検索の機能を追加するドロップインを投稿してたけど、ファイルを再インデックスする必要が常にあって、面倒だった。さらに、モデルがコード検索用でない場合、ベクター検索はノイズが多くなるし、リランカーを使わないと余計にね。実際のところ、gpt-oss 20Bをループで回してripgrepにアクセスするのはかなりうまくいくよ。gpt-ossは他のツールと比べて神ツールだし、速い。

└

ファイルパスとシグネチャに適用したら、素晴らしい結果が出たよ。BM25と結果を融合させるとさらに良くなる。

└

BM25 + ベクター検索を半ダースのマイクロサービスを立ち上げずにやってくれる良いサービスやDocker知ってる？

└

Postgresでハイブリッド検索ができるよ。宣伝しちゃうけど: https://github.com/jankovicsandras/plpgsql_bm25 PL/pgSQLで実装されたBM25検索（Unlicense / パブリックドメイン）。リポジトリには、ハイブリッド検索用のPL/pgSQL関数（plpgsql_bm25 + pgvector）と逆順位融合のためのplpgsql_bm25rrf.sqlも含まれてるし、Jupyterノートブックの例もあるよ。

ベクター生成には、2024年4月にMeta-LLama-3-8Bを使い始めたよ。PythonとTransformersでテキストチャンクごとにRTX-A6000でね。あれは速かったけどノイズが多くて、500Wも消費した。だから1年前にM1 Ultraに切り替えて、TransformersをAppleのMLX Pythonライブラリに置き換えた。速度はほぼ同じだけど、熱とノイズは少なくなった。Llamaモデルは4k次元だから、fp16だとチャンクごとに8キロバイトで、これをnumpy.save()でSQLiteのBLOBカラムに保存してる。RTXとM1の間でベクター出力にほとんど差はないけど、検索結果を変えたり、ベクターを再生成したり、別のLLMに変えたりするほどの差はないよ。検索のためにSQLiteデータベースからすべてのベクターをnumpy.arrayに読み込んでFAISSに渡してる。Faiss-gpuはRTX6000で驚くほど速かったし、faiss-cpuはM1 Ultraで少し遅いけど、目的には十分な速さだよ（1分ごとじゃなくて、1日数回クエリを投げるだけだから）。500万チャンクでメモリ使用量は約40GBで、A6000にもM1 Ultraの128GBにも余裕で収まる。うまくいってるし、満足してるよ。

幸いなことに、私の複雑なドキュメントのほとんどはMarkdownファイルです。https://github.com/tobi/qmd/ をおすすめします。これはこういったファイルを検索するためのシンプルなCLIツールです。以前はfzfを使っていましたが、このツールの方が結果が良くて、さらにファジー検索もできるんです。ただし、コードには使っていません。

└

その前提を考えると、そのリンクがgolangで書き直されたgrepツールか、もしくはMarkdown用にカスタマイズされて「# ヘッディングタイトル」のマッチを重視するようなものであることを期待していました。

私たちは1日あたり約30万件の顧客対応をしているので、遅延と精度が本当に重要です。私たちはナレッジベースの上にRAGベースの内部ポータルを構築しました（基本的にはより良いFAQです）。リトリーバルの部分では、サービスのトレーサビリティと発見のために特別にカスタム検索/インデックス層（Node）を作りました。これはハイブリッドアプローチを使っていて、埋め込み + フルテキスト検索 + IVF-HNSWを組み合わせて、私たちのAPI、サービス、プロキシ、オーケストレーションリポをインデックス化し、相互参照しています。この層の上にRAGパイプラインがあり、合理的なリコールと予測可能な遅延を実現しています。ただ、コンプライアンスと可観測性はまだ問題です。毎年新しいベンダーが監査やデータの系譜、可観測性を約束して現れますが、600以上の分散システムの情報の散乱を本当に扱えるところはありません。エントロピーは増え続けています。最近は、ナレッジグラフの上によりセマンティック/論理的なKAGアプローチを試して、これらのシステムに散らばったビジネスルールをマッピングしています。目標は、実際に物事がどのように機能しているかについての高次の質問に答えることです — Palantirのような結果ですが、魔法ではなく明示的な論理を使っています。他の人たちが「純粋なRAG」を超えて、グラフベースやハイブリッド推論のセットアップに移行しているか気になります。

これについては書いたことがあります（その投稿はHNにもありました）が、主に組織としてのインフラ上でRAGを運用する視点からです。でも、クラウドサービスの一般的なコンポーネントや代替手段についても触れています。あなたが具体的に必要としていることにどれだけ役立つかは分かりませんが、こちらです: https://blog.yakkomajuri.com/blog/local-rag

Hacker Newsで議論の続きを見る

ハクソク