概要
Epicureは、マルチリンガルなレシピコーパスを用いて再学習された、三つの兄弟的skip-gram食材埋め込みモデル群。 4.14百万件のレシピを11ソース・7言語から収集し、1,790の正規化食材エントリを作成。 二種類のグラフ構造(NPMI食材共起グラフとFlavorDB化合物グラフ)を活用。 三つのMetapath2Vecバリアント(Cooc、Chem、Core)を設計。 それぞれのモデルはレシピ文脈と化学情報のバランスが異なる特徴。
Epicure: 多言語レシピコーパスを用いた食材埋め込みモデル
- Epicure は、三つの異なる skip-gramベース食材埋め込みモデル ファミリー
- Cooc、Chem、Coreの三兄弟モデル構成
- 4,140,000件のレシピを 英語、中国語、ロシア語、ベトナム語、スペイン語、トルコ語、インドネシア語、ドイツ語、インド英語 の七言語から収集
- 食材文字列を1,790種類の正規化エントリ にLLM補助パイプラインで変換
- NPMI共起グラフ(203,508エッジ) と FlavorDB化合物グラフ(80,019エッジ・2,247ノード・15カテゴリ) を構築
- Metapath2Vec を用い、三種のランダムウォークスキーマでモデルを分岐
- Cooc :食材共起グラフのみでランダムウォーク
- Chem :FlavorDB化合物メタパスのみでランダムウォーク
- Core :両者を混合し、制御された比率で食材-食材ウォークを注入
- 各モデルは、 レシピ文脈(共起)と化学的関連性 のバランスが異なる特性
Epicureモデルの意義
- 多言語・大規模レシピデータ を活用した食材知識の体系化
- 食材の意味的・化学的関係性 を同時に考慮可能な埋め込み表現
- レシピ推薦、食材置換、フードペアリング など多様な応用可能性
- Metapath2Vec のランダムウォークスキーマ選択で 応用ニーズに応じた調整 が可能
- 人工知能、自然言語処理、社会コンピューティング 分野での新たな知見創出
技術的特徴
- 大規模データ正規化 :LLMによる食材名統一手法
- グラフ構造活用 :NPMI共起・FlavorDB化合物グラフの多層的利用
- メタパスランダムウォーク :文脈・化学情報の動的バランシング
- ハイパーパラメータ統一 :モデル間比較のための条件統一
- 再現性・汎用性の高いアーキテクチャ 設計