Embedding modelの「内在的な双曲性」を利用したRAG精度の向上と階層矛盾検知の可能性

スパイスコード CTO の櫻木です (X: https://x.com/ysrhspyoshi). スパイスコードは,「ロカルメ・オーダー」

order.localmet.com

という AI Agent を内包した ERP サービスを開発・提供しているスタートアップです.

前回の記事ではAI Agentの設計における認知科学・神経科学的基盤について紹介しました.

前回の記事:

今回はテーマを変えて, 双曲空間embeddingがRAG(Retrieval-Augmented Generation)の検索品質を改善するかという問いに対する再現実験の結果を報告します.

概要:

  • embeddingモデルの出力が内在的に双曲的であることをGromov δ-hyperbolicityで独立に検証
  • M3 Max上での限られた条件下ながら, Lorentz空間がユークリッド空間をnDCG@10で+1〜6%上回ることを確認
  • 双曲空間が意味の階層深度をradial depthに符号化することを可視化・WordNet実データで確認
  • この性質を利用したナレッジ階層の矛盾検知への応用可能性を議論

目次

  1. はじめに
  2. Gromov δ-hyperbolicityによる事前検証
  3. 再現実験: Learned Projectionによる比較
  4. 結果
  5. Lorentz Embeddingの階層構造の可視化
  6. 考察
  7. 今後の展望: embeddingによるナレッジ階層の矛盾検知
  8. 終わりに

1. はじめに

出発点は認知神経科学の知見です. 前回の記事で触れた海馬の話とも接続しますが, より広く神経科学の分野では, 生物の内部表現が双曲幾何学で良く説明されるという報告が複数出ています. Zhou, Smith & Sharpee (2018) は匂い刺激の知覚空間を統計的手法で解析し, 嗅覚空間が双曲的な構造を持つことを示しました("Hyperbolic geometry of the olfactory space", Science Advances). また同グループのSharpeeらは, 海馬の空間表現が経験とともに拡張する双曲幾何学を持つことも報告しています("Hippocampal spatial representations exhibit a hyperbolic geometry that expands with experience", Nature Neuroscience 2022).

https://www.science.org/doi/10.1126/sciadv.aaq1458 www.nature.com

これらの知見は, 階層的な情報の符号化に双曲空間が適している可能性を示唆しています. もし言語モデルベースのembeddingにも同様の双曲的構造があるなら, RAG検索の改善だけでなく, ナレッジの階層構造における矛盾をembeddingだけで検知できるのではないか——というのが本記事のもう一つの問いです. 弊社では中河の記事で紹介している通り, 圏論ベースの知識表現フレームワークを用いたエージェントメモリシステムを構築しており, その矛盾検出への応用を視野に入れています.

tech-blog.localmet.com

この「言語モデルベースのembeddingは双曲的か」という問いを直接検証した論文が HypRAG(Madhu et al., 2026, arXiv:2602.07739, ICML) です. HypRAGは言語モデルベースのembeddingそのものに着目しています. MS MARCOの文書embeddingに対してOllivier-Ricci曲率を計算し, Linq Embed Mistral・LLaMA Nemotron 8B・Qwen3 Embedding 4Bなど複数のembeddingモデルの出力が内在的に負の曲率分布を持つことが実証されています. これは「embeddingモデルは事前学習を通じて意味の階層構造を双曲的に内部化している」という主張の根拠とされています.

arxiv.org

なぜ双曲空間は階層データと相性が良いのか

ポアンカレ球やLorentzモデルに代表される双曲空間が階層データと親和性が高いとされる理由は, 以下のように説明されています.

  • ユークリッド空間の体積は半径  r に対して多項式成長 [tex: O(rn)]
  • 双曲空間の体積は指数成長 [tex: O(er)]

この性質は, 分岐が指数的に増加するツリー構造と自然に対応します. ポアンカレ球では原点付近が抽象的・一般的な概念, 境界付近が具体的・末端の概念に対応し, ノルムが階層深度を自然に符号化します.

HypRAGはこの性質を利用した2つのモデルを提案しています.

モデル 概要
HyTE-FH 完全双曲トランスフォーマー(全層をend-to-endで双曲空間上で学習)
HyTE-H 事前学習済みユークリッドモデルを双曲空間に射影するハイブリッド

RAGBench上でHyTE-HはEuclideanベースラインに対して最大29%のContext Relevance / Answer Relevance改善が報告されています. 本記事では後者のHyTE-Hを対象に再現実験を行いました.


2. Gromov δ-hyperbolicityによる事前検証

実験の最初のステップとして, 手元のembeddingデータが双曲的な潜在構造を持つかを定量的に確認しました.

指標はGromov δ-hyperbolicityで, 任意の4点  x, y, z, w に対して以下で定義されます.

 \delta = \max_{\text{4点の組}} \frac{(d(x,z)+d(y,w)) - \max(d(x,y)+d(z,w),\ d(x,w)+d(y,z))}{2}

直径  D で正規化した  \delta/D が0に近いほど完全な木(ツリー)構造に近く, 双曲空間との親和性が高いことを意味します. MS MARCOの文書corpus(57,383件)に対して5つのembeddingモデルで計測した結果は以下の通りでした.

モデル δ/D 判定
e5-large-v2 0.075 双曲構造あり
bge-large-en-v1.5 0.088 双曲構造あり
bge-base-en-v1.5 0.088 双曲構造あり
all-MiniLM-L6-v2 0.089 双曲構造あり
nomic-embed-text-v1.5 0.103 双曲構造あり

全モデルで  \delta/D \lt 0.15 を満たし, HypRAGの主張を独立に確認できました. モデルの規模や学習データによらない普遍的な性質である可能性があります.


3. 再現実験: Learned Projectionによる比較

HypRAGの主張を検証するため, learned projectionありの条件で双曲空間とユークリッド空間を比較する実験を実施しました.

なお, HypRAGは完全双曲トランスフォーマーであるHyTE-FHも提案していますが, Transformerの全層を双曲空間上でend-to-endで学習するにはそれなりのGPUが必要です. すぐ使える計算資源が手元のM3 Maxしかないので, 今回はencoderをfrozenにしてProjection層だけを学習するHyTE-Hを選択しています. 学習ペア数(500K)やepoch数(2)が少ないのもこのためです.

3.1 実験設計

encoder projection pooling 学習
Euc ModernBERT-base(frozen) Linear(D→D) mean pooling MS MARCO cosine InfoNCE
Hyp(HyTE-H) ModernBERT-base(frozen) Linear(D→D-1) OEM nomic contrastors + MS MARCO Lorentz InfoNCE

両モデルともencoder(ModernBERT-base, 149M params)はfrozenで, 学習されるのはprojection層のみ(約100万パラメータ)です. MS MARCO training triplesから同一シード(seed=42)で抽出した500Kペアを使用し, LR・batch size・epochs・scheduler等のハイパーパラメータを統一しました.

HyTE-Hにはnomic contrastors(約200万ペア)によるStage 2事前学習を実施しており, Euclidean側にはこれに相当するウォームアップがありません. Stage 2の主な役割はユークリッド空間から双曲空間への射影を学習することであり, ユークリッド側には対応する操作がないため今回は非対称のままとしました. ただし, Euclidean側の性能がStage 2の欠如によって過小評価されている可能性は排除できません. Euclidean側にもnomic contrastorsで同等のウォームアップを与えた場合にどうなるかは興味深い問いで, 試してみた方がいればぜひ結果を教えてください.

3.2 HyTE-Hのアーキテクチャ

Lorentz射影: encoder出力  h \in \mathbb{R}^{D} に対して, projection  W \in \mathbb{R}^{(D-1) \times D} とnorm_scaler  s を適用し, Lorentz多様体上のベクトルを構成します.

 v = s \cdot Wh, \quad x_{0} = \sqrt{1 + \lVert v \rVert^{2}}, \quad \mathbf{x} = (x_{0}, v) \in \mathbb{L}^{D-1}

Outward Einstein Midpoint (OEM): token-levelのLorentzベクトル  \lbrace \mathbf{x}_{i} \rbrace をdocument-levelに集約します. Lorentz因子  \gamma_{i} = x_{0,i} を重みに使うことでorigin collapseを回避します.

 \bar{v} = \frac{\sum_{i} \gamma_{i} \cdot v_{i}}{\sum_{i} \gamma_{i}}, \quad \bar{x}_{0} = \sqrt{1 + \lVert \bar{v} \rVert^{2}}

Lorentz InfoNCE: クエリ  q と文書  d のMinkowski内積から測地距離を計算し, contrastive lossとします.

 \langle q, d \rangle_{\mathcal{L}} = -q_{0} d_{0} + \sum_{i=1}^{D-1} q_{i} d_{i}

 d_{\mathcal{L}}(q, d) = \text{arccosh}(-\langle q, d \rangle_{\mathcal{L}}), \quad \mathcal{L} = -\log \frac{\exp(-d_{\mathcal{L}}(q, d^{+})/\tau)}{\sum_{j} \exp(-d_{\mathcal{L}}(q, d_{j})/\tau)}

ユークリッド側はcosine類似度によるInfoNCEで学習しました.

3.3 実験環境

項目 内容
マシン Apple M3 Max, 128GB Unified Memory
フレームワーク PyTorch (MPS backend)
ベースエンコーダ answerdotai/ModernBERT-base (149M params, 768dim)
Stage 2 データ nomic contrastors (~200万ペア)
Stage 3 データ MS MARCO training triples (500Kペア)
batch size 64
lr 5e-5
epochs 2

4. 結果

BEIR 4データセットでの評価結果(nDCG@10)を示します. αはユークリッドスコアと双曲スコアのアンサンブル重みで, α=0.0がユークリッドのみ, α=1.0が双曲のみに対応します.

dataset δ/D Euc (α=0.0) Hyp (α=1.0) gain best α
scifact 0.1261 0.2917 0.3552 +6.35% 1.0
nfcorpus 0.1149 0.1138 0.1248 +1.10% 1.0
fiqa 0.0881 0.1068 0.1265 +1.97% 1.0
hotpotqa 0.1060 0.3389 0.4038 +6.49% 1.0

全データセットでα=1.0(双曲のみ)が最良となり, ユークリッド表現を一貫して上回りました. 学習データ数が控えめな条件でも, 空間の選択だけで+1〜6%の改善が出ています.

※ 繰り返しになりますが, 本実験はM3 Max上で500Kペア・2epochという限られた条件での結果です.

注目すべきは, アンサンブルではなく双曲表現単体が最良であった点です. ユークリッド表現は双曲表現に対して補完的な情報を持っていないことが示唆されます.

δ/Dと改善幅の関係

δ/Dが最低のfiqa(0.0881)の改善幅は+1.97%ですが, δ/Dが最高のscifact(0.1261)で+6.35%が出ており, 単純な「δ低い→効果大」という相関は成立しませんでした. データのドメイン特性(生物医学・金融・Wikipedia multi-hop)が改善幅に影響している可能性があり, この点は今後の課題として残ります.


5. Lorentz Embeddingの階層構造の可視化

5.1 合成階層ドキュメント

HypRAG論文のAppendix Cに従い, Science → Mathematics → Algebra → Linear Algebra → Linear Transformationsという5レベルの合成階層ドキュメント(各レベル5件, 計25件)を用いて, 学習済みモデルのLorentzベクトルを2次元に射影しました.

可視化手法:

  • 半径: Lorentz時間成分x0をminmax正規化(d(o,x) = arccosh(x0) によりx0は原点からの双曲距離に単調対応)
  • 方向: 空間成分(767次元)をUMAP(n_neighbors=8, min_dist=0.1)で2次元に圧縮し単位ベクトル化

可視化からは以下が確認できました.

  • L2〜L5が右上に集約され, 点線(レベル平均を結ぶ)がほぼ直線の弧を描く
  • L1 Scienceが左下に離れて配置される

L1 Scienceの分離は, Scienceという上位概念が数学の階層軸とは異なる意味空間に存在することをモデルが正しく表現した結果と解釈しています. ドキュメント数を50〜100件規模に増やせば, L1〜L5全体を含めた可視化でも階層構造がより明確に現れると予想されます.

5.2 Radial Depth分析

モデル L1 (x0) L5 (x0) L1→L5 増加率 単調増加
Baseline (ModernBERT raw) 1.000 1.000 +0.0% ---
HyTE-H Stage 2 19.056 21.861 +14.7% ---
HyTE-H Stage 3 30.318 35.027 +15.5% ---
論文 HyTE-FH +20.2% Yes

L1→L5の増加率が+15.5%となり, 論文のHyTE-FH(+20.2%)には及ばないものの, Projection層とnorm_scalerのみの学習でこの結果は十分と判断しています.

5.3 WordNet階層での実データ検証

合成ドキュメントだけでなく, 実際のWordNet階層でも検証しました. 各ノードに対してsynset定義文とhyponym定義文を連結したドキュメントを入力し, x0の推移を計測した結果です. 双曲空間で階層が正しく表現されていれば, 一般的な概念(entity)から具体的な概念(golden_retriever)に向かってx0が単調に増加するはずです. ここで「逆転」とは, 子ノードのx0が親ノードより小さくなってしまうケースを指します.

bio パス例(entity → golden_retriever):
  entity.n.01          x0=28.47  ← 最小(最も一般的)
  living_thing.n.01    x0=30.64
  animal.n.01          x0=31.20
  mammal.n.01          x0=32.76
  dog.n.01             x0=30.64  ← 逆転あり
  golden_retriever.n.01 x0=35.60 ← 最大(最も具体的)
パス 端点間増加率(L1→Ln) 単調増加
bio: entity → golden_retriever +25.0% 隣接で逆転あり
artifact: entity → sports_car +14.3% 隣接で逆転あり
abstraction: entity → programming_language +4.0% 隣接で逆転あり

端点(最上位 ↔ 最下位)については全パスで正しい方向性が確認できました. 逆転は隣接レベル間(mammal→dog, artifact→vehicleなど)で発生しており, 意味的距離が小さいペアに集中していますが, ドキュメントレベルの入力に対して大域的な階層構造を捉えていることがわかります.


6. 考察

双曲空間のinductive biasは検索タスクで機能する

同じエンコーダ・同じ学習データ・同じパラメータ数の条件下で, 空間の選択だけで一貫してnDCG@10の+1〜6%改善が得られました. Lorentz空間でのcontrastive学習が意味の抽象度階層(一般概念→具体概念)をradial depth方向に符号化し, 具体的なクエリに対して階層的に適切な文書が優先されるためと考えています.

現時点での制約

一方で, retrieval特化のSOTAモデルとの差はまだ大きく, 空間の違いだけでは埋まりません. またOEMとlearned projectionのどちらが改善に寄与しているかの切り分けは未実施であり, 双曲幾何学そのものの寄与の所在を完全に特定するには至っていません.

再現性について

本実験はHypRAGのリポジトリに依拠せず, 論文記載のアーキテクチャを独自に実装しています. 学習済みモデルが非公開である中で, 同等の設計から独立に同傾向の結果が得られたことは, 「双曲空間がretrieval品質を改善する」というHypRAGの主張を支持するものと判断しています.


7. 今後の展望: embeddingによるナレッジ階層の矛盾検知

7.1 ドキュメントレベルでは読めるが, 単語ラベルでは読めない

前章で確認した通り, ドキュメントレベルの入力に対しては大域的な階層構造が読めます. しかし, "mathematics" "linear algebra" のような単語ラベル単体を入力した場合, x0は学習コーパス上での文脈頻度・多義性を反映してしまい, is-a方向と逆転するケースが頻出しました.

ペア x0(具体側) x0(一般側) 結果
linear algebra / mathematics 31.5 34.2 逆転
Python / programming language 31.4 34.0 逆転
transformer / neural network 30.3 32.8 逆転
merge sort / sorting algorithm 31.4 36.1 逆転
RAG / information retrieval 24.0 29.4 逆転

7.2 なぜ単語ラベルで階層が崩れるか

原因は複数考えられます.

入力粒度の問題. Stage 2学習データ(nomic contrastors, 約200万ペア)は全てドキュメントレベルの(query, passage)ペアです. 単語ラベル単体で階層関係を学習する機会がそもそもありません.

lossの対称性. 現在のcontrastive lossが対称であること. InfoNCEはanchorとpositiveの距離を縮めるだけで, どちらがより一般的か(x0が小さいべきか)は問いません. x0が階層方向を反映しているのはlossが直接最適化した結果ではなく, 学習データの統計的な副産物です. Poincare Embeddings(Nickel & Kiela, 2017)が示したように, 階層構造を明示的に学ぶには非対称なloss——例えばOrder Embedding的なアプローチ——が本来は必要です.

その他の可能性. encoderがfrozenであること自体がtoken-levelの階層表現力を制限している可能性や, norm_scalerが単一スカラーであることによる表現力の不足なども考えられます.

7.3 embeddingだけで矛盾を検知する

こうした課題はありつつも, 「ドキュメントレベルで階層が読める」という性質は実用的に興味深い含意を持っています. embeddingだけで既存ナレッジの階層性に関する矛盾を検知できる可能性です.

ナレッジグラフやオントロジーにおいてis-a関係が定義されているとき, 各ノードに対応するドキュメントをHyTE-Hでエンコードしてx0を計算するだけで, 階層方向の矛盾を自動的に検出できます. この種の矛盾検知はルールベースの推論や人手のレビュー, LLMによる推論に頼っていましたが, 双曲embeddingのradial depthを利用すれば, 低コストで大規模なナレッジベースに対して高速にスクリーニングが可能になります.

はじめにで触れた弊社のエージェントメモリシステムでは, 「射の合成が結合律を満たすか」による矛盾検出が将来課題として挙げられていますが, 双曲embeddingのradial depthはこの矛盾検出を幾何学的に補完できる手段になり得ると考えています.

現状は隣接ノード間での精度が課題ですが, 端点間での方向性は全パスで正しく出ています.

7.4 追試: 階層ペアの追加学習(Stage 2.5)

WordNet + ConceptNetの階層ペアを学習データに追加するStage 2.5を予定. これだけで解決するかは正直わかりませんが, 入力粒度の問題に対しては効果がありそうだと考えています.

ソース ペア数 特徴
WordNet(全名詞階層) ~80K 定義文が整備されており階層が厳密
ConceptNet(IsAのみ) ~500K 日常概念が豊富でWordNetを補完
合計 ~580K nomic全体の約29%

ドキュメントの構成は, 今回の実験で「hyponym定義文を連結するとx0が正しい方向に動く可能性がある」ことが確認されているため, 以下の構造を想定しています.

parent_doc = "{synset名}: {定義文}. {hyponym定義文1}. {hyponym定義文2}. ..."
child_doc  = "{synset名}: {定義文}. {hyponym定義文1}. ..."
評価軸 現状(Stage 3) 成功ライン
MRR@10 0.4135 0.40以上(5%以内の劣化を許容)
矛盾検出正解率(clearケース) 0/5 3/5以上
WordNet単調増加パス数 0/3 2/3以上

MRR@10を維持しつつ単語ラベル単体での階層表現が改善できれば, 大規模ナレッジベースに対するembeddingベースの矛盾検知パイプラインが現実的になります. この結果は次回の記事で報告予定です.


8. 終わりに

本記事では, HypRAG論文の再現実験を通じて以下を確認しました.

  1. embeddingモデルの出力は内在的に双曲的である(Gromov δ-hyperbolicityで独立検証)
  2. 今回の条件下でLorentz空間はユークリッド空間を一貫して上回った(nDCG@10で+1〜6%改善)
  3. 双曲空間は意味の階層深度をradial depthに符号化する(可視化・WordNet実データで確認)
  4. ナレッジ階層の矛盾検知への応用にはドキュメントレベルだけでなく単語レベルでも階層表現が表現できるように学習する必要がある

冒頭で触れた神経科学的知見——生物の内部表現が双曲的な構造を持つという報告——と方向性として整合する結果であり, 我々のエージェントメモリシステムへの適用を引き続き検討していきます.


スパイスコードでは現在積極的に採用を行なっています. この記事を読んでAIを使ったチャレンジングな機能を開発してみたいと思った方, 興味を持った方はぜひお話ししましょう!

corp.spicescode.co.jp

2026/04/23 18:30~ 勉強会やりますので是非ご参加ください!

https://ai-agent-night-in-tokyo.connpass.com/event/388368


参照論文

  • Zhou, Smith & Sharpee (2018) "Hyperbolic geometry of the olfactory space" Science Advances 4(8), eaaq1458. https://doi.org/10.1126/sciadv.aaq1458
  • Sharpee et al. (2022) "Hippocampal spatial representations exhibit a hyperbolic geometry that expands with experience" Nature Neuroscience https://doi.org/10.1038/s41593-022-01212-4
  • Nickel & Kiela (2017) "Poincare Embeddings for Learning Hierarchical Representations" NeurIPS
  • Cao et al. (2025) "HyperbolicRAG: Enhancing Retrieval-Augmented Generation with Hyperbolic Representations" arXiv:2511.18808
  • Madhu et al. (2026) "HypRAG: Hyperbolic Dense Retrieval for Retrieval Augmented Generation" arXiv:2602.07739, ICML

www.science.org www.nature.com arxiv.org arxiv.org arxiv.org