AIエージェントの設計思想:Chain機構と手続き記憶

スパイスコード CTO の櫻木です (X: https://x.com/ysrhspyoshi)。これまでの記事では、AI Agentにおける「コンテキストエンジニアリング」の重要性と、tool chain toolを用いた実装アプローチ、そして実際のブラウザ自動化タスクにおける定量的な実験結果を報告してきました。

前回までの記事:

今回は、私たちがエージェント設計の際に参考にしている理論的基盤について、認知科学神経科学の観点から説明します。Chain機構と自己修復機能のハイブリッドアーキテクチャは、人間の脳における「二重過程(Dual-Process)」の制御戦略を参考に設計されています。

目次

  1. なぜ理論的基盤が重要なのか
  2. Chain機構の神経科学的基盤:手続き記憶とチャンキング
  3. 自己修復機能の神経科学的基盤:エラーモニタリングと認知制御
  4. 二重過程理論:不確実性に基づく調停メカニズム
  5. 実装への示唆:生物学的知能から学ぶ設計原則
  6. まとめ

1. なぜ理論的基盤が重要なのか

前回の記事で報告したように、Method C(Chain方式)は Method A(毎回探索する方式)と比較して3.4倍高速、コスト1/5.5という結果が得られました。このアーキテクチャの効率性は、単なる工学的な最適化だけでなく、生物学的知能の仕組みを参考にした設計に基づいています。

1.1 「固定のワークフローとの違い」という問い

Chain機構の説明をすると、よく「それは単なる固定のワークフローでは?」という質問を受けます。確かに、決定的な操作シーケンスを事前定義して実行するという点では似ています。

しかし、決定的な違いがあります。固定のワークフローは、予期せぬ状況(サプライズ)に対して脆弱です。UIが変わる、要素が見つからない、タイムアウトが発生する——こうした状況で、固定ワークフローは単に失敗します。

私たちのChain機構は、人間の手続き記憶(Procedural Memory)を参考にしています。人間は、習熟した作業を無意識に(低コストで)遂行しますが、予期せぬ障害に直面した時、瞬時に宣言的記憶(Declarative Memory)エピソード記憶(Episodic Memory)を動員し、柔軟に行動を変容させます。これは、複数の記憶システムが協調する脳のアーキテクチャによって実現されています。

本記事では、この「低コストな自動実行」と「柔軟な適応」の両立が、どのような認知神経科学的メカニズムに基づいているのかを説明します。

1.2 生物学的知能を参考にした設計

生物学的脳は、限られた計算リソース(エネルギー)の中で、複雑な環境下での意思決定と行動実行を数億年かけて最適化してきました。その結果として獲得された神経メカニズムは、効率性と柔軟性のトレードオフに対する参照可能な解となっています。

私たちのChain機構と自己修復機能は、これらの理論を参考に設計しており、その理論的背景を理解することで:

  • 設計判断の根拠が明確になる:「なぜこの実装が正しいのか」を説明できる
  • 改善の方向性が見える:脳の仕組みから、次のステップへのヒントを得られる
  • 未知の問題への対応力が上がる:原理原則を理解していれば、新しい課題にも応用できる


2. Chain機構の神経科学的基盤:手続き記憶とチャンキング

第1回の記事で紹介したChain機構は、一連の操作を単一の実行単位としてカプセル化し、LLMの推論を介さずに高速実行する仕組みです。これは、生物学的脳における「手続き記憶(Procedural Memory)」の形成プロセスを参考にしています。

2.0 記憶システムの分類と役割

脳の記憶システムは大きく以下のように分類されます:

手続き記憶(Procedural Memory)

運動技能や習慣(例:自転車の乗り方、タイピング)。意識的なアクセスが不要で、高速・低コスト。大脳基底核を中心とした神経回路で実現されます。

宣言的記憶(Declarative Memory)

言語化可能な知識。意識的なアクセスが必要で、柔軟だがコストが高い。海馬と大脳皮質の連携で実現されます。

  • エピソード記憶(Episodic Memory):個人的な経験(例:昨日のミーティングで何が起きたか)
  • 意味記憶(Semantic Memory):一般的な事実(例:東京は日本の首都)

私たちのアーキテクチャとの対応:

固定のワークフローは「手続き記憶のみ」の状態に相当します。一方、私たちのアーキテクチャは、通常時は手続き記憶(Chain)で高速実行し、エラー時には宣言的記憶(LLMの知識)やエピソード記憶(過去の操作ログ)を参照して適応するという、複数の記憶システムの協調を実装しています。

この協調メカニズムこそが、固定ワークフローにはない「柔軟性」を実現する鍵となります。

重要な注意:機能局在主義について

以降の説明では便宜上、特定の脳領域と機能を対応付けて説明しますが、これは古典的な機能局在主義(functional localization) の立場を取るものではありません。現代の神経科学が示すように、脳機能は特定の領域に局在するのではなく、広範な皮質・皮質下領域を含む分散的なネットワークとして実現されています。例えば、大脳基底核による習慣学習も、前頭前皮質視床線条体など複数の領域が協調して初めて機能します。

ここで示す脳領域と機能の対応関係は、各神経回路が担う中心的な役割を概念的に示したものであり、設計の着想を得るための理論的な参照点として理解してください。私たちのAIアーキテクチャも同様に、各コンポーネントが独立して機能するのではなく、相互に連携するシステムとして設計されています。

2.1 大脳基底核によるシーケンス学習

MIT Ann Graybielらの研究は、ラットが迷路タスクを学習する過程で、線条体大脳基底核の一部)の神経活動パターンが変化することを示しました[1][2]。

学習初期(探索フェーズ)

  • 神経活動は動作全体に分散して発火
  • 高い認知負荷、逐次的な意思決定
  • AIの対応:Method A(毎回UIを探索)、Agentic Loop

学習後期(習慣フェーズ)

  • 神経活動はシーケンスの開始と終了時に集中
  • 低い認知負荷、バリスティック(弾道的)な実行
  • AIの対応:Method C(Chain実行)

この変化は「チャンキング(Chunking)」と呼ばれ、複雑な動作シーケンスが脳内で単一の「実行ユニット」として再表現されたことを意味します。

┌─────────────────────────────────┐
│    学習初期(探索フェーズ)      │
├─────────────────────────────────┤
│ ステップ1 → 推論 → 実行          │
│ ステップ2 → 推論 → 実行          │
│ ステップ3 → 推論 → 実行          │
│         (高コスト)               │
└─────────────────────────────────┘
              ↓ チャンキング
┌─────────────────────────────────┐
│    学習後期(Chain化)           │
├─────────────────────────────────┤
│ Chain開始 → [1+2+3] → Chain終了  │
│         (低コスト)               │
└─────────────────────────────────┘

2.2 ACT-R理論:宣言的知識から手続き的知識へ

認知アーキテクチャACT-R(John Anderson)は、人間の知識が「宣言的知識」から「手続き的知識」へと変換されるメカニズムを定式化しています[3][4]。

プロダクション・コンパイル(Production Compilation)

  1. 構成(Composition):連続して実行される複数のルールを結合

    • Before: ルールA(検索)→ ルールB(実行)
    • After: ルールAB(一括実行)
  2. 手続き化(Proceduralization):変数を定数に置き換え、メモリアクセスを不要化

    • Before: IF 目標=ログイン AND 要素=変数x THEN x を検索して実行
    • After: IF 目標=ログイン THEN #login-button をクリック(検索なし)

私たちのChain生成プロセスとの対応:

# 第1回記事で紹介したChain生成の流れ
1. Agenticモードで操作を実行(探索)
2. 操作ログを解析
3. playwright-mcpのbrowser_run_codeを含むChainとして保存
4. 次回以降はChain IDを参照するだけで実行(コンパイル済み)

これは、ACT-Rのプロダクション・コンパイルを、LLMとブラウザ自動化の文脈で実装したものです。

2.3 階層的強化学習(HRL):オプションとしてのChain

強化学習の分野では、行動の階層化は「オプション(Options)」として定式化されています[5][6]。オプションは以下の3要素で定義されます:

  • 開始条件(I):どの状態でこのオプションが実行可能か(例:ログインページ)
  • 方策(π):オプション内部での行動選択ルール(例:Chainに含まれる一連の操作)
  • 終了条件(β):いつこのオプションを終了するか(例:ダッシュボード到達)

Chain機構の数学的表現:

Chain_Login = <I, π, β>
  I = {state: login_page}
  π = [enter_username, enter_password, click_submit]
  β = {state: dashboard}

Botvinick (2012)の研究によれば、前頭前皮質(PFC)が現在の文脈に応じて適切なオプション(Chain)を選択し、大脳基底核がその内部の具体的なアクション(チャンク)を実行するという役割分担が行われています[7]。

実装への示唆:

  • Chainを選択するための「メタエージェント」の設計
  • Chain間の依存関係を考慮した階層的構造の導入

3. 自己修復機能の神経科学的基盤:エラーモニタリングと認知制御

Chain機構は効率的ですが、環境変化に対して脆弱です。この問題に対処するのが「自己修復(Self-Repair)」機能であり、これは脳における「認知制御(Cognitive Control)」システムに対応します。

3.1 前帯状皮質(ACC)によるエラー検知

脳波(EEG)研究において、エラー発生直後(50-100ms後)に前頭部で観測されるERN(Error-Related Negativity)という信号の発生源は、前帯状皮質(ACC)であることが特定されています[8][9]。

ACCは単なるエラーだけでなく、「予測誤差(Prediction Error)」全般を監視しています。Haydenらの研究は、予期せぬ結果がACCニューロンを活性化させ、行動戦略の変更を引き起こすことを示しました[10]。

AIエージェントにおける実装:

# Chain実行中の予測誤差検知
try:
    execute_chain(chain_id)  # 期待:正常実行
except NoSuchElementException:
    # 実際:要素が見つからない → 予測誤差
    trigger_self_repair()  # ACCによる介入要請に相当

3.2 期待される制御価値(EVC)理論

Shenhav & Botvinick (2013)のEVC理論によれば、ACCは「認知制御を発動するコスト」と「それによって得られる報酬の増加分」を常に天秤にかけています[11]。

通常時(Chain実行):
  - 制御コスト: 低
  - 成功確率: 高
  → 自動処理を継続

エラー時(予測誤差大):
  - 成功確率: 低下
  - 制御を発動した場合の期待価値: 上昇
  → Agenticモードへ切り替え

この理論は、常時LLMを使うのではなく、エラー時のみ高コストな推論を行うという設計方針に対応しています。

3.3 頭頂葉による高速な微調整

より軽微なエラーに対しては、大規模な再プランニングではなく、局所的な調整で対応できます。後頭頂皮質(PPC)は、意識的な介入なしに即座に行動を修正する「オートパイロット」機能を持つことが示されています[12][13]。

実装例:

# 軽微な変動への対応(小脳・頭頂葉的)
element = wait_for_element(selector, timeout=5)  # 待機
if not element:
    element = find_nearby(selector, radius=10)  # 近傍探索

これにより、完全な再プランニング(前頭前皮質的)を発動する前に、低コストな修正で対応する階層的なエラー処理が可能になります。


4. 二重過程理論:不確実性に基づく調停メカニズム

ここまで、Chain(習慣)とAgentic(熟慮)を個別に論じてきましたが、最も重要なのはこれらをいかに統合・制御するかです。

4.1 モデルフリーとモデルベースの競合

Daw, Niv, & Dayan (2005)の研究によれば、脳内には二つの並列する強化学習システムが存在します[14][15]:

システム 神経基盤 特徴 AI対応
モデルフリー(MF) 背外側線条体 低コスト、環境変化への適応が遅い Chain機構
モデルベース(MB) 前頭前皮質、海馬 高コスト、柔軟で適応的 Agentic推論

4.2 ベイズ的不確実性による調停(Arbitration)

脳はこれらのシステムをランダムに切り替えるのではなく、各システムの予測の「不確実性(Uncertainty)」を常に推定し、より確実性の高いシステムに制御権を委ねています[14]。

安定期(エラー率低):
  MFの不確実性: 低 → Chain実行
  MBの不確実性: 高(不要)

不安定期(エラー発生):
  MFの信頼度: 急低下
  MBの相対的信頼性: 上昇 → Agenticへ切替

私たちのアーキテクチャとの対応:

# デフォルトでChainを試行
confidence_chain = estimate_chain_reliability(chain_id, recent_errors)

if confidence_chain > threshold:
    execute_chain()  # モデルフリー的実行
else:
    execute_agentic()  # モデルベース的探索

第2回の記事で報告したように、Method Cは標準偏差4.0秒という安定性を示しました。これは、Chainの信頼性が維持されている限り、低コストな決定的実行を継続できることを意味します。

4.3 代理試行錯誤(VTE):海馬による未来シミュレーション

新規環境やChainが失敗した場合、エージェントはAgenticモードに移行します。この時、複数の候補アクションを評価する必要があります。

David Redishらの研究によれば、ラットが迷路の分岐点で左右を見やる「代理試行錯誤(VTE)」の最中、海馬の場所細胞が未来の経路を高速で再生(スイープ)する現象が観測されています[16][17]。

VTEの構成要素 機能的役割 AIエージェント
停止(Pause) 自動行動の抑制 Chainの中断
場所細胞のスイープ 将来経路のシミュレーション Tree of Thoughts / Planner
評価(Valuation) 報酬予測 LLMによるスコアリング

実装例:

# Planner / MCTS的なアプローチ
candidates = extract_possible_actions(dom)
for action in candidates:
    simulated_outcome = llm.predict(action, current_state)
    score = evaluate_goal_proximity(simulated_outcome)
best_action = max(candidates, key=score)


5. 実装への示唆:生物学的知能から学ぶ設計原則

これらの神経科学的知見から、次のような設計原則が導かれます。

5.1 階層的なエラー処理

前回の実験で、自己修復フェーズのコストが初回実行より低い傾向が見られました(例: Site B Chain で$1.74 → $0.30)。これをさらに洗練させるために:

レベル1(小脳・頭頂葉的):Wait / Retry / 近傍探索
  → コスト: 極小、成功率: 中

レベル2(ACC的):Chain内の部分修正
  → コスト: 小、成功率: 高

レベル3(PFC的):完全な再プランニング
  → コスト: 大、成功率: 最高

実装案:

try:
    execute_chain()
except MinorError:
    retry_with_wait()  # レベル1
except ChainError:
    repair_chain_step()  # レベル2
except MajorError:
    full_agentic_replanning()  # レベル3

5.2 成功パターンの自動コンパイル

ACT-Rのプロダクション・コンパイルを参考に、Agenticモードでの成功した修復シーケンスを新しいChainとして保存する機能を検討しています。

# 修復成功時
if self_repair_succeeded:
    new_chain = compile_from_trace(repair_log)
    save_chain(new_chain, context=current_task)
    # 次回から同じエラーには新Chainで対応

5.3 メタ認知的パラメータの動的調整

脳内ドーパミンレベルが探索と活用のバランスを調整するように、エラー率に応じて探索の「温度」を動的に調整するメタパラメータを導入:

# エラー率が高い → 探索を増やす
exploration_temp = base_temp * (1 + error_rate)

# エラー率が低い → Chainを優先
if error_rate < threshold:
    prefer_chain = True

5.4 Chainの選択的抑制(RIF)

認知心理学における「検索誘導性忘却(Retrieval-Induced Forgetting)」の知見から、失敗したChainを積極的に抑制する機能:

# 失敗したChainの信頼度を下げる
if chain_failed:
    reliability_scores[chain_id] *= decay_factor
    mark_as_bad_path(chain_id)

これにより、エージェントは過去の失敗(保続エラー)にとらわれず、新しい解を効率的に探索できます。


6. まとめ

6.1 理論と実践の統合

第1回の記事で提示したコンテキストエンジニアリングの設計思想、第2回で実証した定量的な性能改善、そして今回示した認知科学神経科学的な理論的基盤は、一本の線でつながっています。

アーキテクチャの設計方針:

  1. 生物学的な制御戦略の参照:脳における「習慣と熟慮の使い分け」を参考にした設計
  2. 計算論的なトレードオフの考慮:コストと柔軟性のバランスをベイズ的調停理論に基づいて実装
  3. 階層的な制御構造:低次の自動処理から高次の計画まで、段階的に対応

なお、本記事で示した脳領域とAIコンポーネントの対応関係は、あくまで設計の着想源としての概念的な対応です。機能局在主義的に特定の機能が特定の領域に厳密にマッピングされているという考えは支持していません。

6.2 実験結果との対応

第2回の実験結果は、これらの理論に基づく設計方針を支持するものとなっています:

設計方針 実験結果
Chainによる高速化 Method C: 26.3秒 vs A: 88.2秒(3.4倍)
決定的実行による安定性 Method C: σ=4.0秒 vs A: σ=25.9秒(1/6)
初回学習コストの償却 2-3回で損益分岐、年間$100以上削減
選択的な高コスト処理 Method C: $0.188/回 vs A: $1.034/回(1/5.5)

6.3 今後の展望

今後、認知科学神経科学の知見をさらに参考に、以下の方向で開発を進めていく予定です:

  1. エピソード記憶の活用:海馬的な経験の索引化と再利用
  2. メタ学習の導入前頭前皮質的な「学習の学習」
  3. 多Agent協調:脳の機能分化に倣った役割分担

また現在の開発状況では、ツールセットを事前定義してあるため、小さな問題空間向けの実装としては必要十分ですが、人の脳と比較すると陳述記憶との連携が不十分で、大きな問題空間におけるタスクでは課題が残ります。 大きな問題空間向けの実装として陳述記憶との連携強化を通し、直面したタスクに合わせて自身で問題空間を調整する仕組みを構築することを検討・検証しています。

6.4 終わりに

AI Agentの実装において、理論的裏付けのある設計は、単なる試行錯誤を超えた確実性と予測可能性を提供します。

認知科学神経科学の知見は、以下のような実践的な価値を提供します:

  • 設計判断の根拠:「なぜこのアーキテクチャなのか」を説明できる
  • デバッグの指針:どこが壊れているか、脳のモデルから推測できる
  • 拡張の方向性:次に実装すべき機能が見えてくる

スパイスコードでは、このような学術的な思想に基づいたAI Agent開発を推進しています。興味を持った方、一緒にチャレンジングな開発に取り組みたい方は、ぜひお話ししましょう!

https://corp.spicescode.co.jp/


主要引用文献

神経科学・認知神経科学

  1. Graybiel, A. M. (1998). The basal ganglia and chunking of action repertoires. Neurobiology of Learning and Memory.
  2. Jin, X., & Costa, R. M. (2010). Shaping action sequences in basal ganglia circuits. Current Opinion in Neurobiology.
  3. Anderson, J. R. (1993). Rules of the mind. Lawrence Erlbaum Associates.
  4. Taatgen, N. A., & Anderson, J. R. (2002). Production compilation: A simple mechanism to model complex skill acquisition. Human Factors.

強化学習・計算論的神経科学:

  1. Sutton, R. S., Precup, D., & Singh, S. (1999). Between MDPs and semi-MDPs: A framework for temporal abstraction in reinforcement learning. Artificial Intelligence.
  2. Botvinick, M. M. (2012). Hierarchical reinforcement learning and decision making. Current Opinion in Neurobiology.
  3. Botvinick, M. M., Niv, Y., & Barto, A. C. (2009). Hierarchically organized behavior and its neural foundations: A reinforcement-learning perspective. Cognition.

エラーモニタリング・認知制御:

  1. Botvinick, M. M., Cohen, J. D., & Carter, C. S. (2004). Conflict monitoring and anterior cingulate cortex: An update. Trends in Cognitive Sciences.
  2. Hayden, B. Y., et al. (2011). Surprise signals in anterior cingulate cortex: Neuronal encoding of unsigned reward prediction errors driving adjustment in behavior. Journal of Neuroscience.
  3. Shenhav, A., Botvinick, M. M., & Cohen, J. D. (2013). The expected value of control: An integrative theory of anterior cingulate cortex function. Neuron.

頭頂葉・小脳:

  1. Desmurget, M., et al. (1999). Role of the posterior parietal cortex in updating reaching movements to a visual target. Nature Neuroscience.
  2. Pisella, L., et al. (2000). An 'automatic pilot' for the hand in human posterior parietal cortex. Nature Neuroscience.

意思決定・調停メカニズム:

  1. Daw, N. D., Niv, Y., & Dayan, P. (2005). Uncertainty-based competition between prefrontal and dorsolateral striatal systems for behavioral control. Nature Neuroscience.
  2. Redish, A. D. (2016). Vicarious trial and error. Nature Reviews Neuroscience.
  3. Cisek, P. (2007). Cortical mechanisms of action selection: The affordance competition hypothesis. Philosophical Transactions of the Royal Society B.

検索誘導性忘却:

  1. Tempel, T., et al. (2013). Retrieval-induced forgetting in motor memory. Psychological Science.

関連記事