ポリマーケットの価格設定は正確か？それを知るために200人のエージェントで危機をシミュレーションした

By: ブロックビーツ|2026/03/18 13:16:57

オリジナルタイトル：どのように私は200人のAIエージェントをホルムズ危機でMirofishで走らせ、ポリマーケットと比較したか
オリジナル著者:ザ・スマート・エイプ
翻訳:ペギー、ブロックビーツ

編集者注：AIが世論調査をシミュレートし始めると、イベントそのものの予測は静かに変化しています。

この記事では、ホルムズ海峡周辺の状況に関する実験について説明しています。著者はMiroFishを使用して、政府、メディア、エネルギー会社、トレーダー、一般の人々がシミュレートされたソーシャルネットワークで共に生活し、継続的な相互作用、議論、情報発信を通じて判断を形成し、このグループの結果をPolymarketの市場価格と比較することを可能にする200人のエージェントからなるシミュレーションシステムを構築しました。

結果は一貫していませんでした。グループディスカッションは全体的に楽観的でしたが、市場は著しく悲観的でした。自由発言では、少数の悲観論者が実際の価格設定に近かった。また、インタビューのシナリオでは、ほとんどのエージェントがより穏健で協力的な表現に収束しました。

このような分裂は珍しいことではありません。現実の世界では、公式な声明は安定して楽観的である傾向がありますが、実際のリスク評価は行動や非公式な表現に隠されています。つまり、人々が言うこと、考えること、そしてどのようにお金を賭けるかは、しばしば3つの異なるシステムです。

このような構造では、最も価値のあるシグナルは、コンセンサスからではなく、ノイズの中で非伝統的と思われる声から生まれることが多い。

以下は原文です：

私は、今後数週間のホルムズ海峡の状況をシミュレートするためにMiroFishを使用しました。このツールは、非常に複雑なシナリオ分析を実行できるため、このような問題に対処するのに優れています：複数の参加者、そのインセンティブを持つ異なる役割を同じシステムに導入し、これらのエージェントが継続的にゲームを行い、議論し、徐々にコンセンサスのような結果を形成できるようにします。

ポリマーケットの価格設定は正確か？それを知るために200人のエージェントで危機をシミュレーションした

このシミュレーションを実行するために私が取った具体的な手順と、最終的に得られた結果は以下の通りです。誰でも再現できる。鍵は、どのステップを踏めばよいかを知っているかどうかだけだ。

まず、MiroFishは中国の研究チームによるオープンソースプロジェクトである。一連の文書をMiroFishに入力すると、まず知識グラフが構築され、次にこのグラフに基づいて異なるエージェントの人格が生成され、これらのエージェントがシミュレートされたTwitter環境に投入される。この環境では、エージェント同士が投稿、リツイート、コメント、いいね、議論を行う。シミュレーション終了後、各エージェントに1人ずつインタビューして、それぞれの立場や推論プロセスを確認することもできる。

危機シナリオを入力すると、その出来事に関する議論が生成され、その議論から予測を導き出すことができます。

私は進行中のPolymarketの市場質問をMiroFishに入力しました。2026年4月末までに、ホルムズ海峡の海上輸送は通常に戻るだろうか？

そこで、私はこの情報をすべてMiroFishに入力し、政府、メディア、軍、エネルギー会社、トレーダー、一般市民など200の代理人役割を生成し、7日間シミュレートして議論させました。最後に、私は彼らの結果を市場価格と比較しました。

全体的な設定は以下の通りです:

・モデル:GPT-4o mini、エージェント200人シナリオにおけるコストと効果性の最適なバランス

・メモリーシステム:Zep Cloud、エージェントのメモリーとナレッジグラフの保存に使用

· シミュレーションエンジン:OASIS (Camel-AIが提供するTwitterクローン環境)

· ハードウェア:Mac mini M4 Pro、24GB RAM

· 実行時間:100回のシミュレーション・ラウンドを完了するのに約49分

· コスト:APIコールは約3ドルから5ドル

· シード・マテリアル:ウィキペディア、CNBC、アルジャジーラ、フォーブス、ロイターから得た5800文字の資料（軍事的タイムライン、封鎖状況、石油価格、経済的損失、外交的努力、3.2兆ドルのGCC投資に関連する要因を含む）言い換えれば、エージェントが判断を下すために必要なすべての核心情報が含まれていた。

このワークフローを再現する方法（ステップバイステップガイド）

このプロセスを自分で実行したい場合は、私が行った手順を以下に示す。全体のプロセスには設定に約2時間かかり、API費用は約3ドルから5ドルで、ラウンド数やエージェント数を増やすと費用はさらに増加する。

必要なもの

· Python 3.12（tiktokenはこのバージョンでエラーを投げるため、3.14は使用しないでください）

·Node.js 22以上

·OpenAI APIキー（GPT-4o Miniは十分に安価で、このシナリオに適しています）

·Zep Cloudアカウント（無料版は小規模なシミュレーションには十分です）

·十分なメモリを持つマシン私は24GBのメモリを搭載したMac mini M1 Proを使用していますが、16GBでも十分でしょう

ステップ1:MiroFishをインストールする

次に、.envファイルを構成する

OPENAI_API_KEY=sk-your-key

OPENAI_BASE_URL=link

OPENAI_MODEL=gpt-4o-mini

ZEP_API_KEY=your-zep-key

ステップ 2:プロジェクトを作成し、シード文書をアップロードする

シード文書は、エージェントが現在の状況についてどの情報を知っているかを決定するため、全体のプロセスの最も重要な部分です。私は、軍事的タイムライン、封鎖状況、石油価格、経済的損失、外交的努力、GCCの投資側面をカバーする約5800文字の要約を準備しました。出典はWikipedia、CNBC、Al Jazeera、Forbes、Reutersです。

ステップ3:オントロジーを生成する

このステップでは、MiroFishにどの種類のエンティティを認識すべきか、またそれらのエンティティ間にどのような関係が存在する可能性があるかを教えます。

最終的に、私は10種類のエンティティ（国、軍隊、外交官、商業団体、メディア組織、経済団体、組織、個人、インフラ、予測市場）と6種類の関係を生成しました。自動生成された結果があなたのシナリオにぴったり適合しない場合は、手動で調整することもできます。

ステップ4：知識グラフを構築する

この手順では、Zep Cloudを使用します。MiroFishは、シード文書とオントロジーをZepに送信し、Zepはエンティティの抽出とグラフの構築を担当します。

このプロセスには、約1〜2分かかります。最終的に、国、人物、組織、商品などの要素を結びつける65ノードと85エッジを含むグラフが得られました。

ステップ5:エージェントの生成

MiroFishは、知識グラフを使用して、MBTIパーソナリティタイプ、年齢、出身国、投稿スタイル、感情的トリガー、タブートピック、制度的記憶など、各エンティティの包括的なペルソナを作成します。

当初、私は知識グラフから43のコアエージェントを生成しました。その後、システムはこれらのコアロールを希望の総数まで拡張できます。最終的に、エージェントの総数を200に設定し、暗号トレーダー、航空パイロット、教授、学生、社会活動家など、さらに多様な民間人の役割を含めました。

ステップ6:シミュレーション環境の準備

このステップでは、エージェントの行動スケジュール、初期シード投稿、時間パラメータを含む完全なシミュレーション構成を設定します。MiroFishは、ピーク活動時間、ダウンタイム、異なるタイプのエージェントの投稿頻度など、一連の合理的なデフォルト設定を自動的に選択します。

当時の私の構成は、合計168時間（7日間）のシミュレーション、100ラウンド（各ラウンドは1時間）、Twitterシナリオの排他的使用、異なるエージェントの個別の活動スケジュールを設定することでした。

ステップ7:シミュレーションの実行開始

あとは待つのみです。私の場合、GPT-4o miniで200エージェントと100ラウンドのシミュレーションを実行するのに約49分かかりました。APIを通じて進行状況を監視するか、ログを直接表示することができます。

このプロセス全体を通して、エージェントは自律的に動作します。彼らはタイムラインを観察し、投稿するかどうか、コメントをリツイートするかどうか、共有するかどうか、いいねをするかどうか、または単にフィードをスクロールするかどうかを決定します。すべて人間の介入なしに。

ステップ8（オプション）：エージェントへのインタビュー

シミュレーションが完了すると、システムはコマンドモードに入ります。この時点で、特定のエージェントと個別にインタビューするか、すべてのエージェントに一度にインタビューすることができます：

分析

MiroFishはまずシード文書を読み込み、自動的にオントロジー構造（10種類のエンティティタイプと6種類の関係タイプで構成）を生成し、次にこれらの定義に基づいて知識グラフを抽出します（65ノードと85エッジを含む）。この基礎の上に、MBTIパーソナリティタイプ、年齢、出身国、投稿スタイル、感情的トリガー、制度的記憶要素を含む各エンティティの完全なペルソナを作成します。

最終的に、知識グラフから43のコアエージェントが生成され、その後合計200エージェントに拡張されました。これにより、シミュレーション全体の多様性とリアリズムを高めるために、より多様な一般の役割が導入されました。

具体的な内訳は以下の通りです。

・140人の一般エージェント：暗号通貨トレーダー、航空パイロット、サプライチェーンマネージャー、学生、社会活動家、教授など

・16人の外交/政府関係者：イラン外務大臣、サウジアラビア外務大臣、オマーン外務大臣、バーレーン首相、中国外務大臣、EU、国連など

・15のメディア組織：ロイター、CNN、ブルームバーグ、アルジャジーラ、BBC、フォックス、ウォール・ストリート・ジャーナルなど

· エネルギー/海運関連10社:OPEC、プラッツ、カタールエネルギー、アラムコ、マースクなど

· 金融機関7社:ポリマーケット、カルシ、ゴールドマン・サックス、JPモルガン、シタデル、ADIAなど

· 2人の軍事的/政治的実在人物:トランプ、イラン革命防衛隊司令官

7日間（100ラウンド）のシミュレーションプロセス中に、以下の結果が生成されました：

1,888件の投稿

6,661件の行動履歴（すべての行動を記録）

1,611件のリツイート引用（エージェントがお互いに返信）

4,051件のリフレッシュ（フィードを閲覧するだけ)

311件のアイドル（観察を選択)

208件のいいね、207件のリツイート

70件のオリジナルの見解（新しい独立した立場や判断)

全体的に、このシステムは単なる情報生成ではなく、むしろ社会的行動シミュレーションに近いものとなっています。エージェントは、一貫して出力を生成するのではなく、情報を消化し、相互に作用していることが観察されます。この構造は、現実の世論環境における行動分布により近いものです。オリジナルのコンテンツは限られており、広範な反復、ゲーム、感情的なフィードバックが重なっています。

エージェントは、新しいコンテンツを積極的に作成するのではなく、他者の見解を読み、引用することにほとんどの時間を費やしています。

グループ全体は、感情的伝播において明確な偏りを見せています。楽観的な見解はより容易に拡大され、共有されますが、悲観的な判断は、現実により論理的に近付けても、広まりにくく、声が弱くなる傾向があります。

さらに興味深いのは、19人のエージェントが、求められたわけではなく、議論の自然な展開として、投稿中に具体的な確率評価を自発的に提供したことである。

自発的に形成されたグループの平均確率は47.9%であるのに対し、Polymarket市場は31%の確率を示しており、両者の間には16.9ポイントの差がある。

シミュレーションプロセス中、一部のエージェントは100ラウンドにわたる相互作用でさえ立場を変えた。

シミュレーション後、私はMiroFishのインタビュー機能を使用して、43人のコアエージェントに同じ質問をした：2026年4月末までにホルムズ海峡の海上交通が通常に戻る確率はどれくらいですか（0-100%）？

結果は次の通りです：43人のエージェントのうち31人が具体的な数値を提供し、他の12人は回答を控えました。最も慎重な声は、明示的な予測をするよりも自己検閲を選ぶことが多いことに注目に値します。これは、現実のこれらの機関の行動とよく似ています。

各カテゴリーの平均値は60%以上です：軍事：75%、メディア：69%、エネルギー：66%、金融：65%、外交：61%です。市場の数字は31.5%である。

自然な進化による有機グループの結果とインタビューの結果は、全く異なる2つの結果を示している。

これは最も重要な発見である。

インタビューの結果は、より楽観的である傾向がある。エージェントが自由に投稿できる場合、弱気筋（悲観主義者）の見解は、より大きく、より具体的であることが多いが、1対1のインタビューでは、協力の傾向から、ほとんど誰もが60〜70%の範囲で判断を提供する。

オーガニックな結果はより信頼性が高い。ある金融アドバイザーは、議論が白熱する中で、自分の推定値は65%であると投稿した。これは、対話の中で形成された判断である。一方、インタビューで質問に答えるエージェントは、基本的にパターンマッチングに従事している。

皮肉なことに、自然な表現における悲観主義者が最良の予測者であることが判明した。シミュレーションに参加した7人のエージェント（イラン外務大臣、中国外務大臣、カルシ、プラッツ、経済学教授、イラン人学生、反戦活動家）のうち、30%以下の確率（イラン外務大臣、中国外務大臣、カルシ、プラッツ、経済学教授、イラン人学生、反戦活動家）を提供した7人のエージェントのうち、平均は22%で、これはPolymarketの結果と10ポイント以上の差はない。専門知識 + 自然な表現 = 市場に最も近い。

より重要なのは、これは単なるAIの現象ではなく、現実世界の行動体も同じように振る舞っているということだ。

国家指導者に対して危機についてインタビューすると、彼らは常に平和へのコミットメント、解決策に対する楽観主義について話す。これは標準的な台本であり、カメラに向かって言うべきことだ。しかし、彼らが実際にしていることを見てみると、軍事配備、制裁、資産凍結、売却など、彼らの行動はまったく異なる物語を語っていることが多い。

サウジアラビア皇太子はロイターに対し、我々は外交手段を信じていると述べたが、彼の主権者である富の基金は、米国の資産配分において3.2兆ドルを見込んでいる。イラン大統領は平和は我々の共通の目標だと言うが、イラン革命防衛隊は海峡に機雷を敷設している。トランプは、すべての停戦提案を拒否しながら、「見てみよう」と言うだろう。

このシミュレーションは、同じ構造的亀裂を偶然再現した：代理自由ポスターが議論し、応答し、情報を発信するにつれて、専門家グループは徐々に20%-30%の範囲に収束する - より悲観的で、現実により近い；しかし、あなたが彼らを会議室に連れて行き、正式にあなたの予測は何ですか？と尋ねると、彼らはすぐに外交官モードに切り替える：65%-70%、明らかに楽観的。

自然な投稿、私的な行動や非公式の対話により近い；インタビューの結果、プレスブリーフィングにより近い。誰かが何を考えているか本当に知りたいなら、直接尋ねないでください。誰も採点していないときに彼らの行動を観察してください。