¿Es preciso el precio de Polymarket? Simulé una crisis con 200 agentes para averiguarlo

By: blockbeats|2026/03/18 13:15:30
0
Compartir
copy
Título original: cómo ejecuto 200 agentes de IA en la crisis de Ormuz con Mirofish y lo comparo con Polymarket
Autor original: El mono inteligente
Traducción: Peggy, BlockBeats

Nota del editor: Cuando la IA comienza a simular un campo de opinión pública, la predicción del propio evento está cambiando silenciosamente.

Este artículo documenta un experimento sobre la situación en torno al Estrecho de Ormuz: el autor utilizó MiroFish para construir un sistema de simulación compuesto por 200 agentes, lo que permitió a gobiernos, medios de comunicación, empresas energéticas, comerciantes y personas comunes vivir juntos en una red social simulada, formando juicios a través de la interacción continua, el debate y la difusión de información, y comparando los resultados de este grupo con los precios de mercado de Polymarket.

Los resultados no fueron consistentes. La discusión en grupo fue en general más optimista, mientras que el mercado fue significativamente más pesimista; en la libertad de expresión, los pocos pesimistas estaban más cerca del precio verdadero; y una vez en un escenario de entrevista, casi todos los agentes convergerían hacia una expresión más moderada y cooperativa.

Este tipo de división no es desconocido. En el mundo real, las declaraciones públicas suelen tender a ser estables y optimistas, mientras que la verdadera evaluación de riesgos se oculta en acciones y expresiones informales. En otras palabras, lo que la gente dice, lo que piensa y cómo apuestan su dinero a menudo son tres sistemas diferentes.

En tal estructura, la señal más valiosa a menudo no proviene del consenso, sino de aquellas voces que parecen ser poco convencionales en el ruido.

Lo siguiente es el texto original:

Utilizo MiroFish para simular la situación en el Estrecho de Ormuz durante las próximas semanas. Esta herramienta es excelente para tratar este tipo de problemas porque puede realizar análisis de escenarios muy complejos: introduciendo múltiples participantes, diferentes roles con sus incentivos en el mismo sistema y permitiendo que estos agentes jueguen continuamente, debatan y formen gradualmente un resultado similar al consenso.

¿Es preciso el precio de Polymarket? Simulé una crisis con 200 agentes para averiguarlo

Estos son los pasos específicos que seguí para ejecutar esta simulación y los resultados que obtuve en última instancia. Cualquiera puede reproducirla; la clave es simplemente saber qué pasos seguir.

En primer lugar, MiroFish es un proyecto de código abierto de un equipo de investigación chino. Después de introducir un lote de documentos en él, primero construirá un grafo de conocimiento, luego generará diferentes personalidades de agentes basadas en este grafo y luego colocará a estos agentes en un entorno de Twitter simulado. En este entorno, publicarán, retuitearán, comentarán, darán "me gusta" y discutirán entre sí. Después de que termine la simulación, también puede entrevistar a cada agente uno por uno para ver sus respectivas posiciones y procesos de razonamiento.

Cuando se le proporciona un escenario de crisis, genera un debate en torno a ese evento; a partir de ese debate, puede obtener una predicción.

Lo dirigí a una pregunta de mercado en curso de Polymarket: ¿Para finales de abril de 2026, el transporte marítimo en el estrecho de Ormuz volverá a la normalidad?

Así que le di toda esta información a MiroFish y generé 200 roles de agentes, incluidos los del gobierno, los medios de comunicación, los militares, las empresas energéticas, los comerciantes y los ciudadanos comunes, y los hice debatir durante 7 días simulados. Finalmente, comparé su resultado con los precios del mercado.

La configuración general fue la siguiente:

· Modelo: GPT-4o mini, equilibrio óptimo entre costo y eficacia en un escenario de 200 agentes

· Sistema de memoria: Zep Cloud, utilizado para almacenar memorias de agentes y gráficos de conocimiento

· Motor de simulación: OASIS (un entorno clonado de Twitter proporcionado por Camel-AI)

· Hardware: Mac mini M4 Pro, 24 GB de RAM

· Tiempo de ejecución: Aproximadamente 49 minutos para completar 100 rondas de simulación

· Costo: Llamadas a la API de alrededor de $3 a $5

· Material de siembra: Un informe de 5800 caracteres obtenido de Wikipedia, CNBC, Al Jazeera, Forbes, Reuters, que incluye una cronología militar, el estado del bloqueo, los precios del petróleo, las pérdidas económicas, los esfuerzos diplomáticos y los factores relacionados con una inversión del CCG de $3.2 billones. En otras palabras, se incluyó toda la información central necesaria para que los agentes formaran juicios.

Cómo replicar este flujo de trabajo (guía paso a paso)

Si desea ejecutar este proceso usted mismo, aquí están los pasos completos que seguí. Todo el proceso tarda aproximadamente 2 horas en configurarse, con costos de API de alrededor de $3 a $5; aumentar el número de rondas o agentes aumentará aún más el costo.

Lo que necesitarás

· Python 3.12 (no uses 3.14, ya que tiktoken lanzará un error en esta versión)

· Node.js 22 y superior

· Una clave de API de OpenAI (GPT-4o Mini es lo suficientemente barato y adecuado para este escenario)

· Una cuenta de Zep Cloud (la versión gratuita es suficiente para simulaciones a pequeña escala)

· Una máquina con una memoria decente. Uso un Mac mini M1 Pro con 24 GB de memoria, pero 16 GB también debería ser suficiente

Paso 1: Instale MiroFish

Luego, configure su archivo .env

OPENAI_API_KEY=sk-your-key

OPENAI_BASE_URL=link

OPENAI_MODEL=gpt-4o-mini

ZEP_API_KEY=your-zep-key

Paso 2: Cree un proyecto y suba su documento de inicio

El documento de inicio es la parte más importante de todo el proceso, ya que determina qué información conoce el agente sobre la situación actual. Preparé un informe de aproximadamente 5800 caracteres que abarcaba un cronograma militar, el estado del bloqueo, los precios del petróleo, las pérdidas económicas, los esfuerzos diplomáticos y el aspecto de la inversión del CCG, con fuentes de Wikipedia, CNBC, Al Jazeera, Forbes y Reuters.

Paso 3: Generar la ontología

Este paso indica a MiroFish qué tipos de entidades debe reconocer y qué relaciones pueden existir entre estas entidades.

Terminé generando 10 tipos de entidades: país, militar, diplomáticos, entidades comerciales, organizaciones de medios, entidades económicas, organizaciones, individuos, infraestructura, mercados de predicción; y 6 tipos de relaciones. Si los resultados generados automáticamente no están completamente adaptados a su escenario, también puede ajustarlos manualmente.

Paso 4: Construir el grafo de conocimiento

Este paso implica el uso de Zep Cloud. MiroFish enviará el documento base y la ontología a Zep, que será responsable de la extracción de entidades y la construcción del grafo.

Este proceso tomará aproximadamente de uno a dos minutos. Al final, obtuve un grafo que contiene 65 nodos y 85 aristas, conectando elementos como países, personalidades, organizaciones y productos básicos.

Paso cinco: Generar agentes

MiroFish utilizará el conocimiento gráfico para crear una personalidad integral para cada entidad, incluyendo el tipo de personalidad MBTI, edad, país de origen, estilo de publicación, desencadenantes emocionales, temas tabú y memoria institucional.

Inicialmente, generé 43 agentes centrales a partir del conocimiento gráfico. Posteriormente, el sistema puede expandir estos roles centrales a la cantidad total deseada. Acabé configurando el número total de agentes en 200 e incluí roles civiles adicionales y diversificados como operadores de criptomonedas, pilotos de aerolíneas, profesores, estudiantes, activistas sociales y más.

Paso seis: Preparar el entorno de simulación

Este paso configurará la configuración completa de la simulación, incluidos los horarios de acción de los agentes, las publicaciones iniciales y los parámetros de tiempo. MiroFish elegirá automáticamente un conjunto de configuraciones predeterminadas razonables, como horas de actividad pico, tiempo de inactividad y frecuencias de publicación para diferentes tipos de agentes.

Mi configuración en ese momento fue: simular un total de 168 horas (7 días), 100 rondas (cada ronda representa 1 hora), utilizando exclusivamente el escenario de Twitter y configurando horarios de actividad individuales para diferentes agentes.

Paso siete: Iniciar la simulación

Luego, es hora de esperar. En mi caso, ejecutar 200 agentes y 100 rondas de simulación con GPT-4o mini tomó aproximadamente 49 minutos. Puede monitorear el progreso a través de una API o ver directamente los registros.

A lo largo de todo el proceso, los agentes operarán de forma autónoma: observarán la línea de tiempo y decidirán si publicarán, retweetearán comentarios, compartirán, darán like o simplemente pasarán por el feed, todo sin necesidad de intervención humana.

Octavo paso (Opcional): Entrevistar agentes

Después de que se complete la simulación, el sistema entrará en modo de comando. En este punto, puede realizar entrevistas individuales con agentes específicos o entrevistar a todos los agentes a la vez:

Análisis

MiroFish leerá primero el documento base y generará automáticamente la estructura de la ontología (compuesta por 10 tipos de entidades y 6 tipos de relaciones); luego extraerá un grafo de conocimiento basado en estas definiciones (que contiene 65 nodos y 85 aristas). A partir de esta base, creará una personalidad completa para cada entidad, incluyendo el tipo de personalidad MBTI, edad, país de origen, estilo de publicación, desencadenantes emocionales y elementos de memoria institucional.

En última instancia, se generaron 43 agentes centrales a partir del grafo de conocimiento, que luego se expandió a un total de 200 agentes. Esto introdujo un conjunto más diverso de roles de ciudadanos comunes para mejorar la diversidad y el realismo de la simulación en general.

El desglose específico es el siguiente:

· 140 agentes comunes: operadores de criptomonedas, pilotos de aerolíneas, gerentes de la cadena de suministro, estudiantes, activistas sociales, profesores, etc.

· 16 roles diplomáticos/gubernamentales: Ministro de Asuntos Exteriores de Irán, Ministro de Asuntos Exteriores de Arabia Saudita, Ministro de Asuntos Exteriores de Omán, Primer Ministro de Bahréin, Ministro de Asuntos Exteriores de China, UE, ONU, etc.

· 15 organizaciones de medios: Reuters, CNN, Bloomberg, Al Jazeera, BBC, Fox, Wall Street Journal, etc.

· 10 relacionadas con energía/transporte marítimo: OPEP, Platts, QatarEnergy, Aramco, Maersk, etc.

· 7 instituciones financieras: Polymarket, Kalshi, Goldman Sachs, JPMorgan, Citadel, ADIA, etc.

· 2 figuras militares/políticas: Trump, Comandante de la Guardia Revolucionaria Iraní

Durante el proceso de simulación de 7 días (100 rondas), se generaron:

1.888 publicaciones

6.661 rastros de comportamiento (capturando todas las acciones)

1.611 retuits de cotización (agentes respondiendo entre sí)

4.051 actualizaciones (simplemente viendo el feed)

311 inactivos (optando por observar)

208 me gusta, 207 retuits

70 puntos de vista originales (posiciones o juicios independientes nuevos)

En general, este sistema no presenta solo una simple generación de información, sino algo más cercano a una simulación del comportamiento social. La mayoría de las veces, se observa que los agentes digieren información e interactúan en lugar de producir resultados de manera constante. Esta estructura es más similar a la distribución del comportamiento en un entorno real de opinión pública: contenido original limitado superpuesto con reiteración extensa, juegos y retroalimentación emocional.

Los agentes pasan la mayor parte de su tiempo leyendo y citando los puntos de vista de otros en lugar de crear activamente contenido nuevo.

Todo el grupo muestra una clara tendencia en la propagación emocional: los puntos de vista optimistas se amplifican y comparten más fácilmente, mientras que los juicios pesimistas, aunque estén lógicamente más cerca de la realidad, tienden a propagarse menos y tienen voces más débiles.

Lo que es aún más interesante es que 19 agentes proporcionaron espontáneamente evaluaciones específicas de probabilidad durante su publicación, no porque se les pidiera, sino como una evolución natural de la discusión.

La probabilidad promedio del grupo formado espontáneamente es del 47,9%, mientras que el mercado de Polymarket da una probabilidad del 31%, lo que resulta en una diferencia de 16,9 puntos porcentuales entre los dos.

Durante el proceso de simulación, algunos agentes incluso cambiaron su postura a lo largo de 100 rondas de interacción.

Tras la simulación, utilicé la función de entrevista de MiroFish para hacer la misma pregunta a 43 agentes centrales: ¿Cuál es la probabilidad, desde ahora hasta finales de abril de 2026, de que el tráfico marítimo en el Estrecho de Ormuz vuelva a la normalidad (0-100%)?

Los resultados fueron los siguientes: 31 de los 43 agentes proporcionaron valores específicos, mientras que los otros 12 optaron por no responder. Vale la pena mencionar que las voces más cautelosas suelen optar por la autocensura en lugar de hacer predicciones explícitas, un comportamiento que se asemeja mucho al de estas instituciones en la vida real.

El valor promedio para cada categoría está por encima del 60%: Fuerzas Armadas al 75%, Medios de Comunicación al 69%, Energía al 66%, Finanzas al 65%, Diplomacia al 61%. La cifra del mercado se sitúa en el 31,5%.

El resultado del grupo orgánico de evolución natural frente al resultado de la entrevista presenta dos imágenes muy diferentes.

Este es el hallazgo más crítico.

Los resultados de las entrevistas tienden a ser más optimistas. Cuando los agentes pueden publicar libremente, las opiniones de los osos (pesimistas) suelen ser más contundentes y específicas; sin embargo, durante las entrevistas individuales, debido a una preferencia por la cooperación, casi todos proporcionan juicios en el rango del 60%–70%.

Los resultados orgánicos son más confiables. Un asesor financiero publicó durante una discusión acalorada que estima que es del 65%, un juicio formado durante la interacción; mientras que un agente que responde preguntas en una entrevista está esencialmente participando en la coincidencia de patrones.

Irónicamente, los pesimistas en expresiones naturales resultan ser los mejores predictores. Entre los 7 agentes en la simulación que proporcionaron una probabilidad ≤30% (Cancillería iraní, Cancillería china, Kalshi, Platts, un profesor de economía, un estudiante iraní, un activista contra la guerra), el promedio fue del 22%, lo que es menos de una diferencia de 10 puntos porcentuales del resultado de Polymarket. Experiencia + Expresión natural = Lo más cercano al mercado.

Más críticamente, este no es solo un fenómeno de la IA; los actores del mundo real se comportan de la misma manera.

Cuando se entrevista a cualquier líder nacional sobre una crisis, siempre hablarán sobre nuestro compromiso con la paz, nuestro optimismo sobre las soluciones. Este es un guion estándar, algo que se debe decir para la cámara. Pero si observas lo que realmente están haciendo: despliegues militares, sanciones, congelamiento de activos, desinversiones, sus acciones a menudo cuentan una historia completamente diferente.

El príncipe heredero saudí le diría a Reuters que creemos en los medios diplomáticos, mientras que su fondo soberano está valorando asignar hasta $3.2 billones en activos estadounidenses. El presidente iraní diría que la paz es nuestro objetivo común, sin embargo, la Guardia Revolucionaria iraní está colocando minas en el estrecho. Trump diría que veremos, mientras rechaza cada propuesta de alto el fuego.

Esta simulación reprodujo inadvertidamente la misma fractura estructural: a medida que los carteles libres argumentan, debaten, responden y difunden información, el grupo de expertos gradualmente converge en el rango del 20%–30%—más pesimistas y más cerca de la realidad; pero una vez que los traes a una sala de juntas y les preguntas formalmente cuál es tu predicción?, inmediatamente cambian a modo diplomático: 65%–70%, notablemente más optimistas.

Publicación natural, más parecida a la conducta privada y a los diálogos oficiosos; resultados de entrevistas, más parecidos a las conferencias de prensa. Si realmente quieres saber lo que alguien piensa, no se lo preguntes directamente: observa su comportamiento cuando nadie está anotando.

Precio de --

--

¿Qué sigue?

Esta fue solo una prueba inicial. El objetivo no es proporcionar una predicción definitiva, sino ver en este tipo de simulación grupal, qué señales son útiles, dónde hay distorsión, qué partes vale la pena optimizar.

Ya hay respuestas: las discusiones que evolucionan de forma natural pueden generar señales efectivas, las entrevistas no; los pesimistas son la fuente de la señal; y la preferencia de cooperación de GPT-4o mini es, de hecho, un problema.

El próximo experimento tendrá varias mejoras.

La primera es un conjunto de datos de mayor tamaño. Ya no solo un informe de 5800 palabras, sino que se introducirán más de 20 años de contexto histórico: eventos relevantes en el Estrecho de Ormuz, conflictos entre Irán y Estados Unidos en aumento, crisis petroleras pasadas, cambios diplomáticos del CCG, etc. — básicamente lo que un analista geopolítico real tendría en mente antes de hacer evaluaciones.

En segundo lugar, un modelo más potente. GPT-4o mini ha sido suficiente para la validación a un costo de $3, pero un modelo más potente debería acercar al agente al modo de pensar del rol, en lugar de recurrir al optimismo en los momentos críticos.

Por último, más proxies. 200 ya es bueno, pero hay margen para expandirse más: roles humanos regulares más diversos, más voces regionales, más casos límite. Cuantos más participantes, más rica es la estructura de la discusión y más valiosa es la señal resultante.

[Enlace al artículo original]

También te puede interesar

Monedas populares

Últimas noticias sobre criptomonedas

Leer más