¿Son correctos los precios de Polymarket? Simulé una crisis con 200 agentes para averiguarlo.

By: block beats|2026/03/18 13:18:51
0
Compartir
copy
Título original: Cómo ejecuto 200 agentes de IA en la crisis de Hormuz con Mirofish y lo comparo con Polymarket.
Autor original: El simio inteligente
Traducción: Peggy, BlockBeats

Nota del editor: Cuando la IA comienza a simular un campo de opinión pública, la predicción del evento en sí está cambiando silenciosamente.

Este artículo documenta un experimento sobre la situación en torno al estrecho de Ormuz: el autor utilizó MiroFish para construir un sistema de simulación compuesto por 200 agentes, lo que permitió a gobiernos, medios de comunicación, empresas energéticas, comerciantes y ciudadanos comunes convivir en una red social simulada, formando juicios a través de la interacción continua, el debate y la difusión de información, y comparando los resultados de este grupo con los precios de mercado de Polymarket.

Los resultados no fueron consistentes. En general, el debate grupal fue más optimista, mientras que el mercado fue significativamente más pesimista; en cuanto a la libertad de expresión, los pocos pesimistas se acercaron más a los precios reales; y en una ocasión, en un escenario de entrevista, casi todos los agentes convergieron hacia una expresión más moderada y cooperativa.

Este tipo de división no es desconocida. En el mundo real, las declaraciones públicas suelen ser estables y optimistas, mientras que la verdadera evaluación de riesgos se oculta en las acciones y las expresiones informales. En otras palabras, lo que la gente dice, lo que piensa y cómo apuesta su dinero suelen ser tres sistemas diferentes.

En una estructura así, la señal más valiosa a menudo no proviene del consenso, sino de aquellas voces que parecen poco convencionales en medio del ruido.

El siguiente es el texto original:

Utilicé MiroFish para simular la situación en el estrecho de Ormuz durante las próximas semanas. Esta herramienta es excelente para abordar este tipo de problemas porque puede realizar análisis de escenarios muy complejos: introduce múltiples participantes, diferentes roles con sus incentivos en el mismo sistema, y ​​permite que estos agentes jueguen continuamente, debatan y lleguen gradualmente a un resultado similar al consenso.

¿Son correctos los precios de Polymarket? Simulé una crisis con 200 agentes para averiguarlo.

Estos son los pasos específicos que seguí para ejecutar esta simulación y los resultados que finalmente obtuve. Cualquiera puede reproducirlo; la clave está en saber qué pasos seguir.

En primer lugar, MiroFish es un proyecto de código abierto desarrollado por un equipo de investigación chino. Tras introducir un lote de documentos, primero creará un grafo de conocimiento, luego generará diferentes personalidades de agentes basándose en este grafo y, finalmente, colocará a estos agentes en un entorno simulado de Twitter. En este entorno, publicarán, retuitearán, comentarán, darán "me gusta" y discutirán entre sí. Una vez finalizada la simulación, también puedes entrevistar a cada agente individualmente para conocer sus respectivas posturas y procesos de razonamiento.

Al introducirle un escenario de crisis, genera un debate en torno a ese evento; a partir de ese debate, se puede extraer una predicción.

Lo señalé en relación con una cuestión de mercado actual de Polymarket: ¿Volverá a la normalidad el transporte marítimo en el estrecho de Ormuz a finales de abril de 2026?

Así pues, introduje toda esta información en MiroFish y generé 200 roles de agentes —entre ellos, gobierno, medios de comunicación, militares, empresas energéticas, comerciantes y ciudadanos comunes— y los puse a debatir durante 7 días simulados. Finalmente, comparé su producción con los precios del mercado.

La configuración general fue la siguiente:

· Modelo: GPT-4o mini: equilibrio óptimo entre coste y eficacia en un escenario de 200 agentes.

· Sistema de memoria: Zep Cloud, utilizado para almacenar memorias de agentes y grafos de conocimiento.

· Motor de simulación: OASIS (un entorno clon de Twitter proporcionado por Camel-AI)

· Hardware: Mac mini M4 Pro, 24 GB de RAM

· Tiempo de ejecución: Aproximadamente 49 minutos para completar 100 rondas de simulación.

· Costo: Las llamadas a la API cuestan entre 3 y 5 dólares.

· Material de siembra: Un breve informe de 5800 caracteres, con información procedente de Wikipedia, CNBC, Al Jazeera, Forbes y Reuters, que incluye una cronología militar, el estado del bloqueo, los precios del petróleo, las pérdidas económicas, los esfuerzos diplomáticos y los factores relacionados con una inversión de 3,2 billones de dólares en el Consejo de Cooperación del Golfo (CCG). En otras palabras, se incluyó toda la información esencial necesaria para que los agentes pudieran formarse un juicio.

Cómo replicar este flujo de trabajo (Guía paso a paso)

Si quieres llevar a cabo este proceso tú mismo, aquí tienes todos los pasos que seguí. Todo el proceso tarda aproximadamente 2 horas en configurarse, con un coste de API de entre 3 y 5 dólares; aumentar el número de rondas o agentes incrementará aún más el coste.

Lo que necesitarás

• Python 3.12 (no utilice la versión 3.14, ya que tiktoken generará un error en esta versión).

Node.js versión 22 o superior

• Una clave API de OpenAI (GPT-4o Mini es lo suficientemente económica y adecuada para este caso).

• Una cuenta de Zep Cloud (la versión gratuita es suficiente para simulaciones a pequeña escala).

·Una máquina con buena memoria. Yo uso un Mac mini M1 Pro con 24 GB de memoria, pero 16 GB también deberían ser suficientes.

Paso 1: Instalar MiroFish

Luego, configura tu archivo .env

OPENAI_API_KEY=sk-tu-clave

OPENAI_BASE_URL=enlace

OPENAI_MODEL=gpt-4o-mini

ZEP_API_KEY=tu-clave-zep

Paso 2: Crea un proyecto y sube tu documento semilla.

El documento semilla es la parte más importante de todo el proceso, ya que determina qué información conoce el agente sobre la situación actual. Preparé un breve informe de aproximadamente 5800 caracteres que abarca la cronología militar, el estado del bloqueo, los precios del petróleo, las pérdidas económicas, los esfuerzos diplomáticos y el aspecto de la inversión en el CCG, con fuentes de Wikipedia, CNBC, Al Jazeera, Forbes y Reuters.

Paso 3: Generar la ontología

Este paso le indica a MiroFish qué tipos de entidades debe reconocer y qué relaciones pueden existir entre estas entidades.

Terminé generando 10 tipos de entidades: país, ejército, diplomáticos, entidades comerciales, organizaciones de medios de comunicación, entidades económicas, organizaciones, individuos, infraestructura, mercados de predicción; y 6 tipos de relaciones. Si los resultados generados automáticamente no se ajustan del todo a su situación, también puede ajustarlos manualmente.

Paso 4: Construir el grafo de conocimiento

Este paso implica el uso de Zep Cloud. MiroFish enviará el documento semilla y la ontología a Zep, que se encargará de la extracción de entidades y la construcción del grafo.

Este proceso tardará aproximadamente entre uno y dos minutos. Al final, obtuve un grafo con 65 nodos y 85 aristas, que conectan elementos como países, personalidades, organizaciones y productos básicos.

Paso cinco: Generar agentes

MiroFish utilizará el grafo de conocimiento para crear un perfil completo para cada entidad, incluyendo el tipo de personalidad MBTI, la edad, el país de origen, el estilo de publicación, los desencadenantes emocionales, los temas tabú y la memoria institucional.

Inicialmente, generé 43 agentes principales a partir del grafo de conocimiento. Posteriormente, el sistema puede ampliar estas funciones principales hasta alcanzar la cantidad total deseada. Finalmente, establecí el número total de agentes en 200 e incluí roles civiles diversos adicionales, como comerciantes de criptomonedas, pilotos de aerolíneas, profesores, estudiantes, activistas sociales y más.

Paso seis: Preparar el entorno de simulación

Este paso configurará la simulación completa, incluyendo los cronogramas de acción de los agentes, las publicaciones iniciales y los parámetros de tiempo. MiroFish seleccionará automáticamente un conjunto de ajustes predeterminados razonables, como las horas pico de actividad, el tiempo de inactividad y las frecuencias de publicación para diferentes tipos de agentes.

Mi configuración en ese momento era la siguiente: simular un total de 168 horas (7 días), 100 rondas (cada ronda representando 1 hora), utilizando exclusivamente el escenario de Twitter y estableciendo horarios de actividad individuales para diferentes agentes.

Paso siete: Comience a ejecutar la simulación.

Entonces, es momento de esperar. Por mi parte, ejecutar 200 agentes y 100 rondas de simulación con GPT-4o mini me llevó aproximadamente 49 minutos. Puedes supervisar el progreso a través de una API o consultar directamente los registros.

Durante todo el proceso, los agentes operarán de forma autónoma: observarán la cronología y decidirán si publicar, retuitear comentarios, compartir, dar "me gusta" o simplemente desplazarse por el feed, todo ello sin necesidad de intervención humana.

Paso ocho (opcional): Agentes de entrevistas

Una vez finalizada la simulación, el sistema entrará en modo de comando. En este punto, puede realizar entrevistas individuales con agentes específicos o entrevistar a todos los agentes a la vez:

Análisis

MiroFish primero leerá el documento semilla y generará automáticamente la estructura ontológica (que comprende 10 tipos de entidades y 6 tipos de relaciones); luego extraerá un grafo de conocimiento basado en estas definiciones (que contiene 65 nodos y 85 aristas). Partiendo de esta base, se creará un perfil completo para cada entidad, que incluirá el tipo de personalidad MBTI, la edad, el país de origen, el estilo de publicación, los desencadenantes emocionales y los elementos de la memoria institucional.

Finalmente, se generaron 43 agentes principales a partir del grafo de conocimiento, que luego se amplió hasta un total de 200 agentes. Esto introdujo un conjunto más diverso de roles para la gente común, con el fin de mejorar la diversidad y el realismo general de la simulación.

El desglose específico es el siguiente:

• 140 agentes comunes: comerciantes de criptomonedas, pilotos de aerolíneas, gerentes de cadena de suministro, estudiantes, activistas sociales, profesores, etc.

· 16 funciones diplomáticas/gubernamentales: Ministro de Asuntos Exteriores de Irán, Ministro de Asuntos Exteriores de Arabia Saudí, Ministro de Asuntos Exteriores de Omán, Primer Ministro de Bahréin, Ministro de Asuntos Exteriores de China, UE, ONU, etc.

· 15 organizaciones de medios de comunicación: Reuters, CNN, Bloomberg, Al Jazeera, BBC, Fox, Wall Street Journal, etc.

· 10 relacionados con la energía/transporte marítimo: OPEP, Platts, QatarEnergy, Aramco, Maersk, etc.

· 7 instituciones financieras: Polymarket, Kalshi, Goldman Sachs, JPMorgan, Citadel, ADIA, etc.

· 2 figuras militares/políticas: Trump, comandante de la Guardia Revolucionaria Islámica

Durante el proceso de simulación de 7 días (100 rondas), se generaron los siguientes resultados:

1.888 publicaciones

6.661 registros de comportamiento (que capturan todas las acciones)

1.611 retuits con citas (agentes respondiéndose entre sí)

4.051 actualizaciones (solo para ver el feed)

311 inactivos (optando por observar)

208 me gusta, 207 retweets

70 puntos de vista originales (nuevas posturas o juicios independientes)

En definitiva, este sistema no se limita a la simple generación de información, sino que se asemeja más a una simulación de comportamiento social. La mayor parte del tiempo, se observa que los agentes procesan información e interactúan entre sí, en lugar de producir resultados de forma constante. Esta estructura se asemeja más a la distribución del comportamiento en un entorno real de opinión pública: contenido original limitado superpuesto con una extensa reiteración, manipulación y retroalimentación emocional.

Los agentes dedican la mayor parte de su tiempo a leer y citar puntos de vista ajenos, en lugar de crear activamente contenido nuevo.

Todo el grupo muestra un claro sesgo en la propagación de las emociones: los puntos de vista optimistas se amplifican y comparten con mayor facilidad, mientras que los juicios pesimistas, aunque lógicamente estén más cerca de la realidad, tienden a difundirse menos y tienen menor repercusión.

Lo que resulta aún más interesante es que 19 agentes proporcionaron espontáneamente evaluaciones de probabilidad específicas durante sus publicaciones, no porque se les pidiera, sino como una evolución natural de la discusión.

La probabilidad media del grupo formado espontáneamente es del 47,9%, mientras que el mercado de Polymarket ofrece una probabilidad del 31%, lo que resulta en una diferencia de 16,9 puntos porcentuales entre ambos.

Durante el proceso de simulación, algunos agentes incluso cambiaron su postura a lo largo de 100 rondas de interacción.

Tras la simulación, utilicé la función de entrevista de MiroFish para hacer la misma pregunta a 43 agentes principales: ¿Cuál es la probabilidad, desde ahora hasta finales de abril de 2026, de que el tráfico marítimo en el Estrecho de Ormuz vuelva a la normalidad (0-100%)?

Los resultados fueron los siguientes: De los 43 agentes, 31 proporcionaron valores específicos, mientras que los otros 12 optaron por no responder. Cabe destacar que las voces más cautelosas suelen optar por la autocensura en lugar de hacer predicciones explícitas, un comportamiento que se asemeja mucho al de estas instituciones en la vida real.

El valor promedio para cada categoría es superior al 60%: El sector militar representa el 75%, los medios de comunicación el 69%, la energía el 66%, las finanzas el 65% y la diplomacia el 61%. La cifra del mercado se sitúa en el 31,5%.

El resultado del grupo orgánico, fruto de la evolución natural, frente al resultado de la entrevista, presenta dos imágenes radicalmente diferentes.

Este es el hallazgo más importante.

Los resultados de las entrevistas tienden a ser más optimistas. Cuando los agentes tienen libertad para publicar, las opiniones de los pesimistas suelen ser más contundentes y específicas; sin embargo, durante las entrevistas individuales, debido a la preferencia por la cooperación, casi todos ofrecen valoraciones que se sitúan entre el 60 % y el 70 %.

Los resultados orgánicos son más fiables. Un asesor financiero publicó durante una acalorada discusión que estima que es del 65%, un juicio formado durante la interacción; mientras que un agente que responde preguntas en una entrevista está esencialmente realizando una comparación de patrones.

Irónicamente, los pesimistas en las expresiones naturales resultan ser los mejores predictores. Entre los 7 agentes de la simulación que proporcionaron una probabilidad ≤30% (un gerente de finanzas iraní, un gerente de finanzas chino, Kalshi, Platts, un profesor de economía, un estudiante iraní y un activista pacifista), el promedio fue del 22%, lo que supone una diferencia de menos de 10 puntos porcentuales con respecto al resultado de Polymarket. Experiencia + Expresión natural = Lo más cercano al mercado.

Y lo que es más importante, esto no es solo un fenómeno de la IA; los actores del mundo real se comportan de la misma manera.

Cuando se entrevista a cualquier líder nacional sobre una crisis, siempre hablarán de nuestro compromiso con la paz y de nuestro optimismo respecto a las soluciones. Este es un guion estándar, algo que hay que decir delante de la cámara. Pero si uno se fija en lo que realmente hacen (despliegues militares, sanciones, congelación de activos, desinversiones), sus acciones a menudo cuentan una historia completamente diferente.

El príncipe heredero saudí declaró a Reuters que creen en los medios diplomáticos, mientras que su fondo soberano de inversión tiene previsto invertir hasta 3,2 billones de dólares en activos estadounidenses. El presidente iraní diría que la paz es nuestro objetivo común, pero la Guardia Revolucionaria iraní está colocando minas en el estrecho. Trump diría que ya veremos, mientras rechaza todas las propuestas de alto el fuego.

Esta simulación reprodujo inadvertidamente la misma fisura estructural: a medida que los participantes que publican sin intermediarios argumentan, debaten, responden y difunden información, el grupo de expertos converge gradualmente en el rango del 20% al 30%, más pesimista y más cercano a la realidad; pero una vez que se les reúne en una sala de juntas y se les pregunta formalmente cuál es su predicción, inmediatamente cambian al modo diplomático: Entre el 65% y el 70%, un optimismo notablemente mayor.

Publicaciones espontáneas, más parecidas a la conducta privada y a los diálogos extraoficiales; resultados de entrevistas, más parecidos a ruedas de prensa. Si de verdad quieres saber lo que piensa alguien, no le preguntes directamente; fíjate en su comportamiento cuando nadie está anotando puntos.

Precio de --

--

¿Qué sigue?

Esto fue solo una prueba inicial. El objetivo no es proporcionar una predicción definitiva, sino observar, mediante este tipo de simulación grupal, qué señales son útiles, dónde existe distorsión y qué partes merecen ser optimizadas.

Ya existen respuestas: las discusiones que han evolucionado de forma natural pueden proporcionar señales eficaces, las entrevistas no; los pesimistas son la fuente de la señal; y la preferencia por la cooperación del GPT-4o mini es, de hecho, un problema.

El próximo experimento incluirá varias mejoras.

Primero, se necesitan datos de semillas más grandes. Ya no se trata solo de un breve informe de 5800 palabras, sino que introduce más de 20 años de contexto histórico: acontecimientos relevantes en el Estrecho de Ormuz, la escalada de los conflictos entre Irán y Estados Unidos, crisis petroleras pasadas, cambios diplomáticos en el Consejo de Cooperación del Golfo, etc.; básicamente, lo que un verdadero analista geopolítico tendría en mente antes de hacer evaluaciones.

El segundo es un modelo más robusto. GPT-4o mini ha sido suficiente para la validación a un costo de $3, pero un modelo más fuerte debería acercar al agente a la forma de pensar propia del rol, en lugar de adoptar por defecto una visión optimista del diálogo en momentos críticos.

Por último, más proxies. Contar con 200 personas ya es un buen número, pero hay margen para seguir creciendo: incluir roles humanos más diversos, más voces regionales y más casos excepcionales. Cuantos más participantes haya, más rica será la estructura del debate y más valiosa la señal resultante.

[ Enlace al artículo original ]

También te puede gustar

Desde OKX hasta Bybit, las plataformas de intercambio están cambiando las ruedas en plena autopista a toda velocidad

En el contexto actual de endurecimiento de la normativa a nivel mundial, si se puede acceder directamente al mercado con un socio que ya cuente con un sistema de cumplimiento normativo, la autorización de la licencia federal, la credibilidad de una empresa que cotiza en bolsa y el acceso a canales de cooperación bancaria, el coste es simplemente...

Breve historia y futuro de los contratos perpetuos

Las plataformas descentralizadas de contratos perpetuos, como Hyperliquid, están sustituyendo a los derivados tradicionales gracias a sus ventajas estructurales, convirtiéndose en plataformas financieras valoradas en billones de dólares que atraen activos de todo el mundo.

Un agente de IA obtiene su documento de identidad y su monedero digital el mismo día | Resumen matutino de Rewire News

La infraestructura de agentes para la economía se está desarrollando más rápido de lo que nadie esperaba

IOSG: Cambio de paradigma en la flexibilidad energética: De los macroactivos a la capa de inteligencia distribuida

Se está pidiendo al sistema energético que realice una tarea para la que no fue diseñado.

Explicación del aumento del 35 % en los precios de Murata: Un condensador que le da un golpe de frío al Imperio de la IA

La decisión de ampliar la capital en este momento tiene un claro incentivo económico

MiniMax: Un joven del condado de Henan y sus 300 mil millones

El dinero, las tarjetas y la gente escaseaban, pero eso impulsó los más altos niveles de destreza en ingeniería e innovación arquitectónica.

Monedas populares

Últimas noticias cripto

Más información