Kalshi首份研报:预测CPI时,群体智慧吊打华尔街智囊团
原文标题:Beyond Consensus: Prediction Markets and the Forecasting of Inflation Shocks
原文来源:Kalshi Research
原文编译:Azuma,Odaily 星球日报
编者按:头部预测市场平台 Kalshi 昨日宣布推出一款全新的研报栏目 Kalshi Research,旨在向那些对预测市场相关主题感兴趣的学者和研究人员提供 Kalshi 的内部数据。该栏目的首篇研究报告现已发布,以下为该报告原文内容,由 Odaily 星球日报编译:

概述
一般在重要经济统计数据发布的前一周,大型金融机构的分析师和高级经济学家都会给出对预期数值的预估。这些预测汇总在一起后会被称为「共识预期」,已被广泛视为洞察市场变化与调整仓位布局的重要参考。
在本研报中,我们比较了共识预期与 Kalshi 预测市场的隐含定价(下文有时会简称「市场预测」)在预测同一个核心宏观经济信号——同比整体通胀率(YOY CPI)——真实数值方面的表现。

核心亮点
· 整体准确性占优:在所有市场环境下(含正常环境和冲击环境),Kalshi 预测的平均绝对误差(MAE)比共识预期低 40.1%
·「冲击 Alpha」(Shock Alpha):在出现重大冲击之时(大于 0.2 个百分比),在提前一周的预测窗口内 Kalshi 的预测比共识预期的 MAE 要低 50%,若在数据公布前一天,MAE 会进一步扩大至 60%;在出现中等冲击之时(0.1 - 0.2 个百分比之间),在提前一周的预测窗口内 Kalshi 的预测比「共识预期」的 MAE 同样要低 50%,在数据公布前一天则会扩大至 56.2%。
· 预测信号(Predictive Signal):当市场预测与共识预期的偏差超过 0.1 个百分比时,预测发生冲击的概率约为 81.2%,在数据公布前一天则会升至约 82.4%。在市场预测与共识预期不一致的情况下,市场预测在 75% 的案例中更为准确。
背景
宏观经济预测者面临一个内在挑战:预测最为重要的时刻——即市场失序、政策转向以及结构性断裂之时——恰恰也是历史模型最容易失效的阶段。金融市场参与者通常会在关键经济数据公布前数日发布共识预测,将专家意见汇总为市场的预期。然而,这些共识观点尽管具有价值,却往往共享着相似的方法论路径和信息来源。
对于机构投资者、风险管理者和政策制定者而言,预测准确性的利害关系是不对称的。在无争议时期,稍好一点的预测只能提供有限的价值;但在市场混乱时期——当波动率飙升、相关性瓦解或历史关系失效时——更优的准确性则可以带来显著的 Alpha 收益并限制回撤。
因此,理解参数在市场波动时期的行为特征至关重要。我们将聚焦于一项关键宏观经济指标——同比整体通胀率(YOY CPI)——这是未来利率决策的核心参考指标,也是衡量经济健康状况的重要信号。
我们比较和评估了在官方数据发布前多个时间窗口内的预测准确性。我们的核心发现是,所谓的「冲击 Alpha」确实存在——即在尾部事件中,基于市场的预测相较于共识基准可实现额外的预测精度。这种超额表现并不仅仅意味着纯粹的学术意义,而是在预测误差具有最高经济成本的关键时刻,可显著提升信号质量。在这一背景下,真正重要的问题并非预测市场是否「总是正确」,而是它们是否提供了一种值得被纳入传统决策框架的、具有差异化价值的信号。
方法论
数据
我们分析了预测市场交易者在 Kalshi 平台上的每日隐含预测值,覆盖三个时间节点:数据公布前一周(与共识预期发布时间匹配)、公布前一天、公布当日上午。所使用的每一个市场均为(或曾为)真实可交易的在运行市场,反映了在不同流动性水平下的真实资金头寸。对于共识预期,我们收集了机构层面的 YoY CPI 共识预测,这些预测通常在美国劳工统计局官方数据发布前约一周公布。
样本区间取自 2023 年 2 月至 2025 年中期,覆盖了超过 25 个月度 CPI 发布周期,横跨多种不同的宏观经济环境。
冲击分类
我们根据相对于历史水平的「意外幅度」将事件分成了三类。「冲击」被定义为共识预期与实际公布数据之间的绝对差值:
· 正常事件:YOY CPI 的预测误差低于 0.1 个百分点;
· 中等冲击:YOY CPI 的预测误差介于 0.1 至 0.2 个百分点之间;
· 重大冲击:YOY CPI 的预测误差超过 0.2 个百分点。
该分类方法使我们能够检验:预测优势是否会随着预测难度的变化而呈现出系统性的差异。
绩效指标
为了评估预测表现,我们采用以下指标:
· 平均绝对误差(MAE):主要的准确性指标,计算方式为预测值与实际值之间绝对差的平均值。
· 胜率:当共识预期与市场预测之间的差异达到或超过 0.1 个百分点(四舍五入至一位小数)时,我们会记录哪一个预测更接近最终实际结果。
· 预测时间跨度分析:我们追踪市场估值的准确性如何从发布前一周到发布日逐步演变,以揭示持续纳入信息所带来的价值。
结果:CPI 预测表现
整体准确性更占优
在所有市场环境下,基于市场的 CPI 预测相较于共识预测,平均绝对误差(MAE)要低 40.1%。在所有时间跨度上,基于市场的 CPI 预测 MAE 比共识预期要低 40.1%(提前一周)至 42.3%(提前一天)。
此外,在共识预期与市场隐含值存在分歧的情况下,Kalshi 基于市场的预测展现出具有统计显著性的胜率,范围从提前一周的 75.0% 到发布当天的 81.2%。若将与共识预期打平的情况(精确到一位小数)一并计入,基于市场的预测在提前一周时约有 85% 的情况下与共识持平或表现更优。
如此高的方向性准确率表明:当市场预测与共识预期出现分歧时,这种分歧本身对「是否可能发生冲击事件」具有显著的信息价值。
「冲击 Alpha」确实存在
预测准确性的差异在冲击事件期间表现得尤为明显。在中等冲击事件中,当发布时间一致时市场预测的 MAE 要与共识预期低 50%,在数据公布前一天这一优势则会扩大至 56.2% 乃至更多;在重大冲击事件中,当发布时间一致时市场预测的 MAE 同样要与共识预期低 50%,在数据公布前一天则可达到 60% 乃至更多;而在未发生冲击的正常环境中,市场预测与共识预期的表现大致相当。
尽管冲击事件的样本数量较小(这在一个「冲击本就高度不可预测」的世界中是合理的),但整体模式却非常清晰:当预测环境最为艰难之时,市场的信息聚合优势反而最具价值。
然而,更重要的不仅仅是 Kalshi 的预测在冲击时期的表现更优,还在于市场预测与共识预期之间的分歧本身可能就是冲击即将发生的信号。在存在分歧的情况下,市场预测相对于共识预期的胜率达到 75%(在可比时间窗口内)。此外阈值分析进一步表明:当市场与共识的偏差超过 0.1 个百分比时,预测发生冲击的概率约为 81.2%,而在数据公布前一天,这一概率进一步上升至约 84.2%。
这一在实践层面具有显著意义的差异表明:预测市场不仅可以作为与共识预期并列的竞争性预测工具,还可以作为一种关于预测不确定性的「元信号」,将市场与共识的分歧转化为一种可量化的、用于预警潜在意外结果的早期指标。
衍生讨论
一个显而易见的问题随之而来:为什么在冲击期间,市场预测会优于共识预测?我们提出了三种相互补充的机制来解释这一现象。
市场参与者异质性与「群体智慧」
传统的共识预期虽然整合了多家机构的观点,但往往共享相似的方法论假设和信息来源。计量经济模型、华尔街研究报告以及政府数据发布构成了一个高度重叠的共同知识基础。
相比之下,预测市场汇聚了具有不同信息基础的参与者所持有的头寸:包括专有模型、行业层面的洞察、替代数据来源以及基于经验的直觉判断。这种参与者多样性在「群体智慧」(wisdom of crowds)理论中具有坚实的理论基础。该理论表明,当参与者掌握相关信息且其预测误差并非完全相关时,将来自多样化来源的独立预测进行聚合,往往能够产生更优的估计结果。
而在宏观环境发生「状态切换」之时,这种信息多样性的价值尤为突出——拥有零散、局部信息的个体在市场中进行交互,其信息碎片得以组合,从而形成一个集体信号。
参与者激励结构的差异
机构层面的共识预测者往往处于复杂的组织与声誉体系之中,这种体系会系统性地偏离「纯粹追求预测准确性」的目标。职业预测者所面临的职业风险,形成了一种非对称的收益结构——较大的预测失误会造成显著的声誉成本,而即便预测极其准确,尤其是通过大幅偏离同行共识而实现的准确性,也未必能获得成比例的职业回报。
这种非对称性诱发了「从众行为」(herding),即预测者倾向于将自己的预测聚拢在共识值附近,即便其私人信息或模型输出暗示了不同的结果。原因在于,在职业体系中,「孤立地犯错」的成本往往高于「孤立地正确」的收益。
与此形成鲜明对比的是,预测市场参与者所面临的激励机制实现了预测准确性与经济结果之间的直接对齐——预测准确意味着盈利,预测错误意味着亏损。在这一体系中,声誉因素几乎不存在,偏离市场共识的唯一代价是经济上的损失,且完全取决于预测是否正确。这种结构对预测准确性施加了更强的选择压力——能够系统性识别共识预测错误的参与者会不断积累资本,并通过更大的仓位规模增强其在市场中的影响力;而那些机械性跟随共识的参与者,则会在共识被证明错误时持续遭受损失。
在不确定性显著上升的时期,当机构预测者偏离专家共识的职业成本达到最高点时,这种激励结构的分化往往最为明显,且在经济意义上最为重要。
信息聚合效率
一个值得注意的经验事实是:即便在数据公布前一周——这一时间点与共识预期发布的典型时间窗口一致——市场预测仍然表现出显著的准确性优势。这表明,市场优势并非仅仅源自预测市场参与者通常被提及的「信息获取速度优势」。
相反,市场预测可能更高效地聚合了那些过于分散、过于行业化或过于模糊,以至于难以被正式纳入传统计量经济预测框架的信息碎片。预测市场的相对优势,可能并不在于更早接触到公共信息,而在于其能够在相同时间尺度内,更有效地综合异质信息——而基于问卷调查的共识机制,即便拥有同样的时间窗口,也往往难以高效处理这些信息。
局限性与注意事项
我们的研究结果需要做出一项重要限定。由于整体样本仅覆盖约 30 个月,重大冲击事件在定义上本就十分罕见,这意味着对于较大的尾部事件,统计效力仍然有限。更长的时间序列将增强未来的推断能力,尽管当前的结果已强烈暗示了市场预测的优越性与信号的差异性。
结论
我们记录了预测市场相对于专家共识预期在系统性和经济意义上的显著尤其表现,尤其是在预测准确性最为关键的冲击事件期间。基于市场的 CPI 预测在整体上的误差要低约 40%,而在重大结构性变化时期,其误差降低幅度可达约 60%。
基于这些发现,未来的几项研究方向变得尤为重要:一是通过更大样本规模、跨多种宏观经济指标,研究「冲击 Alpha」事件本身是否可以通过波动性和预测分歧指标进行预测;二是预测市场在何种流动性门槛之上,能够稳定地超越传统预测方法;三是预测市场的预测值与由高频交易金融工具隐含出的预测值之间的关系。
在共识预测高度依赖相关性较强的模型假设与共享信息集的环境中,预测市场提供了一种替代性的信息聚合机制,能够更早地捕捉到状态切换,并更高效地处理异质信息。对于那些需要在结构性不确定性和尾部事件频率不断上升的经济环境中做出决策的主体而言,「冲击 Alpha」或许不仅仅代表着预测能力的渐进式改进,更应成为其稳健风险管理基础设施的一个基本组成部分。
猜你喜欢

AI末日论,是一场巨大的做空

Luna崩盘的「第二真相」:Jane Street在暴跌前夜撤离

Jane Street操纵市场、Stripe考虑收购PayPal,海外币圈今天在聊啥?
WEEX × LALIGA 2026:交易加密货币,抓住机会,赢取西甲官方奖品。
通过合约交易、现货交易或推荐解锁射击机会。在 WEEX 上,将比赛预测转化为 BTC、USDT、持仓空投和西甲商品等结构化奖励。

a16z:为什么AI代理需要稳定币进行B2B支付?

2月24日市场关键情报,你错过了多少?

Web4.0,也许是加密货币最被需要的叙事

春节假期你可能错过的一些重要新闻

2月24日关键市场信息差,一定要看!|Alpha早报

年薪150万的工作,如何用500美元的AI完成?

比特币链上用户蒸发30%、ETF失血45亿美元:未来3个月怎么走?

WLFI风波发酵、ZachXBT预告内幕调查,海外币圈今天在聊啥?

击碎AI崩溃论:为什么建制惯性与软件荒原将拯救我们
编者按:Citrini7 那篇充满赛博朋克色彩的 AI 终局预言引发全网热议,但这篇文章呈现的是一个更具实用主义色彩的反面视角。如果说 Citrini 看到的是数字海啸瞬间吞没文明,那本文作者看到的则是人类官僚体制的顽强抵抗、烂到透顶的现有软件生态,以及被长期忽视的重工业基石。这是一场硅谷幻想与现实铁律的正面交锋,它提醒我们奇点或许会降临,但它绝不会在一天之内发生。
以下为原文内容:
知名市场评论员 Citrini7 最近发表了一篇引人入胜且广为流传的 AI 灾难小说。虽然他承认其中的某些场景发生的概率极低,但我作为一个见证过多次经济崩盘预言的人,想对他的观点提出质疑,并展示一个更具确定性、也更乐观的未来。
2007 年,人们认为在「石油见顶」的背景下,美国的地缘政治地位已宣告终结;2008 年,人们觉得美元体系几近崩溃;2014 年,大家认为 AMD 和 NVIDIA 气数已尽。接着 ChatGPT 横空出世,人们又觉得谷歌药丸……然而每一次,拥有深厚惯性的既有机构都证明了,它们远比旁观者想象的要坚韧。
当 Citrini 谈到机构更迭和劳动力被迅速取代的恐惧时,他写道:「即使是那些我们认为靠人际关系维系的领域也显得弱不禁风。比如房地产行业,几十年来买家之所以忍受 5%-6% 的佣金,是因为经纪人与消费者之间的信息不对称……」
看到这儿我不禁哑然失笑。人们喊「房地产经纪人消亡」已经喊了 20 年了!这根本不需要什么超级智能,有 Zillow、Redfin 或 Opendoor 就够了。但这个例子恰恰证明了与 Citrini 相反的观点:尽管这种劳动力在大多数人眼中早已过时,但由于市场惯性和监管俘获(Regulatory Capture),房地产经纪人的生命力比十年前任何人的预期都要顽强。
我几个月前刚买了一套房。交易过程强制要求我们聘请经纪人,理由冠冕堂皇。我的买方经纪人在这笔交易中赚了大约 5 万美元,而他实际做的工作——填表和多方协调——满打满算也就 10 小时,我完全可以自己搞定。这个市场最终会走向高效,给劳动力合理定价,但这需要漫长的过程。
我深谙惯性与变革管理之道:我曾创立并卖掉过一家公司,核心业务是推动保险经纪公司从「人工服务」转型为「软件驱动」。我学到的铁律是:现实世界中的人类社会极其复杂,任何事情所需的时间总是比你想象的要长——即便你已经考虑到了这条铁律。这并不意味着世界不会发生剧变,而是意味着变化会更温和,给我们留出应对和调整的时间。
最近软件板块走势低迷,因为投资者担心 Monday、Salesforce、Asana 等公司的后端系统缺乏护城河,极易被复制。Citrini 等人认为 AI 编程预示着 SaaS 公司的终结:一是产品变得同质化、零利润,二是工作岗位消失。
但大家都忽略了一点:现在的这些软件产品简直烂透了。
我有资格这么说,因为我在 Salesforce 和 Monday 上花过几十万美元。诚然,AI 能让竞争对手复制这些产品,但更重要的是,AI 能让竞争对手做出更好的产品。股价下跌并不奇怪:一个靠长期捆绑、缺乏竞争力、充斥着劣质老牌企业的行业,终于要重新迎来竞争了。
从更广义的角度看,几乎所有现有的软件都是垃圾,这已是不争的事实。我付钱买的每一个工具都充满了 Bug;有些软件烂到我想付钱都付不了(过去三年我一直没法用花旗银行的网银汇款);大多数 Web 应用连移动端和桌面的适配都搞不定;没有一个产品能完全实现你想要的功能。像 Stripe 和 Linear 这样的硅谷宠儿之所以能收获大量拥泵,仅仅是因为它们做得不像竞争对手那样令人发指地难用。如果你问一个资深工程师:「给我看一个真正完美的软件」,得到的只会是长久的沉默和茫然的对视。
这里隐藏着一个深刻的真相:即使我们迎来了「软件奇点」,人类对软件劳动力需求也近乎无限。众所周知,最后几个百分点的完善往往需要投入最多的工作。按这个标准,几乎每个软件产品在达到需求饱和前,其复杂度和功能至少还有 100 倍的提升空间。
我觉得那些断言软件行业即将消亡的评论员,大多缺乏开发软件的直觉。软件行业存在 50 年了,尽管进步巨大,但它永远处于「不足」的状态。作为 2020 年的程序员,我的生产力抵得上 1970 年的几百人,这种杠杆极其惊人,但结果依然留有巨大的优化空间。人们低估了「杰文斯悖论」(Jevons Paradox):效率的提高往往会带来总需求的爆炸式增长。
这并不意味着软件工程是个永远不倒的铁饭碗,但这个行业吸收劳动力的能力和惯性远超想象,饱和过程会非常缓慢,足以让我们从容应对。
当然,劳动力转移必然发生,比如驾驶领域。正如 Citrini 所言,许多白领工作会经历震荡。对于像房地产经纪人这种早已失去实质价值、全靠惯性拿钱的岗位,AI 可能是压死骆驼的最后一根稻草。
但我们的救命稻草在于:美国在再工业化方面有着近乎无限的潜力和需求。你可能听说过「制造业回流」,但这远不止于此。我们已经基本丧失了制造现代生活核心构建模块的能力:电池、电机、小型半导体——整个电力产业链几乎完全依赖海外。如果发生军事冲突怎么办?甚至更糟,你知道中国生产了全球 90% 的合成氨吗?一旦断供,我们连化肥都造不出来,只能挨饿。
只要你把目光投向物理世界,你就会发现无穷无尽的工作机会,这些都是造福国家、创造就业的基础设施建设,且在政治上能获得跨党派的支持。
我们已经看到经济和政治风向在往这个方向转——谈论制造业回流、深科技、以及「美国活力」。我的预测是,当 AI 冲击白领层时,政治阻力最小的路径将是资助大规模再工业化,通过「就业巨型工程」来吸纳劳力。幸好,物理世界不存在「奇点」,它受制于摩擦力。
我们会重新修桥铺路。人们会发现,看到实实在在的劳动成果,比在数字抽象世界里打转更有成就感。那个失去 18 万美元年薪的 Salesforce 高级产品经理,或许会在「加州海水淡化厂」找到新工作,去终结那场持续 25 年的干旱。这些设施不仅要建成,还要追求极致,并且需要长期的维护。只要我们愿意,「杰文斯悖论」同样适用于物理世界。
大规模工业工程的终点是丰饶。美国将重新实现自给自足,实现大规模、低成本的生产。超越物质匮乏是关键:长远来看,如果我们真的因为 AI 失去了大部分白领工作,我们必须有能力维持民众高质量的生活。而由于 AI 将利润率压至零,消费品将变得极其廉价,这部分目标会自动实现。
我的观点是,经济的不同部门会以不同的速度「起飞」,而几乎所有领域的转型都会比 Citrini 预想的要慢。澄清一下,我极度看好 AI,也预见到有一天我的劳动也会过时。但这需要时间,而时间给了我们制定良策的机会。
在这一点上,防止 Citrini 想象中的市场崩盘其实并不难。美国政府在疫情期间的表现证明了其应对危机时的积极与果敢。一旦需要,大规模刺激政策会迅速介入。虽然承认其效率低下让我有些不快,但这并非重点。重点是保障民众生活中的物质繁荣——一种能赋予国家合法性、维系社会契约的普遍福祉,而不是去死守过去的会计指标或经济教条。
如果我们能在这场缓慢但确定的技术变革中保持敏锐和响应,我们终将安然无恙。
「原文链接」

机构终于「进场加密」,但却是来吸血的?

一篇价值2000亿美元的终局论:AI在2028年带来席卷世界的经济危机

当球队利用预测市场对冲风险时,一个价值数十亿美元的金融市场应运而生

加密货币市场概览与新兴趋势
关键要点了解加密货币市场的现状对投资者和爱好者都至关重要,它提供了……

无标题
对不起,我无法按照您的要求执行此任务。
AI末日论,是一场巨大的做空
Luna崩盘的「第二真相」:Jane Street在暴跌前夜撤离
Jane Street操纵市场、Stripe考虑收购PayPal,海外币圈今天在聊啥?
WEEX × LALIGA 2026:交易加密货币,抓住机会,赢取西甲官方奖品。
通过合约交易、现货交易或推荐解锁射击机会。在 WEEX 上,将比赛预测转化为 BTC、USDT、持仓空投和西甲商品等结构化奖励。