IOSG: From Compute to Intelligence, Reinforcement Learning-Driven Decentralized AI Investment Map
Original Title: "IOSG Weekly Brief | From Computing Power to Intelligence: Reinforcement Learning-Driven Decentralized AI Investment Map"
Original Author: Jacob Zhao, IOSG Ventures
Artificial Intelligence is transitioning from a primarily "Pattern Matching"-based statistical learning approach to a core capability system based on "Structured Reasoning." The importance of Post-training is rapidly increasing. The emergence of DeepSeek-R1 marks a paradigmatic shift for reinforcement learning in the era of large models. The industry has reached a consensus that Pre-training establishes a model's general capability foundation, and reinforcement learning is no longer just a value alignment tool. It has been proven to systematically improve the quality of the reasoning chain and the complexity of decision-making abilities. It is gradually evolving into a technical path for continuously enhancing intelligence.
Meanwhile, Web3 is restructuring the production relationship of AI through a decentralized computing power network and a cryptographic incentive system. The structural requirements of reinforcement learning for rollout sampling, reward signals, and verifiable training align naturally with blockchain's collaborative computing power, incentive distribution, and verifiable execution. This research report will systematically dissect the AI training paradigm and the principles of reinforcement learning, demonstrate the structural advantages of Reinforcement Learning × Web3, and analyze projects such as Prime Intellect, Gensyn, Nous Research, Gradient, Grail, and Fraction AI.
Three Stages of AI Training: Pre-training, Instruction Fine-tuning, and Post-training Alignment
The full lifecycle of training modern Large Language Models (LLMs) is typically divided into three core stages: Pre-training, Supervised Fine-Tuning (SFT), and Post-training/RL. Each stage is responsible for "building a world model," "injecting task capabilities," and "shaping reasoning and values," with the computational structure, data requirements, and validation difficulties determining the degree of decentralization.
· Pre-training utilizes large-scale self-supervised learning to build the language statistical structure and cross-modal world model of the model, forming the foundation of LLM's capabilities. This stage requires training on a trillion-scale corpus in a globally synchronous manner, relying on homogeneous clusters of thousands to tens of thousands of H100s. The cost accounts for 80–95%, highly sensitive to bandwidth and data copyright, and must therefore be completed in a highly centralized environment.
· 微調(Supervised Fine-tuning)用於注入任務能力與指令格式,數據量小、成本占比約 5–15%,微調既可以進行全參數訓練,也可以採用參數高效微調(PEFT)方法,其中LoRA、Q-LoRA 與 Adapter 是工業界主流。但仍需同步梯度,使其去中心化潛力有限。
· 後訓練(Post-training)由多個迭代子階段構成,決定模型的推理能力、價值觀與安全邊界,其方法既包括強化學習體系(RLHF、RLAIF、GRPO)也包括無 RL 的偏好優化方法(DPO),以及過程獎勵模型(PRM)等。該階段數據量與成本較低(5–10%),主要集中在 Rollout 與策略更新;其天然支持異步與分佈式執行,節點無需持有完整權重,結合可驗證計算與鏈上激勵可形成開放的去中心化訓練網路,是最適配 Web3 的訓練環節。

強化學習技術全景:架構、框架與應用
強化學習的系統架構與核心環節
強化學習(Reinforcement Learning, RL)通過「環境交互—獎勵反饋—策略更新」驅動模型自主改進決策能力,其核心結構可視為由狀態、動作、獎勵與策略構成的反饋閉環。一個完整的 RL 系統通常包含三類組件:Policy(策略網路)、Rollout(經驗採樣)與 Learner(策略更新器)。策略與環境交互生成軌跡,Learner 根據獎勵信號更新策略,從而形成持續迭代、不斷優化的學習過程:

1. 策略網路(Policy):從環境狀態生成動作,是系統的決策核心。訓練時需集中式反向傳播維持一致性;推理時可分發至不同節點並行運行。
2. 經驗採樣(Rollout):節點根據策略執行環境互動,生成狀態—動作—獎勵等軌跡。該過程高度並行、通訊極低,對硬體差異不敏感是最適合在去中心化中擴展的環節。
3. 學習器(Learner):聚合全部 Rollout 軌跡並執行策略梯度更新,是唯一對算力、帶寬要求最高的模組,因此通常保持中心化或輕中心化部署以確保收斂穩定性。
強化學習階段框架(RLHF → RLAIF → PRM → GRPO)
強化學習通常可分為五個階段,整體流程如下所述:

數據生成階段(Policy Exploration)
在給定輸入提示的條件下,策略模型 πθ 生成多條候選推理鏈或完整軌跡,為後續偏好評估與獎勵建模提供樣本基礎,決定了策略探索的廣度。
偏好反饋階段(RLHF / RLAIF)
· RLHF(Reinforcement Learning from Human Feedback)通過多候選回答、人工偏好標註、訓練獎勵模型(RM)並用 PPO 優化策略,使模型輸出更符合人類價值觀,是 GPT-3.5 → GPT-4 的關鍵一環
· RLAIF(Reinforcement Learning from AI Feedback)以 AI Judge 或憲法式規則取代人工標註,實現偏好獲取自動化,顯著降低成本並具備規模化特性,已成為 Anthropic、OpenAI、DeepSeek 等的主流對齊範式。
獎勵建模階段(Reward Modeling)
偏好對輸入獎勵模型,學習將輸出映射為獎勵。RM 教模型「什麼是正確答案」,PRM 教模型「如何進行正確推理」。
· RM(Reward Model) 用於評估最終答案的優劣,僅對輸出打分:
· 過程獎勵模型 PRM(Process Reward Model) 它不再僅評估最終答案,而是為每一步推理、每個 token、每個邏輯段打分,也是 OpenAI o1 與 DeepSeek-R1 的關鍵技術,本質上是在「教模型如何思考」。
獎勵驗證階段(RLVR / Reward Verifiability)
在獎勵信號生成與使用過程中引入「可驗證約束」,使獎勵尽可能來自可複現的規則、事實或共識,從而降低 reward hacking 與偏差風險,並提升在開放環境中的可審計性與可擴展性。
策略優化階段(Policy Optimization)
是在獎勵模型給出的信號指導下更新策略參數 θ,以得到更強推理能力、更高安全性與更穩定行為模式的策略 πθ′。主流優化方式包括:
· PPO(Proximal Policy Optimization): RLHF 的傳統優化器,以穩定性見長,但在複雜推理任務中往往面臨收斂慢、穩定性不足等局限。
· GRPO(Group Relative Policy Optimization):是 DeepSeek-R1 的核心創新,通過對候選答案組內優勢分布進行建模以估計期望價值,而非簡單排序。該方法保留了獎勵幅度信息,更適合推理鏈優化,訓練過程更穩定,被視為繼 PPO 之後面向深度推理場景的重要強化學習優化框架。
· DPO(Direct Preference Optimization):非強化學習的後訓練方法:不生成軌跡、不建獎勵模型,而是直接在偏好對上做優化,成本低、效果穩定,因而被廣泛用於 Llama、Gemma 等開源模型的對齊,但不提升推理能力。
新政策部署階段(New Policy Deployment)
經過優化後的模型表現為:更強的推理鏈生成能力(System-2 Reasoning)、更符合人類或 AI 偏好的行為、更低的幻覺率、更高的安全性。模型在持續迭代中不斷學習偏好、優化過程、提升決策質量,形成閉環。

強化學習的產業應用五大分類
強化學習(Reinforcement Learning)已從早期的博弈智能演進為跨產業的自主決策核心框架,其應用場景按照技術成熟度與產業落地程度,可歸納為五大類別,並在各自方向推動了關鍵突破。
· 博弈與策略系統(Game & Strategy):是 RL 最早被驗證的方向,在 AlphaGo、AlphaZero、AlphaStar、OpenAI Five 等「完美信息 + 明確獎勵」的環境中,RL 展示了可與人類專家比肩甚至超越的決策智能,為現代 RL 演算法奠定基礎。
· 機器人與具身智能(Embodied AI):RL 通過連續控制、動力學建模與環境交互,使機器人學習操控、運動控制和跨模態任務(如 RT-2、RT-X),正快速邁向產業化,是現實世界機器人落地的關鍵技術路線。
· 數位推理(Digital Reasoning / LLM System-2):RL + PRM 推動大模型從「語言模仿」走向「結構化推理」,代表成果包括 DeepSeek-R1、OpenAI o1/o3、Anthropic Claude 及 AlphaGeometry,其本質是在推理鏈層面進行獎勵優化,而非僅評估最終答案。
· 自動化科學發現與數學優化(Scientific Discovery):RL 在無標籤、複雜獎勵與巨大搜索空間中尋找最優結構或策略,已實現 AlphaTensor、AlphaDev、Fusion RL 等基礎突破,展現出超越人類直覺的探索能力。
· 經濟決策與交易系統(Economic Decision-making & Trading):RL 被用於策略優化、高維風險控制與自適應交易系統生成,相較傳統量化模型更能在不確定環境中持續學習,是智能金融的重要構成部分。
強化學習與 Web3 的天然匹配
強化學習(RL)與 Web3 的高度契合,源於二者本質上都是「激勵驅動系統」。RL 依賴獎勵信號優化策略,區塊鏈依靠經濟激勵協調參與者行為,使兩者在機制層面天然一致。RL 的核心需求——大規模異構 Rollout、獎勵分配與真實性驗證——正是 Web3 的結構優勢所在。
推理與訓練解耦
強化學習的訓練過程可明確拆分為兩個階段:
· Rollout (探索採樣):模型基於當前策略生成大量數據,計算密集型但通訊稀疏型的任務。它不需要節點間頻繁通訊,適合在全球分佈的消費級 GPU 上並行生成。
· Update (參數更新):基於收集到的數據更新模型權重,需高帶寬集中化節點完成。
「推理—訓練解耦」天然契合去中心化的異構算力結構:Rollout 可外包給開放網絡,通過代幣機制按貢獻結算,而模型更新保持集中化以確保穩定性。
可驗證性 (Verifiability)
ZK 與 Proof-of-Learning 提供了驗證節點是否真實執行推理的手段,解決了開放網絡中的誠實性問題。在代碼、數學推理等確定性任務中,驗證者只需檢查答案即可確認工作量,大幅提升去中心化 RL 系統的可信度。
激勵層,基於代幣經濟的反饋生產機制
Web3 的代幣機制可直接獎勵 RLHF/RLAIF 的偏好反饋貢獻者,使偏好數據生成具備透明、可結算、無需許可的激勵結構;質押與削減(Staking/Slashing)進一步約束反饋質量,形成比傳統眾包更高效且對齊的反饋市場。
多智能体強化學習(MARL)潛力
區塊鏈本質上是公開、透明、持續演化的多智能體環境,帳戶、合約與智能體不斷在激勵驅動下調整策略,使其天然具備構建大規模 MARL 實驗場的潛力。儘管仍在早期,但其狀態公開、執行可驗證、激勵可編程的特性,為未來 MARL 的發展提供了原則性優勢。
經典 Web3 + 強化學習專案解析
基於上述理論框架,我們將對當前生態中最具代表性的專案進行簡要分析:
Prime Intellect: 異步強化學習範式 prime-rl
Prime Intellect 致力於構建全球開放算力市場,降低訓練門檻、推動協作式去中心化訓練,並發展完整的開源超級智能技術棧。其體系包括:Prime Compute(統一雲/分布式算力環境)、INTELLECT 模型家族(10B–100B+)、開放強化學習環境中心(Environments Hub)、以及大規模合成數據引擎(SYNTHETIC-1/2)。
Prime Intellect 核心基礎設施組件 prime-rl 框架專為異步分布式環境設計與強化學習高度相關,其餘包括突破帶寬瓶頸的 OpenDiLoCo 通信協議、保障計算完整性的 TopLoc 驗證機制等。
Prime Intellect 核心基礎設施組件一覽

技術基石:prime-rl 異步強化學習框架
prime-rl 是 Prime Intellect 的核心訓練引擎,專為大規模異步去中心化環境設計,通過 Actor–Learner 完全解耦實現高吞吐推理與穩定更新。執行者 (Rollout Worker) 與學習者 (Trainer) 不再同步阻塞,節點可隨時加入或退出,只需持續拉取最新策略並上傳生成數據即可:

· 執行者 Actor(部署工作者):負責模型推理和數據生成。Prime Intellect 在 Actor 端革命性地集成了 vLLM 推理引擎。vLLM 的 PagedAttention 技術和連續批處理(Continuous Batching)能力使得執行者能夠以極高的吞吐量生成推理軌跡。
· 學習者 Learner(訓練者):負責策略優化。學習者從共享的經驗回放緩衝區(Experience Buffer)中異步拉取數據進行梯度更新,無需等待所有執行者完成當前批次。
· 協調器 Orchestrator:負責調度模型權重與數據流。
prime-rl 的關鍵創新點
· 完全異步 True Asynchrony:prime-rl 摒棄傳統 PPO 的同步範式,不等待慢節點、無需批次對齊,使任意數量與性能的 GPU 都能隨時接入,奠定去中心化 RL 的可行性。
· 深度集成 FSDP2 與 MoE:通過 FSDP2 參數切片與 MoE 稀疏激活,prime-rl 讓百億級模型在分佈式環境中高效訓練,執行者僅運行活躍專家,大幅降低顯存與推理成本。
· GRPO+(群組相對策略優化):GRPO 免除 Critic 網路,顯著減少計算與顯存開銷,天然適配異步環境,prime-rl 的 GRPO+ 更通過穩定化機制確保高延遲條件下的可靠收斂。
INTELLECT 模型家族:去中心化 RL 技術成熟度的標誌
INTELLECT-1(10B,2024 年 10 月)首次證明 OpenDiLoCo 能在跨三大洲的異構網路中高效訓練(通信占比 <2%、算力利用率 98%),打破跨地域訓練的物理認知;
智誠-2(32B,2025 年 4 月)作為首個無許可 RL 模型,驗證 prime-rl 與 GRPO+ 在多步延遲、異步環境中的穩定收斂能力,實現全球開放算力參與的去中心化 RL;
智誠-3(106B MoE,2025 年 11 月)採用僅啟動 12B 參數的稀疏架構,在 512×H200 上訓練並實現旗艦級推理性能(AIME 90.8%、GPQA 74.4%、MMLU-Pro 81.9% 等),整體表現已逼近甚至超越規模遠大於自身的中心化閉源模型。
Prime Intellect 此外還構建了數個支援性基礎設施:OpenDiLoCo 通過時間稀疏通信與量化權重差,將跨地域訓練的通信量降低數百倍,使智誠-1 在跨三洲網路仍保持 98% 利用率;TopLoc + Verifiers 形成去中心化可信執行層,以啟動指紋與沙箱驗證確保推理與獎勵數據的真實性;SYNTHETIC 數據引擎則生產大規模高質量推理鏈,並通過流水線並行讓 671B 模型在消費級 GPU 集群上高效運行。這些組件為去中心化 RL 的數據生成、驗證與推理吞吐提供了關鍵的工程底座。智誠 系列證明了這一技術棧可產生成熟的世界級模型,標誌著去中心化訓練體系從概念階段進入實用階段。
Gensyn: 強化學習核心棧 RL Swarm 與 SAPO
Gensyn 的目標是將全球閒置算力匯聚成一個開放、無需信任、可無限擴展的 AI 訓練基礎設施。其核心包括跨設備標準化執行層、點對點協調網路與無需信任的任務驗證系統,並通過智能合約自動分配任務與獎勵。圍繞強化學習的特點,Gensyn 引入 RL Swarm、SAPO 與 SkipPipe 等核心機制等機制,將生成、評估、更新三個環節解耦,利用全球異構 GPU 組成的「蜂群」實現集體進化。其最終交付的不是單純的算力,而是可驗證的智能(Verifiable Intelligence)。
Gensyn 堆疊的強化學習應用

RL Swarm:去中心化的協作式強化學習引擎
RL Swarm 展示了一種全新的協作模式。它不再是簡單的任務分發,而是一個模擬人類社會學習的去中心化的「生成—評估—更新」循環,類比協作式學習過程,無限循環:
· Solvers(執行者): 負責本地模型推理與 Rollout 生成,節點異構無礙。Gensyn 在本地整合高吞吐推理引擎(如 CodeZero),可輸出完整軌跡而非僅答案。
· Proposers(出題者): 動態生成任務(數學題、程式碼問題等),支持任務多樣性與類 Curriculum Learning 的難度自適應。
· Evaluators(評估者): 使用凍結的「裁判模型」或規則對本地 Rollout 進行評估,生成本地獎勵信號。評估過程可被稽核,減少惡意空間。
三者共同組成一個 P2P 的 RL 組織結構,無需中心化調度即可完成大規模協作學習。

SAPO:為去中心化重構的策略優化算法
SAPO(Swarm Sampling Policy Optimization)以「共享 Rollout 並過濾無梯度信號樣本,而非共享梯度」為核心,通過大規模去中心化的 Rollout 取樣,並將接收的 Rollout 視為本地生成,從而在無中心協調、節點延遲差異顯著的環境中保持穩定收斂。相較依賴 Critic 網路、計算成本較高的 PPO,或基於組內優勢估計的 GRPO,SAPO 以極低帶寬使消費級 GPU 也能有效參與大規模強化學習優化。
通過 RL Swarm 與 SAPO,Gensyn 證明了強化學習(尤其是後訓練階段的 RLVR)天然適配去中心化架構——因為其更依賴於大規模、多樣化的探索(Rollout),而非高頻參數同步。結合 PoL 與 Verde 的驗證體系,Gensyn 為兆級參數模型的訓練提供了一條不再依賴單一科技巨頭的替代路徑:一個由全球數百萬異構 GPU 組成的、自我演化的超級智能網路。
Nous Research:可驗證強化學習環境 Atropos
Nous Research 正在構建一套去中心化、可自我進化的認知基礎設施。其核心組件——Hermes、Atropos、DisTrO、Psyche 與 World Sim 被組織成一個持續閉環的智能演化系統。不同於傳統「預訓練—後訓練—推理」線性流程,Nous 採用 DPO、GRPO、拒絕採樣等強化學習技術,將數據生成、驗證、學習與推理統一為連續反饋回路,打造持續自我改進的閉環 AI 生態。
Nous Research 組件總覽

模型層:Hermes 與推理能力的演進
Hermes 系列是 Nous Research 面向用戶的主要模型介面,其演進清晰展示了行業從傳統 SFT/DPO 對齊向推理強化學習(Reasoning RL)遷移的路徑:
· Hermes 1–3:指令對齊與早期代理能力:Hermes 1–3 依賴低成本 DPO 完成穩健指令對齊,並在 Hermes 3 借助合成數據與首次引入的 Atropos 驗證機制。
· Hermes 4 / DeepHermes:通過思維鍊將 System-2 式慢思考寫入權重,以 Test-Time Scaling 提升數學與程式碼性能,並依賴「拒絕採樣 + Atropos 驗證」構建高純度推理數據。
· DeepHermes 進一步採用 GRPO 替代難以分佈式落地的 PPO,使推理 RL 能在 Psyche 去中心化 GPU 網路上運行,為開源推理 RL 的可擴展化奠定工程基礎。
Atropos:可驗證獎勵驅動的強化學習環境
Atropos 是 Nous RL 體系的真正樞紐。它將提示、工具呼叫、程式碼執行和多輪交互封裝成標準化 RL 環境,可直接驗證輸出是否正確,從而提供確定性獎勵信號,替代昂貴且不可擴展的人類標註。更重要的是,在去中心化訓練網路 Psyche 中,Atropos 充當「裁判」,用於驗證節點是否真實提升策略,支持可審計的 Proof-of-Learning,從根本上解決分佈式 RL 中的獎勵可信性問題。

DisTrO 與 Psyche:去中心化強化學習的優化器層
傳統 RLF(RLHF/RLAIF)訓練依賴中心化高帶寬集群,這是開源無法複製的核心壁壘。DisTrO 通過動量解耦與梯度壓縮,將 RL 的通信成本降低幾個數量級,使訓練能夠在互聯網帶寬上運行;Psyche 則將這一訓練機制部署在鏈上網絡,使節點可以在本地完成推理、驗證、獎勵評估與權重更新,形成完整的 RL 閉環。
在 Nous 的體系中,Atropos 驗證思維鏈;DisTrO 壓縮訓練通信;Psyche 運行 RL 迴圈;World Sim 提供複雜環境;Forge 採集真實推理;Hermes 將所有學習寫入權重。強化學習不僅是一個訓練階段,而是 Nous 架構中 連接數據、環境、模型與基礎設施的核心協議,讓 Hermes 成為一個 能在開源算力網絡上持續自我改進的活體系統。
Gradient Network:強化學習架構 Echo
Gradient Network 核心願景是通過「開放智能協議棧」(Open Intelligence Stack)重構 AI 的運算範式。Gradient 的技術棧由一組可獨立演化、又異構協同的核心協議組成。其體系從底層通信到上層智能協作依次包括:Parallax(分佈式推理)、Echo(去中心化 RL 訓練)、Lattica(P2P 網絡)、SEDM / Massgen / Symphony / CUAHarm(記憶、協作、安全)、VeriLLM(可信驗證)、Mirage(高保真仿真),共同構成持續演化的去中心化智能基礎設施。

Echo—強化學習訓練架構
Echo 是 Gradient 的強化學習框架,其核心設計理念在於解耦強化學習中的訓練、推理與數據(獎勵)路徑,使 Rollout 生成、策略優化與獎勵評估能夠在異構環境中獨立擴展與調度。在由推理側與訓練側節點組成的異構網絡中協同運行,以輕量同步機制在廣域異構環境中維持訓練穩定性,有效緩解傳統 DeepSpeed RLHF / VERL 中推理與訓練混跑導致的 SPMD 失效與 GPU 利用率瓶頸。

Echo 採用「推理–訓練雙群架構」實現算力利用最大化,雙群各自獨立運行,互不阻塞:
· 最大化採樣吞吐:推理群 Inference Swarm 由消費級 GPU 與邊緣設備組成,通過 Parallax 以 pipeline‐parallel 構建高吞吐採樣器,專注於軌跡生成;
· 最大化梯度算力:訓練群 Training Swarm 由可運行於中心化集群或全球多地的消費級 GPU 網路,負責梯度更新、參數同步與 LoRA 微調,專注於學習過程。
為維持策略與數據的一致性,Echo 提供順序(Sequential)與異步(Asynchronous)兩類輕量級同步協議,實現策略權重與軌跡的雙向一致性管理:
· 順序拉取(Pull)模式|精度優先:訓練側在拉取新軌跡前強制推理節點刷新模型版本,從而確保軌跡新鮮度,適合對策略陳舊高度敏感的任務;
· 異步推拉(Push–Pull)模式|效率優先:推理側持續生成帶版本標籤的軌跡,訓練側依自身節奏消費,協調器監控版本偏差並觸發權重刷新,最大化設備利用率。
在底層,Echo 構建於 Parallax(低帶寬環境下的異構推理)與輕量化分佈式訓練組件(如 VERL) 之上,依賴 LoRA 降低跨節點同步成本,使強化學習可在全球異構網路上穩定運行。
Grail:Bittensor 生態的強化學習
Bittensor 透過其獨特的 Yuma 共識機制,構建了一個巨大的、稀疏的、非平穩的獎勵函數網路。
Bittensor 生態中的 Covenant AI 則通過 SN3 Templar、SN39 Basilica 與 SN81 Grail 構建了從預訓練到 RL 後訓練的垂直一體化流水線。其中,SN3 Templar 負責基礎模型的預訓練,SN39 Basilica 提供分佈式算力市場,SN81 Grail 則作為面向 RL 後訓練的「可驗證推理層」,承載 RLHF / RLAIF 的核心流程,完成從基礎模型到對齊策略的閉環優化。

GRAIL 的目標是以加密方式證明每個強化學習 rollout 的真實性與模型身份綁定,確保 RLHF 能夠在無需信任的環境中被安全執行。協議通過三層機制建立可信鏈條:
1. 確定性挑戰生成:利用 drand 隨機信標與區塊哈希生成不可預測但可複現的挑戰任務(如 SAT、GSM8K),杜絕預計算作弊;
2. 通過 PRF 索引採樣與 sketch commitments,使驗證者以極低成本抽檢 token-level logprob 與推理鏈,確認 rollout 確由聲明模型生成;
3. 模型身份綁定:將推理過程與模型權重指紋及 token 分布的結構性簽名綁定,確保替換模型或結果重放都會被立即識別。由此,為 RL 中推理軌跡(rollout)提供了真實性根基。
在此機制上,Grail 子網實現了 GRPO 風格的可驗證後訓練流程:礦工為同一題目生成多條推理路徑,驗證者依據正確性、推理鏈質量與 SAT 滿足度評分,並將歸一化結果寫入鏈上,作為 TAO 權重。公開實驗顯示,該框架已將 Qwen2.5-1.5B 的 MATH 準確率從 12.7% 提升至 47.6%,證明其既能防作弊,也能顯著強化模型能力。在 Covenant AI 的訓練堆中,Grail 是去中心化 RLVR/RLAIF 的信任與執行基石,目前尚未正式主網上線。
Fraction AI:基於競爭的強化學習 RLFC
Fraction AI 的架構明確圍繞競爭強化學習(Reinforcement Learning from Competition, RLFC)和遊戲化數據標註構建,將傳統 RLHF 的靜態獎勵與人工標註替換為開放、動態的競爭環境。代理在不同 Spaces 中對抗,其相對排名與 AI 法官評分共同構成實時獎勵,使對齊過程演變為持續線上的多智能體博弈系統。
傳統 RLHF 與 Fraction AI 的 RLFC 之間的核心差異:

RLFC 的核心價值在於獎勵不再來自單一模型,而來自不斷演化的對手與評估者,避免獎勵模型被利用,並通過策略多樣性防止生態陷入局部最優。Spaces 的結構決定博弈性質(零和或正和),在對抗與合作中推動複雜行為湧現。
在系統架構上,Fraction AI 將訓練過程拆解為四個關鍵組件:
· Agents:基於開源 LLM 的輕量策略單元,通過 QLoRA 以差分權重擴展,低成本更新;
· Spaces:隔離的任務域環境,代理付費進入並以勝負獲得獎勵;
· AI Judges:以 RLAIF 構建的即時獎勵層,提供可擴展、去中心化的評估;
· Proof-of-Learning:將策略更新綁定到具體競爭結果,確保訓練過程可驗證、防作弊。
Fraction AI 的本質是構建了一個人機協同的進化引擎」。用戶作為策略層的「元優化者」(Meta-optimizer),通過提示工程(Prompt Engineering)和超參配置引導探索方向;而代理在微觀的競爭中自生成海量的高質量偏好數據對 (Preference Pairs)。這種模式讓數據標註通過「去信任化微調」(Trustless Fine-tuning) 實現了商業閉環。
強化學習 Web3 項目架構比較

總結與展望:強化學習 × Web3 的路徑與機會
基於對上述前沿項目的解構分析,我們觀察到:儘管各團隊的切入點(算法、工程或市場)各異,但當強化學習(RL)與 Web3 結合時,其底層架構邏輯皆收斂為一個高度一致的「解耦-驗證-激勵」範式。這不僅是技術上的巧合,更是去中心化網絡適配強化學習獨特屬性的必然結果。
強化學習通用架構特徵:解決核心的物理限制與信任問題
1. 推訓物理分離(Decoupling of Rollouts & Learning)——默認計算拓撲
通信稀疏、可並行的 Rollout 外包給全球消費級 GPU,高帶寬的參數更新集中於少量訓練節點,從 Prime Intellect 的異步 Actor–Learner 到 Gradient Echo 的雙群架構皆如此。
2. 驗證驅動的信任層(Verification-Driven Trust)——基礎設施化
在無需許可的網路中,計算真實性必須通過數學與機制設計強制保障,代表實現包括 Gensyn 的 PoL、Prime Intellect 的 TOPLOC 與 Grail 的密碼學驗證。
3. 代幣化的激勵閉環(Tokenized Incentive Loop)——市場自我調節
算力供給、數據生成、驗證排序與獎勵分配形成閉環,通過獎勵驅動參與、通過 Slash 抑制作弊,使網路在開放環境中依然保持穩定與持續演進。
差異化技術路徑:一致架構下的不同「突破點」
儘管架構趨同,但各專案根據自身基因選擇了不同的技術護城河:
· 算法突破派(Nous Research):試圖從數學底層解決分佈式訓練的根本矛盾(帶寬瓶頸)。其 DisTrO 優化器旨在將梯度通信量壓縮數千倍,目標是讓家庭寬帶也能跑得動大模型訓練,這是對物理限制的「降維打擊」。
· 系統工程派(Prime Intellect、Gensyn、Gradient):側重於構建下一代的「AI 運行時系統」。Prime Intellect 的 ShardCast 和 Gradient 的 Parallax 都是為了在現有的網路條件下,通過極致的工程手段壓榨出最高的異構集群效率。
· 市場博弈派(Bittensor、Fraction AI):專注獎勵函數(Reward Function)的設計。通過設計精妙的評分機制,引導礦工自發尋找最優策略,來加速智能湧現。
優勢、挑戰與終局展望
在強化學習與 Web3 結合的範式下,系統級優勢首先體現在成本結構與治理結構的重寫。
· 成本重塑:RL 後訓練(Post-training)對採樣(Rollout)的需求是無限的,Web3 能以極低成本調動全球長尾算力,這是中心化雲廠商難以比擬的成本優勢。
· 主權對齊(Sovereign Alignment):打破大廠對 AI 價值觀(Alignment)的壟斷,社區可以通過 Token 投票決定模型「什麼是好的回答」,實現 AI 治理的民主化。
與此同時,這一體系也面臨兩大結構性約束。
· 帶寬牆(Bandwidth Wall):儘管有 DisTrO 等創新,物理延遲仍限制了超大參數模型(70B+)的全量訓練,目前 Web3 AI 更多局限於微調和推理。
· 古德哈特定律(Reward Hacking):在高度激勵的網絡中,礦工極易「過擬合」獎勵規則(刷分)而非提升真實智能。設計防作弊的魯棒獎勵函數是永恆的博弈。
· 惡意拜占庭式節點攻擊(BYZANTINE worker):通過對訓練信號的主動操控與投毒破壞模型收斂。核心不在於持續設計防作弊的獎勵函數,而在於構建具備對抗性魯棒性的機制。
強化學習與 Web3 的結合,本質是在重寫「智能是如何被生產、對齊並分配價值」的機制。其演進路徑可概括為三條互補方向:
1. 去中心化推訓網絡:從算力礦機到策略網絡,將並行且可驗證的 Rollout 外包給全球長尾 GPU,短期聚焦可驗證推理市場,中期演化為按任務聚類的強化學習子網;
2. 偏好與獎勵的資產化:從標註勞工到數據股權。實現偏好與獎勵的資產化,將高質量反饋與 Reward Model 變為可治理、可分配的數據資產,從「標註勞工」升級為「數據股權」
3. 垂直領域的「小而美」進化:在結果可驗證、收益可量化的垂直場景中孵化小而強的專用 RL Agents,如 DeFi 策略執行、程式碼生成,使策略改進與價值捕獲直接綁定並有望跑贏通用閉源模型。
總體來看,強化學習 × Web3 的真正機會不在於複製一個去中心化版 OpenAI,而在於重寫「智能生產關係」:讓訓練執行成為開放算力市場,讓獎勵與偏好成為可治理的鏈上資產,讓智能帶來的價值不再集中於平台,而在訓練者、對齊者與使用者之間重新分配。

猜你喜歡

Ripple聯合創辦人領導新興40億美元行動對抗加州富人稅
Key Takeaways Ripple聯合創辦人Chris Larsen和風險投資家Tim Draper共同發起的「Grow California」行動旨在抵制加州提議的富人稅,此舉為硅谷的最新政治動員。 政治行動主要針對加州的勞工組織,尤其是工會對富人稅的支持,這一計畫已經獲得兩位創始人各5億美元的投入。 Larsen與Draper來自加密貨幣產業,但強調此行動並非專為加密產業設計,而是為了推選對商業有利的議員。 加州可能的5%億萬富翁稅被批評可能導致資本外逃以及高淨值居民的流失。 前議員Ian Calderon以支持比特幣的立場參選2026年加州州長。 WEEX Crypto News, 2026-02-01 14:05:00 加密市場的震撼波因Ripple聯合創辦人Chris Larsen與知名風險投資家Tim…

比特幣7%跌至77K可能標誌周期低點,分析師稱
關鍵要點 分析師PlanC認為比特幣最近的下跌可能標誌著當前牛市周期中的最深回調,而非長期下跌起點。 比特幣曾短暫跌至77,000美元,隨後穩定回升至78,600美元,其中市場波動與歷史上的重大回調有相似之處。 分析人士警告週末交易波動較大,可能誇大市場情緒,投資者應謹慎。 減少需求的聯邦準備政策和地緣政治壓力加劇了風險資產的重壓,市場情緒趨於謹慎。 WEEX Crypto News, 2026-02-01 14:05:00 比特幣跌幅引發市場關注,潛在周期低點來臨? 在最近的週末,比特幣價格下跌約7%,達到77,000美元,這一變化引起了市場的廣泛關注和分析。加密貨幣分析師PlanC指出,這次下跌可能不是長時間下跌的開始,而是當前牛市周期中的一次重大調整。這一觀點引發了投資者的關注,因為市場正處於不確定性的關鍵時期。 歷史回溯:比特幣過去的重大回調與復甦 比特幣的這一跌幅讓人聯想到市場歷史上的一些重大回調,這些回調最終往往導致了市場的強勁復甦。PlanC將當前的市場行為與2018年熊市時3,000美元附近的拋售、2020年3月因COVID-19驅動的急跌至5,100美元,以及FTX和Terra-Luna崩潰後短暫交易在15,500至17,500美元之間的情況進行比較。他認為,目前的下跌可能是一次重要的拋售低點,而不是基本趨勢的結構性改變。 以往35%-40%的調整在比特幣牛市中並不罕見,這表明投資者有理由保持樂觀,但也需謹慎看待短期價格波動。 市場當前面臨的挑戰 近期金融環境趨緊,加之中東地緣政治局勢的升溫,對風險資產的需求產生了壓力。XS.com的分析師Samer Hasn指出,美聯儲的政策立場仍然中立至鷹派,同時地緣政治緊張局勢使投資者更傾向於將資本轉向黃金和白銀等傳統安全資產。…

白宮加密會議:穩定幣回報法案協商未果
關鍵要點 加密產業與華爾街銀行於白宮會議中再次嘗試協商制定穩定幣回報法案,然而仍未達成共識。 特朗普總統的顧問要求本月內在參議院加密法案的新語言上達成妥協,以求立法推進。 立法進程阻力重重,包括共和黨和民主黨議員、加密行業、銀行界及白宮的多方博弈。 民主黨提出多項附加需求,如反腐規定等,增加了法案通過的難度。 WEEX Crypto News, 2026-02-03 07:53:49 白宮最近召集了加密產業及華爾街銀行的相關人士,試圖解凍雙方在參議院加密法案上的僵局。然而,即便在特朗普總統的直接干預下,有關穩定幣回報的關鍵議題上雙方依然未能取得突破。這場會議不僅是為了探討其中的棘手條款,更試圖推進立法進程,使其能夠在本年度內獲得參議院的全面表決。 會議的焦點 會談在白宮的外交接待室秘密進行,加密行業的代表人數遠多於銀行界。在特朗普的加密顧問帕特里克·威特(Patrick Witt)的引導下,雙方專注討論了穩定幣是否應與回報和獎勵掛鉤的問題。白宮的期望很明確:在月底前就在穩定幣回報的措辭上達成一個妥協方案。對於銀行業而言,他們的代表多數為貿易協會成員,可能需要在協商前獲得自身成員的支持。 銀行業的立場 銀行業代表對保持開放態度,甚至在聯合聲明中表明希望與加密產業共同開發「深思熟慮且有效的政策」。銀行業強調任何立法都應支持地方貸款業務,並同時保護金融體系的安全性與穩健性。美國銀行家協會及金融服務論壇,代表著華爾街頂級CEO,也同樣參與了這次會議。 加密行業的反饋 儘管未能立即在回報問題上達成妥協,但華府加密政策遊說組織的領導人科迪·卡本(Cody…

為何維塔利克·布特林在市場回暖時出售超過700枚以太坊(ETH)
關鍵要點 以太坊共同創始人維塔利克·布特林在系列區塊鏈交易中出售超過700枚ETH,目的是支持長期計劃。 出售的收入被用於布特林設立的慈善機構Kanro,這個機構專注於傳染病研究和其他公益項目。 布特林的資產變賣行為是早有計劃的,他強調以太坊基金會進入了一個溫和緊縮的時期。 儘管進行了大規模的ETH出售,但市場反應平淡,以太坊價格仍隨市場趨勢波動,並未受此影響。 WEEX Crypto News, 2026-02-03 07:53:49 布特林的ETH出售:支持長期計劃的戰略舉措 以太坊(Ethereum,簡稱ETH)的共同創始人維塔利克·布特林(Vitalik Buterin)近期出售了他持有的一小部分ETH,超過700枚,這一波出售並非出於市場驅動,而是為了資助一些長期計劃。根據區塊鏈分析平台的追蹤,這一行動符合其先前披露的計劃,即運用資金支持各種公益和技術發展項目。 在布特林的這次出售當中,他將211.84枚ETH賣得約50萬USDC,整額資金轉入他所創立的慈善機構Kanro。這個機構主要支持關於傳染病的研究和其他公益倡議,特別是在新冠疫情後,Kanro的價值愈發顯得重要。布特林過去有過多次將加密資產變現後捐贈於公益事業的記錄,例如2025年1月,他曾將價值約98.4萬USDC的28種不同的迷因幣出售,所得全部捐給了Kanro,強化了他長期扶持慈善事業的承諾。 輕微的措辭:市場影響和未來動向 然而,有觀察家指出,這些出售行為並未對ETH市價造成明顯影響。據BeInCrypto市場數據顯示,ETH在過去24小時內上升約5%,目前報價約為2312.6美元。這表明,儘管布特林的變現行動形成了一定的賣壓,但整體而言,市場對ETH的需求依然保持穩定。 布特林本人在早前的一篇推文中表示,他計劃在未來幾年中提取16384枚ETH,用於落實長期目標。這些目標涵蓋多個領域,包括開源、安全和可驗證的軟硬體開發,這些技術應用將延展到金融、溝通、治理、操作系統、安全硬體及生物科技,特別強調個人及公共健康領域的應用。 布特林自身的資產情況與以太坊基金會的策略…

川普稱對阿聯酋投資5億美元於世界自由金融不知情
川普總統表示對於阿布達比皇室對世界自由金融的投資毫不知情,此事引起了對外國影響力和總統家族商業關係的新質疑。 阿聯酋的Sheikh Tahnoon bin Zayed Al Nahyan王子同意以5億美元收購世界自由金融49%的股份。 投資透過由Sheikh Tahnoon支持的Aryam Investment 1進行,初期分配中187億美元流向川普家族實體。 此投資引發政治辯論,特別是關於川普的加密貨幣連結和公司治理問題。 WEEX Crypto News, 2026-02-03 07:53:49 阿布達比皇室投資案的背景…

幣安提款恢復正常運作後的暫時中斷
重點摘要 幣安在短暫中斷後,已成功恢復提款服務,並表示此次技術問題持續約20分鐘。 在比特幣價格下跌至76,000美元以下後,加密市場面臨清算風險。 幣安的用戶資金安全基金和貯備金調整引發市場關注,尤其是在快速變動的市場條件下。 當前市場對流動性和資金存取的擔憂提升了對平台操作更新的關注。 WEEX Crypto News, 2026-02-03 07:53:50(today’s date,foramt: day, month, year) 在幣安面臨短暫的技術中斷後,該平台於週二迅速恢復了提款功能,這在一段市場波動中為交易者提供了急需的穩定。幣安於社交媒體平台X上首次發佈了此問題的通知,並向用戶保證他們的團隊正在積極處理,在問題解決後將重新開放提款服務。 根據後續的報導指出,此次中斷只持續了約20分鐘。這樣的短暫中斷雖然瑣細,但在當前不安的市場情緒中,讓焦慮的投資者更為警覺。幣安在沒有提供具體原因的情況下迅速修復問題,再次開放提款,讓用戶能夠繼續進行交易。 清算潮突顯市場情緒脆弱 本次技術問題發生之前,加密市場剛剛經歷了一次顛簸。比特幣在不久前跌破了76,000美元。根據CoinGlass的數據,數字資產的清算額達到25.6億美元,伴隨著股票和金屬市場的風險拉回而下跌。雖然相較於先前川普政府對中國產品加徵關稅所引發的190億美元洗盤還相差甚遠,但這一事件再次印證了杠杆一旦失控,市場情緒如何迅速逆轉的現象。幣安的提款中斷使投資者必須將重點放在實際上,即平台在技術難題解決後,提款得以恢復。…

德國銀行ING德國開放零售加密貨幣ETN投資
Key Takeaways: ING德國為散戶投資者開放加密貨幣ETN投資 產品由21Shares、Bitwise及VanEck等知名機構發行 這些ETN在受監管交易所進行交易 透過熟悉的銀行基礎設施降低投資障礙 WEEX Crypto News, 2026-02-03 07:53:53(today’s date,foramt: day, month, year) 隨著加密貨幣在全球金融市場中逐漸獲得認同,德國銀行ING德國最近宣布,其零售客戶現在可以通過加密貨幣相關的交易所交易票據(ETN)來接觸市場上最受歡迎的數位資產。這一舉措旨在讓更多的散戶投資者能夠更方便地參與比特幣(Bitcoin)、以太坊(Ethereum)和Solana等加密貨幣的投資。 ING德國擴大加密資產曝光範疇 ING德國提供的這些加密相關ETN產品是由像21Shares、Bitwise以及VanEck等著名的金融服務提供商發行的。這些ETN的價格表現與其所追蹤的加密貨幣緊密相關,並提供了一種有效的方式來整合加密貨幣投資至傳統的證券投資組合中。…

Pepe Coin 價格預測:雖然看似停滯,但聰明持有者正掌控局勢
關鍵要點 Pepe Coin 在最近的一年中價格下跌了66%,但技術指標顯示其價格可能接近觸底反彈。 長期持有者的市場影響力逐漸增強,這表現為MVRV長短期差值指標即將轉正。 短期內,PEPE價格可能反彈至$0.00000450,而長期目標價格則設定在$0.000020。 若對PEPE不感興趣的投資者,可考慮類似SUBBD等正在預售階段的代幣進行分散投資。 WEEX Crypto News, 2026-02-03 07:55:50 Pepe Coin 價格預測:市場似乎停滯,但聰明持有者掌控著局勢 Pepe Coin,這個受歡迎的meme代幣,近期的價格動態令人關注。在過去的24小時內,該幣價格下跌了2%,降至$0.000004118。這次下跌與整個加密市場總市值跌至2.66萬億美元的趨勢一致。僅僅數天內,市值減少了11%。同時,PEPE的價格在一週內下跌了14%,一個月內跌幅達到31%,而全年更是下降了66%。然而,這些令人失望的跌幅背後,價格指標顯示出PEPE的價格可能接近觸底。利用MVRV長短期差值指標,顯示出市場由長期持有者主導,這一趨勢可能為價格的強勁反彈鋪平道路。 市場技術指標分析…

亞市開盤:隨著市場平靜回升,比特幣穩定在78,000美元左右
由於市場情緒改善,周二早晨亞洲市場開盤時比特幣穩定在78,000美元附近,結束了近期的波動期。 儘管加密貨幣市場近期經歷了一場較大的清算潮,但比特幣的市場復甦表明投資者對風險的重新接受。 市場專家指出,近期美國工廠活動的提高和宏觀經濟數據的改善是推動市場信心回升的原因。 隨著市場重新聚焦於即將公佈的企業財報和政治動向,股市趨勢看好,尤其是在亞洲大市和美國股市。 WEEX Crypto News, 2026-02-03 07:55:49 在近期市場波動中經歷的困惑情境下,比特幣表現出了一定的恢復力。如今這種平靜狀態讓投資者再度感受到風險的吸引力。亞市開盤時,比特幣價格約為78,000美元,此舉不僅標誌著市場情緒的轉機,也指出了全球投資者對數字資產的持續關注。亞太股市如日本、韓國乃至香港指數集體上漲,這是一個重要的風向標,揭示出投資者的風險偏好在重新回升。 市場現狀與清算情況 在過去一段時間,加密貨幣市場的波動性引發了大規模的清算,尤其是在比特幣方面。CoinGlass的數據顯示,最近比特幣投資者的清算總額達到了25.6億美元,儘管這一數字並未打破由前總統特朗普發佈對華關稅消息後所引發的190億美元清算的紀錄,但其暗示了一個有趣的趨勢:當市場情緒轉變時,槓桿極易瓦解。投資者不僅需要密切關注加密貨幣市場,還需關注其他相關市場的波動,尤其是在貴金屬市場方面,這對整體投資組合的安全性至關重要。 金融環境的改變 特朗普曾提名的聯邦儲備委員會主席候選人Kevin Warsh被看作是一個鼓勵使用比特幣的潛在央行行長,他的立場顯示出未來可能會出現的政策改變。投資者普遍認為Warsh傾向於縮減聯邦儲備委員會的資產表,這一立場預計會推動債券收益率上升,進一步削弱不計息資產的吸引力。周二早晨,亞洲市場中貴金屬價格回溫,黃金上漲3%至每盎司4,800美元,而白銀亦攀升5%至83.34美元。這一價格波動反映出投資者在應對貴金屬市場的劇烈變動時的調整策略。 利潤預期與市場反彈 儘管市場在面臨潛在利率上升和收益率變動帶來的不確定性,但近期的宏觀經濟數據對市場信心產生了正面影響。尤其是美國工廠活動在經歷了一年的負增長後於一月份恢復增長,這推動了收益率的提升,而未對市場預期的利率降息形成實質性改變。美國國債市場在亞洲時段保持穩定,東京的10年期國債收益率約為4.275%,而兩年期國債收益率則接近3.57%。 在美國市場中,與人工智能相關的股票增長強勁,推動整體市場走高,特別是像Alphabet這樣的技術龍頭公司,其股價在預期的良好財報前已創下歷史新高。相對而言,迪士尼的股價在警示旗下美國主題公園國際遊客減少及影視部門表現不佳後下跌了7.4%,這顯示出市場中的不均衡態勢。…

白宮繼續就加密貨幣市場結構法案進行談判
白宮正加緊推進穩定幣收益政策的妥協方案。 加密貨幣行業對話被認為是朝向兩黨共識的重要一步。 銀行及加密貨幣行業代表積極參與,強調解決立法分歧的迫切性。 市場結構法案對美國數兆美元加密產業的合法運作至關重要。 WEEX Crypto News, 2026-02-03 07:55:49 美國白宮最近在其艾森豪元行政辦公室大樓召開了一場關於加密貨幣市場結構立法的關鍵會議,此次會議旨在加快解決關於穩定幣收益的政策分歧。隨著加密貨幣的持續增長和對成熟監管框架的需求越來越大,這場會議受到各界高度關注。與會者包括加密貨幣行業組織、交易所代表以及華爾街銀行家。這場會議被普遍認為是推進兩黨達成數字資產市場結構法案共識的“重要一步”。 穩定幣收益分歧持續,白宮尋求年內妥協 在此背景下,加密貨幣市場結構立法在美國參議院仍面臨障礙,尤其在交易所應否允許提供穩定幣的收益或獎勵問題上,尚未達成共識。據熟悉會談的人士表示,白宮已向各參會者下達明確指示:必須在本月底之前達成一項穩定幣收益的妥協方案,這一緊迫性是基於對數字資產市場穩定運作需求的深刻理解。 據《彭博新聞》報導,加密貨幣行業貿易組織Digital Chamber在會議後發佈了一份備忘錄,指出銀行和加密貨幣當局在審查現有的政策提案並強調分歧點。儘管在穩定幣收益上尚未即時達成妥協,但備忘錄形容這次會議是需要的“正確進展”。 跨行業合作的重要意義 就此問題,區塊鍊協會(BA)的首席執行官Summer Mersinger稱這次會議是“推進兩黨通過數字資產市場結構法案的重要一步”。她在社交平台X上表示,自己很榮幸能夠代表超過100位會員參與到這一重要問題的討論中。該協會的備忘錄稱,會議上的對話為縮小分歧、建立共識以及確保國會提供清晰的加密貨幣規則奠定了基礎。 在會後,美國總統數字資產顧問理事會的執行主任Patrick…

今天2月2日加密貨幣價格預測 – XRP、狗狗幣、柴犬幣
全球加密貨幣市場受地緣政治不穩影響出現價格下跌。 XRP處於超賣狀態,可能會出現短期反彈,但總體趨勢仍是看跌。 狗狗幣的反彈潛力需打破每單日收盤價上0.13美元的反壓。 柴犬幣與狗狗幣的走勢相似,短期反彈障礙在0.000009美元左右。 WEEX Crypto News, 2026-02-03 07:55:51 在全球地緣政治不確定性加劇的背景下,2026年初加密貨幣市場再次面臨考驗。比特幣價格已跌至74,000美元的低點,市場情緒普遍低迷。特別是一些高風險的資產如XRP、狗狗幣(Dogecoin)、柴犬幣(Shiba Inu),其價格也觸及了新的低點。然而,短期內可能會有一些反彈機會,本文將為您解析近期這些加密貨幣的潛在走勢。 XRP價格預測:短期反彈或再度陷入調整 近期,Ripple(XRP)的價格跌破了一個下降楔形的低點,且相對強弱指數(RSI)也跌至低於30的超賣區間。這通常意味著可能會出現短期的反彈,而不是立即的大幅跳水。如果反彈如期而至,其第一個目標價位可能達到1.80美元區域,該區域曾經是支撐線,現已成為阻力位。 然而,結構問題依然存在。如果價格無法重新收復下降通道並在日收盤價站穩1.80美元以上,則任何反彈都應被視為矯正,而非趨勢逆轉的開始。一旦價格再次受阻,XRP可能會進一步下跌至1.40美元,這是下一個較強的需求區域。 這一走勢與持續的市場風險偏好下降、比特幣的疲弱表現以及整個山寨幣市場的薄弱流動性相吻合。在當前市場下,任何反彈都容易被拋售,XRP的漲勢也多停留在理想狀態。目前來看,除非市場情緒改善或比特幣價格趨於穩定,否則XRP的上揚只會是一個在大跌趨勢中的曇花一現。 狗狗幣價格預測:老買家還在嗎? 當連比特幣在這樣的市場環境中被視為“風險”資產時,狗狗幣等“迷因幣”自然受到更大衝擊。狗狗幣仍卡在一個明顯的下降通道中,價格在多次被通道上邊緣的阻力拒絕後,繼續創下更低的高點和低點。從結構上看,並無實質性改變。 最近的跌勢將RSI壓至約30的位置,這將狗狗幣置於超賣區,為短期的反彈提供了空間。如果這種反彈得以實現,其目標就在0.12至0.13美元區間,與先前的支撐位和通道上邊緣吻合。關鍵之處在於,DOGE能否在每單日收盤價上突破並維持在0.13美元以上。如未能突破,任何上行都應視為矯正,而非趨勢逆轉。…

Hyperliquid 朝向預測市場邁進與全新提案
Hyperliquid 將其核心引擎 HyperCore 的功能拓展至支持預測市場。 與 CFTC 的規範併行,Hyperliquid 提供了無槓桿且無清算風險的衍生品交易。 預測市場將以 USDH 為基準,同時接受使用者回饋進行調整。 Polymarket 重返美國市場,為預測市場帶來更大的競爭和合規性。 WEEX Crypto News, 2026-02-03 07:55:50…

我們黑入了Perplexity AI以預測XRP、比特幣和以太坊到2026年底的價格
關鍵要點: – Perplexity AI模型提供了XRP、比特幣和以太坊在未來幾年的價格預測,顯示出潛在的創新高機會。 – 在監管環境趨於明朗化的情況下,美國市場可能會看到主導數位資產達到新的歷史高點。 – XRP的潛在價值上升,有望因為新的某些立法和ETF的支持,價格可達8美元。 – 比特幣可能受益於機構投資和政策支持,未來價格目標看至250,000美元。 – 以太坊因在去中心化金融的地位,顯示出潛力價格目標可達7,500美元。 WEEX Crypto News, 2026-02-03 07:57:51 引言…

Cboe 重啟「全或無」二元期權以挑戰預測市場
Cboe 全球市場考慮重新推出二元期權,以吸引零售投資者進入快速增長的預測市場。 預測市場活動的增加正促使 Cboe 重新審視這種金融工具的可行性。 二元期權因其高風險的「全或無」結構,在美國市場歷史上具有爭議性。 零售和衍生品市場的變化推動了 Cboe 重新考慮這些產品的運作。 WEEX Crypto News, 2026-02-03 07:59:51 在數字金融市場中,Cboe 全球市場正考慮重新啟動二元期權,這一決定可能會改變零售投資者的選擇,讓他們得以參與快速增長的預測市場。這一決策之所以備受關注,不僅僅是因為它的潛在影響,更是因為 Cboe 的這次舉措是否能在市場上掀起一陣波瀾。…

比特幣價格預測:Warsh 衝擊與穩定幣峰會——牛市基礎是否崩塌?
重點摘要 Kevin Warsh 獲提名為美聯儲主席,對風險資產產生負面影響,導致比特幣價格短暫下跌。 白宮穩定幣峰會上,傳統銀行與加密公司對收益率限制的分歧可能影響穩定幣流動性。 Strategy 繼續在價格下跌時增加比特幣持有量,顯示機構投資者的購買潛力。 Bitocin 在測試技術支撐位的過程中,可能出現反彈,投資者需留意潛在風險。 WEEX Crypto News, 2026-02-03 07:57:51 Warsh 衝擊對比特幣的影響 2026年2月3日,比特幣(BTC/USD)的交易價格為79,000美元,較前一日出現2.05%的波動反彈。這一波動起因於Kevin Warsh被提名為下一任美國聯邦儲備系統主席,這一消息使得市場預期未來貨幣政策將趨於嚴格,從而推動美元走強,並對包括比特幣在內的風險資產造成流動性壓力。這無疑讓許多投資者感到緊張,擔心這是否意味著比特幣牛市基礎正在動搖。…

以太坊價格預測:ETH多頭坐擁76億美元浮虧,價格跌破2400美元
在過去三天中,由於以太坊價格下跌19%至2400美元以下,導致眾多主要ETH多頭持有約76億美元的浮虧。 Fundstrat的主席Tom Lee的持倉淨損失約68億美元,而Garrett Jin和Jack Yi也各自面臨巨大虧損。 從技術分析看,以太坊在2400美元區域存在重要支持,但仍需突破2700美元至2800美元的阻力區。 當前市場中的ETH多頭和市場參與者在選擇信心購買與風險減少之間徘徊不定。 預售專案如Maxi Doge(MAXI)正吸引高風險回報投資者的注意。 WEEX Crypto News, 2026-02-03 07:59:51 以太坊自三日前開始持續承受下行壓力,這種情況揭示了Eth波動對一些以太坊多頭頭寸的損失程度。持續的下跌將價格推至2400美元以下。在這波下跌中,鏈上數據顯示,高調的投資者們在價格周期性高點時大量買入,而今他們手上持有的浮虧估計已達76億美元,這引發了一個關鍵問題:這次回調只是暫時的調整還是預示著一波新的熊市趨勢? Tom Lee的Fundstrat在以太坊頭寸上虧損68億美元 在主要虧損者中,以Fundstrat的主席Tom…

現在入手最佳加密貨幣:XRP、Solana、Ethereum
最近市場震盪,Bitcoin 暴跌至 80,000 美元以下,影響其他主要資產。 美國法規醞釀中,XRP、Solana 和 Ethereum 等山寨幣將受益。 XRP 在勝訴後有望衝擊 5 美元;Solana 將在行情復甦中觸及新高。 Ethereum 作為 DeFi 樞紐,潛力巨大,可能突破 5,000…

Hyperliquid 價格預測:每日收益創新高,HYPE 能超越 Solana 嗎?
主要要點 最近 Hyperliquid 的每日收益達到兩個月以來的新高,展示了其在市場上日益增加的影響力。 HYPE 價格在過去一週飆升 40%,這一增長與衍生品活動的重大復甦相關。 Hyperliquid 平台的交易量顯著增加,月度總交易量已超過 2070 億美元。 雖然與 Solana 相比,Hyperliquid 還有一定差距,但其作為持續市場基礎設施的角色逐漸擴大。 WEEX Crypto News,…
Ripple聯合創辦人領導新興40億美元行動對抗加州富人稅
Key Takeaways Ripple聯合創辦人Chris Larsen和風險投資家Tim Draper共同發起的「Grow California」行動旨在抵制加州提議的富人稅,此舉為硅谷的最新政治動員。 政治行動主要針對加州的勞工組織,尤其是工會對富人稅的支持,這一計畫已經獲得兩位創始人各5億美元的投入。 Larsen與Draper來自加密貨幣產業,但強調此行動並非專為加密產業設計,而是為了推選對商業有利的議員。 加州可能的5%億萬富翁稅被批評可能導致資本外逃以及高淨值居民的流失。 前議員Ian Calderon以支持比特幣的立場參選2026年加州州長。 WEEX Crypto News, 2026-02-01 14:05:00 加密市場的震撼波因Ripple聯合創辦人Chris Larsen與知名風險投資家Tim…
比特幣7%跌至77K可能標誌周期低點,分析師稱
關鍵要點 分析師PlanC認為比特幣最近的下跌可能標誌著當前牛市周期中的最深回調,而非長期下跌起點。 比特幣曾短暫跌至77,000美元,隨後穩定回升至78,600美元,其中市場波動與歷史上的重大回調有相似之處。 分析人士警告週末交易波動較大,可能誇大市場情緒,投資者應謹慎。 減少需求的聯邦準備政策和地緣政治壓力加劇了風險資產的重壓,市場情緒趨於謹慎。 WEEX Crypto News, 2026-02-01 14:05:00 比特幣跌幅引發市場關注,潛在周期低點來臨? 在最近的週末,比特幣價格下跌約7%,達到77,000美元,這一變化引起了市場的廣泛關注和分析。加密貨幣分析師PlanC指出,這次下跌可能不是長時間下跌的開始,而是當前牛市周期中的一次重大調整。這一觀點引發了投資者的關注,因為市場正處於不確定性的關鍵時期。 歷史回溯:比特幣過去的重大回調與復甦 比特幣的這一跌幅讓人聯想到市場歷史上的一些重大回調,這些回調最終往往導致了市場的強勁復甦。PlanC將當前的市場行為與2018年熊市時3,000美元附近的拋售、2020年3月因COVID-19驅動的急跌至5,100美元,以及FTX和Terra-Luna崩潰後短暫交易在15,500至17,500美元之間的情況進行比較。他認為,目前的下跌可能是一次重要的拋售低點,而不是基本趨勢的結構性改變。 以往35%-40%的調整在比特幣牛市中並不罕見,這表明投資者有理由保持樂觀,但也需謹慎看待短期價格波動。 市場當前面臨的挑戰 近期金融環境趨緊,加之中東地緣政治局勢的升溫,對風險資產的需求產生了壓力。XS.com的分析師Samer Hasn指出,美聯儲的政策立場仍然中立至鷹派,同時地緣政治緊張局勢使投資者更傾向於將資本轉向黃金和白銀等傳統安全資產。…
白宮加密會議:穩定幣回報法案協商未果
關鍵要點 加密產業與華爾街銀行於白宮會議中再次嘗試協商制定穩定幣回報法案,然而仍未達成共識。 特朗普總統的顧問要求本月內在參議院加密法案的新語言上達成妥協,以求立法推進。 立法進程阻力重重,包括共和黨和民主黨議員、加密行業、銀行界及白宮的多方博弈。 民主黨提出多項附加需求,如反腐規定等,增加了法案通過的難度。 WEEX Crypto News, 2026-02-03 07:53:49 白宮最近召集了加密產業及華爾街銀行的相關人士,試圖解凍雙方在參議院加密法案上的僵局。然而,即便在特朗普總統的直接干預下,有關穩定幣回報的關鍵議題上雙方依然未能取得突破。這場會議不僅是為了探討其中的棘手條款,更試圖推進立法進程,使其能夠在本年度內獲得參議院的全面表決。 會議的焦點 會談在白宮的外交接待室秘密進行,加密行業的代表人數遠多於銀行界。在特朗普的加密顧問帕特里克·威特(Patrick Witt)的引導下,雙方專注討論了穩定幣是否應與回報和獎勵掛鉤的問題。白宮的期望很明確:在月底前就在穩定幣回報的措辭上達成一個妥協方案。對於銀行業而言,他們的代表多數為貿易協會成員,可能需要在協商前獲得自身成員的支持。 銀行業的立場 銀行業代表對保持開放態度,甚至在聯合聲明中表明希望與加密產業共同開發「深思熟慮且有效的政策」。銀行業強調任何立法都應支持地方貸款業務,並同時保護金融體系的安全性與穩健性。美國銀行家協會及金融服務論壇,代表著華爾街頂級CEO,也同樣參與了這次會議。 加密行業的反饋 儘管未能立即在回報問題上達成妥協,但華府加密政策遊說組織的領導人科迪·卡本(Cody…
為何維塔利克·布特林在市場回暖時出售超過700枚以太坊(ETH)
關鍵要點 以太坊共同創始人維塔利克·布特林在系列區塊鏈交易中出售超過700枚ETH,目的是支持長期計劃。 出售的收入被用於布特林設立的慈善機構Kanro,這個機構專注於傳染病研究和其他公益項目。 布特林的資產變賣行為是早有計劃的,他強調以太坊基金會進入了一個溫和緊縮的時期。 儘管進行了大規模的ETH出售,但市場反應平淡,以太坊價格仍隨市場趨勢波動,並未受此影響。 WEEX Crypto News, 2026-02-03 07:53:49 布特林的ETH出售:支持長期計劃的戰略舉措 以太坊(Ethereum,簡稱ETH)的共同創始人維塔利克·布特林(Vitalik Buterin)近期出售了他持有的一小部分ETH,超過700枚,這一波出售並非出於市場驅動,而是為了資助一些長期計劃。根據區塊鏈分析平台的追蹤,這一行動符合其先前披露的計劃,即運用資金支持各種公益和技術發展項目。 在布特林的這次出售當中,他將211.84枚ETH賣得約50萬USDC,整額資金轉入他所創立的慈善機構Kanro。這個機構主要支持關於傳染病的研究和其他公益倡議,特別是在新冠疫情後,Kanro的價值愈發顯得重要。布特林過去有過多次將加密資產變現後捐贈於公益事業的記錄,例如2025年1月,他曾將價值約98.4萬USDC的28種不同的迷因幣出售,所得全部捐給了Kanro,強化了他長期扶持慈善事業的承諾。 輕微的措辭:市場影響和未來動向 然而,有觀察家指出,這些出售行為並未對ETH市價造成明顯影響。據BeInCrypto市場數據顯示,ETH在過去24小時內上升約5%,目前報價約為2312.6美元。這表明,儘管布特林的變現行動形成了一定的賣壓,但整體而言,市場對ETH的需求依然保持穩定。 布特林本人在早前的一篇推文中表示,他計劃在未來幾年中提取16384枚ETH,用於落實長期目標。這些目標涵蓋多個領域,包括開源、安全和可驗證的軟硬體開發,這些技術應用將延展到金融、溝通、治理、操作系統、安全硬體及生物科技,特別強調個人及公共健康領域的應用。 布特林自身的資產情況與以太坊基金會的策略…
川普稱對阿聯酋投資5億美元於世界自由金融不知情
川普總統表示對於阿布達比皇室對世界自由金融的投資毫不知情,此事引起了對外國影響力和總統家族商業關係的新質疑。 阿聯酋的Sheikh Tahnoon bin Zayed Al Nahyan王子同意以5億美元收購世界自由金融49%的股份。 投資透過由Sheikh Tahnoon支持的Aryam Investment 1進行,初期分配中187億美元流向川普家族實體。 此投資引發政治辯論,特別是關於川普的加密貨幣連結和公司治理問題。 WEEX Crypto News, 2026-02-03 07:53:49 阿布達比皇室投資案的背景…
幣安提款恢復正常運作後的暫時中斷
重點摘要 幣安在短暫中斷後,已成功恢復提款服務,並表示此次技術問題持續約20分鐘。 在比特幣價格下跌至76,000美元以下後,加密市場面臨清算風險。 幣安的用戶資金安全基金和貯備金調整引發市場關注,尤其是在快速變動的市場條件下。 當前市場對流動性和資金存取的擔憂提升了對平台操作更新的關注。 WEEX Crypto News, 2026-02-03 07:53:50(today’s date,foramt: day, month, year) 在幣安面臨短暫的技術中斷後,該平台於週二迅速恢復了提款功能,這在一段市場波動中為交易者提供了急需的穩定。幣安於社交媒體平台X上首次發佈了此問題的通知,並向用戶保證他們的團隊正在積極處理,在問題解決後將重新開放提款服務。 根據後續的報導指出,此次中斷只持續了約20分鐘。這樣的短暫中斷雖然瑣細,但在當前不安的市場情緒中,讓焦慮的投資者更為警覺。幣安在沒有提供具體原因的情況下迅速修復問題,再次開放提款,讓用戶能夠繼續進行交易。 清算潮突顯市場情緒脆弱 本次技術問題發生之前,加密市場剛剛經歷了一次顛簸。比特幣在不久前跌破了76,000美元。根據CoinGlass的數據,數字資產的清算額達到25.6億美元,伴隨著股票和金屬市場的風險拉回而下跌。雖然相較於先前川普政府對中國產品加徵關稅所引發的190億美元洗盤還相差甚遠,但這一事件再次印證了杠杆一旦失控,市場情緒如何迅速逆轉的現象。幣安的提款中斷使投資者必須將重點放在實際上,即平台在技術難題解決後,提款得以恢復。…