リーンハーネス、ファットスキル:100倍のAI生産性の真の源

By: blockbeats|2026/04/13 13:35:19
0
シェア
copy
元の記事タイトル:薄いハーネス、太いスキル
元の記事著者:ギャリー・タン
翻訳:ペギー、ブロックビーツ

編集者の注:業界で「より強力なモデル」がデフォルトの答えとなる中で、この記事は異なる視点を提供します:生産性のギャップを10倍、100倍、あるいは1000倍に広げるのはモデルそのものではなく、モデルを中心に構築された全体的なシステム設計です。

この記事の著者であるギャリー・タンは、現在Y Combinatorの社長兼CEOであり、AIおよび初期段階のスタートアップエコシステムに長年関与しています。彼は「ファットスキル + 薄いハーネス」フレームワークを紹介し、AIアプリケーションをスキル、ランタイムフレームワーク、コンテキストルーティング、タスク分割、知識圧縮などの重要な要素に分解します。

このシステムでは、モデルはもはや全体の能力ではなく、システム内の単なる実行ユニットです。出力品質を真に決定するのは、コンテキストをどのように整理し、プロセスを固め、「推論」と「計算」の境界をどのように明確にするかです。

さらに重要なのは、このアプローチは単なる概念的なものではなく、実際のシナリオで検証されていることです:数千の起業家からのデータ処理とマッチングタスクに直面した際、システムは「読み取り-要約-推論-書き戻し」ループを通じて人間のアナリストに近い能力を達成し、コードの書き直しなしで継続的に自己最適化します。この「学習システム」は、AIを一回限りのツールから複利効果を持つインフラストラクチャに変えます。

したがって、この記事で提供される核心的なリマインダーは明確になります:AI時代において、効率のギャップは最も先進的なモデルを使用しているかどうかではなく、能力を継続的に蓄積し、自動的に進化できるシステムを構築しているかどうかによって決まります。

以下は元のテキストです:

スティーブ・イェッジは、AIプログラミングエージェントを使用している人々は「カーソルとチャットツールだけでコーディングするエンジニアよりも10倍から100倍効率的であり、2005年のGoogleエンジニアよりもおおよそ1000倍効率的である」と述べました。

注意:スティーブ・イェッジは、シリコンバレーで非常に影響力のあるソフトウェアエンジニア、技術ブロガー、エンジニアリング文化の評論家であり、鋭く、長文で、強い意見を持った技術記事で知られています。彼は、アマゾンやグーグルなどの企業でシニアエンジニアとして勤務し、その後セールスフォースに参加し、AI分野のスタートアップに移り、さらにダートプロジェクトの初期の支持者の一人でもありました。

これは誇張ではありません。私はそれを自分の目で見て、直接体験しました。しかし、人々がそのようなギャップについて聞くと、彼らはしばしばそれを誤った要因に帰属させます:より強力なモデル、より賢いクロード、より多くのパラメータ。

実際には、二倍効率的な人と百倍効率的な人は同じモデルを使用しています。違いは「知性」ではなく「アーキテクチャ」にあり、このアーキテクチャは非常にシンプルで、ノートカードに収まるほどです。

ハーネス(実行フレームワーク)は製品そのものです。

2026年3月31日、予期しない出来事の中で、アンソロピックはクロードコードの完全なソースコードをnpmに誤って公開しました—合計512,000行です。私はそれをすべて読みました。これは、私がYC(Yコンビネーター)で常に話してきたことを裏付けるものでした:本当の秘密はモデルにあるのではなく、「モデルを包むレイヤー」にあります。

リアルタイムのコードベースコンテキスト、プロンプトキャッシュ、特定のタスクのために設計されたツール、冗長なコンテキストの最大圧縮、構造化されたセッションメモリ、並行して動作するサブエージェント—これらのいずれもモデルを賢くするものではありません。しかし、これらはモデルに「適切なコンテキスト」を「適切なタイミング」で提供し、無関係な情報に圧倒されることを避けることができます。

このラッピングレイヤーはハーネス(実行フレームワーク)と呼ばれます。そして、すべてのAIビルダーが問うべき本当の質問は:ハーネスに何を入れるべきか、何を外に置くべきか?

興味深いことに、この質問には非常に具体的な答えがあります—薄いハーネス、太いスキル。

五つの定義

ボトルネックは決してモデルの知性にあったことはありません。モデルはすでに推論し、情報を統合し、コードを書く方法を知っています。

彼らはあなたのデータ、スキーマ、合意、問題の形を理解していないために失敗します。次の5つの定義は、この問題に対処するために正確に設計されています。

1.スキルファイル

スキルファイルは、モデルに「何かをする方法」を教える再利用可能なマークダウン文書です。それは「何をするか」を教えるものではなく、その部分はユーザーによって提供されます。スキルファイルはプロセスを提供します。

ほとんどの人が見落とす重要な点は、スキルファイルは実際にはメソッド呼び出しのようなものであるということです。それはパラメータを取ることができます。異なるパラメータで呼び出すことができます。同じプロセスは、異なる入力で呼び出されると、非常に異なる能力を示すことができます。

例えば、/investigateというスキルがあります。それは7つのステップから成ります:データの範囲を定義し、タイムラインを構築し、各文書を日記化し、統合し、両側から議論し、出典を引用します。それは3つのパラメータを取ります:TARGET、QUESTION、DATASET。

それをセキュリティ科学者と210万通の法医学的メールに向けると、内部告発者が抑圧されているかどうかを判断するために医療研究アナリストに変わります。

それをシェル会社と連邦選挙委員会(FEC)の開示申請に向けると、調整された政治的寄付を追跡するための訴訟法医学調査官に変わります。

同じスキル。同じ七つのステップ。同じマークダウンファイル。このスキルは意思決定プロセスを説明しており、実際にそれを実現するのは実行時の入力パラメータです。

これはプロンプトエンジニアリングではなくソフトウェア設計です:ここでは、マークダウンがプログラミング言語であり、人間の判断が実行環境です。実際、マークダウンはプロセス、判断、文脈を説明するため、厳格なソースコードよりもカプセル化に適しています。これらはモデルが最もよく理解する言語です。

--価格

--

2。ハーネス(ランタイムフレームワーク)

ハーネスはLLMの動作を駆動するソフトウェアの層です。それは4つのことだけを行います:モデルをループで実行し、ファイルを読み書きし、コンテキストを管理し、安全制約を強制します。

それだけです。それは「薄い」です。

反対のパターンは:太いハーネス、薄いスキルです。

おそらくこれを見たことがあるでしょう:40以上のツール定義、ドキュメントだけで画面の半分を占めるもの;制御可能なデータジェネレーターへの往復に2〜5秒かかる全能の神ツール;またはREST APIのすべてのエンドポイントを別々のツールにラップすること。その結果、トークン使用量が3倍、レイテンシが3倍、失敗率が3倍になります。

真に理想的なアプローチは、迅速で狭く焦点を絞った目的特化型ツールを使用することです。

例えば、各ブラウザ操作にわずか100ミリ秒かかるPlaywright CLI;スクリーンショットを撮るのに15秒かかるChrome MCPではなく、→見つける→クリック→待つ→読む。前者は75倍速いです。

現代のソフトウェアはもはや「過剰設計」される必要はありません。あなたがすべきことは:本当に必要なものだけを構築し、それ以上は何も作らないことです。

3。リゾルバー

リゾルバーは本質的にコンテキストルーティングテーブルです。タスクタイプXが発生すると、ドキュメントYが優先的に読み込まれます。スキルはモデルに「どのように行うか」を伝え、リゾルバーはモデルに「いつ何を読み込むか」を伝えます。

例えば、開発者が特定のプロンプトを変更します。リゾルバーがなければ、彼らは変更を終えてすぐにリリースしてしまうかもしれません。リゾルバーがあれば、モデルはまずdocs/EVALS.mdを読みます。このドキュメントには、最初に評価スイートを実行し、前後のスコアを比較するように書かれています。もし精度が2%以上低下した場合は、元に戻して理由を調査することとされています。この開発者は評価スイートの存在すら知らなかったかもしれません。適切なタイミングで正しいコンテキストを読み込むのはリゾルバーです。

Claude Codeには組み込みのリゾルバーが付属しています。各スキルには説明フィールドがあり、モデルは自動的にユーザーの意図をスキルの説明に一致させます。/shipスキルが存在するかどうかを覚えておく必要すらありません—説明自体がリゾルバーです。

正直に言うと、私の以前のCLAUDE.mdは驚くべきことに20,000行もありました。私が学んだすべての癖、すべてのパターン、すべての教訓が詰め込まれていました。全く馬鹿げています。モデルの注意の質は著しく低下しました。Claude Codeは私にそれを取り除くように直接言いました。

最終的な修正はおそらく200行程度で、いくつかのドキュメントポインタだけを保持しました。リゾルバーに必要なドキュメントを重要な瞬間に読み込ませましょう。この方法により、20,000行の知識は必要なときにアクセス可能であり、コンテキストウィンドウを汚染することはありません。

4.潜在的および決定論的

あなたのシステムでは、すべてのステップはこのカテゴリまたはあのカテゴリのいずれかに属します。これら二つを混同することが、エージェント設計における最も一般的な間違いです。

· 潜在空間は知性が存在する場所です。モデルはここで読み、理解し、判断し、決定します。それは、判断、合成、パターン認識に関わります。

· 決定論的は信頼性が存在する場所です。同じ入力、常に同じ出力。SQLクエリ、コンパイルされたコード、算術演算はすべてこの側に属します。

単一のLLMは、各人の性格や社会的ダイナミクスを考慮して、8人をディナーパーティーに座らせるのを助けることができます。しかし、800人を座らせるように頼むと、それは「一見合理的だが実際には完全に間違った」座席表を真剣に生成します。なぜなら、それはもはや扱うべき潜在空間の問題ではなく、潜在空間に強制的に押し込まれた決定論的な問題、すなわち組合せ最適化問題だからです。

最悪のシステムは常にこの境界のいずれか側で作業を誤って配置します。しかし、最良のシステムは境界を明確に区別します。

5.ダイアライゼーション(文書クラスタリング / トピックポートレート)

このダイアライゼーションステップこそが、AIが実世界の知識を扱う際に価値を生み出す能力を本当に与えるものです。

これは、モデルがトピックに関連するすべての資料を読み通し、構造化されたポートレートを生成することを意味します。数十または数百の文書からの判断を1ページに凝縮すること。

これはSQLクエリが生成できるものではありません。また、RAGパイプラインが生成できるものでもありません。モデルは実際に読み、矛盾する情報を同時に保持し、何が変わったのか、いつ変わったのかを記録し、これらの内容を構造化された知識に統合しなければなりません。

これはデータベースクエリとアナリストブリーフィングの違いです。

このアーキテクチャ

これらの5つの概念は、非常にシンプルな3層アーキテクチャに組み合わせることができます。

· 最上層はファットスキルです:判断、方法論、ドメイン知識を持つマークダウンで書かれたプロセスです。この層には90%の価値が存在します。
· 中間層は薄いCLIハーネスです:約200行のコードで、JSON入力を受け取り、テキスト出力を生成し、デフォルトで読み取り専用です。
· 最下層はあなたのアプリケーションシステムです:QueryDB、ReadDoc、Search、Timeline—これらは決定論的なインフラです。

指針となる原則は方向性があります:"知識"をできるだけ高くスキルに押し上げ、"実行"をできるだけ低く決定論的なツールに押し下げ、ハーネスを軽く保つことです。

その結果、モデルの能力が向上するたびに、すべてのスキルが自動的に強化され、基盤となる決定論的システムは安定して信頼性があります。

学習システム

以下では、YCで構築している実際のシステムを使用して、これらの5つの定義がどのように連携するかを示します。

2026年7月、チェイスセンター。スタートアップスクールには6000人の創業者が参加しています。全員が構造化された申請資料、アンケート回答、1対1のメンターとの会話の記録、そして公的なシグナルを持っています:Xの投稿、GitHubのコミット履歴、Claude Codeの使用(開発速度を示す)。

従来のアプローチは、15人のプロジェクトチームが申請を1つずつ読み、直感的な判断を下し、その後スプレッドシートを更新することです。

この方法は200人で機能しますが、6000人では完全に失敗します。誰もがこれほど多くのプロファイルを心に留めておくことはできず、AIエージェントインフラストラクチャが方向性のためにトップ3の候補者を提案していることを認識することはできません:ラゴスの開発ツールの創設者、シンガポールのコンプライアンス起業家、ブルックリンのCLIツール開発者—それぞれが異なる1対1の会話で、まったく異なる表現を使って同じ痛点を説明しました。

モデルはそれを実行できます。方法は次のとおりです:

強化

/enrich-founderというスキルがあり、すべてのデータソースから情報を引き出し、強化、日記化を行い、「創設者が言ったこと」と「実際に彼らが行っていること」の違いを強調します。

基盤となる決定論的システムは次のことを処理します:SQLクエリ、GitHubデータ、デモURLのブラウザテスト、ソーシャルシグナル抽出、CrustDataクエリなど。スケジュールされたタスクは1日に1回実行されます。6000人の創設者のプロファイルは常に最新の状態です。

日記化の出力は、キーワード検索では決して見つけられない情報をキャッチできます:

創設者:マリア・サントス 会社:Contrail (contrail.dev) 自己説明:「AIエージェントのためのDatadog」 実際の活動:コードコミットの80%は請求モジュールに焦点を当てています → 本質的には、可観測性ツールに偽装されたFinOpsツールを構築しています。

「言われたことと行われていること」のこの違いは、GitHubのコミット履歴、応募資料、会話記録を同時に読み取り、それらを精神的に統合することを必要とします。埋め込み類似性検索やキーワードフィルタリングではこれを達成できません。モデルは完全に読み取り、その後判断を下さなければなりません。(これはまさに潜在空間にあるべきタスクです!)

マッチング

ここが「スキル = メソッド呼び出し」が際立つところです。

同じマッチングスキルで、3回呼び出すことで全く異なる戦略が生まれることがあります:

/match-breakout:1200人を処理し、ドメインごとにクラスター化し、各グループ30人(埋め込み + 決定論的割り当て)

/match-lunch:600人を処理し、クロスドメインの「ランダムマッチング」を行い、テーブルごとに8人を繰り返しなしで配置します — LLMが最初にトピックを生成し、その後決定論的アルゴリズムが席を配置します。

/match-live:現地参加者を処理し、最近傍埋め込みに基づいて、200ms以内に1対1のマッチングを完了し、すでに会った人を除外します。

モデルは、従来のクラスタリングアルゴリズムでは達成できない判断を下すこともできます:

「サントスとオラムはどちらもAIインフラストラクチャに属しますが、競争関係にはありません — サントスはコストの帰属を行い、オラムはオーケストレーションを行います。彼らは同じグループに配置されるべきです。」
「キムのアプリケーションは開発者ツールを示しましたが、1対1の会話で彼らがSOC2コンプライアンスの自動化に取り組んでいることが明らかになりました。フィンテック / レグテックに再分類されるべきです。」

この種の再分類は埋め込みによって完全に見逃されます。モデルは全プロフィールを読む必要があります。

学習ループ

イベント後、/improveスキルがNPS調査結果を読み取り、「まあまあだが、もっと良くなる可能性がある」と分類されたフィードバックに対してダイアリゼーションを行います — 否定的なレビューではなく、ほぼそこにあるもの — そしてパターンを抽出します。

その後、新しいルールを提案し、それをマッチングスキルに書き戻します:

参加者が「AIインフラストラクチャ」に言及しますが、コードの80%以上が請求用である場合:
→ フィンテックとして分類され、AIインフラではない

同じグループの二人がすでに互いを知っている場合:
→ マッチングの重みを減らす
新しい関係の紹介を優先する

これらのルールはスキルファイルに書き戻されます。次回の実行時に自動的に有効になります。スキルは「自己編集」可能です。7月のイベントでは「まあまあだが、もっと良くできる」という評価が12%を占め、次のイベントでは4%に減少しました。

スキルファイルは「まあまあ」の意味を学び、誰もコードを書き直さなくてもシステムは改善されます。

このパターンはどの分野にも移行可能です:

取得 → 読む → 日記に記録する → 数える → 合成する

次に:研究 → 調査 → 日記に記録する → スキルを再構築する

2026年の最も価値のあるループは何かと尋ねられたら、これがそのループです。ほぼすべての知識作業シナリオに適用できます。

スキルは永久的なアップグレードです

最近、XのOpenClawにコマンドを投稿しましたが、予想以上の反応を得ました:

プロンプト:単発の作業を行うことは許可されていません。将来的に繰り返すことになる作業を依頼した場合、最初に3から10のサンプルを手動で処理し、結果を示さなければなりません;私が承認すれば、それをスキルファイルに変換し、自動的に実行する必要がある場合は、スケジュールされたタスクに追加します。基準は次のとおりです:もし私が二度目に尋ねる必要があるなら、あなたは失敗したことになります。

このコンテンツは何千もの「いいね」と2000以上のブックマークを受け取りました。多くの人々は、これがプロンプトエンジニアリングの技術だと思っていました。

実際には、そうではありません。それは上記で言及されたアーキテクチャです。あなたが書くすべてのスキルは、システムへの永続的なアップグレードです。それは劣化せず、忘れ去られることはありません。それは午前3時に自動的に実行されます。次世代モデルがリリースされると、すべてのスキルは瞬時に強化されます—潜在部分の判断能力が向上し、決定論的部分は安定して信頼性があります。

これがイェッゲの100倍の効率の源です。

より賢いモデルからではなく、次のことからです:厚いスキル、薄いハーネス、そしてすべてを能力に固める規律。

システムは指数関数的に成長します。一度構築すれば、長期的に実行されます。

[オリジナル記事リンク]

関連記事

人気のコイン

最新暗号資産ニュース

もっと見る