Лекция 1 / 6

Тренды и основы
LLM

Где мы сейчас, как читать рынок, как считать экономику и что реально работает в промптинге

Бизнес-школа МФТИ · Курс Gen AI · 7 апреля 2026 · Рудомёткин Егор

Часть 1

Где мы.
AI-индустрия
за 27 месяцев

Январь 2024 → апрель 2026. Что случилось с ценами, моделями и деньгами.

Цена фронтира

Флагман подешевел в 12 раз за 3 года

12×

GPT-4 → GPT-5.4

Март 2023: GPT-4 — $30 / $60 за 1M токенов
Апрель 2026: GPT-5.4 — $2.50 / $15 за 1M токенов

Что это значит для стартапа

  • Эксперимент, который стоил $10 000 — сегодня $800
  • Горизонт «когда это станет возможно дешево» — месяцы, не годы
  • Архитектурное решение, принятое под цену прошлого года, устарело
  • По данным Epoch AI: при фиксированном качестве цена падает вдвое каждые ~2 месяца
Доступность

GPT-4-level качество сегодня — в 200 раз дешевле

200×

GPT-4 vs GPT-4o mini

Gemini 2.0 Flash-Lite — $0.075 / 1M = ~400× дешевле GPT-4 при сопоставимом качестве

Главный вывод

Барьер входа в «AI-продукт с нормальным качеством» обрушился. Если год назад ты не мог себе позволить прогонять 1M запросов — сейчас можешь.

a16z «LLMflation»: ~10× падения в год, с GPT-4 уже 62×.

Следствие: тонкая обёртка над API — не продукт. Moat надо искать не в модели.

Хронология

12 вех, которые изменили правила

Фев 2024
Gemini 1.5 Pro — 1M контекст
Целая книга / кодбаза в одном промпте
Июл 2024
GPT-4o mini $0.15 / $0.60
Переломный момент — GPT-4 за копейки
Сен 2024
o1-preview — reasoning
Новая парадигма: модели думают
Окт 2024
Anthropic Computer Use
Первый агент с экраном
Ноя 2024
Cursor $100M ARR
AI code-gen — миллиардный рынок
Дек 2024
DeepSeek V3 / обучен за $5.6M
Open-source ломает экономику обучения
Янв 2025
DeepSeek R1
Reasoning в 20–50× дешевле o1
Июл 2025
Anthropic MCP
Стандарт подключения инструментов
Мар 2026
GPT-5.4 — unified
75% OSWorld (выше человека 72.4%)
Мар 2026
Claude Opus 4.6 / Sonnet 4.6
Текущий флагман Anthropic
Мар 2026
DeepSeek V4 — $0.30 / $0.50
81% SWE-bench Verified
Q1 2026
$122B OpenAI + $30B Anthropic
80% всего глобального венчура — в AI
Деньги

Венчур окончательно стал AI-венчуром

$122B
раунд OpenAI, Q1'26
$30B
Anthropic Series G, оценка $380B
80%
доля AI во всём глобальном VC Q1'26

$242B — глобальные VC в AI за Q1 2026 (Crunchbase) · 14 раундов по $1B+ за квартал · $35.3B в GenAI за весь 2025 (OECD) · xAI +$20B. Для сравнения: GenAI funding 2024 = $33.9B (8× от 2022, Stanford HAI).

Часть 2

Ландшафт
моделей.
Апрель 2026

Кто лидер, сколько стоит, когда что выбирать.

TOP-модели · апрель 2026

Флагманы, середина, бюджет

МодельПровайдерInput $/1MOutput $/1MКонтекстЛучше всего для
GPT-5.4OpenAI$2.50$15.00128KUnified: код + computer use + knowledge
GPT-5.4 ProOpenAI$21.00$168.00128KКритические задачи, максимум точности
Claude Opus 4.6Anthropic$5.00$25.00200K (1M бета)Сложный reasoning, агенты, код
Claude Sonnet 4.6Anthropic$3.00$15.00200KБаланс цена/качество, enterprise
Claude Haiku 4.5Anthropic$1.00$5.00200KБюджетные высокообъёмные задачи
Gemini 3.1 ProGoogle$2.00$12.001M+Длинный контекст, мультимодальность
Gemini 2.5 FlashGoogle$0.30$2.501MБыстрые задачи с большим контекстом
DeepSeek V4DeepSeek · Open$0.30$0.50128KКод, reasoning по минимальной цене
DeepSeek R1DeepSeek · Open$0.55$2.1964KReasoning — на 96% дешевле o1
Llama 4 MaverickMeta · Openself-host1MPrivacy, кастомизация, on-prem
GPT-5.4 nanoOpenAI$0.05$0.40128KКлассификация, extraction, routing
Grok 4.1xAI$0.20$0.50128KДешёвый high-volume inference

Источники: TokenCost AI Price Index, официальные pricing pages, март-апрель 2026.

Ментальная модель

Правило выбора модели

ЗАДАЧА × ОБЪЁМ × БЮДЖЕТ × LATENCY × PRIVACY

Паттерн провайдера

  • Флагман — сложное рассуждение, агенты, редкие дорогие запросы
  • Mid — основная рабочая лошадка продукта
  • Nano — классификация, routing, extraction, массовые пайплайны

Когда брать DeepSeek / Llama

  • Цена важнее задержки и 5-10% качества
  • Privacy / on-prem / self-hosting
  • High-volume inference + тонкий margin

Когда брать Gemini

  • Длинный контекст (книги, репозитории, логи)
  • Мультимодальность в одном вызове
  • Flash — быстрые задачи с большими вводами

Когда брать Claude

  • Агентные задачи, tool use, длинные цепочки
  • Код, особенно рефакторинг и ревью
  • Enterprise с чувствительными данными

Когда брать GPT

  • Unified задачи: текст + computer use + reasoning
  • Максимальная экосистема SDK и tooling
Экономика обучения

DeepSeek сломал шаблон «AI — это для триллионных компаний»

$5.6M

обучение DeepSeek V3 (только GPU)

Для сравнения

  • GPT-4 ≈ $79M (оценка)
  • Gemini Ultra ≈ $191M
  • Llama 3.1 405B ≈ $30M+
  • Фронтир 2026+ → идёт к $1B+ (Epoch AI)

В 10–30× дешевле при сопоставимом качестве. MoE + data curation + дистилляция.

Часть 3

10 цифр,
которые надо
держать в голове

Справочник, с которым вы будете жить весь курс.

Справочник

Что надо знать на пальцах

Контекст фронтира
1M→10M
Gemini 2.5 Pro — 1M (2M бета). Llama 4 Scout — 10M open-source.
Русский vs английский
×2
1 слово RU ≈ 2–2.5 токена. Русский текст в ~2× дороже EN.
Стоимость RAG-запроса
$0.001–0.02
3150 in + 400 out. DeepSeek V4 vs Claude Sonnet — разница в 16×.
Enterprise adoption
80%+
Компаний будут использовать GenAI API к 2026 (Gartner). В 2023 было <5%.
Copilot в Fortune 100
90%
GitHub Copilot уже используется — проникновение практически полное.
Latency флагманов
0.3–0.8с
TTFT у Claude / GPT-5.4. Gemini Flash — до 300 tok/sec.
Размер рынка GenAI
$83–161B
Прогноз 2026 (GMI / Fortune BI). 2030: $220B software.
CAGR 2026–2031
31–40%
Рост рынка GenAI — никакой другой tech-сегмент так не растёт.
Доля LLM в IT-бюджетах
37%
Компаний тратят >$250K/год на LLM. 73% — >$50K/год (TypeDef 2025).
Часть 4

Хайп
или реальность

5 тезисов, которые вы слышите каждую неделю. Что из этого работает у вас в проекте.

Разбор

RAG умрёт? Open-source обгонит?

Миф №1

«RAG умрёт, когда контексты станут бесконечными»

За: Gemini уже 1–2M, Llama 4 Scout 10M. Для многих задач «засунь весь документ» работает.

Против: длинный контекст ≠ точный retrieval (lost-in-the-middle). Прогнать 1M токенов vs найти нужные 2K — разница в 500× по цене. Фильтры, метаданные, гибридный поиск — длинный контекст не даёт.

Вердикт: RAG эволюционирует в agentic RAG, не умирает. Лекция 2 — про это.

Миф №2

«Open-source обгонит закрытые через 2 года»

За: DeepSeek V4 конкурирует с GPT-5.2. Llama 4, Qwen 3, Mistral — сильные игроки. R1 на HuggingFace — 10M+ скачиваний.

Против: GPT-5.4 Pro, Opus 4.6 — по-прежнему лидеры на сложных задачах. «Open» DeepSeek обучен на закрытых данных. Без $100B+ инвестиций — не догнать по скорости.

Вердикт: догоняют по медиане, отстают по фронтиру. Ваш выбор — микс.

Разбор

Без moat обречены? AI ускоряет в 10×?

Миф №3

«AI-стартапы без moat обречены»

За: тонкие «обёртки» над API копируются за дни. Модели — commodity. OpenAI сам добавляет фичи, которые были продуктами.

Против: moat бывает в данных (proprietary datasets), в workflow (Cursor), в дистрибуции (Copilot в GitHub), в вертикальной экспертизе (медицина, юриспруденция), в сетевых эффектах.

Вердикт: moat не в модели. Moat в данных, процессе и дистрибуции. Это — тема Лекции 5.

Миф №4

«AI ускоряет стартап в 10 раз»

За: один человек + AI делает за вечер лендинг + копирайт + 5 постов. Cursor — MVP за дни вместо недель. Валидация идеи — часы.

Против: AI ускоряет execution, но не заменяет strategy и customer development. 10× в создании артефактов ≠ 10× в достижении PMF. Риск «AI-иллюзии качества».

Вердикт: 10× в артефактах — да. 10× до PMF — нет. Путь к клиенту не параллелится.

Часть 5

System prompts
из продакшена

Что на самом деле лежит внутри у Cursor, v0 и Perplexity.

Анатомия

6 паттернов, которые есть у каждого продакшн-промпта

Структура

  1. Persona / Role — «You are v0, an AI assistant…»
  2. Constraints / Guardrails — жёсткие NEVER / DO NOT
  3. Output Format — JSON / Markdown / XML / блоки кода
  4. Tools / Function calling — схемы доступных инструментов
  5. Edge cases — fallback, «если не знаешь — скажи»
  6. Тон коммуникации — профессиональный, тёплый, лаконичный

Размер system prompts в продакшене

ПродуктТокены
Cursor5 000 – 15 000
Claude (claude.ai)10 000 – 30 000
v05 000 – 10 000
Perplexity3 000 – 8 000
ChatGPT5 000 – 15 000
Devin10 000 – 20 000

Ключевое: «промпт» в продакшене — это инженерный артефакт на десятки тысяч токенов, а не «ты эксперт, дай совет».

Часть 6

Промпт-инжиниринг
2026

Техники, которые работают. И один паттерн, который мы унесём с собой в курсовой продукт.

Техники

Что работает в 2026

Классика

  • Zero-shot — для простых задач на сильных моделях
  • Few-shot — нестандартный формат, нюансная классификация
  • Chain-of-Thought — «подумай пошагово» для расчётов и логики

Продакшн

  • Structured output — JSON-схема или XML-теги (Anthropic любит XML)
  • Role / Persona — с конкретикой, не «ты эксперт»
  • Meta-prompting — промпт, который генерит промпт

Новое 2025–26

  • Reasoning prompts — для o3 / R1 просто задаёшь задачу
  • Tool-use / MCP — инструменты в system prompt
  • Prompt caching — до 90% скидка на повторный system prompt
  • Extended thinking — модель показывает рассуждения

Референс: Anthropic Prompt Engineering Guide · OpenAI Cookbook · Gemini Prompting Guide

Главный паттерн курса

Двухшаговый промпт: методология → задача

Шаг 1 — создаём методологию

«Создай методологию customer development интервью для [мой продукт]. Включи цели, вопросы, критерии оценки ответов.»

Шаг 2 — применяем

«Используя методологию выше, проанализируй эти 5 транскриптов интервью: [данные]»

Почему это ядро нашего продукта

Методология — переиспользуемый артефакт. Файл, который вы закидываете в контекст AI-ассистента снова и снова.

На выходе курса у каждого — карта задач стартапа с методологиями и промптами под свой проект.

Навык ≠ промпт. Навык = методология + промпт.

Часть 7

Экономика
инференса

Как считать AI COGS, где оптимизировать, чем держать gross margin.

Формулы и оптимизация

Считаем и режем cost

Базовые формулы

Cost = (in/1M × $in) + (out/1M × $out)

Пример: 1000 in + 500 out на Sonnet 4.6 = $0.0105

Cost_RAG ≈ Cost_embed + Cost_gen

Итого: $0.001 (DeepSeek V4) — $0.02 (Sonnet)

Cost_agent = N_steps × Cost_per_step

5–15 шагов. Sonnet: $0.05–$0.15 за вызов

AI COGS реальных продуктов

  • ChatGPT Free — ~$0.50–1 / активного юзера / мес
  • Cursor ($20) — ~$5–10 / юзера / мес
  • Perplexity ($20) — ~$3–5 / юзера / мес

4 рычага оптимизации

① Prompt caching — DeepSeek даёт 90% скидку на cached input. Anthropic, OpenAI — 50–90%.

② Model routing — 90% трафика на mini + 10% на флагман = 86% экономии. 99/1 = 98.5%.

③ Batch API — OpenAI: 50% скидка за async (24ч turnaround). Идеально для аналитики и генерации контента.

④ Downgrade модели — GPT-4o → DeepSeek V4 = input 8× / output 20× дешевле при 80% качества.

Unit-экономика

Реальный AI-продукт — 91% gross margin

91%

gross margin

Цель зрелого AI-продукта: 60–70%+. Стартовое поле: 20–40%. Классический SaaS: 75–85%.

Разбор примера

  • Подписка: $29 / мес
  • Юзер делает: 500 запросов / мес
  • Routing: 80% DeepSeek V4 + 20% Claude Sonnet
  • Средняя стоимость запроса: $0.005
  • AI COGS: 500 × $0.005 = $2.50 / мес
  • Gross margin: ($29 − $2.50) / $29 = 91%

100K запросов/мес на чистом Sonnet ≈ $2 000 / мес COGS. Routing даёт 86% экономии — $280.

Что дальше

Карта курса и домашнее задание

6 лекций

  1. LLM и тренды — сегодня
  2. RAG и работа с данными
  3. Агенты и мультиагентные системы
  4. LLMOps: evals, routing, caching
  5. Бизнес-дизайн AI-продукта и moat
  6. GTM и защита прототипа

Домашнее к Лекции 2

  • Выбрать модель под свой проект и обосновать выбор по 5 осям (задача × объём × бюджет × latency × privacy)
  • Посчитать AI COGS на одного юзера в месяц
  • Написать двухшаговый промпт к одной задаче своего проекта: сначала методология, потом применение

Вопросы?

Егор Рудомёткин · @rudometkin_blog

К курсу