Лекция 1 / 6

Тренды и основы
LLM

Где мы сейчас, как читать рынок, как считать экономику и что реально работает в промптинге

Бизнес-школа МФТИ · Курс Gen AI · 7 апреля 2026 · Рудомёткин Егор

Часть 1

Где мы.
AI-индустрия
за 27 месяцев

Январь 2024 → апрель 2026. Что случилось с ценами, моделями и деньгами.

Цена фронтира

Флагман подешевел в 12 раз за 3 года

12×

GPT-4 → GPT-5.4

Март 2023: GPT-4 — $30 / $60 за 1M токенов
Апрель 2026: GPT-5.4 — $2.50 / $15 за 1M токенов

Что это значит для стартапа

Эксперимент, который стоил $10 000 — сегодня $800
Горизонт «когда это станет возможно дешево» — месяцы, не годы
Архитектурное решение, принятое под цену прошлого года, устарело
По данным Epoch AI: при фиксированном качестве цена падает вдвое каждые ~2 месяца

Доступность

GPT-4-level качество сегодня — в 200 раз дешевле

200×

GPT-4 vs GPT-4o mini

Gemini 2.0 Flash-Lite — $0.075 / 1M = ~400× дешевле GPT-4 при сопоставимом качестве

Главный вывод

Барьер входа в «AI-продукт с нормальным качеством» обрушился. Если год назад ты не мог себе позволить прогонять 1M запросов — сейчас можешь.

a16z «LLMflation»: ~10× падения в год, с GPT-4 уже 62×.

Следствие: тонкая обёртка над API — не продукт. Moat надо искать не в модели.

Хронология

12 вех, которые изменили правила

Фев 2024

Gemini 1.5 Pro — 1M контекст

Целая книга / кодбаза в одном промпте

Июл 2024

GPT-4o mini $0.15 / $0.60

Переломный момент — GPT-4 за копейки

Сен 2024

o1-preview — reasoning

Новая парадигма: модели думают

Окт 2024

Anthropic Computer Use

Первый агент с экраном

Ноя 2024

Cursor $100M ARR

AI code-gen — миллиардный рынок

Дек 2024

DeepSeek V3 / обучен за $5.6M

Open-source ломает экономику обучения

Янв 2025

DeepSeek R1

Reasoning в 20–50× дешевле o1

Июл 2025

Anthropic MCP

Стандарт подключения инструментов

Мар 2026

GPT-5.4 — unified

75% OSWorld (выше человека 72.4%)

Мар 2026

Claude Opus 4.6 / Sonnet 4.6

Текущий флагман Anthropic

Мар 2026

DeepSeek V4 — $0.30 / $0.50

81% SWE-bench Verified

Q1 2026

$122B OpenAI + $30B Anthropic

80% всего глобального венчура — в AI

Деньги

Венчур окончательно стал AI-венчуром

$122B

раунд OpenAI, Q1'26

$30B

Anthropic Series G, оценка $380B

80%

доля AI во всём глобальном VC Q1'26

$242B — глобальные VC в AI за Q1 2026 (Crunchbase) · 14 раундов по $1B+ за квартал · $35.3B в GenAI за весь 2025 (OECD) · xAI +$20B. Для сравнения: GenAI funding 2024 = $33.9B (8× от 2022, Stanford HAI).

Часть 2

Ландшафт
моделей.
Апрель 2026

Кто лидер, сколько стоит, когда что выбирать.

TOP-модели · апрель 2026

Флагманы, середина, бюджет

Модель	Провайдер	Input $/1M	Output $/1M	Контекст	Лучше всего для
GPT-5.4	OpenAI	$2.50	$15.00	128K	Unified: код + computer use + knowledge
GPT-5.4 Pro	OpenAI	$21.00	$168.00	128K	Критические задачи, максимум точности
Claude Opus 4.6	Anthropic	$5.00	$25.00	200K (1M бета)	Сложный reasoning, агенты, код
Claude Sonnet 4.6	Anthropic	$3.00	$15.00	200K	Баланс цена/качество, enterprise
Claude Haiku 4.5	Anthropic	$1.00	$5.00	200K	Бюджетные высокообъёмные задачи
Gemini 3.1 Pro	Google	$2.00	$12.00	1M+	Длинный контекст, мультимодальность
Gemini 2.5 Flash	Google	$0.30	$2.50	1M	Быстрые задачи с большим контекстом
DeepSeek V4	DeepSeek · Open	$0.30	$0.50	128K	Код, reasoning по минимальной цене
DeepSeek R1	DeepSeek · Open	$0.55	$2.19	64K	Reasoning — на 96% дешевле o1
Llama 4 Maverick	Meta · Open	self-host	—	1M	Privacy, кастомизация, on-prem
GPT-5.4 nano	OpenAI	$0.05	$0.40	128K	Классификация, extraction, routing
Grok 4.1	xAI	$0.20	$0.50	128K	Дешёвый high-volume inference

Источники: TokenCost AI Price Index, официальные pricing pages, март-апрель 2026.

Ментальная модель

Правило выбора модели

ЗАДАЧА × ОБЪЁМ × БЮДЖЕТ × LATENCY × PRIVACY

Паттерн провайдера

Флагман — сложное рассуждение, агенты, редкие дорогие запросы
Mid — основная рабочая лошадка продукта
Nano — классификация, routing, extraction, массовые пайплайны

Когда брать DeepSeek / Llama

Цена важнее задержки и 5-10% качества
Privacy / on-prem / self-hosting
High-volume inference + тонкий margin

Когда брать Gemini

Длинный контекст (книги, репозитории, логи)
Мультимодальность в одном вызове
Flash — быстрые задачи с большими вводами

Когда брать Claude

Агентные задачи, tool use, длинные цепочки
Код, особенно рефакторинг и ревью
Enterprise с чувствительными данными

Когда брать GPT

Unified задачи: текст + computer use + reasoning
Максимальная экосистема SDK и tooling

Экономика обучения

DeepSeek сломал шаблон «AI — это для триллионных компаний»

$5.6M

обучение DeepSeek V3 (только GPU)

Для сравнения

GPT-4 ≈ $79M (оценка)
Gemini Ultra ≈ $191M
Llama 3.1 405B ≈ $30M+
Фронтир 2026+ → идёт к $1B+ (Epoch AI)

В 10–30× дешевле при сопоставимом качестве. MoE + data curation + дистилляция.

Часть 3

10 цифр,
которые надо
держать в голове

Справочник, с которым вы будете жить весь курс.

Справочник

Что надо знать на пальцах

Контекст фронтира

1M→10M

Gemini 2.5 Pro — 1M (2M бета). Llama 4 Scout — 10M open-source.

Русский vs английский

×2

1 слово RU ≈ 2–2.5 токена. Русский текст в ~2× дороже EN.

Стоимость RAG-запроса

$0.001–0.02

3150 in + 400 out. DeepSeek V4 vs Claude Sonnet — разница в 16×.

Enterprise adoption

80%+

Компаний будут использовать GenAI API к 2026 (Gartner). В 2023 было <5%.

Copilot в Fortune 100

90%

GitHub Copilot уже используется — проникновение практически полное.

Latency флагманов

0.3–0.8с

TTFT у Claude / GPT-5.4. Gemini Flash — до 300 tok/sec.

Размер рынка GenAI

$83–161B

Прогноз 2026 (GMI / Fortune BI). 2030: $220B software.

CAGR 2026–2031

31–40%

Рост рынка GenAI — никакой другой tech-сегмент так не растёт.

Доля LLM в IT-бюджетах

37%

Компаний тратят >$250K/год на LLM. 73% — >$50K/год (TypeDef 2025).

Часть 4

Хайп
или реальность

5 тезисов, которые вы слышите каждую неделю. Что из этого работает у вас в проекте.

Разбор

RAG умрёт? Open-source обгонит?

Миф №1

«RAG умрёт, когда контексты станут бесконечными»

За: Gemini уже 1–2M, Llama 4 Scout 10M. Для многих задач «засунь весь документ» работает.

Против: длинный контекст ≠ точный retrieval (lost-in-the-middle). Прогнать 1M токенов vs найти нужные 2K — разница в 500× по цене. Фильтры, метаданные, гибридный поиск — длинный контекст не даёт.

Вердикт: RAG эволюционирует в agentic RAG, не умирает. Лекция 2 — про это.

Миф №2

«Open-source обгонит закрытые через 2 года»

За: DeepSeek V4 конкурирует с GPT-5.2. Llama 4, Qwen 3, Mistral — сильные игроки. R1 на HuggingFace — 10M+ скачиваний.

Против: GPT-5.4 Pro, Opus 4.6 — по-прежнему лидеры на сложных задачах. «Open» DeepSeek обучен на закрытых данных. Без $100B+ инвестиций — не догнать по скорости.

Вердикт: догоняют по медиане, отстают по фронтиру. Ваш выбор — микс.

Разбор

Без moat обречены? AI ускоряет в 10×?

Миф №3

«AI-стартапы без moat обречены»

За: тонкие «обёртки» над API копируются за дни. Модели — commodity. OpenAI сам добавляет фичи, которые были продуктами.

Против: moat бывает в данных (proprietary datasets), в workflow (Cursor), в дистрибуции (Copilot в GitHub), в вертикальной экспертизе (медицина, юриспруденция), в сетевых эффектах.

Вердикт: moat не в модели. Moat в данных, процессе и дистрибуции. Это — тема Лекции 5.

Миф №4

«AI ускоряет стартап в 10 раз»

За: один человек + AI делает за вечер лендинг + копирайт + 5 постов. Cursor — MVP за дни вместо недель. Валидация идеи — часы.

Против: AI ускоряет execution, но не заменяет strategy и customer development. 10× в создании артефактов ≠ 10× в достижении PMF. Риск «AI-иллюзии качества».

Вердикт: 10× в артефактах — да. 10× до PMF — нет. Путь к клиенту не параллелится.

Часть 5

System prompts
из продакшена

Что на самом деле лежит внутри у Cursor, v0 и Perplexity.

Анатомия

6 паттернов, которые есть у каждого продакшн-промпта

Структура

Persona / Role — «You are v0, an AI assistant…»
Constraints / Guardrails — жёсткие NEVER / DO NOT
Output Format — JSON / Markdown / XML / блоки кода
Tools / Function calling — схемы доступных инструментов
Edge cases — fallback, «если не знаешь — скажи»
Тон коммуникации — профессиональный, тёплый, лаконичный

Размер system prompts в продакшене

Продукт	Токены
Cursor	5 000 – 15 000
Claude (claude.ai)	10 000 – 30 000
v0	5 000 – 10 000
Perplexity	3 000 – 8 000
ChatGPT	5 000 – 15 000
Devin	10 000 – 20 000

Ключевое: «промпт» в продакшене — это инженерный артефакт на десятки тысяч токенов, а не «ты эксперт, дай совет».

Часть 6

Промпт-инжиниринг
2026

Техники, которые работают. И один паттерн, который мы унесём с собой в курсовой продукт.

Техники

Что работает в 2026

Классика

Zero-shot — для простых задач на сильных моделях
Few-shot — нестандартный формат, нюансная классификация
Chain-of-Thought — «подумай пошагово» для расчётов и логики

Продакшн

Structured output — JSON-схема или XML-теги (Anthropic любит XML)
Role / Persona — с конкретикой, не «ты эксперт»
Meta-prompting — промпт, который генерит промпт

Новое 2025–26

Reasoning prompts — для o3 / R1 просто задаёшь задачу
Tool-use / MCP — инструменты в system prompt
Prompt caching — до 90% скидка на повторный system prompt
Extended thinking — модель показывает рассуждения

Референс: Anthropic Prompt Engineering Guide · OpenAI Cookbook · Gemini Prompting Guide

Главный паттерн курса

Двухшаговый промпт: методология → задача

Шаг 1 — создаём методологию

«Создай методологию customer development интервью для [мой продукт]. Включи цели, вопросы, критерии оценки ответов.»

Шаг 2 — применяем

«Используя методологию выше, проанализируй эти 5 транскриптов интервью: [данные]»

Почему это ядро нашего продукта

Методология — переиспользуемый артефакт. Файл, который вы закидываете в контекст AI-ассистента снова и снова.

На выходе курса у каждого — карта задач стартапа с методологиями и промптами под свой проект.

Навык ≠ промпт. Навык = методология + промпт.

Часть 7

Экономика
инференса

Как считать AI COGS, где оптимизировать, чем держать gross margin.

Формулы и оптимизация

Считаем и режем cost

Базовые формулы

Cost = (in/1M × $in) + (out/1M × $out)

Пример: 1000 in + 500 out на Sonnet 4.6 = $0.0105

Cost_RAG ≈ Cost_embed + Cost_gen

Итого: $0.001 (DeepSeek V4) — $0.02 (Sonnet)

Cost_agent = N_steps × Cost_per_step

5–15 шагов. Sonnet: $0.05–$0.15 за вызов

AI COGS реальных продуктов

ChatGPT Free — ~$0.50–1 / активного юзера / мес
Cursor ($20) — ~$5–10 / юзера / мес
Perplexity ($20) — ~$3–5 / юзера / мес

4 рычага оптимизации

① Prompt caching — DeepSeek даёт 90% скидку на cached input. Anthropic, OpenAI — 50–90%.

② Model routing — 90% трафика на mini + 10% на флагман = 86% экономии. 99/1 = 98.5%.

③ Batch API — OpenAI: 50% скидка за async (24ч turnaround). Идеально для аналитики и генерации контента.

④ Downgrade модели — GPT-4o → DeepSeek V4 = input 8× / output 20× дешевле при 80% качества.

Unit-экономика

Реальный AI-продукт — 91% gross margin

91%

gross margin

Цель зрелого AI-продукта: 60–70%+. Стартовое поле: 20–40%. Классический SaaS: 75–85%.

Разбор примера

Подписка: $29 / мес
Юзер делает: 500 запросов / мес
Routing: 80% DeepSeek V4 + 20% Claude Sonnet
Средняя стоимость запроса: $0.005
AI COGS: 500 × $0.005 = $2.50 / мес
Gross margin: ($29 − $2.50) / $29 = 91%

100K запросов/мес на чистом Sonnet ≈ $2 000 / мес COGS. Routing даёт 86% экономии — $280.

Что дальше

Карта курса и домашнее задание

6 лекций

LLM и тренды — сегодня
RAG и работа с данными
Агенты и мультиагентные системы
LLMOps: evals, routing, caching
Бизнес-дизайн AI-продукта и moat
GTM и защита прототипа

Домашнее к Лекции 2

Выбрать модель под свой проект и обосновать выбор по 5 осям (задача × объём × бюджет × latency × privacy)
Посчитать AI COGS на одного юзера в месяц
Написать двухшаговый промпт к одной задаче своего проекта: сначала методология, потом применение

Вопросы?

Егор Рудомёткин · @rudometkin_blog

Тренды и основыLLM

Где мы.AI-индустрияза 27 месяцев

Флагман подешевел в 12 раз за 3 года

Что это значит для стартапа

GPT-4-level качество сегодня — в 200 раз дешевле

Главный вывод

12 вех, которые изменили правила

Венчур окончательно стал AI-венчуром

Ландшафтмоделей.Апрель 2026

Флагманы, середина, бюджет

Правило выбора модели

Паттерн провайдера

Когда брать DeepSeek / Llama

Когда брать Gemini

Когда брать Claude

Когда брать GPT

DeepSeek сломал шаблон «AI — это для триллионных компаний»

Для сравнения

10 цифр,которые надодержать в голове

Что надо знать на пальцах

Хайпили реальность

RAG умрёт? Open-source обгонит?

«RAG умрёт, когда контексты станут бесконечными»

«Open-source обгонит закрытые через 2 года»

Без moat обречены? AI ускоряет в 10×?

«AI-стартапы без moat обречены»

«AI ускоряет стартап в 10 раз»

System promptsиз продакшена

6 паттернов, которые есть у каждого продакшн-промпта

Структура

Размер system prompts в продакшене

Промпт-инжиниринг2026

Что работает в 2026

Классика

Продакшн

Новое 2025–26

Двухшаговый промпт: методология → задача

Шаг 1 — создаём методологию

Шаг 2 — применяем

Почему это ядро нашего продукта

Экономикаинференса

Считаем и режем cost

Базовые формулы

AI COGS реальных продуктов

4 рычага оптимизации

Реальный AI-продукт — 91% gross margin

Разбор примера

Карта курса и домашнее задание

6 лекций

Домашнее к Лекции 2

Тренды и основы
LLM

Где мы.
AI-индустрия
за 27 месяцев

Ландшафт
моделей.
Апрель 2026

10 цифр,
которые надо
держать в голове

Хайп
или реальность

System prompts
из продакшена

Промпт-инжиниринг
2026

Экономика
инференса