Claude vs GPT vs YandexGPT vs GigaChat: что реально работает для русского новостного текста
Когда спрашиваешь у ChatGPT, какая модель лучше для русского текста — он отвечает, что GPT. Когда спрашиваешь у Claude — он говорит, что Claude. GigaChat уверен в себе особенно. Это как спросить у каждого продавца на рынке, у кого лучший товар.
Мы строим Рерайт-Завод — AI-систему для рерайта новостей в стиле конкретного издания. Нам нужно было выбрать модель не теоретически, а под конкретную задачу: взять новость с информагентства и переписать её так, чтобы редактор регионального портала не стыдился поставить под ней своё имя.
Вот что мы нашли, когда перестали спрашивать у моделей мнение о себе и просто прогнали через них одни и те же тексты.
Условия теста
Задача: рерайт новостных текстов на русском языке с сохранением стиля конкретного издания.
Входные данные: 50 новостей с лент ТАСС, Интерфакса, региональных пресс-служб. Темы: местная политика, ЖКХ, происшествия, экономика. Намеренно не брали спорт и развлечения — там любая модель справляется.
Для каждой новости — профиль стиля издания плюс 2–3 примера текстов этого издания.
Модели:
- GPT-4o (через OpenRouter)
- Claude 3.5 Sonnet (через OpenRouter)
- Claude 3 Haiku (через OpenRouter — как бюджетный вариант)
- YandexGPT Pro (прямой API, в OpenRouter нет)
- GigaChat Max (прямой API, в OpenRouter нет)
Оценивали по четырём критериям: соответствие стилю, фактическая точность, читабельность и стоимость.
GPT-4o: хорош, но не понимает контекст
GPT справляется с русским лучше, чем хотелось бы думать тем, кто болеет за отечественные модели. Грамматика чистая. Предложения связные. Нет этого характерного «машинного» ритма.
Проблема — стиль. GPT хочет улучшить текст. Если в образцах издания заголовки короткие и сухие — «Дорогу отремонтируют до сентября» — GPT норовит написать что-то вроде «Городская администрация пообещала завершить ремонт дорожного покрытия не позднее сентября текущего года». Грамотно. Не в стиле.
Это не баг, это фича: GPT обучен на том, что «хороший текст» — это полный, развёрнутый, с контекстом. Региональный портал, который пишет коротко и по-деловому — это отклонение от нормы в его картине мира. Он его исправляет.
Фактическая точность: хорошая. Редко добавляет несуществующие факты. Но округляет цифры — «около 50 миллионов» вместо «48,7 миллиона». Для новостного текста это проблема.
Стоимость 100 рерайтов: ~$3.2.
Claude 3.5 Sonnet: лучше со стилем, хуже с именами
Claude заметно лучше держит стиль. Если показать ему 3 образца с короткими предложениями и сухим тоном — он воспроизведёт это точнее, чем GPT. Меньше «улучшайзерства».
Наша гипотеза: Claude лучше следует инструкциям в части «не делать X» и «делать как в примерах», потому что более буквально интерпретирует few-shot примеры.
Проблема с именами. Русские имена в родительном/дательном падеже — ловушка для всех иностранных моделей. Редкие фамилии, составные имена — иногда переставляет или склоняет неправильно.
Фактическая точность: чуть хуже GPT на цифрах. Склонен к «примерно» там, где оригинал точен. Зато реже галлюцинирует — когда информации нет, скорее пропустит, чем придумает.
Стоимость 100 рерайтов: ~$3.8.
Claude 3 Haiku: сюрприз
Ожидали, что бюджетная версия будет заметно хуже. Оказалось — для стандартного новостного рерайта разница минимальна.
На простых текстах (факт → пересказ → 200–300 слов) Haiku выдаёт результат, который редакторы в слепом тесте оценивали примерно так же, как Sonnet. На сложных — структурированные тексты с несколькими источниками, прямой речью, цифрами — разрыв появляется.
Стоимость 100 рерайтов: ~$0.4. В 9 раз дешевле Sonnet.
Вывод: для потокового рерайта региональных новостей (происшествия, ЖКХ, официальные мероприятия) — Haiku закрывает задачу. Для редакционных материалов с аналитикой — Sonnet.
YandexGPT Pro: русский язык как родной, но...
YandexGPT знает русский язык иначе, чем иностранные модели. Падежи — без ошибок. Специфический канцелярский стиль российской пресс-службы — понимает и воспроизводит. Имена и фамилии — правильно во всех падежах.
Проблема первая: стиль. YandexGPT очень хочет писать официально. Если издание использует разговорный, живой стиль — модель причёсывает его до «в результате происшествия были повреждены оконные конструкции». Бороться с этим инструкциями сложнее, чем с GPT или Claude.
Проблема вторая: доступность. YandexGPT нет в OpenRouter. Отдельный API-ключ, отдельная интеграция, отдельный биллинг.
Проблема третья: контентные фильтры. На текстах про происшествия — ДТП, пожары, преступления — YandexGPT периодически отказывал или сильно смягчал контент. «Водитель погиб на месте» → «водитель получил травмы, несовместимые с жизнью». Для новостей это проблема.
Стоимость 100 рерайтов: ~280 рублей (~$3.2 по текущему курсу).
GigaChat Max: отечественное, но другое
GigaChat — продукт Сбера, позиционируется как замена иностранным моделям для российского рынка. В теории — идеальный выбор для медиа с соображениями о суверенитете данных.
На практике мы столкнулись с тем, что GigaChat больше всего подходит для задач, где важна «корпоративная» грамотность. Для живого новостного текста — результат ощутимо слабее.
Конкретно: связность внутри абзаца хорошая, переходы между абзацами — механические. Редакторы в слепом тесте чаще всего идентифицировали именно GigaChat как «что-то не то».
Ещё одна проблема: длинные тексты (600+ слов) держатся хуже коротких. Модель «устаёт» — в конце текста стиль ломается даже при хорошем начале.
Итоговая таблица
| Модель | Стиль | Точность | Читабельность | Стоимость |
|---|---|---|---|---|
| GPT-4o | 3/5 | 4/5 | 5/5 | ~$3.2 |
| Claude Sonnet | 4/5 | 3.5/5 | 4/5 | ~$3.8 |
| Claude Haiku | 3/5 | 3.5/5 | 4/5 | ~$0.4 |
| YandexGPT Pro | 3/5 | 4/5 | 3/5 | ~280 ₽ |
| GigaChat Max | 2/5 | 3/5 | 3/5 | ~15 ₽/1K tok |
Что мы выбрали и почему
Мы используем Claude Haiku как основную модель для потокового рерайта, Claude Sonnet — для материалов, где важна стилистическая точность.
Причина: лучший баланс «следование инструкциям по стилю / стоимость». OpenRouter даёт единый интерфейс, единый биллинг, возможность переключаться без рефакторинга.
YandexGPT и GigaChat — в резерве. Для части клиентов (государственные издания, холдинги с требованиями к локализации данных) нужен будет российский стек. Архитектурно мы к этому готовы — модель подключается как конфигурируемый параметр.
Один вывод, который удивил
Лучший способ улучшить качество рерайта — не смена модели, а улучшение профиля стиля.
Когда мы перешли с GPT-4o на Claude Sonnet — прирост качества по стилю составил примерно 15% по оценкам редакторов. Когда мы улучшили методику построения профиля стиля (разбили на аспекты, добавили примеры заголовков отдельно) — прирост составил 35%, при той же модели.
Это не значит, что выбор модели неважен. Но это значит, что тратить время на сравнение GPT-4o и Claude Sonnet имеет смысл только после того, как вы выжали максимум из качества промпта и профиля стиля.
Инструмент важен. Но важнее — как ты им пользуешься.
Статья написана с помощью AI-системы «Рерайт-Завод». Публикуется также на Habr.