Все статьи

Claude vs GPT vs YandexGPT vs GigaChat: что реально работает для русского новостного текста

Когда спрашиваешь у ChatGPT, какая модель лучше для русского текста — он отвечает, что GPT. Когда спрашиваешь у Claude — он говорит, что Claude. GigaChat уверен в себе особенно. Это как спросить у каждого продавца на рынке, у кого лучший товар.

Мы строим Рерайт-Завод — AI-систему для рерайта новостей в стиле конкретного издания. Нам нужно было выбрать модель не теоретически, а под конкретную задачу: взять новость с информагентства и переписать её так, чтобы редактор регионального портала не стыдился поставить под ней своё имя.

Вот что мы нашли, когда перестали спрашивать у моделей мнение о себе и просто прогнали через них одни и те же тексты.

Условия теста

Задача: рерайт новостных текстов на русском языке с сохранением стиля конкретного издания.

Входные данные: 50 новостей с лент ТАСС, Интерфакса, региональных пресс-служб. Темы: местная политика, ЖКХ, происшествия, экономика. Намеренно не брали спорт и развлечения — там любая модель справляется.

Для каждой новости — профиль стиля издания плюс 2–3 примера текстов этого издания.

Модели:

  • GPT-4o (через OpenRouter)
  • Claude 3.5 Sonnet (через OpenRouter)
  • Claude 3 Haiku (через OpenRouter — как бюджетный вариант)
  • YandexGPT Pro (прямой API, в OpenRouter нет)
  • GigaChat Max (прямой API, в OpenRouter нет)

Оценивали по четырём критериям: соответствие стилю, фактическая точность, читабельность и стоимость.

GPT-4o: хорош, но не понимает контекст

GPT справляется с русским лучше, чем хотелось бы думать тем, кто болеет за отечественные модели. Грамматика чистая. Предложения связные. Нет этого характерного «машинного» ритма.

Проблема — стиль. GPT хочет улучшить текст. Если в образцах издания заголовки короткие и сухие — «Дорогу отремонтируют до сентября» — GPT норовит написать что-то вроде «Городская администрация пообещала завершить ремонт дорожного покрытия не позднее сентября текущего года». Грамотно. Не в стиле.

Это не баг, это фича: GPT обучен на том, что «хороший текст» — это полный, развёрнутый, с контекстом. Региональный портал, который пишет коротко и по-деловому — это отклонение от нормы в его картине мира. Он его исправляет.

Фактическая точность: хорошая. Редко добавляет несуществующие факты. Но округляет цифры — «около 50 миллионов» вместо «48,7 миллиона». Для новостного текста это проблема.

Стоимость 100 рерайтов: ~$3.2.

Claude 3.5 Sonnet: лучше со стилем, хуже с именами

Claude заметно лучше держит стиль. Если показать ему 3 образца с короткими предложениями и сухим тоном — он воспроизведёт это точнее, чем GPT. Меньше «улучшайзерства».

Наша гипотеза: Claude лучше следует инструкциям в части «не делать X» и «делать как в примерах», потому что более буквально интерпретирует few-shot примеры.

Проблема с именами. Русские имена в родительном/дательном падеже — ловушка для всех иностранных моделей. Редкие фамилии, составные имена — иногда переставляет или склоняет неправильно.

Фактическая точность: чуть хуже GPT на цифрах. Склонен к «примерно» там, где оригинал точен. Зато реже галлюцинирует — когда информации нет, скорее пропустит, чем придумает.

Стоимость 100 рерайтов: ~$3.8.

Claude 3 Haiku: сюрприз

Ожидали, что бюджетная версия будет заметно хуже. Оказалось — для стандартного новостного рерайта разница минимальна.

На простых текстах (факт → пересказ → 200–300 слов) Haiku выдаёт результат, который редакторы в слепом тесте оценивали примерно так же, как Sonnet. На сложных — структурированные тексты с несколькими источниками, прямой речью, цифрами — разрыв появляется.

Стоимость 100 рерайтов: ~$0.4. В 9 раз дешевле Sonnet.

Вывод: для потокового рерайта региональных новостей (происшествия, ЖКХ, официальные мероприятия) — Haiku закрывает задачу. Для редакционных материалов с аналитикой — Sonnet.

YandexGPT Pro: русский язык как родной, но...

YandexGPT знает русский язык иначе, чем иностранные модели. Падежи — без ошибок. Специфический канцелярский стиль российской пресс-службы — понимает и воспроизводит. Имена и фамилии — правильно во всех падежах.

Проблема первая: стиль. YandexGPT очень хочет писать официально. Если издание использует разговорный, живой стиль — модель причёсывает его до «в результате происшествия были повреждены оконные конструкции». Бороться с этим инструкциями сложнее, чем с GPT или Claude.

Проблема вторая: доступность. YandexGPT нет в OpenRouter. Отдельный API-ключ, отдельная интеграция, отдельный биллинг.

Проблема третья: контентные фильтры. На текстах про происшествия — ДТП, пожары, преступления — YandexGPT периодически отказывал или сильно смягчал контент. «Водитель погиб на месте» → «водитель получил травмы, несовместимые с жизнью». Для новостей это проблема.

Стоимость 100 рерайтов: ~280 рублей (~$3.2 по текущему курсу).

GigaChat Max: отечественное, но другое

GigaChat — продукт Сбера, позиционируется как замена иностранным моделям для российского рынка. В теории — идеальный выбор для медиа с соображениями о суверенитете данных.

На практике мы столкнулись с тем, что GigaChat больше всего подходит для задач, где важна «корпоративная» грамотность. Для живого новостного текста — результат ощутимо слабее.

Конкретно: связность внутри абзаца хорошая, переходы между абзацами — механические. Редакторы в слепом тесте чаще всего идентифицировали именно GigaChat как «что-то не то».

Ещё одна проблема: длинные тексты (600+ слов) держатся хуже коротких. Модель «устаёт» — в конце текста стиль ломается даже при хорошем начале.

Итоговая таблица

Модель Стиль Точность Читабельность Стоимость
GPT-4o 3/5 4/5 5/5 ~$3.2
Claude Sonnet 4/5 3.5/5 4/5 ~$3.8
Claude Haiku 3/5 3.5/5 4/5 ~$0.4
YandexGPT Pro 3/5 4/5 3/5 ~280 ₽
GigaChat Max 2/5 3/5 3/5 ~15 ₽/1K tok

Что мы выбрали и почему

Мы используем Claude Haiku как основную модель для потокового рерайта, Claude Sonnet — для материалов, где важна стилистическая точность.

Причина: лучший баланс «следование инструкциям по стилю / стоимость». OpenRouter даёт единый интерфейс, единый биллинг, возможность переключаться без рефакторинга.

YandexGPT и GigaChat — в резерве. Для части клиентов (государственные издания, холдинги с требованиями к локализации данных) нужен будет российский стек. Архитектурно мы к этому готовы — модель подключается как конфигурируемый параметр.

Один вывод, который удивил

Лучший способ улучшить качество рерайта — не смена модели, а улучшение профиля стиля.

Когда мы перешли с GPT-4o на Claude Sonnet — прирост качества по стилю составил примерно 15% по оценкам редакторов. Когда мы улучшили методику построения профиля стиля (разбили на аспекты, добавили примеры заголовков отдельно) — прирост составил 35%, при той же модели.

Это не значит, что выбор модели неважен. Но это значит, что тратить время на сравнение GPT-4o и Claude Sonnet имеет смысл только после того, как вы выжали максимум из качества промпта и профиля стиля.

Инструмент важен. Но важнее — как ты им пользуешься.


Статья написана с помощью AI-системы «Рерайт-Завод». Публикуется также на Habr.