Все статьи

Фактчек без перегрузки: как мы решили не делать то, что делают все

Когда мы начали проектировать модуль фактчекинга для Рерайт-Завода, первым делом изучили, что предлагает академическая наука. И ужаснулись. Не потому что плохо — потому что слишком много.

Академический фактчек: красиво, но неподъёмно

Полноценный фактчекинг по научным стандартам — это пять уровней:

  1. Claim Detection — найти в тексте утверждения, которые нужно проверять
  2. Claim Classification — понять, какого типа это утверждение (факт, мнение, прогноз)
  3. Claim Decomposition — разбить сложное утверждение на проверяемые атомарные факты
  4. Evidence Retrieval — найти в базах данных и открытых источниках подтверждения или опровержения
  5. Verdict — вынести вердикт: правда, ложь, частично правда

Каждый уровень — это отдельная модель, отдельный пайплайн, отдельные API. Google ClaimReview, Wikidata, Knowledge Graph. Звучит мощно. Стоит дорого. А главное — решает не ту задачу.

Что на самом деле нужно редакторам

Мы поговорили с реальными редакторами (спасибо Александру Амзину и Екатерине Кушнир). У них нет чек-листов, нет формальных процедур. Они проверяют факты вручную, по наитию, по опыту. И их реальные потребности сводятся к двум вещам:

1. Можно ли доверять источнику?

Новость от ТАСС — одно. Новость из неизвестного Telegram-канала — совсем другое. Редактор принимает решение о доверии неосознанно, за секунды. Но когда новостей 20 в день, а редактор один — внимание рассеивается.

2. Не наврал ли AI при рерайте?

Это специфическая проблема автоматизации. LLM может «додумать» факт, которого не было в оригинале. Перепутать цифру. Поменять местами причину и следствие. Редактор должен это поймать, но сверять два текста вручную — утомительно.

Наше решение: два простых модуля

Модуль 1: Уровни доверия к источникам.

Мы ввели четырёхуровневую систему:

  • Уровень 1 (зелёный): ТАСС, Интерфакс, РИА Новости — государственные и крупные информагентства
  • Уровень 2 (зелёный): крупные федеральные и региональные СМИ с редакцией
  • Уровень 3 (жёлтый): Telegram-каналы, блоги — нужна дополнительная проверка
  • Уровень 4 (красный): неизвестный источник — требует ручной верификации

Редактор видит уровень сразу, ещё до рерайта. Это экономит время на принятие решения.

Модуль 2: Верификация рерайта.

После того как AI переписал новость, отдельный вызов LLM сравнивает рерайт с оригиналом. Строка за строкой. Факт за фактом.

Результат — светофор:

  • Зелёный: все факты совпадают с источником
  • Жёлтый: мелкие расхождения (формулировка, округление цифр)
  • Красный: появились факты, которых не было в оригинале — возможная галлюцинация

Ключевой принцип: мы не проверяем, правда ли написанное. Мы проверяем, соответствует ли рерайт источнику. Это другая задача — и она решаема.

Открытый вопрос: гонка источников

Есть ситуация, которую мы пока обдумываем. Новость первой появляется в Telegram — без подробностей, без контекста. Через час выходит полная версия на новостном портале. Какой источник считать основным? Нужно ли перерайтить первую версию, а потом обновлять после выхода второй?

Пока мы не нашли универсального решения. Но сам факт, что мы задаём этот вопрос — а не игнорируем его — кажется правильным.

Почему мы отказались от «всего и сразу»

MVP фактчекинга: уровни доверия к источникам + верификационный агент. Без внешних API, без claim detection, без Wikidata. Две конкретные проблемы — два конкретных решения.

Академический фактчек — это прекрасная теория. Но региональному редактору в 9 утра нужен не вердикт мирового экспертного сообщества. Ему нужно за 30 секунд понять: источнику можно верить? AI не выдумал ничего лишнего? Всё. Остальное — его профессиональная экспертиза.


Впервые опубликовано на Habr