Фактчек без перегрузки: как мы решили не делать то, что делают все
Когда мы начали проектировать модуль фактчекинга для Рерайт-Завода, первым делом изучили, что предлагает академическая наука. И ужаснулись. Не потому что плохо — потому что слишком много.
Академический фактчек: красиво, но неподъёмно
Полноценный фактчекинг по научным стандартам — это пять уровней:
- Claim Detection — найти в тексте утверждения, которые нужно проверять
- Claim Classification — понять, какого типа это утверждение (факт, мнение, прогноз)
- Claim Decomposition — разбить сложное утверждение на проверяемые атомарные факты
- Evidence Retrieval — найти в базах данных и открытых источниках подтверждения или опровержения
- Verdict — вынести вердикт: правда, ложь, частично правда
Каждый уровень — это отдельная модель, отдельный пайплайн, отдельные API. Google ClaimReview, Wikidata, Knowledge Graph. Звучит мощно. Стоит дорого. А главное — решает не ту задачу.
Что на самом деле нужно редакторам
Мы поговорили с реальными редакторами (спасибо Александру Амзину и Екатерине Кушнир). У них нет чек-листов, нет формальных процедур. Они проверяют факты вручную, по наитию, по опыту. И их реальные потребности сводятся к двум вещам:
1. Можно ли доверять источнику?
Новость от ТАСС — одно. Новость из неизвестного Telegram-канала — совсем другое. Редактор принимает решение о доверии неосознанно, за секунды. Но когда новостей 20 в день, а редактор один — внимание рассеивается.
2. Не наврал ли AI при рерайте?
Это специфическая проблема автоматизации. LLM может «додумать» факт, которого не было в оригинале. Перепутать цифру. Поменять местами причину и следствие. Редактор должен это поймать, но сверять два текста вручную — утомительно.
Наше решение: два простых модуля
Модуль 1: Уровни доверия к источникам.
Мы ввели четырёхуровневую систему:
- Уровень 1 (зелёный): ТАСС, Интерфакс, РИА Новости — государственные и крупные информагентства
- Уровень 2 (зелёный): крупные федеральные и региональные СМИ с редакцией
- Уровень 3 (жёлтый): Telegram-каналы, блоги — нужна дополнительная проверка
- Уровень 4 (красный): неизвестный источник — требует ручной верификации
Редактор видит уровень сразу, ещё до рерайта. Это экономит время на принятие решения.
Модуль 2: Верификация рерайта.
После того как AI переписал новость, отдельный вызов LLM сравнивает рерайт с оригиналом. Строка за строкой. Факт за фактом.
Результат — светофор:
- Зелёный: все факты совпадают с источником
- Жёлтый: мелкие расхождения (формулировка, округление цифр)
- Красный: появились факты, которых не было в оригинале — возможная галлюцинация
Ключевой принцип: мы не проверяем, правда ли написанное. Мы проверяем, соответствует ли рерайт источнику. Это другая задача — и она решаема.
Открытый вопрос: гонка источников
Есть ситуация, которую мы пока обдумываем. Новость первой появляется в Telegram — без подробностей, без контекста. Через час выходит полная версия на новостном портале. Какой источник считать основным? Нужно ли перерайтить первую версию, а потом обновлять после выхода второй?
Пока мы не нашли универсального решения. Но сам факт, что мы задаём этот вопрос — а не игнорируем его — кажется правильным.
Почему мы отказались от «всего и сразу»
MVP фактчекинга: уровни доверия к источникам + верификационный агент. Без внешних API, без claim detection, без Wikidata. Две конкретные проблемы — два конкретных решения.
Академический фактчек — это прекрасная теория. Но региональному редактору в 9 утра нужен не вердикт мирового экспертного сообщества. Ему нужно за 30 секунд понять: источнику можно верить? AI не выдумал ничего лишнего? Всё. Остальное — его профессиональная экспертиза.
Впервые опубликовано на Habr