Деякі наближені до Google публічні SEOшники не перший місяць пушать у паблік ідею і попереджають, що рано чи пізно Google почне карати за накручені згадки і цитування, аж до ручних санкцій. Накручені згадки це штучно створені згадки бренду на сторонніх сайтах, форумах і відео, щоб роздути авторитет в очах алгоритмів, зокрема в AI-пошуку, де від згадок залежить, кого LLM назве у відповіді і чию частку цитувань покаже. Не дуже зрозуміло було одне: як таке взагалі технічно зробити. І ось тепер є наукова робота Google, якою ці самі SEOшники активно діляться.
Тільки робота ця про відео, а не про пошук. Вона описує систему S-CTS (Scalable Cluster Termination System), яка виявляє і блокує цілі мережі акаунтів, що масово заливають відеоплатформи AI-сміттям. Але дехто з тих самих SEOшників вважає, що подібні системи Google зможе застосувати і для виявлення неприродних згадок. Першим про роботу написав Roger Montti на Search Engine Journal.
Наукова робота Google: Scalable Detection of Adversarial Synthetic Slop and Coordinated Media Abuse
TLDR
- Сам paper про відеоплатформи, а не про пошук. Система S-CTS блокує не окреме відео, а цілі мережі скоординованих каналів, що генерують AI-спам
- Виявлення з двох боків: пов'язаність акаунтів між собою (виявлення бот-мереж) і класифікатор, що шукає синтетику по відеоряду, аудіо і транскриптах
- Прямого стосунку до згадок чи ранжування в пошуку paper не має. Зв'язок з накрученими згадками це інтерпретація SEO-спільноти, а не заявка Google
Що насправді в роботі
Автори з Google (Abhinav Mathur, Claire Liu, Kelvin Tan, Yifei Liu) описують систему захисту для відеоплатформ. Проблема така: зловмисники масово генерують AI-сміття (autори називають це AI slop) і заливають ним платформи. Ціль таких мереж це видавання себе за інших, відштовхуючий згенерований контент і AI-шахрайство, яке зганяє глядачів на сторонні скам-сервіси.
Класична модерація з цим не справляється. Раніше дублікати ловили через хеші і метадані: однаковий файл має однаковий відбиток. Генеративний AI це ламає, бо кожному ролику дає унікальний відбиток, хоча по суті це той самий спам. Автори називають це adversarial adaptation: спамери постійно міняють свої заготовки, щоб лишатися трохи нижче порогів спрацювання фільтрів.
Але. Якщо за потоком стоїть одна скоординована група акаунтів, спільне в них видно не на рівні окремого відео, а на рівні зв'язків між каналами і поведінки. Туди система і дивиться.
Як працює система
S-CTS розшифровується як Scalable Cluster Termination System, тобто система масового блокування цілих кластерів (груп пов'язаних акаунтів) замість окремих роликів. Вона тримається на двох частинах:
- Виявлення бот-мереж за пов'язаністю акаунтів. Система зв'язує між собою зовні непов'язані канали в одну мережу за внутрішніми сигналами Google. Це класична задача виявлення фейкових акаунтів (Sybil detection). Які саме сигнали, не розкривають.
- Класифікатор синтетики. Він не ріже відео покадрово в пошуках візуальних артефактів, а зводить відеоряд, аудіодоріжку і транскрипт у спільні ембедінги, числові вектори, і додає до них сигнали про підозрілу поведінку в часі.
На цій частині Roger Montti і робить головний акцент. У роботі написано, що для звичайного тексту згенеровані AI сценарії ловлять через Sentence-BERT (S-BERT): модель переводить речення в ембедінги і порівнює їх за змістом через косинусну подібність, тобто бачить, що два тексти про одне й те саме, навіть якщо слова в них різні. Висновок звідси такий: автоматично згенерований текст лишає характерний математичний відбиток, який видно. S-BERT існує вже сім років, але SEO-індустрія досі не сприймала його як інструмент виявлення спаму. Якщо однотипний текст видно за відбитком навіть при різних словах, то і накручені згадки, написані за однією заготовкою, теоретично ловляться так само.
Зверху начіплений шар на основі LLM, який швидко донавчають під нові тактики спамерів без повного перенавчання. Для цього застосовують LoRA (Low-Rank Adaptation), спосіб дотренувати модель малими ресурсами, і APO (Automatic Prompt Optimization), автоматичний підбір промптів. Самі автори називають це Adversarial Ops: AI ловить AI. Частину рутинної модерації переклали на LLM, тому людям лишається менше ручної роботи.
Коли система впевнена, що перед нею скоординована мережа, вона блокує весь кластер каналів одразу.
Що з цим робити SEOшнику
Поки нічого. У роботі немає ні слова про пошук, ранжування чи згадки бренду. Це система для відеоплатформ проти AI-сміття, імперсонації і скаму. Зв'язок з накрученими згадками це здогад частини SEO-спільноти, побудований на тому, що сама ідея виявлення скоординованих мереж акаунтів технічно цілком переноситься з відео на що завгодно.
Усі заявлені цифри про точність і ефективність взяті з самої роботи Google, незалежних перевірок немає. І це поки дослідницька публікація, а не підтвердження, що S-CTS уже десь коварно відстежує згадки на ваших пбнках.