Гайди

AI-агентами пошуку можна легко маніпулювати через Reddit і Wikipedia

Олеся Коробка4 хв читання

Троє дослідників з Cornell показали, що агента глибокого дослідження - deep research - це AI, який сам шукає в інтернеті, читає десятки сторінок і збирає з прочитаного готовий звіт - можна змусити цитувати потрібний вам текст і просувати потрібний бренд. Достатньо дописати пару речень в одну популярну сторінку на Reddit чи Wikipedia.

Схема атаки: отруєний коментар на Reddit чи Wikipedia потрапляє у звіт AI deep research і просуває підсунутий бренд

TLDR

  • Такі агенти раз за разом тягнуть одні й ті самі сторінки користувацького контенту (пости й коментарі Reddit, статті Wikipedia) у багатьох схожих запитах. Одна сторінка трапляється аж у 48% запитів усередині теми.
  • Дописавши близько 13 слів в одну таку сторінку, дослідники змушували агента згадати підсунутий бренд в висновку: від 21,7% до 37,1% усіх відповідей, залежно від системи.
  • Усі три перевірені способи захисту провалилися. Або не ловлять підробку, або разом з нею вбивають користь від справжніх спільнот.
  • Це фактично чорне GEO: оптимізація під цитування в AI вже відкрита для маніпуляцій, а самі метрики AI-видимості легко накрутити.

Як працює атака

Дослідники взяли три опенсорсні системи глибокого дослідження: STORM, Co-STORM і OmniThink. Ще дві комерційні, OpenAI Deep Research і Gemini Deep Research, вони аналізували окремо на те, звідки ті беруть джерела.

Перше спостереження: користувацький контент займає від 17% до 23% усіх сторінок, які агент відкриває під час дослідження. І більшість цього, від 54% до 71%, це Reddit.

Друге спостереження, головне: всередині однієї теми агент знову й знову відкриває ті самі сторінки. На різні, але схожі запити він повертається до одного й того ж обговорення на Reddit. Одна сторінка трапилась у 48% запитів теми, а в системі STORM окрема сторінка засвітилась у 16 запитах поспіль.

Звідси й тактика. Не завжди потрібно спамити весь інтернет. Достатньо знайти одну сторінку, яку агент гарантовано прочитає, і дописати туди короткий текст. У головному експерименті це близько 13 слів. Для самого факту цитування вистачало і 8 слів, а щоб агент згадав саме потрібну сутність, треба було приблизно 20 слів, тобто одне нормальне речення.

Перевіряли на 11 темах, загалом 176 запитів: як скасувати підписку на сервіс, що порадити з товарів, поради щодо фінансів і подібне. Тобто рівно ті теми, де люди справді питають AI і де відповідь впливає на гроші.

Скільки разів це спрацювало

Якщо підкоригувати одну сторінку, підсунутий бренд потрапляв у фінальний звіт:

  • Co-STORM: у 30,7% звітів загалом. А серед випадків, коли агент справді натрапив на цю сторінку, у 50,6%.
  • STORM: у 37,1% звітів, а серед тих, де сторінку відкрили, у 48,6%.
  • OmniThink: у 21,7% звітів, а серед тих, де сторінку відкрили, у 37,8%.

Якщо отруїти не одну, а три сторінки, цифри піднімаються приблизно до 45–52% для STORM і до 41–46% для Co-STORM.

Окремо тестували повноцінний варіант: дописати до обговорення на Reddit не пару слів, а цілий абзац приблизно на 130 слів. Навіть тоді цей текст становив усього від 0,5% до 3,9% усього, що агент прочитав по темі.

Чому захист не спрацював

Дослідники перевірили три рівні захисту. Не спрацював жоден без того, щоб зіпсувати самі звіти.

  • Заблокувати джерела користувацького контенту. Якщо викинути Reddit і подібні форуми, якість звітів майже не падає (оцінка з 4,30 до 4,26). Але разом з підробкою зникає й справжня користь, реальний досвід людей зі спільнот, заради якого ці джерела й тягнуть дані.
  • Ловити підробку за неприродністю тексту. Ідея в тому, що згенерований вставлений текст має виглядати дивно для мовної моделі. На практиці навпаки: отруєний текст виявився ще природнішим за органічний, тому детектор його пропускає.
  • Фільтрувати вже на виході, порівнюючи готовий звіт із чистим. Не вийшло: отруєні звіти виходили навіть схожішими на еталонні, ніж чисті звіти схожі один на одного.

Що це означає для нас

Це по суті чорне GEO, описане в академічній статті. Оптимізація під цитування в AI вже існує не тільки як біла практика, яку радить сам Google, а і як пряма маніпуляція, причому дешева: одне речення в правильному місці.

Звідси кілька висновків.

Reddit і Wikipedia це не просто хороші джерела посилань, це точки, через які можна впливати на те, що AI розповість про цілу нішу. Те саме, що робить їх сильними в органіці, робить їх вразливими.

Метрики AI-видимості, частка цитувань і згадки бренду в AI-відповідях, накручуються. Якщо ви або хтось інший дописали потрібне речення в правильну сторінку, метрика підстрибне без жодного стосунку до реальної якості чи попиту.

І найнеприємніше для платформ: відрізнити отруєння від нормального контенту поки нічим. Тому найближчим часом фільтрувати це буде не алгоритм, а той самий ручний розбір, на який ні в кого немає часу.

Повний текст дослідження.

Підпишіться на розсилку SEO BAZA

Новини SEO, розбори та матеріали українською. Без спаму, відписатися можна будь-коли.