Троє дослідників з Cornell показали, що агента глибокого дослідження - deep research - це AI, який сам шукає в інтернеті, читає десятки сторінок і збирає з прочитаного готовий звіт - можна змусити цитувати потрібний вам текст і просувати потрібний бренд. Достатньо дописати пару речень в одну популярну сторінку на Reddit чи Wikipedia.

TLDR
- Такі агенти раз за разом тягнуть одні й ті самі сторінки користувацького контенту (пости й коментарі Reddit, статті Wikipedia) у багатьох схожих запитах. Одна сторінка трапляється аж у 48% запитів усередині теми.
- Дописавши близько 13 слів в одну таку сторінку, дослідники змушували агента згадати підсунутий бренд в висновку: від 21,7% до 37,1% усіх відповідей, залежно від системи.
- Усі три перевірені способи захисту провалилися. Або не ловлять підробку, або разом з нею вбивають користь від справжніх спільнот.
- Це фактично чорне GEO: оптимізація під цитування в AI вже відкрита для маніпуляцій, а самі метрики AI-видимості легко накрутити.
Як працює атака
Дослідники взяли три опенсорсні системи глибокого дослідження: STORM, Co-STORM і OmniThink. Ще дві комерційні, OpenAI Deep Research і Gemini Deep Research, вони аналізували окремо на те, звідки ті беруть джерела.
Перше спостереження: користувацький контент займає від 17% до 23% усіх сторінок, які агент відкриває під час дослідження. І більшість цього, від 54% до 71%, це Reddit.
Друге спостереження, головне: всередині однієї теми агент знову й знову відкриває ті самі сторінки. На різні, але схожі запити він повертається до одного й того ж обговорення на Reddit. Одна сторінка трапилась у 48% запитів теми, а в системі STORM окрема сторінка засвітилась у 16 запитах поспіль.
Звідси й тактика. Не завжди потрібно спамити весь інтернет. Достатньо знайти одну сторінку, яку агент гарантовано прочитає, і дописати туди короткий текст. У головному експерименті це близько 13 слів. Для самого факту цитування вистачало і 8 слів, а щоб агент згадав саме потрібну сутність, треба було приблизно 20 слів, тобто одне нормальне речення.
Перевіряли на 11 темах, загалом 176 запитів: як скасувати підписку на сервіс, що порадити з товарів, поради щодо фінансів і подібне. Тобто рівно ті теми, де люди справді питають AI і де відповідь впливає на гроші.
Скільки разів це спрацювало
Якщо підкоригувати одну сторінку, підсунутий бренд потрапляв у фінальний звіт:
- Co-STORM: у 30,7% звітів загалом. А серед випадків, коли агент справді натрапив на цю сторінку, у 50,6%.
- STORM: у 37,1% звітів, а серед тих, де сторінку відкрили, у 48,6%.
- OmniThink: у 21,7% звітів, а серед тих, де сторінку відкрили, у 37,8%.
Якщо отруїти не одну, а три сторінки, цифри піднімаються приблизно до 45–52% для STORM і до 41–46% для Co-STORM.
Окремо тестували повноцінний варіант: дописати до обговорення на Reddit не пару слів, а цілий абзац приблизно на 130 слів. Навіть тоді цей текст становив усього від 0,5% до 3,9% усього, що агент прочитав по темі.
Чому захист не спрацював
Дослідники перевірили три рівні захисту. Не спрацював жоден без того, щоб зіпсувати самі звіти.
- Заблокувати джерела користувацького контенту. Якщо викинути Reddit і подібні форуми, якість звітів майже не падає (оцінка з 4,30 до 4,26). Але разом з підробкою зникає й справжня користь, реальний досвід людей зі спільнот, заради якого ці джерела й тягнуть дані.
- Ловити підробку за неприродністю тексту. Ідея в тому, що згенерований вставлений текст має виглядати дивно для мовної моделі. На практиці навпаки: отруєний текст виявився ще природнішим за органічний, тому детектор його пропускає.
- Фільтрувати вже на виході, порівнюючи готовий звіт із чистим. Не вийшло: отруєні звіти виходили навіть схожішими на еталонні, ніж чисті звіти схожі один на одного.
Що це означає для нас
Це по суті чорне GEO, описане в академічній статті. Оптимізація під цитування в AI вже існує не тільки як біла практика, яку радить сам Google, а і як пряма маніпуляція, причому дешева: одне речення в правильному місці.
Звідси кілька висновків.
Reddit і Wikipedia це не просто хороші джерела посилань, це точки, через які можна впливати на те, що AI розповість про цілу нішу. Те саме, що робить їх сильними в органіці, робить їх вразливими.
Метрики AI-видимості, частка цитувань і згадки бренду в AI-відповідях, накручуються. Якщо ви або хтось інший дописали потрібне речення в правильну сторінку, метрика підстрибне без жодного стосунку до реальної якості чи попиту.
І найнеприємніше для платформ: відрізнити отруєння від нормального контенту поки нічим. Тому найближчим часом фільтрувати це буде не алгоритм, а той самий ручний розбір, на який ні в кого немає часу.