Dan Petrovic нагадав про свою стару доповідь про природну інтеграцію посилань, яку ми так і не запостили. Суть проста. Вставляйте посилання так, як підказує сам текст, і тоді ні людина, ні алгоритм не доведуть, що якесь із них куплене. А щоб знайти ці природні місця автоматично, він навчив модель LinkBERT.
TLDR
- У гостьових статтях лінкбілдери зазвичай ставлять одне посилання на клієнта і два для виду, на вікіпедію чи якийсь авторитетний сайт. Цей шаблон видно неозброєним оком. Коли сторінку переглядає живий перевіряльник з антиспам-команди Google, він одразу бачить, яке посилання куплене, і знецінює його (це і є ручні санкції).
- Багато хто боїться ставити багато посилань. Насправді все навпаки. У нормальних статтях їх повно, у середньому 18, а от сайти, які продають посилання, ставлять одне-два. Тож сторінка з єдиним посиланням виглядає підозріліше, ніж щедро злінкована.
- Найнадійніше сховати комерційне посилання не серед інформаційних, а серед інших комерційних посилань на схожі бізнеси, які не конкурують із клієнтом.
Ліберальне лінкування
Читаючи абзац, людина в різних місцях по-різному хоче перейти за посиланням. Десь воно потрібне дуже, десь зовсім ні. Звідси два підходи.
Консервативний ставить посилання лише на найнеобхідніше. Ліберальний ставить посилання на будь-що корисне для читача, незалежно від SEO-метрик.
Головне правило інтеграції одне. Посилання має балансувати користь і нормальний досвід читача. Контент пишуть заради читача, а посилання ставлять там, де воно цьому читачеві допомагає. Спочатку цінність, решта потім. Dejan називає це нульовим кроком.
Звідси й формула непомітності для ручної перевірки. Ліберальне лінкування, чітка мета, найсильніша можлива ціль. Якщо на сторінці близько 18 осмислено поставлених посилань, ручний перевіряльник з команди Google зі спаму не вирахує серед них одне комерційне.
Чому схема 1+2 провалюється
SEOшники масово ставлять посилання за передбачуваним шаблоном. Одне комерційне для клієнта і два інформаційних для виду, зазвичай на якийсь урядовий сайт з авторитетом або на власні сторінки.
Але.
Цей жорсткий шаблон робить статтю неприродною і створює слід, який легко впізнає пошук. По суті це готова карта для ручних санкцій. І вся попередня робота, від написання тексту до домовленостей про розміщення, втрачає сенс, бо за очевидним слідом Google просто знецінює посилання.
Що показав аналіз понад мільйона посилань
Dejan розібрав понад мільйон посилань. У звичайних органічних статтях посилань багато. Аналіз десяти великих блогів дав у середньому 18 посилань на зовнішні сайти на сторінку, бо там списки джерел і ресурсні добірки. А сайти на дешевих шаблонах WordPress, які відкрито торгують посиланнями, ставлять у середньому 5, інколи взагалі одне. Тобто мало посилань виглядає підозріліше, ніж багато.
Кожне посилання має чітку мету, яку можна захистити. Серед законних причин поставити посилання:
- атрибуція (вказати авторство);
- посилання на джерело;
- визначення терміна;
- розширення думки;
- ідентифікація;
- приклад;
- заклик до дії;
- розкриття зв'язку;
- доказ, що підтверджує твердження;
- промоція, наприклад посилання на магазин друга.
Ціль теж має значення. Посилання веде на найсильнішу сторінку в інтернеті саме для цього речення й контексту, а не просто на якусь відносно дотичну.
Окрема знахідка про анкори. Серед природних анкорів часто трапляються слова на кшталт повідомив, сказав, за даними, згідно з заявою, прес-реліз. Але найцікавіше це довгий хвіст: зі 100 000 проаналізованих анкорів майже всі виявились унікальними фразами, які жодного разу не повторювались у вибірці. Якщо анкор природно вписується в речення за граматикою й синтаксисом, Google майже не може його знецінити.
Як влаштований LinkBERT
Щоб упоратися з цим довгим хвостом анкорів, Dejan навчив модель, яка передбачає точні місця для посилань.
В основі лежить велика модель BERT від Google (cased-версія, що розрізняє великі й малі літери). Спрощено BERT читає речення в обидва боки одночасно й розуміє зв'язки між словами, а не просто йде зліва направо.
Навчав на 300 млн токенів (токени — це шматки слів) із 600 000 статей, разом 4.5 ГБ тексту. Посилання в текстах позначили тегами, що відмічають початок і кінець лінка. Текст порізали на токени, обмежили 512 на фрагмент і добили короткі. Кожен звичайний токен отримав мітку 0, кожен токен-посилання мітку 1, тобто модель училась відрізняти, де посилання має бути, а де ні.
Тренували на одній споживчій відеокарті RTX 4090 за 32 години, 5 проходів по даних. Модель падала 27 разів, перш ніж завестись. То порожні рядки даних, то недонавчання, то перенавчання, коли модель завчає приклади напам'ять замість того щоб узагальнювати. Головна проблема була в перекосі. Звичайних токенів набагато більше, ніж токенів-посилань, тому спершу модель просто завжди вгадувала, що посилання немає. Полагодили тим, що під час навчання дали токенам-посиланням у 10 разів більшу вагу.
На виході модель має повзунок впевненості. На 50% вона пропонує багато місць для посилань, на 100% лише ті, де впевнена повністю. Базову версію Dejan виклав у відкритий доступ на Hugging Face, а потужнішу багатомовну лишив собі. Раніше він уже показував бету цього інструменту, тепер це повноцінна модель.
Penguin
Окремо Dejan зібрав інструмент під назвою Penguin, який робить зворотну задачу. Він визначає, яке з посилань у статті комерційне, а які поставлені для виду.
Логіка проста, і так само міркує алгоритм. Посилання-наповнювачі зазвичай мають довгі адреси й ведуть на інформативні статті. А єдине комерційне посилання впадає в очі. Адреса коротка, веде на комерційну сторінку. Цей контраст і видає куплений лінк.
Звідси робочий спосіб сховати комерційне посилання клієнта. Не ставте поряд інформаційні посилання для виду. Натомість оточіть посилання клієнта іншими комерційними посиланнями на схожі бізнеси, які теж щось продають і не конкурують напряму. Це ламає слід 1+2 і маскує намір сторінки.
За витоками внутрішніх документів Google досі сильно спирається на посилання, але робить це радше через ручний підхід за принципом латка на латці, ніж повноцінним машинним навчанням. Тому акуратна інтеграція посилань за цими правилами тримає сайт у безпеці.
Та сама логіка стоїть і за іншою роботою Dejan: генерацією внутрішньої перелінковки через машинне навчання і техніками контенту під AI-пошук, де теж усе впирається в семантику й вбудовування.