Новини індустрії

DOJ. Суд над злодіяннями Google Сезон 2. Серія 1

Олеся Коробка··3 хв читання

У попередніх серіях: 🟢 Під час різних допитів і від залучених документів стало відомо про деякі фактори ранжування в Google, як вони називаються, як працюють. Наприклад, про поведінкові фактори, NavBoost і інші. 🟢 Google програв суд, і їм тепер світить розділення компанії.

У квітні розпочався процес слухань для вирішення подальшої їх долі. Документи з минулого сезону Нові документи

Нових документів дуже багато і їх постійно додають. Зараз найпопулярніший — це конфіденційна інформація про алгоритми Google. Це, мабуть, найцікавіший документ цього року. Ви маєте його прочитати обов'язково:

  • Крім RankBrain і DeepRank, інші сигнали ранжування можуть коригуватися інженерами пошуку вручну. Інженери можуть самі визначати пороги їх використання.

  • Google використовує три фундаментальні типи сигналів: ABC

    • A: Anchors (A) — анкори. Посилання з однієї сторінки на іншу.
    • B: Body (B) — основний текст. Терміни в документі.
    • C: Clicks (C) — кліки. Як довго користувач залишався на сторінці перше, ніж повернутися до пошуку. Такі речі як NavBoost.
  • Сигнали ABC є ключовими компонентами topicality — тематичності (базовий скор) — того, як Google визначає релевантність документу до запиту. Пороги до них можуть визначатися вручну.

  • Можливість коригувати і контролювати сигнали вручну допомагає Google полагодити пошук, якщо щось зламається. Наприклад, Microsoft використовує майже виключно машинне навчання, до якого додали ще й Deep Learning, тому вони часто не можуть нічого зробити з власним пошуком. І це надає Google перевагу над Bing. Google може модулювати пошук за складними запитами, пов'язаними з медіа.

  • Інженери Google будують криві сигналів за URL, запитами і кліками. Якщо їх змусять віддати ці дані конкурентам, то тим буде легко визначити високорівневі сегменти, з яких скаладається фінальний скор результатів пошуку:

    • ABC-topicality — тематичність, яка пов'язана з певним запитом
    • Navboost
    • Quality — якість. Це статичний сигнал, який зазвичай не пов'язаний з певним запитом. Але у деяких випадках інформація на високоякісному сайті може бути узагальненою. Тому, якщо запит визначено, як технічний і вузький, то такий сигнал може бути використано для пошуку якісного, але більш технічного сайту.
  • Q — якість сторінки, те ж саме, що і достовірність (трастовість)* — неймовірно важлива. Визначає авторитет сайту. Сигнал якості надважливий. Якість сторінки — це те, на що найбільше скаржаться користувачі. Проблема з'явилася 17 років тому з появою контентних ферм, коли студенти за 50 центів створювали статтю, і робили тисячі таких статей на різні теми. У наш час проблема все ще є, і вона погіршилась з появою AI. Оцінка якості статична і пов'язана з сайтом.

  • Інші сигнали:

    • eDeepRank. Це система LLM, яка використовує BERT, трансформери. Сигнали на основі LLM розкладені на компоненти, щоб зробити їх більш прозорими.
    • PageRank. Це відстань від відомого надійного джерела, використовується як вхідний сигнал для показника якості.
    • Сигнал (популярності), який використовує дані Chrome.
  • Пошуковий індекс:

    • Складається з контенту: заголовків і основного тексту — це інвертований індекс.
    • Є інші спеціалізовані індекси, наприклад, для соцмереж. Вони зберігаються окремо
    • Google зберігає деякі сигнали прямо у результатах пошуку, і їх можна там побачити.
  • Функції пошуку:

    • У кожній функції пошуку власна система ранжування.
    • Tangram (Tetris) залежить від кліків.
    • Граф знань використовується не тільки для результатів у панелі знань. Наприклад, може використовуватись для відповіді на запит про пов'язані сутності.
  • Витоки документів Google скоріш за все не допоможуть у реверс-інжинірингу результатів пошуку, оскільки не містять даних кривих і порогів.