DOJ. Суд над злодіяннями Google Сезон 2. Серія 1
У попередніх серіях: 🟢 Під час різних допитів і від залучених документів стало відомо про деякі фактори ранжування в Google, як вони називаються, як працюють. Наприклад, про поведінкові фактори, NavBoost і інші. 🟢 Google програв суд, і їм тепер світить розділення компанії.
У квітні розпочався процес слухань для вирішення подальшої їх долі. Документи з минулого сезону Нові документи
Нових документів дуже багато і їх постійно додають. Зараз найпопулярніший — це конфіденційна інформація про алгоритми Google. Це, мабуть, найцікавіший документ цього року. Ви маєте його прочитати обов'язково:
-
Крім RankBrain і DeepRank, інші сигнали ранжування можуть коригуватися інженерами пошуку вручну. Інженери можуть самі визначати пороги їх використання.
-
Google використовує три фундаментальні типи сигналів: ABC
- A: Anchors (A) — анкори. Посилання з однієї сторінки на іншу.
- B: Body (B) — основний текст. Терміни в документі.
- C: Clicks (C) — кліки. Як довго користувач залишався на сторінці перше, ніж повернутися до пошуку. Такі речі як NavBoost.
-
Сигнали ABC є ключовими компонентами topicality — тематичності (базовий скор) — того, як Google визначає релевантність документу до запиту. Пороги до них можуть визначатися вручну.
-
Можливість коригувати і контролювати сигнали вручну допомагає Google полагодити пошук, якщо щось зламається. Наприклад, Microsoft використовує майже виключно машинне навчання, до якого додали ще й Deep Learning, тому вони часто не можуть нічого зробити з власним пошуком. І це надає Google перевагу над Bing. Google може модулювати пошук за складними запитами, пов'язаними з медіа.
-
Інженери Google будують криві сигналів за URL, запитами і кліками. Якщо їх змусять віддати ці дані конкурентам, то тим буде легко визначити високорівневі сегменти, з яких скаладається фінальний скор результатів пошуку:
- ABC-topicality — тематичність, яка пов'язана з певним запитом
- Navboost
- Quality — якість. Це статичний сигнал, який зазвичай не пов'язаний з певним запитом. Але у деяких випадках інформація на високоякісному сайті може бути узагальненою. Тому, якщо запит визначено, як технічний і вузький, то такий сигнал може бути використано для пошуку якісного, але більш технічного сайту.
-
Q — якість сторінки, те ж саме, що і достовірність (трастовість)* — неймовірно важлива. Визначає авторитет сайту. Сигнал якості надважливий. Якість сторінки — це те, на що найбільше скаржаться користувачі. Проблема з'явилася 17 років тому з появою контентних ферм, коли студенти за 50 центів створювали статтю, і робили тисячі таких статей на різні теми. У наш час проблема все ще є, і вона погіршилась з появою AI. Оцінка якості статична і пов'язана з сайтом.
-
Інші сигнали:
- eDeepRank. Це система LLM, яка використовує BERT, трансформери. Сигнали на основі LLM розкладені на компоненти, щоб зробити їх більш прозорими.
- PageRank. Це відстань від відомого надійного джерела, використовується як вхідний сигнал для показника якості.
- Сигнал (популярності), який використовує дані Chrome.
-
Пошуковий індекс:
- Складається з контенту: заголовків і основного тексту — це інвертований індекс.
- Є інші спеціалізовані індекси, наприклад, для соцмереж. Вони зберігаються окремо
- Google зберігає деякі сигнали прямо у результатах пошуку, і їх можна там побачити.
-
Функції пошуку:
- У кожній функції пошуку власна система ранжування.
- Tangram (Tetris) залежить від кліків.
- Граф знань використовується не тільки для результатів у панелі знань. Наприклад, може використовуватись для відповіді на запит про пов'язані сутності.
-
Витоки документів Google скоріш за все не допоможуть у реверс-інжинірингу результатів пошуку, оскільки не містять даних кривих і порогів.