Якщо ви шукали чийсь код по векторним ембедінгам для натхнення, то ось Massimiliano Geraci виклав свій в колабі.
Що він робить і як: 🟢 демонструє процес генерування і візуалізації ембедінгів на базі запитів з Google Search Console 🟢 використовуються звичайні бібліотеки pandas, numpy, ніякі платні API не потрібні 🟢 завантажуємо запити з GSC в csv, можна свої підготовлені також — до 5тис, якщо будете потім візуалізацію робити — верхню клітинку в колонці з запитами називаємо query 🟢 клацаємо всі кнопки, завантажуємо наш csv-файлік, на виході отримуємо 2 tsl-файли 🟢 з цими файлами йдемо, наприклад, на Projector TensorFlow і спочатку завантажуємо файлік query_embeddings, а потім metadata 🟢 ці точки можна зробити текстовими, можна робити по ним пошук. Скоріш за все найзручніше вам буде використовувати UMAP.
Якщо дуже чесно, то практичної користі навряд чи буде багато, тому що у представлених даних не вистачає визначеної розбивки по сторінкам і немає направлених взаємозв'язків. Теоретично можна дописати. Але сидіти дивитись треба все одно очима, вручну...
Цінність у візуалізації даних, можливості поглянути на них з іншого ракурсу, повивчати, що таке ембедінги взагалі, можете тут в коментах показати, що у вас вийшло — буду пишатися і хвалити 🤗