Новини індустрії

Всім, хто коли-небудь реально займався хоча б невеликими мовними моделями, чудово відомо, що LLM не…

Олеся Коробка··2 хв читання

Всім, хто коли-небудь реально займався хоча б невеликими мовними моделями, чудово відомо, що LLM не використовують розмітку schema для тренування. Можуть бути окремі версії, які тренують саме для створення цієї розмітки — це невідомо, але звичайні моделі ігнорують розмітку schema ВСІ і ЗАВЖДИ.

Для зберігання даних моделі, графи знань, інші бд можуть використовувати словник schema або його частини, тому що він універсальний, але для цього LLM самостійно структурують дані з тих неструктурованих, що просканували в інтернеті, або з тих, що їм надали постачальники даних.

Те, що LLM не використовують schema для тренування НІЯК, підтверджено багато разів, з останніх, що бачила. І завжди знайдуться SEOшники, які дупля не відбивають в тематиці, але хочуть про це написати. Інструменти, у яких розмітка schema — це послуга, на якій побудований весь їх бізнес, можна зрозуміти. Тому що інформація про невикористання schema LLMками і меншу підтримку з боку пошуковиків їм реально загрожує. А у деяких з них на носі наступний раунд від інвесторів.

В статті Andrea Volpini дуже розпливчасто говориться про майбутнє, коли агенти AI будуть отримувати структуровані дані з API, фідів або ще чогось на прикладі товарів і видачі. Але зараз вони цього НЕ роблять. Структуровані дані про товари агенти Google в AI Mode отримують напряму від Shopping Graph, який у свою чергу пріоритезує дані від Merchant Center. Як відомо, Shopping graph вже інтегрований в AI-відповіді Google одним з перших. В ньому більше 6 мільярдів товарів. Видачею Google живиться і ChatGPT, хоч і активно намагається побудувати щось своє.

Якщо у вас e-commerce, або ви оптимізуєте під граф знань або будуєте свій, хочете гарні сніппети і ще в деяких окремих випадках, так, можна заморочитись зі schema. При цьому завжди необхідно пам'ятати, що помилки в schema або некоректна розмітка — це набагато гірше, ніж ніякої розмітки взагалі.