Новини індустрії

Reuters написав нові подробиці щодо звільнення Sam Altman (зараз його вже повернули) з OpenAI.

Олеся Коробка··2 хв читання

Reuters написав нові подробиці щодо звільнення Sam Altman (зараз його вже повернули) з OpenAI.

Напередодні його відсторонення, декілька наукових співробітників написали лист до ради директорів, попереджаючи про потужне відкриття у сфері AI, яке, на їхню думку, могло загрожувати людству. Це стало ключовим фактором. Повернення Сема відбулося через кілька днів після того, як більше 700 співробітників погрожували звільнитися та приєднатися до Microsoft на знак солідарності з Семом.

Що за потужне відкриття? Робиться припущення, що це *Q (читати Q-Star)**.

Наразі всі можуть тільки здогадуватись, що саме мається на увазі. Сам алгоритм вважається не новим. Нібито OpenAI змогли розвити його настільки, що він став здатен проривати обмеження даних. Тобто виходити за межі датасету.

Коротке пояснення, як це все працює:

  • Синтетичні дані вважаються ключовими для генерації високоякісних навчальних токенів для AI. Є дві парадигми масштабування: навчання та пошук. Існує думка, що ці парадигми залишатимуться актуальними для досягнення AGI.

  • Можливо, Q-Learning не є ключем до AGI, але поєднання генерації синтетичних даних з ефективними алгоритмами підкріплювального навчання є важливим. Тонкі налаштування разом з таким підкріплюванням є важливими для тренування ChatGPT/GPT-4. Складність в тому, щоб зробити RL (підкріплювальне навчання) ефективним за даними та генерувати високоякісні синтетичні дані.

  • RLHF (підкріплювальне навчання з людським відгуком) — це техніка, при якій AI навчається з людських відгуків, а не лише з попередньо визначених наборів даних. RLHF було використано в тренуванні Q* від OpenAI.

  • Q-Learning — це алгоритм підкріплювального навчання без моделі. Його мета - знайти оптимальну політику для максимізації сукупної винагороди. Але складність полягає у масштабуванні, узагальненні і адаптивності. OpenAI використовує Q-Learning та RLHF у прагненні до AGI.

  • Q є оптимальним рішенням у Q-Learning*. Воно буде покращуватися з часом, але це ще не AGI.