Новини індустрії

Roger Montti знайшов стародавнє дослідження Google — за 2020 рік. Схоже, що саме технологію, яка…

Олеся Коробка··2 хв читання

Roger Montti знайшов стародавнє дослідження Google — за 2020 рік. Схоже, що саме технологію, яка описана в цьому документі або схожу, Google використовує для свого корисного апдейту (Helpful Content Update). Який все ніяк не може завершити цього разу, або просто забули за нього.

З цікавого:

  • алгоритм Google може виявляти контент низької якості, спамний і згенерований за допомогою AI
  • алгоритм не потребує багато ресурсів і може аналізувати весь інтернет
  • алгоритм не потрібно додатково тренувати, він це робить самостійно.

Само дослідження Google базується на основі 500 млн документів, отриманих з Common Crawl, англійською мовою, і має такі цікаві деталі:

▫️ Якість сторінки залежить від: репутації домену, його зворотніх і вихідних посилань, фактичної коректності контенту, аудіо і відео, все це стосується тільки текстового контенту.

▫️ Існуючі моделі, навіть GPT2, вміють дуже добре визначати контент низької якості. Тобто ви можете зробити собі таку модель самі.

▫️ Для виявлення спаму був задіяний датасет Enron Spam Email і аналіз за допомогою зокрема (тільки не смійтеся!) — TF*IDF. Чим частіше використовуються всім нам відомі терміни NSFW, тим нижча якість документу. А також були визначені наступні приклади слів: “essay”, “writing”, “thesis”, “viagra”.

▫️ Ніша. Контент найнижчої якості підпав під теми: adult і книги/література — тут через ессей-ферми

▫️ Якість контенту поділили на 4 групи: 1 - неможливо визначити — такий контент просто не враховували 2 - 0 - низька якість — текст незрозумілий або нелогічний 3 - 1 - середня — текст зрозумілий, але написаний погано (часті синтаксичні і граматичні помилки) 4 - 2 - висока — текст зрозумілий і достатньо добре написаний (помилки нечасті)

▫️ Рік створення. Найбільше контенту низької якості вивалили в веб в 2019 році

▫️ Довжина. Короткого контенту в вебі найбільше і контент низької якості найчастіше буває коротким, пікове значення припадає на 3000 символів [моє особисте зауваження — англійською мовою це якраз 500 слів ]