Roger Montti знайшов стародавнє дослідження Google — за 2020 рік. Схоже, що саме технологію, яка…

Roger Montti знайшов стародавнє дослідження Google — за 2020 рік. Схоже, що саме технологію, яка описана в цьому документі або схожу, Google використовує для свого корисного апдейту (Helpful Content Update). Який все ніяк не може завершити цього разу, або просто забули за нього.

З цікавого:

алгоритм Google може виявляти контент низької якості, спамний і згенерований за допомогою AI
алгоритм не потребує багато ресурсів і може аналізувати весь інтернет
алгоритм не потрібно додатково тренувати, він це робить самостійно.

Само дослідження Google базується на основі 500 млн документів, отриманих з Common Crawl, англійською мовою, і має такі цікаві деталі:

▫️ Якість сторінки залежить від: репутації домену, його зворотніх і вихідних посилань, фактичної коректності контенту, аудіо і відео, все це стосується тільки текстового контенту.

▫️ Існуючі моделі, навіть GPT2, вміють дуже добре визначати контент низької якості. Тобто ви можете зробити собі таку модель самі.

▫️ Для виявлення спаму був задіяний датасет Enron Spam Email і аналіз за допомогою зокрема (тільки не смійтеся!) — TF*IDF. Чим частіше використовуються всім нам відомі терміни NSFW, тим нижча якість документу. А також були визначені наступні приклади слів: “essay”, “writing”, “thesis”, “viagra”.

▫️ Ніша. Контент найнижчої якості підпав під теми: adult і книги/література — тут через ессей-ферми

▫️ Якість контенту поділили на 4 групи: 1 - неможливо визначити — такий контент просто не враховували 2 - 0 - низька якість — текст незрозумілий або нелогічний 3 - 1 - середня — текст зрозумілий, але написаний погано (часті синтаксичні і граматичні помилки) 4 - 2 - висока — текст зрозумілий і достатньо добре написаний (помилки нечасті)

▫️ Рік створення. Найбільше контенту низької якості вивалили в веб в 2019 році

▫️ Довжина. Короткого контенту в вебі найбільше і контент низької якості найчастіше буває коротким, пікове значення припадає на 3000 символів [моє особисте зауваження — англійською мовою це якраз 500 слів ]

Roger Montti знайшов стародавнє дослідження Google — за 2020 рік. Схоже, що саме технологію, яка…

Схожі новини

Google дещо змінив формат відповідей на питання. Новий випуск тут. Транскрибація англійською. Дуже…

Barry Adams рекомендує додавати теги до новинних статей, його власні думки не обов'язково…

Як автоматизувати генерацію описів продуктів для eCommerce за допомогою OpenAI GPT3, розповідає…

Більше за січень 2023