Roger Montti знайшов стародавнє дослідження Google — за 2020 рік. Схоже, що саме технологію, яка…
Roger Montti знайшов стародавнє дослідження Google — за 2020 рік. Схоже, що саме технологію, яка описана в цьому документі або схожу, Google використовує для свого корисного апдейту (Helpful Content Update). Який все ніяк не може завершити цього разу, або просто забули за нього.
З цікавого:
- алгоритм Google може виявляти контент низької якості, спамний і згенерований за допомогою AI
- алгоритм не потребує багато ресурсів і може аналізувати весь інтернет
- алгоритм не потрібно додатково тренувати, він це робить самостійно.
Само дослідження Google базується на основі 500 млн документів, отриманих з Common Crawl, англійською мовою, і має такі цікаві деталі:
▫️ Якість сторінки залежить від: репутації домену, його зворотніх і вихідних посилань, фактичної коректності контенту, аудіо і відео, все це стосується тільки текстового контенту.
▫️ Існуючі моделі, навіть GPT2, вміють дуже добре визначати контент низької якості. Тобто ви можете зробити собі таку модель самі.
▫️ Для виявлення спаму був задіяний датасет Enron Spam Email і аналіз за допомогою зокрема (тільки не смійтеся!) — TF*IDF. Чим частіше використовуються всім нам відомі терміни NSFW, тим нижча якість документу. А також були визначені наступні приклади слів: “essay”, “writing”, “thesis”, “viagra”.
▫️ Ніша. Контент найнижчої якості підпав під теми: adult і книги/література — тут через ессей-ферми
▫️ Якість контенту поділили на 4 групи: 1 - неможливо визначити — такий контент просто не враховували 2 - 0 - низька якість — текст незрозумілий або нелогічний 3 - 1 - середня — текст зрозумілий, але написаний погано (часті синтаксичні і граматичні помилки) 4 - 2 - висока — текст зрозумілий і достатньо добре написаний (помилки нечасті)
▫️ Рік створення. Найбільше контенту низької якості вивалили в веб в 2019 році
▫️ Довжина. Короткого контенту в вебі найбільше і контент низької якості найчастіше буває коротким, пікове значення припадає на 3000 символів [моє особисте зауваження — англійською мовою це якраз 500 слів ]