Google Smith - новий алгоритм обробки довгих текстів
- Дата:16.02.2021
- Автор: Команда TurboSEO

Створений модернізований алгоритм, котрий обробляє довгі тексти по об'ємним запитам. Нова усовершенстованная система може сприяти оптимізації сайту.
Якщо говорити про як відповіді, то SMITH по багатьом параметрам краще, ніж BERT. Головний плюс в тому, що він може «понимать» сенс текстових фрагментів. У попереднього алгоритму сенс визначається по окремим частинам текстів.
Дослідження з выборками показали, що система SMITH більше вдосконалена, ніж моделі для обробки довгих текстів: SMASH, HAN, а також BERT. Вдосконалена система працює з набагато більше довгими пропозиціями. Компанія ще офіційно не підтвердила використання алгоритму в цілях обробки запитів пошуку.
Особливості роботи SMITH
Обробка тексту проводиться в два етапу. Спочатку текст розбивається на окремі блоки. В них може бути один або кілька пропозицій. Далі в кожному блоці визначається відповідність пошукового запиту.
Другий рівень характеризується обробкою послідовності блоків. Реєструються відповідності запитом в документі. Система визначає, наскільки пропозиції відповідають запитам в межах блоку. Далі визначається, наскільки весь текст відповідає заявленим вимогам.
Для розбивки тексту на фрагменти, алгоритм використовує метод під назвою “greedy sentence filling”. Суть в тому, що в один блок поміщаються природні пропозиції. Алгоритм створює блоки конкретної довжини. Самі пропозиції блоками не розриваються. Якщо пропозиція не помістилося в блок, то його переносять в наступного.
Ніж SMITH відрізняється від BERT
Усi залежить від обсягу робочої одиниці і варіантів навчання алгоритмів. BERT це алгоритм, прогнозирующий слова, приховані в пропозиціях. SMITH це система, яка кардинально краще. Вона навчена робити прогнози прихованих слів в смислових блоках і пропозиціях. Завжди враховується, яким буде черговий текстовий фрагмент.
Для SMITH використовується перелік матеріалів, поставляються Википедией, а також ACL Anthology Network.
Трансформація тексту в блоки з допомогою SMITH
Алгоритм скорочує пропозиція, якщо воно довше блоку. Таким чином, пропозиція поміщається в один блок. На в ході документ перетворюється в послідовність блоків пропозицій: {S1,S2,…,SLd}. Блок «S» представляється, як послідовність слів: {Wi1,Wi2,…,WiLs}. Довжина документа по числу блоків вказується «Ld». А довжина блоку по кількості слів — «Ls».
Потім визначається відповідність запитом на рівні блоків, пропозицій і тексту в цілому. Береться у увага число входжень, а також позиція входження по кожному изучаемому фрагменту. Якщо обробляється блок, то вивчається позиція входження в конкретному пропозиції і позиція цього пропозиції у всім блоці.
Новий алгоритм від Гугл SMITH займається обробкою тексту на різних рівнях. Вивчається сенс всього документа, а не тільки окремі фрази і пропозиції.
Що буде далі зі SMITH
Система буде і далі удосконалюватися. Компанія Гугл поки тримає в таємниці плани по використанню системи в пошуку. Немає достовірної інформації про тому, як це відіб'ється на формуванні пошукової видачі і просуванні інтернет-магазинів. Швидше всього, алгоритм поки працювати на невеликому кількості пошукових запитів. Деякі експерти вважають, що Google збирається глобально трансформувати пошукові запити. В останнє час призначені для користувача запити стали більше довгими і розгорнутими.
Можливо, алгоритм буде використаний для поліпшення якості тематичного контенту. Він буде вивчати, що переглядав людина і на основі цієї інформації робити правильні прогнози. Новий алгоритм може відбитися на оптимальної вартості просування магазинів і сайтів.