Лінгвістика в службі SEO.
- Дата:02.03.2012
- Автор:Татьяна Гаврилина
Апріорі лінгвістика завжди вважалася гуманітарної наукою, не має чітко вираженою зв'язку з математикою. Але науково-технічний прогрес довів зворотне, підтвердженням чому послужить комп'ютерна лінгвістика. Її відносять до прикладної лінгвістиці, яка, в свою чергу, відповідає за застосування теоретичних знань про мовою на практиці. Іншими словами, прикладна лінгвістика шукає практичні шляху рішення теоретичних задач, пов'язаних з використанням природного мови в тієї або інакший сфері.
Особливо цікава комп'ютерна лінгвістика в контексті SEO.
Як ні крути, а в оптимізації і просуванні сайтів без семантичного ядра не обійтися. В свою чергу складання семантичного ядра, а також проведення супутніх робіт по поисковому просуванню неможливі без знань в області лінгвістики.
Seo-фахівцям напевно відомо, наскільки витратною по часу і силам є робота з семантикою. Досягнення ж комп'ютерної лінгвістики спрямовані на оптимізацію цієї процедури.
В даному випадку має місце кластеризация – автоматичний пошук і виділення семантически схожих між собою груп документів серед фіксованого кількості заданих документів. В ніж плюси пропонованого процесу?
1. Забезпечується більше широкий охоплення семантики, ніж це було при ручний обробці.
2. Є можливість виключати позбавлені сенсу і далекі по значенням від ключевиков слова.
3. Можна отримати критично важливі для seo-оптимізації кластеры, які нам б не вдалося знайти вручну.
4. На основі отриманих даних забезпечується класифікація і об'єднання інтересів великого кількості користувачів.
5. Визначаються лендинги (сторінки, на які потрапляє користувач з пошуку або інших джерел), відповідні під задану семантику. При ручному прописывании лендингов і підборі ключевиков «з потолка» багато сторінки можуть упускати з увазі, а, відповідно, важливі ключі – не враховуватися.
6. Економиться час на обробку семантичного поля, що дозволяє перемикатися і на інші завдання.
Складання правильного семантичного ядра – не єдина складність в роботі seo-оптимізаторів. Важливою є також боротьба з неякісними текстами. І тут доречно сказати про коллокациях. Коллокациями прийнято називати поєднання слів, пов'язаних між собою семантически і синтаксично. Ми активно оперируем ними в повсякденному спілкуванні, ми навіть думаємо коллокациями – то є наповненими сенсом фразами. Якщо брати, до наприклад, коллокации, які відносяться до ключовому слову «телевизор», ми отримаємо наступне: чітке зображення, плоский екран, якість звуку. Коллокации висловлюють зацікавленість людини в ніж-то. В даному випадку – в як телевізора.
Коллокации – це пряма протилежність энграммам – сполученням слів, ніяк не пов'язаних між собою. Як правило, энграммами виступають кострубаті ключі, під які заточується сео-текст: купити телевізор Київ, TV Харків і т.д. Якщо кількість энграмм в анализируемом тексті зашкалює – мова йде вже про спам:

Переспамленные тексти заважають законному просуванню сайтів. На їх позиції погано впливає также «вода» в текстах. Копирайтеры часто грішать, захоплюючись детальним описом очевидних фактів. Задача оптимізаторів – вміти розмежовувати тексти «для людей» і для пошуковиків. Тут варто зупинитися на такому понятті, як статистична лінгвістика. Вона вивчає кількісні Характеристики природного мови, які відображаються в текстах. Вважається, що аналіз певного кількості текстового матеріалу дозволяє дати характеристику тому або іншому мови і його функціональним стилям. Що є в увазі? Встановлено, що для кожного природного мови або окремого стилю властива своя частота вживання лексичних і інших мовних одиниць: букв, складів, слів, словосполучень, частин мови і т.д. Цікаво, що в «человеческих» текстах частіше всього зустрічається займенник «вы», якщо це відгуки – то «я».
Щоб розуміти, які тексти читабельні, а які – штучні, то є позбавлені логіки, сенсу і користі, у увага беруться текстові корпусу загальної і вузької тематики, енциклопедичні корпусу і ін. Зіставлення коллокаций з правильних текстів і текстів, підозрюваних в переспаме, дозволяє побачити реальну картину: кількість продають, природних і ін. коллокаций:

Отримані результати, то є – частотність вживання тих або інших слів, дасть нам розуміння – цей текст для людей або для роботів?
Слід сказати, що ТОП самих частотних слів для «человеческих» текстів складають приводи, союзи, частинки, займенники. І якщо в цей перелік раптом потрапить, до наприклад, то ж слово «телевизор», волею-неволею задумаєшся про спамности тексту.
Для природних текстів існують свої якісні і кількісні Характеристики, які практично однакові по відношенню до будь-якого нормальному тексту. Сюди відноситься середня довжина слів і пропозицій, їх розкид по тексту, відстань між словами, які частіше всього зустрічаються, розкид між ключевиками, розподіл знаків пунктуації, вживання частин мови і т.д. До слову кажучи, різноманітність частин мови дозволяє визначити, до якого жанру належить текст, якщо він, зрозуміло, нормальний.
Настільки прискіпливий аналіз сео-текстів дає можливість виявити також тексти, написані з допомогою синонимайзеров. Для них характерні неприродні биграммы (поєднання 2-х слів), до наприклад, «споглядати телевизор» замість адекватного «дивитися телевизор».
Таким чином, можемо сказати: аналіз тексту – досить копітка робота. І для максимального правдивого аналізу знадобляться дієві інструменти, над розробкою яких трудяться як IT-фахівці, так і лінгвісти.