КПІ
ФЛ КПІ
  • Українська

ПРОБЛЕМИ КОМП’ЮТЕРНОЇ ЛІНГВІСТИКИ

Комп’ютерна лінгвістика є новим напрямком класичної прикладної лінгвістики, яка виникла, розвивалася й розвивається паралельно з традиційною лінгвістикою. До компетенції прикладної лінгвістики входять: письмо (графіка), методика навчання рідної та іноземної мов, лексикографія, мовна політика – ліквідація неграмотності, вибір державної мови та її підтримка, розроблення національної термінології, національних ономастиконів тощо. Ця проблема актуальна й на сучасному етапі прикладної лінгвістики.

Разом із тим у другій половині ХХ століття у прикладній лінгвістиці з’явився новий вектор, спричинений активними процесами інтеграції гуманітарних, природничих, технічних і математичних наук. Результатом цього було усвідомлення і визначення спільної для багатьох предметних галузей проблеми – автоматизація оброблення, обміну і збереження різноманітної інформації, яка функціонує в суспільстві в текстовій формі. Фахівці практично всіх галузей знань користуються мовою як універсальним засобом оформлення і смислового представлення знань. Оскільки текстова інформація є природною для людини формою комунікації, лінгвістичне забезпечення інформаційних систем стає головним завданням комп’ютерної лінгвістики. У цій ситуації є необхідним розподіл компетенцій між власне лінгвістикою та інформаційно-комп’ютерними технологіями. Фаховий аналіз смислу текстів – це прерогатива лінгвістів, які глибоко розуміють систему мови в усіх її проявах. Багатовимірне впорядкування параметризованої лінгвістами текстової інформації в бази да- них і бази знань, корпуси текстів, створення гіпертекстових мереж із можливістю навігації у величезних масивах тощо – це прерогатива фахівців з інформатики і кібернетики. Таким чи- ном, комп’ютерна лінгвістика – це лінгвістика із застосуванням інформаційно-комп’ютерних ресурсів.

 

У сучасному світі при проведенні різних лінгвістичних досліджень все більш активно використовується комп’ютерна лінгвістика.

Комп’ютерна лінгвістика – це галузь знань, пов’язана c вирішенням завдань автоматичного оброблення інформації, представленої на природній мові. Центральними науковими проблемами комп’ютерної лінгвістики є проблема моделювання процесу розуміння сенсу текстів (переходу від тексту до формалізованого поданням його сенсу) і проблема синтезу мови (переходу від формалізованого подання сенсу до текстам на природній мові). Ці проблеми виникають при вирішенні ряду прикладних задач і, зокрема, задач автоматичного виявлення і виправлення помилок при введенні текстів в ЕОМ, автоматичного аналізу та синтезу усного мовлення, автоматичного перекладу текстів з одних мов на інші, спілкування з ЕОМ на природній мові, автоматичної класифікації та індексування текстових документів, їх автоматичного реферування, пошуку документів в повнотекстових базах даних.

Лінгвістичні засоби, що створюються і застосовуються у комп’ютерній лінгвістиці, можна умовно розділити на дві частини: декларативну і процедурну. До декларативної частини відносяться словники одиниць мови і мовлення, тексти та різного роду граматичні таблиці, до процедурної частини – засоби маніпулювання одиницями мови і мовлення, текстами і граматичними таблицями. Комп’ютерний інтерфейс відноситься до процедурної частини комп’ютерної лінгвістики.

 

Перед комп’ютерної лінгвістикою стоять, насамперед, завдання лінгвістичного забезпечення процесів збору, накопичення, обробки та пошуку інформації. Найбільш важливими з них є:

1. Автоматизація складання та лінгвістичної обробки машинних словників;

2. Автоматизація процесів виявлення і виправлення помилок при введенні текстів в ЕОМ;

3. Автоматичне індексування документів та інформаційних запитів;

4. Автоматична класифікація і реферування документів;

5. Лінгвістичне забезпечення процесів пошуку інформації в одномовних і багатомовних базах даних;

6. Машинний переклад текстів з одних природних мов на інші;

7. Побудова лінгвістичних процесорів, що забезпечують спілкування користувачів з автоматизованими інтелектуальними інформаційними системами (зокрема, з експертними системами) на природній мові, або на мові, близькій до природному;

8. Витяг фактографічної інформації з неформалізованих текстів.

Важливою і перспективною задачею комп’ютерної лінгвістики є побудова лінгвістичних процесорів, що забезпечують спілкування користувачів з інтелектуальними автоматизованими інформаційними системами (зокрема з експертними системами) на природній мові або на мові, близькій до природному. Оскільки в сучасних інтелектуальних системах інформація зберігається в формалізованому вигляді, то лінгвістичні процесори, виконуючи роль посередників між людиною і ЕОМ, повинні вирішувати такі основні завдання: 1) завдання переходу від текстів вхідних інформаційних запитів та повідомлень на природній мові до подання їх сенсу на формалізованому мовою (при введенні інформації в ЕОМ); 2) завдання переходу від формалізованого подання сенсу вихідних повідомлень до його подання на природній мові (при видачі інформації людині). Перша задача повинна вирішуватися шляхом морфологічного, синтаксичного та концептуального аналізу вхідних запитів і повідомлень, друга – шляхом концептуального, синтаксичного і морфологічного синтезу вихідних повідомлень.

Концептуальний аналіз інформаційних запитів та повідомлень полягає у виявленні їх понятійної структури (кордонів найменувань понять і відносин між поняттями в тексті) і перекладі цієї структури на формалізований мова. Він проводиться після морфологічного та синтаксичного аналізу запитів та повідомлень. Концептуальний синтез повідомлень полягає в переході від представлення елементів їх структури на формалізованій мові до вербального (словесного) поданням. Після цього повідомленнями дається необхідне синтаксичне і морфологічне оформлення.