Если человеку дан природой живой ум, то совершенно не важно, какую специальность он выберет в молодости — его талант проявит себя в нужном месте, в нужное время. Алан Кей, подающий надежды биолог, изобрел ноутбук, лазерный принтер и сформулировал основополагающие принципы функционирования сети Интернет, когда самой идеи Интернета еще не существовало. Другой пример — лингвист Дэвид Кристал.

Дэвид Кристал (р. 1941г) опубликовал около сотни книг о языке. Сфера его научных интересов чрезывайно широка — от поэзии Шекспира до паталогии языкового развития. Но одна из любопытнейших его работ находится в сфере не совсем лингвистической. Он разработал поисковый механизм, функционирующий на принципах, отличных от тех, которые используют сегодняшние SE-гиганты. Sense Engine — семантический механизм, который опирается не на статистику, а на смысловые отношения между словами и на взаимодействие слов и контекста, в котором они появились.
Исследования, длившиеся восемь лет и потребовавшие инвестиций в размере восьми миллионов долларов, были направлены на удовлетворение нужд контекстной рекламы. Требовалось создать совершенный механизм распознавания смысла текста, чтобы размещать на веб-страницах наиболее релевантную рекламу. Алгоритмы, ориентирующиеся на частотность появления ключевых слов в тексте — это слишком примитивный способ определять содержание текста. Если размещать рекламу, опираясь только на ключевые слова, то не избежать досадных, а возможно, и дорогостоящих курьезов. Например, реклама фирмы, выпускающей кухонные ножи, может появиться в разделе “Криминальные новости” на странице с сообщением о зверском убийстве.
Каждое слово потенциально может быть использовано в поисковом запросе, поэтому определить все возможные значения каждого слова языка и построить его реляции — это и есть сверхзадача семантического индекса. Семантический механизм должен сделать две вещи:
- определить все слова, попадающие в общеупотребительную лексику (для этого потребуется переработать академический словарь, энциклопедический словарь, где дается расширенное описание значения слова, а также придется прибегнуть к помощи носителей языка, чтобы они дали наиболее вероятный контекст употребления каждого слова);
- категоризировать все слова в смысловые группы, создать таксономию языка.
Команда лексикографов трудилась над этим несколько лет. В итоге, в 2001 году компания Crystal Semantics запатентовала семантический механизм, применение когорого сулит оказаться гораздо шире, чем контекстная реклама. Вот так, к примеру, работает Textonomy Advance Server:

Какие продукты и сервисы появятся на основе Sense Engine? Вариантов очень много, и все они обещают быть интересными. Возможно, это не самый быстрый способ научить машину “понимать” смысл текста, но ведь даже у человеческой особи на освоение языка, на пополнение словарного запаса уходят годы.

Leave a comment