Построить модель языка
Послушать старшего научного сотрудника Физического института РАН, кандидата физико-математических наук, специалиста в области машинного обучения и искусственного интеллекта Сергея Шумского пришли иркутские физики, математики и культурологи. Его лекции состоялись в рамках Дней науки в Прибайкалье, организованных Иркутским государственным университетом. На встрече Сергей рассказал о том, как мозг работает со словами, где кодируются их написание, значение и синтаксис, а также о том, что умеет искусственная кора, которую он смоделировал.
– Нельзя говорить, что я рассказываю общепринятые вещи, – начал своё выступление Сергей Шумский: – Это моё видение того, как это происходит, моя гипотеза. Цель, которую я хочу достичь сегодня, – построить функциональную, действующую модель языка, основываясь на принципах работы головного мозга и сведениях из лингвистики. Для меня язык – это рентгеновский инструмент, который позволяет нам посмотреть на то, как устроено мышление. Это символьное мышление, которое отличает наш вид от других животных. Язык – окошко в понимание механизмов, того, как человек вырабатывает поведение. Все, кто работает с компьютером, понимают, что его эффективность определяется прежде всего структурой данных.
«Язык – это ключ к пониманию нашего поведения»
Мозг – средство выживания. Он решает две основные задачи – оценивает, что происходит, и решает, что делать. Его эволюция шла по увеличению степени предвидения. Хищники научились строить модель поведения своей жертвы – ждать в засаде, бежать не туда, где она сейчас, а туда, где должна находиться. Человек в этом отношении чемпион: он строит модели и, основываясь на этих моделях, формирует своё поведение. Человек одновременно является чемпионом и в планировании поведения, и в символьном мышлении.
По мнению Сергея Шумского, символ – это небольшой набор знаков, слабонагруженный элемент, который может принимать одно из нескольких десятков значений. Символ, в отличие от образа, может принимать лишь небольшое количество вариантов. Символьное мышление необходимо человеку для планирования поведения. Допустим, надо составить план, основываясь на минимальном прошлом опыте. Для этого нужно держать в голове 10 в пятой или шестой вариантов. Это число – образ, который мы можем запомнить. Такое количество вариантов помещается в коре головного мозга, с таким разнообразием мозг умеет работать: запоминать последовательности и этими последовательностями мыслить.
Запомнить последовательность образов невозможно, поскольку возникает невообразимое число вариантов. Если вы работаете с последовательностями и хотите их запоминать или оперировать ими, то будете вынуждены снижать разнообразие до нескольких десятков вариантов, до символа. В любом языке тысячи слов (образов), но всего два-три десятка букв (символов). В этом и состоит смысл символьного мышления. Согласно гипотезе Сергея Шумского, поняв порядок работы с последовательностями букв и слов, можно понять поведение. Он считает, что алгоритм работы мозга, участвующий в решении этих задач, один и тот же. Поняв то, как складываются предложения, мы поймём принцип поведения человека.
«Как мы порождаем слова?»
«Есть область коры головного мозга, которая смотрит на другие участки коры. Наружу смотрит только первичная кора, а всё остальное – само на себя. Кора состоит из элементарных детекторов-признаков, каждый откликается на образ, который он помнит. Допустим, есть последовательность звуков, которую распознала первичная слуховая кора. Другой участок коры должен распознать эту последовательность звуков как слово из того количества слов, которые он помнит. Для каждого слова, известного нам, есть свой детектор. Какими бы разными последовательности ни были, главное – чтобы в заданной последовательности «мелодии» в мозгу зажигалась только определённая «лампочка», определённое слово.
Место, где рождается речь, – это «зона проката». Когда я хочу сказать слово, в коре зажигается «лампочка», а в зоне проката создаётся последовательность звуков. Перед человеком стоит задача придумать алгоритм, чтобы одно перешло в другое. Решение этой задачи подсказывает язык. Многие лингвисты в своих исследованиях в качестве иллюстрации приводят предложение «John is in love with Mary» (Джон влюблён в Мэри), которое иначе выглядит на японском языке. Я не рискну прочесть, но в дословном переводе оно звучит так: «Джон Мэри влюблён есть». Если рассмотреть строение этих предложений, мы увидим, что «дерево» предложения, его конструкция у японцев будет повёрнута зеркально. Получается, что одним щелчком можно переключить с одного языка на другой».
По мнению Сергея, одна из наиболее популярных теорий происхождения языка принадлежит американскому лингвисту Ноаму Хомскому. Он утверждает, что когда-то в древние времена произошла мутация, в результате у человека появился язык – уникальный орган, которого нет у зверей. В своих исследованиях Хомский доказывал, что все люди одинаковы и говорят на одном языке, а сделать перевод на другой язык можно конечным числом переключений. Сам же лектор эту позицию поддерживает не полностью: «У языков много общего, с этим никто не спорит, но я не согласен с тезисом, что язык – особый орган, который есть только у людей. Моя точка зрения в том, что орган языка – это кора головного мозга, которой у человека в четыре раза больше, чем у обезьяны. Поэтому у людей язык помещается, а у обезьян нет. Язык поселился в мозгу, используя базовые механизмы, которые в первую очередь необходимы для выработки поведения. Язык помогает нам понять, что общего у нас со всеми млекопитающими.
Когда мозг работает – он синтезирует, происходит слияние. В нашем предложении есть две единицы – «with» и «Mary». Эти слова, соединяясь, образуют новую сущность – «with Mary», две другие единицы образуют «in love». На следующем этапе объединяются «in love» и «with Mary». Мозг идёт по пути слияния соседей, которые сильнее связаны друг с другом. Операция бинарных слияний – это главная операция, которая используется мозгом при разборе предложения, слова, ситуации. Если мы сможем объяснить, как в мозгу происходит бинарное слияние, тогда мы поймём, как это происходит в целом».
– А если три? – слышится с задних парт аудитории.
– Делать компьютер из белков, запчастей, которые есть у природы, сложно,– смеётся рассказчик. – Бинарное слияние – это корреляция, а корреляцию из двух запомнить проще, схему такую сделать проще. Это подсказка, которую даёт язык (структура языка отражает структуру данных мозга). Остаётся понять, как мозг организует рекурсию – последовательность бинарных слияний, использующих предыдущие слияния.
«Мятая салфетка»
Человек мыслит корой, которая устроена однородно. Есть двумерная поверхность: белое вещество – это связи и «мятая салфетка» – мыслящая субстанция, два-три миллиметра толщиной, шесть слоёв клеток. Это и есть наша память. Кора решает сотни задач. Каждый участок мозга работает с информацией, которая ему подводится, и передаёт туда, куда ведут из него выходы. Алгоритм работы всегда один и тот же, но задачи решаются разные – разные данные разным участкам коры.
Кора имеет ячеистую структуру. Шесть одинаковых слоёв клеток, где каждый «кустик» содержит примерно сто клеток и растёт рядом с капилляром, от которого питается. Размер такого «кустика» – 30 микрон, он одинаковый для человека и всех млекопитающих. При локальном распознавании зажигается «лампочка», примерно триста микрон, или одна треть миллиметра. Из таких «булавочных уколов» и состоит наше мышление.
«В том месте, где «зажглась лампочка», расширяются сосуды, чтобы подпитать сто «мини-колонок». Капилляры расширяются, это видно невооружённым глазом, – говорит Сергей. – Получается, что одно-временно работает целый «букет», и когда он зажигается, то всех вокруг себя подавляет. Когда информация приходит, кусок коры, который распознает информацию, воспринимает её одинаково. Каждый «кустик» начинает тянуть одеяло на себя, но побеждает сильнее всех реагирующий. Локальный участочек мозга принимает решение: ситуация напоминает знакомую, и тормозит остальных.
Чтобы понять, что мы видим вокруг, мы строим картинку из тех элементов, которые раньше уже видели, поскольку мозг запоминает только типовые элементы. «Лампочка», которая зажигается, это примерно десять тысяч нейронов, работающих сообща. Поскольку мозг – колебательный процесс, там есть возбуждение и торможение. Он колеблется и мелькает с частотой ламп дневного света, примерно в 40–50 Гц. На каждом следующем мелькании зажигаются новые нейроны, а те, которые вспыхивали на предыдущем, отдыхают и набираются сил. На распознавание одного образа работает дивизия нейронов».
«Кора не фантастически невозможная вещь, её можно смоделировать»
Область коры, которая расположена у человека слева над ухом, традиционно относят к языку. Она ярче всего «горит», когда человек разговаривает или читает. Под каждое полушарие подведён таламус, который работает как резонатор. Информация транслируется в мозг неоднократно. На каждый такт он делает одну и ту же простую операцию – это идеальное условие для рекурсии. После десяти таких тактов (250 миллисекунд) слово распознаётся.
«Допустим, слово стоит из пяти букв», – продолжает повествование лектор. Эти пять букв приходят в какой-то кусочек коры, где каждый откликнувшийся нейрон запоминает пары букв: «па», «ма», «да». Потом, чтобы не вводить новые элементы, он начинает строить из слогов, которые уже есть. Слово прозвучало – возбудились пары букв, и та, которая возбудилась сильнее всего, оказалась победителем. Победитель забирает все и распространяет вокруг торможение, чтобы усилить себя и остановить остальных.
В своей гипотезе Сергей Шумский предполагает, что область мозга, которая отвечает за речь, работает рекурсивно. Каждые 25 миллисекунд из таламуса приходит повторяющийся сигнал. Рождается новая последовательность, но при этом пара, которую кора распознала первой, уже не учитывается. На следующем этапе распознаётся новая пара или начинается сливание уже распознанных пар, и так до появления образа слова. Слово лежит на этом же участке коры с другими слогами, морфемами, корнями и окончаниями слов.
«Так выглядит работа мозга, если предположить, что у него есть входы и выходы и он работает сам с собой, – продолжает Сергей. – Поскольку все связи двунаправленные, если мы возбудим нейрон, он начнёт работать в обратном направлении и возбудит две свои дочки, каждая из них – ещё двух, и в конце концов появится начальная последовательность. Этот алгоритм работает в обе стороны».
«Голем»
На основании своей гипотезы Сергей Шумский разработал искусственную кору – компьютерную программу, которая повторяет деятельность мозга и помогает переводить тексты в смыслы. «Программа, которую я разработал, называется «Голем», – делится с участниками Дней науки лектор. – Я очень люблю Станислава Лема. У него есть замечательное произведение «Голем XIV» про искусственный интеллект, который самообучился и разговаривал с людьми.
Мой Голем работает с текстами большого объёма. В нём выделены три участка – морфология, синтаксис и семантика. На первом он складывает слова, на втором предложения, на третьем определяет смысл слов. Это простая модель языка: во входной последовательности язык распознаёт и запоминает паттерны и штампы. Самые распространённые те, которые лучше распознаются. Сколько таких штампов поместить в эту искусственную кору, столько она и будет знать.
Возьмём, например, Мерилин Монро. В мозгу есть участок, который отвечает за этот образ. Этот участок зажигается независимо от того, напишете вы «Мерилин Монро», покажете картинку с её изображением или включите музыкальную композицию «Пум-пум-пи-ду… пу-у-у!», – смеётся Сергей. – Зажигается один и тот же нейрон. Если здесь что-то нарушится, то у человека потеряется синтаксис, начнутся проблемы с построением предложений.
Модель языка устроена таким образом: есть набор букв, участок, который распознаёт слово и зажигает «лампочку». На пути к «лампочке» зажигается какое-то количество других «лампочек», в том числе «лампочки» окончаний. Они, в свою очередь, формируют новый алфавит. Из этого алфавита строится структура предложения, потому что «слова цепляются друг за друга окончаниями», уверен эксперт. «Сначала мозг запоминает то, какие слова встречаются в каких структурах предложений. Например, «паровоз», «паровоза», «паровозов», где основанием будет слово «паровоз». Затем у основания появляется образ и своя «лампочка» в той части мозга, которая отвечает за распознавание образов. Кора учится постепенно, учится тому языку, который слышит. Она запоминает типичные слоги, пары слогов, кусочки слов, а потом эти кусочки используются в разных сочетаниях: кора – смысл – коромысло. Вы подаёте последовательность, а она превращается в картинку, которую мозг будет помнить. Эта картинка – его память слова».
– Этот Голем уже обученный, – продолжает Сергей, перелистывая слайды на экране. – Он вам может показать, как мыслит. Возьмём, например, слово «параллельный». Сначала в нём каждая буква идёт отдельно, затем буквы начинают сливаться, образуя пары. Победителем становится «ел». Потом появляются «ель», «ра», «лл», «на». На следующем этапе – «пара», «лель», «ный». Сразу вспоминается «Собачье сердце»: «Абырвалг», – смеётся лектор. Потом загораются сильные нейроны «параллель» и «ный», а при их слиянии уже нейрон слова «параллельный». Голем знает это слово, а также знает, что оно состоит из основы «параллель» и окончания «ный». Поскольку программа ассоциативна, она легко выдаёт возможные формы запрашиваемого слова.
Кроме того, Голем умеет делать рифмы по окончанию – искать слова, где это окончание встречается. Я нажимаю кнопочку и получаю «удельный», «модельный», «смертельный», «портфельный».
– А построчные рифмы может искать? – интересуются слушатели.
– Нет, Голем работает на уровне букв.
Смыслам учатся дольше всего. Обучение состоит в том, что человек распознаёт смыслы неизвестных слов. При этом выясняются классы слов, которые эквивалентны друг другу. Ваня и Петя – это имена. Они должны располагаться в семантической коре рядом. Голема обучали смыслам на большом количестве текстов интернет-СМИ. Это где-то 4800 ячеек, – говорит Шумский. – Каждая объединяет слова с близким смыслом. Самый большой участок – фамилии, их больше тысячи. Отдельно российские и американские, мужские и женские имена. Слова, которые запоминаются в одинаковом контексте, лежат рядом. Люди, склонные к поэзии, рифмующиеся слова будут хранить по соседству, да и карта расположения слов человека всегда будет индивидуальной – это элемент обучения, стохастики. То, что я сегодня рассказывал, называется «парадигма глубокого обучения», когда каждый новый слой опирается на предыдущий (морфема, синтаксис, семантика). Я уверен, что есть несколько областей, связанных с мозгом, где происходит мышление и сидит вся наша логика!