BERT — это платформа машинного обучения с открытым исходным кодом, которая используется для различных задач обработки естественного языка (NLP). Он разработан, чтобы помочь компьютерам лучше понимать нюансы языка, улавливая значение окружающих слов в тексте. Преимущество заключается в том, что можно понять контекст текста, а не только значение отдельных слов.
Не секрет, что искусственный интеллект удивительным образом влияет на общество. Один из способов, которым большинство людей использовали ИИ без их ведома, — это поиск в Google. При этом вполне вероятно, что поисковик по незнанию использовал BERT в виде алгоритма искусственного интеллекта, поскольку он используется примерно в 10% всех поисков. Эта структура позволила Google распознавать, как пользователи выполняют поиск, лучше понимая слова в правильном порядке и контексте. Однако BERT — это больше, чем просто часть алгоритма Google. Поскольку это платформа с открытым исходным кодом, любой может использовать ее для решения широкого круга задач машинного обучения.
Что такое БЕРТ?
BERT, представления двунаправленного кодировщика от Transformers, представляет собой архитектуру модели машинного обучения, предварительно обученную для обработки широкого спектра задач обработки естественного языка (NLP) способами, которые раньше были невозможны. С момента своего выпуска в виде научной статьи под названием BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (Devlin et al., 2018) он произвел революцию в мире машинного обучения. Затем Google Research выпустила его как платформу с открытым исходным кодом. Это означает, что любой может использовать BERT для обучения своей системы выполнению задач обработки естественного языка.
BERT стал таким важным событием в сообществе машинного обучения, потому что вместо последовательного чтения текста модели BERT будут рассматривать все окружающие слова, чтобы понять контекст. Он понимает слово, основываясь на компании, которую он держит, как и мы на естественном языке. Например, термин «роза» может иметь разные значения в зависимости от того, включают ли окружающие его слова «шип», «стул» или «сила». BERT может понять целевое слово на основе других слов в предложении, независимо от того, стоят ли они до или после.
Что может BERT?
Часть того, что делает BERT уникальным, заключается в том, что это двунаправленная предварительно обученная структура, которая может обеспечить контекстуальное понимание языка и неоднозначных предложений, особенно тех, которые состоят из слов с несколькими значениями. Поэтому он полезен в языковых задачах.
BERT используется в чат-ботах, чтобы помочь им отвечать на вопросы. Это может помочь резюмировать длинные документы и различать слова с различным значением. Как обновление алгоритма в Google, он распределяет лучшие результаты в ответ на запрос пользователя.
Поскольку Google сделала предварительно обученные модели BERT доступными для других, модель с открытым исходным кодом готова к использованию после тонкой настройки для широкого спектра языковых задач, таких как ответы на вопросы и именованные распознавание сущности.
Как BERT используется в поисковой системе Google?
Через год после публикации исследовательской работы Google объявил об обновлении алгоритма поисковых запросов с использованием английского языка. При запуске Google заявил, что BERT повлияет на 1 из каждых 10 поисковых запросов. Кроме того, BERT влияет на избранные фрагменты, которые представляют собой отдельное поле, предоставляющее ответ пользователю напрямую, а не список URL-адресов.
Вместо того, чтобы заменить RankBrain (первый метод алгоритма искусственного интеллекта Google), он является дополнением к основному алгоритму поиска. BERT помогает поисковой системе понимать язык, когда люди разговаривают друг с другом.
Считайте Интернет самой обширной существующей библиотекой. Если Google является библиотекарем, это обновление алгоритма помогает поисковой системе выдавать наиболее точные результаты на основе запроса, сделанного пользователем. Google использует BERT в своем алгоритме, чтобы помочь понять не только определение слова, но и то, что означают отдельные слова, объединенные в предложение. BERT помогает Google обрабатывать язык и понимать контекст, тон и намерение поисковой фразы в том виде, в котором она появляется, позволяя алгоритму понять намерение искателя.
Этот новый уровень алгоритма также помогает Google понимать нюансы в запросе, что становится все более важным, поскольку люди выполняют поиск так, как они думают и говорят.
До BERT Google извлекал слова, которые считал наиболее важными в поиске, что часто приводило к менее чем оптимальным результатам. Google точно настроил свое обновление алгоритма BERT для задач обработки естественного языка, таких как вопрос и ответ, чтобы помочь ему понять лингвистические нюансы запроса пользователя. Эти нюансы и более мелкие слова, такие как «кому» и «для», теперь учитываются в поисковом запросе.
Кроме того, технология учитывает порядок слов в запросе, подобно тому, как люди общаются. Теперь Google может лучше понимать смысл поиска, а не только значение слов во фразе.
Однако BERT используется не при каждом поиске. Google применит его, когда посчитает, что с его помощью алгоритм сможет лучше понять поисковую запись. Этот уровень алгоритма может быть вызван, когда необходимо уточнить контекст поискового запроса, например, если искатель ошибся в написании слова. В этом случае он может помочь найти слово, которое, по его мнению, искатель пытался произнести по буквам. Он также используется, когда запись поиска включает синонимы слов, которые есть в релевантных документах. Google может использовать BERT для сопоставления синонимов и отображения желаемого результата.
Как проходит обучение BERT?
BERT был предварительно обучен одновременно на двух задачах. Во-первых, это маскированная языковая модель. Цель состоит в том, чтобы заставить модель учиться, пытаясь предсказать замаскированное слово в последовательности. Этот метод обучения случайным образом маскирует некоторые входные слова токеном [Mask], а затем компьютер предсказывает, каким будет этот токен на выходе. Со временем модель узнает различные значения слов, основываясь на окружающих их словах и порядке их появления в предложении или фразе. Языковое моделирование помогает платформе развивать понимание контекста.
Предсказание следующего предложения затем предварительно обучает BERT. В этой обучающей системе компьютер получает на вход пару предложений и должен предсказать, следует ли второе за первым. Во время этого обучения в 50% случаев предложения представляют собой пару, в которой второе предложение следует за первым, а в 50% случаев второе предложение выбирается случайным образом из корпуса текстов.
Заключительный этап обучения — тонкая настройка для широкого спектра задач обработки естественного языка. Поскольку BERT предварительно обучается на большом количестве текста, он отличается от других моделей и требует только конечного выходного слоя и набора данных, уникального для задачи, которую пытается выполнить пользователь. Это может сделать любой, так как BERT имеет открытый исходный код.
Что делает BERT «неконтролируемым»?
Процесс предварительного обучения BERT считается неконтролируемым, поскольку он был предварительно обучен на необработанном, немаркированном наборе данных, что является еще одной причиной того, что это современная языковая модель. Предварительное обучение BERT использовало простой текстовый корпус, такой как Википедия, и корпус простых текстовых книг.
Что означает двунаправленность в BERT?
BERT направлен на устранение ограничений, существующих в процессе предварительного обучения предыдущих стандартных языковых моделей. Ранее эти модели могли просматривать текст только слева направо или справа налево. В этом случае контекст не учитывает последующие слова в последовательности.
BERT, скорее, может узнать контекст слова на основе слов вокруг него, чтобы он мог понять все предложение или входную последовательность сразу, а не по одному слову за раз. Именно так люди понимают контекст предложения. Это двунаправленное обучение стало возможным благодаря тому, что фреймворк предварительно обучен архитектуре на основе преобразователя.
Что такое Transformer и как BERT его использует?
Transformer представляет собой архитектуру кодировщик-декодер, с помощью которой BERT может лучше понимать контекстуальные отношения отдельных слов в тексте. В общих чертах преимущество заключается в том, что модели-трансформеры могут учиться так же, как люди: определять наиболее важную часть последовательности (или предложения).
Использование слоев внутреннего внимания в архитектуре Transformer позволяет машине лучше понимать контекст, связывая определенные входные части с другими. Как следует из названия, уровни внутреннего внимания позволяют кодировщику сосредоточиться на определенных частях ввода. При самостоятельном внимании репрезентация предложения расшифровывается посредством соотнесения слов внутри предложения. Этот уровень самоконтроля является основным элементом архитектуры преобразователя в BERT.
Благодаря этой архитектуре BERT может связывать разные слова в одной и той же последовательности, одновременно определяя контекст других слов по мере их связи друг с другом. Этот метод помогает системе понимать слово на основе контекста, например, понимать многозначные слова, слова с несколькими значениями и омографы, слова, которые пишутся одинаково, но имеют разные значения.
Лучше ли BERT, чем GPT?
Генеративный предварительно обученный преобразователь (GPT) и BERT — два из первых предварительно обученных алгоритмов, которые выполняют задачи обработки естественного языка (NLP). Основное различие между BERT и более ранними версиями GPT заключается в том, что BERT является двунаправленным, а GPT — авторегрессивным, читая текст слева направо.
Основным отличием этих моделей являются типы задач, для которых используются Google BERT и ChatGPT-4. ChatGPT-4 используется в основном для диалогового ИИ, например, внутри чат-бота. BERT обрабатывает задачи ответов на вопросы и представления именованных объектов, которые требуют понимания контекста.
BERT уникален, потому что он просматривает весь текст в последовательности и точно понимает контекст слова, связанного с другими словами в этой последовательности. Архитектура Transformer вместе с двунаправленным предварительным обучением BERT завершает эту разработку.
Бреана Шеквиц — SEO-редактор Fox News Digital.