ЧатГПТ «просто придумывает следующее слово»
В любом подкасте и тексте про работу ЧатГПТ звучит одна и та же мысль, что на самом дела он генерирует текст «просто придумывая наиболее вероятное следующее слово». Каждый эксперт по нейросетям и машинному обучению говорит это! И каждый журналист и интервьюер это принимает и делает вид, что это что-то объясняет!
Ау, очнитесь. Почему вы это хаваете? Это ж ничего не объясняет. Когда вы пишете ЧатуГПТ «привет», он отвечает «привет»! В каком тексте на земле после «привет» самое вероятное следующее слово — «привет»? Что за чушь? Вообще почему ответ на что-то — это самое вероятное следующее слово, почему эта идея кого-то устраивает?
Вот вопрос: «сколько стоит доллар». Какие вероятные следующие слова? Вот такие: «США», «сегодня», «на валютном рынке», «в обменнике». Какие наиболее невероятные следующие слова? Вот такие: «сто рублей». Потому что ну что это вообще за предложение «сколько стоит доллар сто рублей»? Это же бред.
Но все делают вид, что а, ну теперь поняно, как работает ЧатГПТ. А на самом деле нихрена непонятно, и никто даже не делает попытки объяснить.
В любом художественном (или не очень) тексте, в котором представлен диалог двух людей, где первый говорит «Привет», а второй отвечает ему «Привет».
про доллар будет очевидно: К сожалению, у меня нет доступа к актуальным данным о текущих курсах валют, так как моя база знаний обрывается в сентябре 2021 года. Рекомендую вам воспользоваться финансовыми новостями, интернет-финансовыми ресурсами или финансовыми приложениями, чтобы узнать текущий курс доллара к вашей местной валюте.
Потому что работа журналиста и интервьюера состоит не в том, чтобы разобраться, а в том, чтобы разговорить собеседника. Как водитель автобуса не всегда умеет его починить или рассказать устройство АКПП, так и журналист не факт, что шарит. И обычно не шарит. А если в чем-то даже шарит, то во всем остальном — вряд ли )
Ну, там имеются в виду не только слова, а символы, так как «Чат-GPT», судя по всему, хранит входные и выходные тексты (т. е. «токенизирует») именно на уровне символов. То есть пунктуация сюда тоже включена. А насчет «наиболее вероятного следующего слова» — тоже не согласен; думаю, напротив, там все взаимосвязано и формулировка «наиболее вероятное следующее слово» будет столь же корректна по отношению к такой масштабной сети, сколь и «наиболее вероятное предыдущее слово», «наиболее вероятное слово № 44 при таких-то словах № 3 и № 223» и т. д. В общем, тут взаимосвязано все и нет такого, что оно генерит слово за словом, после каждого из них оглядываясь на них и подбирая новое; конечно, нет, это все генерится одним махом и с учетом сложнейших паутин взаимосвязей.
И кстати, не хочется верить, что оно генерирует текст лишь на основе соседних слов или символов, но пока что, похоже, это все-таки так, учитывая то, как оно придумывает несуществующие названия разных вещей, вовсе не заботясь о логике, а лишь о том, чтобы текст выглядел более-менее правоподобно.
Илья, вы не правы. Предложение «привет привет» лишено всякого смысла, а в качестве реплик встречается постоянно. Чат различает, где вопрос, а где ответ.
Так и в чём я не прав?
Признаться, ни разу не слышал выражения о том, что чат «просто придумывает наиболее вероятное следующее слово». Если говорить точнее, он генерит такой набор слов, который оценивается максимально подходящим к входному набору слов. Это суждение я слвшал гораздо чаще, и на упрощенном уровне он так и работает.
Ну может, вы выходите в интернет раз в неделю или раз в месяц. Какой смысл писать «ни разу не слышал», если мы не знаем о широте вашего поля зрения?
Люди читают жопой.
Илья — человек.
Следовательно...
Помимо общего обучения на корпусе литературных, новостных и прочих текстов, для специализации модель «дообучается» (fine tuning), что позволяет модели «понять», какую роль она будет исполнять, и какие её реакции ожидаются в первую очередь в процессе эксплуатации. Чат-боты на GPT дообучались на корпусе диалогов, в которых размечены вопросы и ответы. И в таких диалогах «привет — привет» это просто норма.
Так что таки да, выбирается один из наиболее вероятных следующих токенов (частей слова).