M1inki
Для моих читателей и так давно не секрет, что такая часть авторского права, как копирайт, представляется мне сущностью безнадёжно устаревшей и крайне дорогой в плане энфорсмента, а потому немедленно отомрёт, как только этот самый энфорсмент перестанет осуществлять государство. Однако с появлением больших языковых моделей появились все основания полагать, что копирайт отомрёт даже и существенно раньше, чем государство.
В защиту копирайта есть разные доводы. Есть утилитарный: если все будут брать чужой контент бесплатно, то пропадёт стимул этот контент сочинять, а это конец прогресса. Есть объективистский: человек имеет право на продукт своего разума, и ниибёт, ведь так сказала Айн Рэнд. Есть этический: труд должен быть оплачен.
А потом оказывается, что для обучения очередной, более продвинутой версии большой языковой модели ей нужно скормить вообще весь корпус текстов, когда-либо созданных человечеством, а она сожрёт и попросит добавки. Если же этого не сделать, то перспективное направление развития информационных технологий упрётся в тупик. Тех, кто обучает модель, не волнуют художественные достоинства текста. Для них что библия, что фанфик по Гарри Поттеру – это просто текст, имеющий ключевое качество: написано человеком. Знание библии для языковой модели важнее, но лишь по той причине, что она, во-первых, объёмнее, а во-вторых, отсылки к ней куда чаще встречаются в других текстах и в пользовательских запросах.
И всё, мы сразу лишились утилитарного аргумента, ведь именно ради прогресса тексты и нужно скормить нейросети. Зато мы приобрели очень богатых лоббистов отмены копирайта, ведь компании, разрабатывающие большие языковые модели, вполне могут потягаться размерами капитала с цифровыми издательствами. К тому же, даже если для особо растиражированных текстов правообладатели сумеют отстоять право не знакомить с ними LLM, то кто выиграет от того, что в ответ на “перескажи такой-то рассказ Стивена Кинга” чатбот будет отвечать “не знаю ни одного произведения этого автора, давайте я вам лучше перескажу такой-то рассказ Дэвида Фридмана”. Уж наверное не издатели Стивена Кинга и не сам Стивен Кинг будут от подобного в выигрыше.
Как будет добываться контент для тренировки нейросетей? Очень просто. Контент уже как правило физически присутствует в сети в бесплатном доступе, просто он имеет ярлык “пиратский” и потому законопослушным компаниям приходится делать вид, что его не существует. Однако это слишком хлипкий заборчик, и он не остановит тех, кто считает себя вправе его перешагнуть. Не достанется нейросети разве что какой-нибудь Родион Белькович, потому что он в принципе не выкладывает в сеть свои книги, даже за деньги))) Это огромная потеря для будущих собеседников интеллектуальных чатботов, но что поделать, человечество за свою историю потеряло много ценных текстов, шит хэппенс.
