Как ты смотришь на скармливание нейронкам всего контента из интернета, пренебрегая авторским правом и без согласия кого-либо?

M1inki

Для моих читателей и так давно не секрет, что такая часть авторского права, как копирайт, представляется мне сущностью безнадёжно устаревшей и крайне дорогой в плане энфорсмента, а потому немедленно отомрёт, как только этот самый энфорсмент перестанет осуществлять государство. Однако с появлением больших языковых моделей появились все основания полагать, что копирайт отомрёт даже и существенно раньше, чем государство.

В защиту копирайта есть разные доводы. Есть утилитарный: если все будут брать чужой контент бесплатно, то пропадёт стимул этот контент сочинять, а это конец прогресса. Есть объективистский: человек имеет право на продукт своего разума, и ниибёт, ведь так сказала Айн Рэнд. Есть этический: труд должен быть оплачен.

А потом оказывается, что для обучения очередной, более продвинутой версии большой языковой модели ей нужно скормить вообще весь корпус текстов, когда-либо созданных человечеством, а она сожрёт и попросит добавки. Если же этого не сделать, то перспективное направление развития информационных технологий упрётся в тупик. Тех, кто обучает модель, не волнуют художественные достоинства текста. Для них что библия, что фанфик по Гарри Поттеру – это просто текст, имеющий ключевое качество: написано человеком. Знание библии для языковой модели важнее, но лишь по той причине, что она, во-первых, объёмнее, а во-вторых, отсылки к ней куда чаще встречаются в других текстах и в пользовательских запросах.

И всё, мы сразу лишились утилитарного аргумента, ведь именно ради прогресса тексты и нужно скормить нейросети. Зато мы приобрели очень богатых лоббистов отмены копирайта, ведь компании, разрабатывающие большие языковые модели, вполне могут потягаться размерами капитала с цифровыми издательствами. К тому же, даже если для особо растиражированных текстов правообладатели сумеют отстоять право не знакомить с ними LLM, то кто выиграет от того, что в ответ на “перескажи такой-то рассказ Стивена Кинга” чатбот будет отвечать “не знаю ни одного произведения этого автора, давайте я вам лучше перескажу такой-то рассказ Дэвида Фридмана”. Уж наверное не издатели Стивена Кинга и не сам Стивен Кинг будут от подобного в выигрыше.

Как будет добываться контент для тренировки нейросетей? Очень просто. Контент уже как правило физически присутствует в сети в бесплатном доступе, просто он имеет ярлык “пиратский” и потому законопослушным компаниям приходится делать вид, что его не существует. Однако это слишком хлипкий заборчик, и он не остановит тех, кто считает себя вправе его перешагнуть. Не достанется нейросети разве что какой-нибудь Родион Белькович, потому что он в принципе не выкладывает в сеть свои книги, даже за деньги))) Это огромная потеря для будущих собеседников интеллектуальных чатботов, но что поделать, человечество за свою историю потеряло много ценных текстов, шит хэппенс.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *