Как ты смотришь на скармливание нейронкам всего контента из интернета, пренебрегая авторским правом и без согласия кого-либо?

M1inki

Для моих читателей и так давно не секрет, что такая часть авторского права, как копирайт, представляется мне сущностью безнадёжно устаревшей и крайне дорогой в плане энфорсмента, а потому немедленно отомрёт, как только этот самый энфорсмент перестанет осуществлять государство. Однако с появлением больших языковых моделей появились все основания полагать, что копирайт отомрёт даже и существенно раньше, чем государство.

В защиту копирайта есть разные доводы. Есть утилитарный: если все будут брать чужой контент бесплатно, то пропадёт стимул этот контент сочинять, а это конец прогресса. Есть объективистский: человек имеет право на продукт своего разума, и ниибёт, ведь так сказала Айн Рэнд. Есть этический: труд должен быть оплачен.

А потом оказывается, что для обучения очередной, более продвинутой версии большой языковой модели ей нужно скормить вообще весь корпус текстов, когда-либо созданных человечеством, а она сожрёт и попросит добавки. Если же этого не сделать, то перспективное направление развития информационных технологий упрётся в тупик. Тех, кто обучает модель, не волнуют художественные достоинства текста. Для них что библия, что фанфик по Гарри Поттеру — это просто текст, имеющий ключевое качество: написано человеком. Знание библии для языковой модели важнее, но лишь по той причине, что она, во-первых, объёмнее, а во-вторых, отсылки к ней куда чаще встречаются в других текстах и в пользовательских запросах.

И всё, мы сразу лишились утилитарного аргумента, ведь именно ради прогресса тексты и нужно скормить нейросети. Зато мы приобрели очень богатых лоббистов отмены копирайта, ведь компании, разрабатывающие большие языковые модели, вполне могут потягаться размерами капитала с цифровыми издательствами. К тому же, даже если для особо растиражированных текстов правообладатели сумеют отстоять право не знакомить с ними LLM, то кто выиграет от того, что в ответ на «перескажи такой-то рассказ Стивена Кинга» чатбот будет отвечать «не знаю ни одного произведения этого автора, давайте я вам лучше перескажу такой-то рассказ Дэвида Фридмана». Уж наверное не издатели Стивена Кинга и не сам Стивен Кинг будут от подобного в выигрыше.

Как будет добываться контент для тренировки нейросетей? Очень просто. Контент уже как правило физически присутствует в сети в бесплатном доступе, просто он имеет ярлык «пиратский» и потому законопослушным компаниям приходится делать вид, что его не существует. Однако это слишком хлипкий заборчик, и он не остановит тех, кто считает себя вправе его перешагнуть. Не достанется нейросети разве что какой-нибудь Родион Белькович, потому что он в принципе не выкладывает в сеть свои книги, даже за деньги))) Это огромная потеря для будущих собеседников интеллектуальных чатботов, но что поделать, человечество за свою историю потеряло много ценных текстов, шит хэппенс.

Анкап-тян

Отвечаю на вопросы по анкапу, либертарианству, экономике, политике, этике, праву и изредка на отвлечённые темы.

Как ты смотришь на скармливание нейронкам всего контента из интернета, пренебрегая авторским правом и без согласия кого-либо?

Добавить комментарийОтменить ответ

Поделиться ссылкой:

Добавить комментарийОтменить ответ