Сверхзвук-шоу
9034
47
Вот на каие мысли наводят конкурсы на ТВ.

Шоу-бизнес должен иметь конкурента в виде компьютерной имитации. Ну, то есть любой голос легко генерируется. Любой. И исполнение будет гораздо более технически качественнее. Можно имитировать любого , так сказать, живого певца. Снимается спектр голоса, а дальше - дело техники. Моделируется спектр, всякие специфические переходы, зависимость от громкости. Берётся любой текст песни, голос накладывается на мелодию - и вперёд!
Можно разработать язык эмоциональных окрашивающих модификаторов и вставлять параллельно исполнению. Программа будет осуществлять трансформацию исполнения в нужную эмоциональную окраску. Модификаторы примерно такие - радость, экстаз, боль, надрыв, шёпот, напор, насмешка, ирония, страх, ужас, укор и т.д., и т.п.

Чтобы не было слишком чётко, добавит воздействие генератора случайных чисел, типа - вляние стихийных факторов. От лёгких ошибок до - артист был пьян и номер не удался (для тех, кто любит крутизну)..

Но имитирование известных певцов - это просто рекламная шутка. Да и начнутся протесты - авторские права и всё такое прочее. Справедливо, кстати. Самое интересное - это генерация новых голосов! С самым фантастическим тембром и манерой исполнения! Запросто - симфонические оркестры имитируют уже лет 20. Да, ещё добавить визуальную компьютерную картинку исполнителя - не помешает.

И вот тут есть - организационный момент!
Надо организовать нечто вроде соревновательного шоу , на каком-нибудь интернет-ресурсе, например - на НГС. Навроде Голоса или Большой оперы. Участники - программистские фирмы, которые приходят на конкурс со своими генерациями голосов. И эти программы конкурируют.

А судьи - это посетители интернет-ресурсов. Разумеется, чтобы не было накачки голосов извне в промышленных масштабах, дать возможность голосовать каким-либо образом зарегистрировавшимся посетителям - на форумах, блогах и т.д.

Представляете - какая реклама программистским фирмам и НГС. То есть, всё будет напоминать что-то вроде гонок "Формула-1", где представляют гоночные машины разные известные фирмы. И главное - ничего особенного - дежурный дизайнер справится не выходя за рамки ежедневных обязанностей.

А дальше - начнётся распространение этого вида бизнеса. Ведь интерес к соревнованиям гоночных машин превышает интерес к соревнованиям живых лошадей. Так и здесь - совершенные программы смогут конкурировать с простыми кожаными исполнителями. И хуже им не будет - живёт же театр в эпоху мультиков. Может даже будут попытки обмануть - будут выдавать голос живого человека за компьютерный!

Всё будет!
Spirit
Тащем-то это пока дорого. Прецедентов пока мало, но главные - это пока 2: у японцев есть абсолютно виртуальная певица Miku Hatsune, которыя даже дает живые концерты. Джапы прутся:
Показать спойлер
Показать спойлер

Ну еще Тупак, покойный, концертик отыграл
Показать спойлер
Показать спойлер
Убик
Идея, так сказать, виртуального человека - очень старая. Только в воображении использовались технические достижения соответствующего времени.

Как в Средневековье были рассказы, типа - молодой принц полюбил девушку, а она оказалась механической куклой - трагедия!

Шоу, конечно, дорого.
Но начать конкурс - вполне по силам программистским фирмам плюс интернет ресурс с массовой аудиторией.. Это как в Формуле-1 фирмы принимают участие, потому как - такая реклама выгоднее затрат на создание и эксплуатацию болида. Аналогично гонки Париж-Дакар...

Главное - вывести на орбиту проект. Сначала в небогатой форме. Но чтобы - заработало.
Spirit
А что, издавателей звуков ротом на сегодняшний (да и любой произвольно взятый будущий) день - не хватает? Зачем плодить очередные "два кусочека колбаски" с "голуби летят над нашей зоной" в одном флаконе? И да, вопрос от копирастов - кому будут принадлежать права на издаваемые звуки (ну, кроме Михалкова)? Банде программистов :миг:?
Злыдь
Ну, лошадь на внедорожник всё же заменили. Спросите тех, кто любит быструю езду - что они предпочитают?
Некоторые предпочитают лошадь, но это в Европе больше престижный спорт, чем решение вопросов передвижения.
Или вот, многие предпочитают не учится играть на музыкальных инструментах, а скачивать музыку и слушать на воспроизводящей аппаратуре.

Так и тут.

Более того, можно будет петь в быту через комп любым голосом. На входе - любитель, на выходе - Паворотти или Шаляпин.

Уже есть компьютерный футбол, танки... Но этим занимаются большие фирмы.

В предложенном проекте ключевое понятие - ничего не будет стоить. Всё уже есть. Надо только немного уделить времени.
Spirit
Не поймал мысль, особенно на аналогии перехода от мясного издавателя звуков ротом к кремниевому и перехода от лошади к внедорожнику, а так же на аналогии игры на муз.инструментах и прослушивании музыки.

Вопрос-то простой. ЗАЧЕМ тратить ресурсы вычислительных систем на бездарщину? Их бесплатно рожают сотнями тысяч.

Внезапный вопрос. Вы любите караоке?
Злыдь
Всё становится более технологичным, как показывает практика.
Суть, в общем, не меняется.
Лет 50 назад у детей впечатления от утренника были не меньше, чем сейчас от детского шоу.

Увы, но в массе технологичное развлечение всегда побеждает кустарное.

Про караоке.
Никогда не пел.
Вот лично я предпочитаю старые добрые формы развлечений.
Spirit
Согласен, все становится более технологичным. Сейчас издаватели звуков могут удивить только тем, что звуки, издаваемые ихним верхним сфинктером - НЕ "фанера". Записать "фанеру" значительно дешевле, чем полностью синтезировать голос. Они, конечно, полное п5, но не идиоты, и тратить бабло на синтез голоса никто не станет, если можно за п5, п5 или п5 сделать фанерку и потом ее крутить на концертах.
Злыдь
Ну, можно найти причины, по которым эксплуатация искусственного голоса может быть выгоднее эксплуатации голоса естественного.

К тому же, сейчас публика потребляет вокальную продукцию в основном воспроизводя её на аппаратуре или по ТВ. То есть - через технические приспособления.
А артисты встречаются с публиков в состоянии, так сказать, имиджа.

Так что реально - особой разницы нет при эксплуатации между этими типами голосов.

К тому же искусственный голос можно сделать любой силы и чистоты, он всегда готов к использованию и без капризов носителя, с которым надо делиться доходами...

:улыб:
Spirit
К тому же искусственный голос можно сделать любой силы и чистоты
Я "ЗА" и есть куда стремиться, приходит на ум х.ф. Парфюмер... :appl: Но мало уметь музыку создавать, её надо уметь слышать, первое часто встречается, второе редкий дар. Так что без таланта в музыке одним програмерским талантом признания не добиться.
p.s. Сегодня я с удовольствием слушаю так называемую качественную "фанеру" и не переношу бездушный живой голос, нет гармонии в голосах, нет чувства мелодичности...
Spirit
К тому же искусственный голос можно сделать любой силы и чистоты
Это стоит больших трудов и больших денег, примерно как 3D спецэффекты в современных фильмах. При этом необходим живой прототип. Полностью самостоятельной программы, которая бы запела, как Шаляпин, пока нет.
Anomander
Отредактировать по некоторым алгоритмам одномерную последовательность чисел сложно? Максимум - со стереоэффектом, но это мелочь.

Ничего сложного в этом нет. А уж с 3D не сравнить. В 3D - текстуры, блики, падение света различного цвета под разными углами на поверхности сложной формы, поглощение света в разных средах (туман и пр.), перспектива и т.д., и т.п.

А звук - последовательность чисел. Теоретически, задачу решить может один человек. Но чтобы нескучно было, лучше человека три - четыре. Умеющие программировать физик, математик, дизайнер и спец по вокалу. И отлично всё пойдёт в весьма вообразимые сроки.
Spirit
синтезировать голос действительно просто. и это безусловно будут делать и дальше...
труднее моделировать эмоции в голосе, но тоже возможно.
Spirit
Ничего сложного в этом нет.
сложновато. человеческий голос не опишешь набором простых функций - и тут даже преобразование Фурье не помогает. Самая засада не в тембровой части, но в артикуляциях.
viktor_venskiy
Ну так для того и конкурс - кто лучше. Простор для творчества.

Я думаю и натуральным вокалистам это бы было интересно - моделировать некоторые приёмы пения.
Убик
Моделировать артикуляцию.
Добавить артикулярные модификаторы. Какой-то функционал, зависящий от громкости, частот, скорости и формы перехода от одной частоты к другой.
Spirit
На наших глазах рождается тест Спирита (по аналогии с тестом Тьюринга) - программа должна убедить слушателя, что поёт тёплый живой человек, а не бездушная железяка.
Spirit
Это сложно и ресурсоемко.
Вопрос в том, что артикуляции очень индивидуальны, и даже, например форма волны одной буквы отличается у разных людей, поэтому табличный синтез (это как у Хатсуне по ссылке) голоса сейчас в зачаточном состоянии.
Передний край синтезаторостроения сейчас - физическое моделирование, однако это очень ресурсоемко. Сейчас вот китайцы (точно не помню кто, но если интересно озадачусь точными ссылками), построили эмуляцию звука электрогитары, которая при запуске вешает мой очень навороченный комп.
SteveR
Пение по сути - эмоциональный процесс. Обратите внимание на тексты песен, они часто примитивны и даже нелепы. Это меня поразило ещё в раннем подростковом возрасте, когда я как-то вдумался - о чём реально поют.

Многие песни латентно и нелатентно - сексуальны, в том числе - советские.

Ну вот - отчего, почему, почему так хорошо? Оттого что ты идёшь по переулку!!!

Разумеется, поющую даму волнует не тип походки...

:ха-ха!:
Убик
Странно.
Ещё 10 лет назад были весьма навороченные программы генерации музыки, в том числе и оркестровой. Всякие там кейквоки и др.

Я сам поставил нескольким музыкантам их, когда убедил купить комп и присоединить к нему клавишник электронный.

Они с удовольствием научились генерировать музыку.
И ничего не вешалось.

А сейчас компы в 10 раз мощнее.

Что там может тормозить то?
Есть характерный спектр инструмента. Он генерирует звук согласно нотам. Всё домножаем на модификаторы. Это ж минимум времени. Ещё и тормозить приходится, добавляя задержки.

Я помню тогда сгенерировал программу, генерирующую заунывную псевдовосточную музыку, с использованием генератора случайных чисел. Многим это нравилось!

:улыб:
Spirit
генерации музыки
эммм. кейволк не генерирует звук - это банально секвенсор.
Он генерирует звук согласно нотам
Немного не так. Если вы имеете ввиду Миди-интерфейс, то там принцип следующий: есть изначально записанные сэмплы, которые воспроизводятся в соответствии с поступившей командой (нота, артикуляция). Но это реальные звуки.
Синтез звука вещь несколько другая (почитайте основы про аддиктивный синтез, субтрактивный - матчасти в сети полно). Проблема в том, что человеческий голос он не описывается линейным процессом, и поэтому его воплощение - довольно сложный математический процесс построенный на множестве функций.
Вообще, сделать псевдовокал в духе крафтверк - это не проблема сейчас, но вот сделть точнукю иимитацию голоса пока не выходит.
Проблема именно в обертонах и артикуляциях. Если например звук скрипичного легато (который математически довольно близок к синусоидальной волне) теми-же миди-средствами воспроизвести довольно просто, то вот уже создание артикуляций: маркато, спиккато-это уже проблема. Собственно это и было причиной умирания .sf - формата.
Spirit
Кстати, тов.Тьюринг в своей основополагающей статье ссылался на французскую куртуазную игру 18 века (забыл её название :смущ:), в которой одна из дам переодевалась кавалером, а один из кавалеров - дамой и нужно было вычислить среди присутствующих ху из ху на самом деле. :secret:
Убик
Ну, это уже придирки к тому, как получается звук на выходе.
Тут же всё просто - получаешь в итоге последовательность цифр, которая элементарно преобразовывается в звук.

На некоторых ресурсах в интернете для любителей послушать музычку даже заранее в окошечке отображают всю звуковую дорожку в виде сложной и длинной кривулины, вдоль которой ползёт курсор, показывая, что в настоящий момент воспроизводится в виде песенки.

В конце концов, уже десятилетия существуют синтезаторы.

Разумеется, человеческий голос - особая статья. Там всё на порядок или два - сложнее.
Но думаю, что невозможность воспроизвести приёмы пения - сильно преувеличена. Тут или не хватает идей, или просто не дают разработкам выйти на рынок заинтересованные лица.

Уже и в шахматы комп у человека выигрывает, причём чуть ли ни программа, установленная на навороченном, но бытовом компе.

Снимают фильмы со сгенерированным визуальным рядом, неотличимым практически от реальности.

А тут не могут обработать одномерный массив.... Не верится!

:улыб:
SteveR
А ещё была - шарманка. Вот уж генерировала музыку, так генерироваоа!!!

:улыб:
Spirit
Сложно, Спирит, сложно. сейчас пока бьются даже не за голос, а за гитару и сакс.
Передовой край пока сейчас вот:
Показать спойлер
Показать спойлер
, но и то, до абсолютной точности далеко.
И, кстати, одномерным массивом голос не является.
Убик
Ну вот!
Джазовые конкурсы уже можно устраивать!

А что до голосов...

Разумеется, над оперным голосом работать и работать. Искать соотношение влияний. Методы-то ясны. Спели без артикуляции, спели с артикуляцией, оцифровали, сравнили. Вывели зависимость. Наверное для артикуляции разных звуков и переходов - свои особенности. Есть взаимное влияние между разными приёмами.

Но всё это - высший класс. Такие голоса слушает процентов 5.

А среднестатистический попсовый голос, который слушает основная масса, весьма моделируем.

У меня такое впечатление, что некоторые попсовые голоса генерируют на арифмометре или вообще на счётах!

:ха-ха!:
Spirit
моделируем.
Нет.
Гуглите "субстрактивный синтез", "преобразование Фурье при синтезе фонем" и т д.
Spirit
Ну, можно найти причины, по которым эксплуатация искусственного голоса может быть выгоднее эксплуатации голоса естественного.
Если бы они были, то уже бы нашли. Если не нашли - то, может, пока их (причин) нет?
Или по другому: можно - ищите! За ваши деньги.
Spirit
Ничего сложного в этом нет.
Докажите. Приведите в пример готовые алгоритмы, например. Ну и дальнейшее развитие будет - вы написали "некие неназванные программисты будут соревноваться на НГС" - вот начните с себя. Напишите первую программу и выложите исходники. А мы подтянемся.
ПЕЛЕВИН
Так они же есть , голоса то - в о всяких читалках текстов, электронных переводчиках.

Читают любой текст. В том числе и тарабарщину.

Есть распознаватели речи, то есть, так сказать, генерация наоборот.


Про "неких неназванных" я не писал. Я писал о том, что есть перспектива - ДАТЬ ВОЗМОЖНОСТЬ прорекламировать себя в соответствующем проекте.
Spirit
У вас, как у автора идеи, преимущество - жду ваши "рекламы", данные ВОЗМОЖНОСТЯМИ.
ПЕЛЕВИН
Это, так сказать, просто тема для непринуждённого обсуждения джентльменами в клубе. И не более того.

Лично я так отношусь к форуму - клуб.

А кто-то относится по-другому...
Spirit
Ну я, как джентльмен-практик, немного скептичен. Развейте мой скепсис - покажите работающий продукт!
ПЕЛЕВИН
Посмотрим, как пойдут дела. Может через годик и сам приступлю к реализации идеи. Я лет 10 - 12 назад кое что сделал. Но все программные продукты имеют тенденцию разростаться, как снежный ком. Делаешь из интереса, потом они начинают мешеть другим делам, и в конце-концов встаёт проблема - что надо работать только в этой сфере. Ну и - откладываешь на неделю, потом на месяц, а потом бац - на 10 лет.

И главное - растёт рутина. Для того, чтобы двигать проект, необходимо быть его фанатом. Вот как раз из-за рутины. Если не фанат, то получивши первые интересные результаты и столкнувшись с рутиной обычно бросаешь направление - не очень и хотелось.

Сейчас есть дела.
Просто - идея сама по себе интересная. И в современных условиях способная стать - рентабельной.
Spirit
Ничего сложного в этом нет. А уж с 3D не сравнить. В 3D - текстуры, блики, падение света различного цвета под разными углами на поверхности сложной формы, поглощение света в разных средах (туман и пр.), перспектива и т.д., и т.п.

А звук - последовательность чисел. Теоретически, задачу решить может один человек.
А свет, в компьютерном приложении - это не последовательность чисел?

Да, свет во многом сложнее звука, но принцип остается тот же самый - мы можем решить практически любые технические проблемы, но не можем полностью воссоздать жизнь. 3D сцены сейчас делают так - снимают живого актера с сенсорами на лице, и на теле. Потом на движение этих сенсоров "натягивают" хоть Голлума, хоть дракона. А вам хочется, чтобы персонаж естественно улыбался, если в сценарии написано "он улыбнулся".

Как вы думаете, можно чисто технически создать голос, допустим, Высоцкого, "с нуля", без изнурительного сэмплирования оригинала?
Anomander
Ну, комп импульсная техника.
Действительно, всё можно представить в виде последовательности нулей и единиц.
Но пространственные визуальные сцены это и взаимодействие между частями этой последовательности.
А звук принципиально линеен. Разумеется, партитура может быть очень сложной, но на выходе хоть и комплексная, но линейная продукция. Это несколько облегчает задачу, есть возмжность подозревать, что многое можно свести к суперпозиции (простое сложение) влияний.
Разумеется, могут существовать и более сложные случаи.
Anomander
Голос Высоцкого?
Трудно сказать.
Вполне может получиться парадокс, что голоса поющих драматических актёров будет сложнее моделировать с нуля.
В оперном пении есть жёсткие каноны. Железные образцы, голос там - ставят. Как ставят удар боксёры. Реально боксёр и борец, включая чемпионов, используют два, три коронных приёма, хоть показать на тренировках могут любые. В этом смысле певец тоже в качестве фирменных выделяет не так уж много приёмов, выделяя из поставленного фона.
Кстати, оперный голос может пропасть, например - с возрастом. Это не такое уж редкое явление.

А у драматических актёров чисто природное воспроизведение без всяких канонов.
Spirit
линейная продукция.
нет
суперпозиции
нет. Здесь свертки, вэйвлеты, преобразования Фурье
Убик
Так я ж и не отрицаю.

Суперпозиция - это первое приближение. Чтобы петь на троечку - она же и последняя.

Ну или, если сравнивать со спортом, первый разряд.
Уже для кандидата в мастера необходимо учитывать нелинейности.

Всё можно разложить в ряды и помаленьку добавлять - второй степени, третьей...
Spirit
не, вопрос тут не в линейности функции. Похоже, но не то. вообще, что-то похожее на голос может выдавать терменвокс, или волны мартено. самая феня в артикуляциях. вообще, интересноподумать,да
Убик
Я думаю, развитие этих технологий увеличит и возможности естественных голосов в обучении и всём таком прочем.
Живого артиста всё равно не заменишь, он интуитивно использует оттентки ситуации при живом выступлении.
Spirit
В оперном пении есть жёсткие каноны. Железные образцы, голос там - ставят. Как ставят удар боксёры. Реально боксёр и борец, включая чемпионов, используют два, три коронных приёма, хоть показать на тренировках могут любые. В этом смысле певец тоже в качестве фирменных выделяет не так уж много приёмов, выделяя из поставленного фона.
И это никак не решает вопрос синтеза натурального голоса с нуля. Облегчает задачу, да, но основной вопрос - откуда брать голос - не решен. Испытанный путь - сэмплирование, но здесь задача гораздо сложнее, чем например в случае скрипки.
Anomander
Спектры базовых составляющих для начала. Наряду с кривыми, так сказать.
Произносимые с разной интенсивностью.

Например - каждой буквы.

Однако, скорее базовым элементом является слог.
Например, азбуки многих языков - слоговые. В предельно явном виде - китайский язык. В нём примерно 400 базовых слогов. И 4 тона. То есть - всего порядка 1600 слогов.
Кстати, они хорошо изучены. Кривые интенсивности сняты ещё лет 60 назад - когда появились осциллографы. У меня есть старый учебник, там они приведены. Тоны разобраны.

В европейских языках слогов , конечно, побольше, но, возможно, всё можно свести тоже к порядка 2000 базовых элементов.

Есть вариант, что можно попробовать только звуки, то , из чего обычно состоит транскрипция. А потом попытаться сделать взаимные переходы.

То есть - текст транскрибируется и накладывается на мелодию и ритм и домножается на модификаторы.

Ну вот - примерная программа минимум.
Spirit
Однако, скорее базовым элементом является слог.
совершенно верно.
и правила перехода между ними.
Spirit
То есть - текст транскрибируется и накладывается на мелодию и ритм и домножается на модификаторы.
Такое есть, но работает не слишком натурально.

И вернемся еще раз к проблеме сэмплирования. Если у вас есть все тысячи слогов, напетые Нетребко, сможете ли вы "алгеброй" превратить это в голос Хворостовского?
Anomander
Ну, я не знаю - можно ли сопрано непрерывным гладким преобразованием превратить в баритон и обратно.

В Туве есть так называемое горловое пение, где берутся ноты выше сопрано и ниже баса одним и тем же певцом, но как эта техника согласуется с европейским пением я не знаю.

Многие произведения написаны для определённого типа голосов. Вполне возможно, что многие переходы работают только для определённого типа голосов.

Голос же это определённый спектр частот, а не просто синусоида. Ну, как мёд по сравнению с сахаром-рафинадом. Есть разные виды мёда, с разным набором инградиентов, часто инградиенты одного вида мёда отсутствуют в других видах.
Spirit
Голос же это определённый спектр частот, а не просто синусоида. Ну, как мёд по сравнению с сахаром-рафинадом. Есть разные виды мёда, с разным набором инградиентов, часто инградиенты одного вида мёда отсутствуют в других видах.
Вот и я о том же. До того, что алгеброй поверить гармонию, современная наука еще не дошла. Разъять голос на гармоники можно, а создать новые, а из них - естественный голос - пока нет.
Anomander
Ну так работать надо.
В принципе, можно не зацикливаться на попытках достичь абсолютной схожести.
Вполне возможно, что искусственный голос окажется в некотором смысле конкурентоспособным.

Как конкурентоспобны по сравнению с живым общением кино, мультики, компьютерные игры. А элетроинструменты успешно конкурируют с традиционными.