Hören Sie, wie Elvis „Baby Got Back“ mithilfe von KI singt – und erfahren Sie, wie es entstanden ist

Getty Images / Benj Edwards

Kürzlich enthielten mehrere virale Musikvideos eines YouTube-Kanals namens There I Ruined It KI-generierte Stimmen berühmter Musiker, die Texte überraschender Lieder singen. Ein aktuelles Beispiel stellt sich vor, wie Elvis Texte zu Sir Mix-a-Lot singt Baby kam zurück. In einem anderen Lied singt ein falscher Johnny Cash den Text zu Aqua’s Barbie Mädchen.

(Das Original-Elvis-Video wurde inzwischen aufgrund eines Urheberrechtsanspruchs der Universal Music Group von YouTube entfernt, aber dank der Magie des Internets können Sie es trotzdem hören.)

Ein Auszug aus dem Video „Elvis Sings Baby Got Back“.

Da Elvis seit 46 Jahren (und Cash seit 20) tot ist, konnte offensichtlich keiner der beiden Männer die Lieder selbst gesungen haben. Hier kommt die KI ins Spiel. Aber wie wir sehen werden, steckt, obwohl generative KI erstaunlich sein kann, immer noch viel menschliches Talent und Mühe in die Herstellung dieser musikalischen Mashups.

Um herauszufinden, wie Da habe ich es ruiniert Wir haben uns zunächst an den Schöpfer des Kanals, den Musiker Dustin Ballard, gewandt. Ballards Antwort war wenig detailliert, aber er legte den grundlegenden Arbeitsablauf dar. Er verwendet ein KI-Modell namens so-vits-svc, um seine eigenen Vocals, die er aufnimmt, in die anderer Künstler umzuwandeln. „Es ist derzeit kein sehr benutzerfreundlicher Prozess (und das Training selbst ist sogar noch schwieriger)“, sagte er in einer E-Mail zu Ars Technica, „aber im Grunde genommen hat man erst einmal das trainierte Modell (basierend auf einer großen Stichprobe sauberer Audio-Referenzen) , dann können Sie Ihre eigene Gesangsspur hochladen und sie wird durch die von Ihnen modellierte Stimme ersetzt. Diese fügen Sie dann in Ihren Mix ein und bauen den Song darauf auf.“

Lesen Sie auch  Der ehemalige WR der Ravens deutet offenbar einen Rücktritt aus der NFL an

Aber lassen Sie uns noch einmal zurückblicken: Was bedeutet „so-vits-svc“? Der Name geht auf eine Reihe miteinander verketteter Open-Source-Technologien zurück. Der „so“-Teil stammt von „SoftVC“ (VC für „Voice Conversion“), das Quellaudio (die Stimme eines Sängers) in Schlüsselteile zerlegt, die von einem neuronalen Netzwerk codiert und gelernt werden können. Der Teil „VITS“ ist ein Akronym für „Variational Inference with Adversarial Learning for End-to-End Text-to-Speech“, das in diesem Artikel aus dem Jahr 2021 geprägt wurde. VITS nutzt die Kenntnis des trainierten Stimmmodells und generiert die konvertierte Sprachausgabe. Und „SVC“ bedeutet „Singing Voice Conversion“ – die Umwandlung einer Singstimme in eine andere – im Gegensatz zur Umwandlung der Sprechstimme einer anderen Person.

Das Kürzliche Da habe ich es ruiniert Songs nutzen KI in erster Linie in einer Hinsicht: Das KI-Modell basiert auf Ballards Gesangsdarbietung, ändert aber das Timbre seiner Stimme in das einer anderen Person, ähnlich wie die Voice-to-Voice-Technologie von Respeecher die Darstellung von Darth Vader durch einen Schauspieler umwandeln kann Die Stimme von James Earl Jones. Der Rest des Liedes stammt aus Ballards Arrangement in einer herkömmlichen Musik-App.

Ein komplizierter Prozess – im Moment

Die GUI-Schnittstelle für einen Zweig von so-vits-svc.
Vergrößern / Die GUI-Schnittstelle für einen Zweig von so-vits-svc.

Michael van Voorst

Um mehr Einblick in den musikalischen Stimmen-Klonprozess mit so-vits-svc-fork (einer veränderten Version des ursprünglichen so-vits-svc) zu erhalten, haben wir Michael van Voorst aufgespürt, den Schöpfer des Elvis-Sprach-KI-Modells von Ballard in seinem verwendet Baby kam zurück Video. Er führte uns durch die notwendigen Schritte zur Erstellung eines KI-Mashups.

„Um eine genaue Nachbildung einer Stimme zu erstellen, erstellen Sie zunächst einen Datensatz mit sauberen Stimm-Audio-Samples der Person, von der Sie ein Stimmmodell erstellen“, sagte van Voorst. „Um die besten Ergebnisse zu erzielen, müssen die Audio-Samples in Studioqualität sein. Wenn sie von geringerer Qualität sind, spiegelt sich dies im Gesangsmodell wider.“

Lesen Sie auch  Lernen Sie den First Impression Rose-Gewinner von Bachelor Joey Graziadei kennen

Im Fall von Elvis verwendete van Voorst Gesangsspuren aus den berühmten Liedern des Sängers Aloha aus Hawaii Konzert im Jahr 1973 als Grundlage für das Training des Stimmmodells. Nach sorgfältiger manueller Prüfung extrahierte van Voorst 36 Minuten hochwertiges Audiomaterial, das er dann zur korrekten Verarbeitung in 10-Sekunden-Blöcke aufteilte. „Ich habe sorgfältig auf Störungen wie Band- oder Publikumsgeräusche geachtet und diese aus meinem Datensatz entfernt“, sagte er. Außerdem versuchte er, eine große Vielfalt an Stimmausdrücken einzufangen: „Die Qualität des Modells verbessert sich mit mehr und abwechslungsreicheren Samples.“

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.