Bilder zu Filmen machen
Gerdi
- grafik
Hallo,
kennt jemand eine freeware, die aus einer Reihe von Bildern einen ruckelfreien Film macht. Dabei denke ich nicht an die Tools, die einzelnen Bilder in schneller Folge abspielen. Es sollen vielmehr zwischen zwei Bildern, die sich geringfügig unterscheiden, weitere Bilder dazwischen eingefügt werden.
Schönen Gruß
Gerdi
Liebe(r) Gerdi,
Du willst also fließende Übergänge beim Wechsel von einem Bild zum jeweils nächsten haben. Dazu suchst Du nach passenden Effekten in der Videoschnitt-Software Deiner Wahl.
Liebe Grüße
Felix Riesterer
Aloha ;)
in der Videoschnitt-Software Deiner Wahl.
Wenns eine freie Software sein soll empfehle ich OpenShot. Dort gibt es auch eine ganze Reihe passender Überblend-Effekte (genannt: Übergänge).
Auch von Shotcut habe ich schon viel gutes gehört, es aber noch nicht getestet (weil ich für meine Bedürfnisse immer schon mit OpenShot hinreichend zufŕieden war, so dass es keine Notwendigkeit gab).
Grüße,
RIDER
Lieber Camping_RIDER,
ich wollte auch schon zu OpenShot verlinken, bis ich gesehen habe, dass es nur Überblendungen mit diversen Transparenzeffekten kann, jedoch keine (heißt das morphing?) Animation, die ein Bild dahingehend verändert, dass es sich inhaltlich an das nächste anpasst. Deswegen sind Deine Vorschläge für den OP vielleicht weniger zielführend, es sei denn Du wüsstest von genau passenden Übergängen in OpenShot, die nicht zur Standardausrüstung einer gewöhnlichen OpenShot-Installation gehören.
Liebe Grüße
Felix Riesterer
Hallo,
ist sowas nicht ein Fall für die diversen AI Knechte dieser Welt?
Rolf
Lieber Rolf,
ist sowas nicht ein Fall für die diversen AI Knechte dieser Welt?
deswegen auch mein Link oben auf nextdiffusion.ai.
Liebe Grüße
Felix Riesterer
Aloha ;)
dass es nur Überblendungen mit diversen Transparenzeffekten kann, jedoch keine (heißt das morphing?) Animation, die ein Bild dahingehend verändert, dass es sich inhaltlich an das nächste anpasst.
Ja richtig - aber ich lese das OP-Posting offenbar auch anders, ich lese da kein Morphing als Anforderung heraus.
Morphing ist ja, wenn sogar die unterschiedlichsten Bilder fließend ineinander übergehen. Der OP schreibt aber
zwischen zwei Bildern, die sich geringfügig unterscheiden, weitere Bilder dazwischen eingefügt werden
Bei wirklich geringfügigem Unterschied wäre ein Morphing in meiner Sicht mit Kanonen auf Spatzen geschossen. Auch eine Überblendung mit Transparenzeffekten ergibt
einen ruckelfreien Film
YMMV.
Grüße,
RIDER
Mit geringfügig habe ich gemeint, dass es möglich ist, passend Zwischenbilder einzufügen, so dass eine natürliche Bewegung entsteht.
Beispiel: Bild 1: Uhr steht auf 10:10, Bild 2 steht auf 10:15.
Da wird vermutlich da Ergebnis eine natürliche Zeigerbewegung sein, nicht aber, wenn die zweite Zeit 10:30 ist.
Hallo Gerdi
Mit geringfügig habe ich gemeint, dass es möglich ist, passend Zwischenbilder einzufügen, so dass eine natürliche Bewegung entsteht.
Ich glaube, was du als geringfügig ansiehst, erfordert in der Praxis doch den Einsatz von generativen KI-Modellen, wie hier im Thread schon vorgeschlagen.
Beispiel: Bild 1: Uhr steht auf 10:10, Bild 2 steht auf 10:15.
Da wird vermutlich da Ergebnis eine natürliche Zeigerbewegung sein, nicht aber, wenn die zweite Zeit 10:30 ist.
Kannst du "natürliche Zeigerbewegung" formal definieren, so dass ein Algorithmus die Transformation berechnen kann? Für dieses konkrete, sehr einfache Beispiel könnte man das, aber selbst hier wäre die praktische Umsetzung aufwändiger als es zunächst den Anschein hat. Eine Lösung erfordert Wissen über die abgebildete Realität. Um die Bewegung des Zeigers berechnen zu können muss man wissen wie eine Uhr funktioniert.
Wie sollte aber ein Algorithmus aussehen, der allgemein, für beliebige Abbildungen, solche "natürlichen Bewegungen" simuliert?
Ein solcher Algorithmus müsste hinreichendes Wissen über die Welt haben, wie sie in Bildern dargestellt ist, über die geometrischen und photometrischen Eigenschaften aller möglichen Objekte, die Teil natürlicher Szenen sind, und über die physikalischen Gesetze, welche die Bewegungen und Interaktionen von diesen Objekten steuern.
Für einen Computer ist ein Bild aber erstmal nichts anderes als ein Array, das jedem Bildpunkt einen Intensitätswert zuordnet, oder im Fall von Farbbildern, einen Vektor mit Farbwerten, zum Beispiel für Rot, Grün und Blau. Das ist einfach eine Liste von Zahlen. Mehr nicht. Dass bestimmte Bildpunkte korreliert sind, da sie Teil der Abbildung desselben Objektes sind, ist Information, die ohne Weiteres nicht vorhanden ist. Ein Computer weiß a priori nichts über die Bedeutung der Pixel eines Bildes, oder die zugrundeliegende Dynamik einer Folge von Bildern.
Ohne dieses Wissen sind die Möglichkeiten zwischen zwei Bildern sinnvoll zu interpolieren allerdings stark begrenzt.
Es gibt verschiedene Manipulationen auf Pixelebene, die in der Regel, in Ermangelung weiterer Information, auf der Annahme einer linearen Veränderung beruhen. Für sehr kurze Zeitintervalle zwischen zwei Bildern kann das eine akzeptable Näherungslösung sein. Das kann zum Beispiel funktionieren, wenn man ein Video hat mit einer niedrigen Bildfrequenz, also Anzahl Bilder pro Sekunde. Hier kann es gegebenenfalls schon helfen einzelne Frames einfach zweimal hintereinander zu zeigen.
Die Veränderungen in natürlichen Bildfolgen über längere Zeiträume hinweg sind jedoch typischerweise nichtlinear, und solche lokalen Näherungslösungen unter vereinfachenden Annahmen führen zu keinen zufriedenstellenden Ergebnissen. Man kommt in diesen Fällen also nicht darum herum, zusätzliches Wissen über Semantik der Abbildungen in den Algorithmus einfließen zu lassen, also darüber, welche Bedeutung die Pixel auf einer abstrakteren Ebene haben. Und an der Stelle wird es kompliziert.
Wir Menschen, ebenso wie andere Lebewesen, sind von Natur aus mit einem bestimmten Basiswissen über die Welt ausgestattet, das wir im Laufe unserer kognitiven Entwicklung basierend auf unseren Beobachtungen und Erfahrungen erweitern. Wir wissen zum Beispiel, dass Objekte permanent sind, also nicht aus dem Nichts erscheinen oder wieder verschwinden. Um in deinem Beispiel zu bleiben, ist es für uns "natürlich", dass der Uhrzeiger ein zusammenhängendes Objekt ist, das eine Bewegung von einer Position in eine andere vollzieht, und nicht einfach verschwindet und ein wenig später an der neuen Position wieder auftaucht.
Dieses Wissen einem Computer beizubringen hat sich allerdings als ausgesprochen schwierig erwiesen. Das ist möglich, wenn man sehr präzises Wissen über die abgebildete Szene hat. Eine allgemeine Formulierung, die für beliebige natürliche Szenen alle Objekte identifiziert und die Dynamik ihrer Bewegungen und Interaktionen vorhersagen kann, entzieht sich aufgrund der Komplexität des Problems jedoch unseren Fähigkeiten.
Dass wir selbst nicht in der Lage sind einen solchen Algorithmus explizit zu beschreiben heißt allerdings nicht, dass das Problem unlösbar ist.
Wie von Felix und Rolf bereits angedeutet, ist es möglich das nötige Wissen durch maschinelles Lernen zu erwerben. Mit statistischen Methoden kann man einem Programm ermöglichen das nötige Wissen aus einer Menge von visuellen Daten selbstständig zu lernen.
Angenommen, wir haben eine große Menge an Videos, dann können wir daraus einzelne Frames löschen oder maskieren und ein künstliches neuronales Netzwerk die von uns entfernten Frames vorhersagen lassen. Da wir wissen was herauskommen sollte, können wir den Fehler berechnen den das Modell bei der Vorhersage macht und mit dieser Information die Parameterwerte so verändern, dass der Fehler sukzessive reduziert wird.
Nach erfolgreichem Training des Netzwerks kodieren dessen Parameter die statistischen Zusammenhänge zwischen den einzelnen Bildpunkten und damit einen Teil der Semantik der abgebildeten Szenen. Das funktioniert in der Praxis erstaunlich gut. Es gibt mittlerweile eine ganze Reihe von Modellen, beziehungsweise Anbieter mit Schnittstellen zu solchen Modellen, die genau das tun, was du dir offenbar vorstellst: Gegeben Startframe und Endframe, eine plausible Folge von Frames dazwischen zu erzeugen.
Wie gut das für dein konkretes Problem funktioniert müsstest du allerdings testen.
Das mit dem Uhrzeiger sollten diese Modelle eigentlich hinbekommen. Bei komplexeren oder ungewöhnlicheren Szenen, oder bei längeren Zeitintervallen, wirst du aber wahrscheinlich recht bald die Grenzen des derzeit Möglichen erreichen.
Ein fundamentales Problem mit solchen Modellen ist, dass sie nur statistische Korrelationen lernen. Korrelation ist allerdings nicht gleich Kausalität. Die physikalischen Gesetze die natürlichen Bildern und Videos zugrundeliegen implizieren kausale Zusammenhänge, die wiederum Korrelationen implizieren. Umgekehrt gilt das jedoch nicht.
Vereinfacht gesagt haben diese Modelle nicht wirklich ein "Verständnis" der Inhalte von Bildern und Videos. Sie haben nur gelernt Muster zu erkennen, von denen einige tatsächlich auf kausale Zusammenhänge zurückzuführen sind. Andere jedoch nicht. Deshalb sind generierte Bilder oft fehlerbehaftet, auch wenn sie auf den ersten Blick realistisch aussehen.
Wenn dein konkretes Problem über das Einfügen von einzelnen Frames hinausgeht, wäre das vermutlich dennoch der vielversprechendste Ansatz.
Viele Grüße,
Matthias