Zum Inhalte springen

Abacus AI

Ich habe mit alten Familienfotos und verschiedenen KIs bzw. den LLM (Large Language Model) getestet, was diese Text basierten Modelle zu leisten im Stande sind.

Anforderungen habe ich hierfür bewusst niedrig gewählt und einen einfachen Prompt (quasi der Text als Befehlsanweisung) benutzt und denselben Prompt für alle LLM benutzt.

Zu sehen ist meine Mutter um 1960 herum.

Dabei habe ich die Plattform Abacus AI (https://apps.abacus.ai) genutzt, welche auf mehrere LLM verschiedener Hersteller zugreifen kann. Die Plattform ist nicht kostenlos, aber das günstigste, wenn man wirklich etwas Rumtesten will. Es kostet 10 USD im Monat, was 10.000 Credits entspricht.
Man kann Credits hinzukaufen, wenn man seinen Monatsvorrat aufgebraucht hat, was ehrlich gesagt schnell passieren kann, wenn man in Probierlaune kommt.

Über andere Plattformen kann man diese hier genutzten LLM vielleicht auch teilweise kostenlos nutzen, doch dafür müsst Ihr diese Plattformen suchen und mit mehr Einschränkungen rechnen, als bei Abacus AI. Die Anforderungen und Einstellungsmöglichkeiten unterscheiden sich natürlich ebenfalls.

Die LLM welche ich hier verwendet habe in der Reihenfolge, wie ich sie verwendet habe:

  • Veo 3.1 (kostenpflichtig, 6400 Credits, das teuerste )
  • Wan V2.5 (kostenpflichtig, 3000 Credits)  
  • Kling V2.5 (kostenpflichtig, 700 Credits)
  • Seedance Pro (kostenpflichtig, 1464 Credits)
  • Hailuo V2 (kostenpflichtig, 450 Credits)
  • Runway (kostenpflichtig, 500 Credits)
  • Luma Labs (kostenpflichtig, 400 Credits) 

Veo 3.1 gefällt mir am besten, allerdings ist es auch teilweise bis zu 10 mal teurer es zu benutzen, als andere LLM.

Sora 2 hat zum Beispiel seinen Dienst verweigert, weil es bedenkliche Inhalte im Foto (oder Prompt) erkannt haben will.
Ich habe es dann nicht verwendet, obwohl es im Netz bejubelt wird.

Meine alten Kinderfotos (auch über 60 Jahre alt) werden auch oft von Sora oder Veo (über die Gemini Seite) verweigert zu bearbeiten. Sie haben sehr strenge und sehr konservative Einstellungen.

Der Prompt für alle LLM:

Ein altes Familienfoto. Alle Personen sollen mit Gesichtern und Kleidung übernommen werden. 
Der Stil ist 70er Jahre. Die Person bewegt sich etwas und schaut am Ende lächelnd in die Kamra. 
Der Kameraschwenk ist langsam und zoomt am Ende der Szene etwas hinein.
Das Video basiert auf die Personen und der Umgebung wie auf dem Foto zu sehen.

Bei allen LLM habe ich immer die maximale Länge und maximale Aufösung gewählt.
Mag sein, dass die Modelle bei anderen Abo-Modellen oder Portalen bessere Werte erreichen können.

Das Ergebnis

Das Ergebins zusammengefasst in einem zusammengeschitteten Video.  

Abacus AI: Aktuelle Modellparameter für Videogenerierung (Oktober 2025)

ModellStart Frame (Bild)AudiofilePrompt (Textanweisung)Negative PromptSchalter/OptionenVideolängeAuflösung/FormatBesonderheiten
Wan 2.5HochladenHochladenTextfeldTextfeld"Modify the input prompt", "Enhanced Motion", "Vivid Visuals", "Audio Sync"Bis 30 Sekunden720p, 1080p (je nach Plan)Native Audio-Integration, verbesserte Bewegung, lebendige Farben, Upload von Startbild und Audio.
Sora 2HochladenNeinTextfeldTextfeld"Cinematic Style", "Realistic Motion", "Multi-Shot", "Video Remix"Bis 60 Sekunden720p, 1080pFokus auf realistische Szenen, komplexe Kamerafahrten, keine native Audio-Integration.
Seedance ProHochladenHochladenTextfeldTextfeld"Character Consistency", "Scene Transition", "Lip Sync", "Fast Render"Bis 60 Sekunden720pIdeal für Musik- und Tanzvideos, automatische Charakterkonsistenz, Lip-Sync mit Audio.
Hailuo 2HochladenHochladenTextfeldTextfeld"Action Director", "Smooth Motion", "High Fidelity", "Live2D Mode"Bis 60 Sekunden768p, 512pPräzise Bewegungssteuerung, hohe Detailtreue, native Audio-Integration, Live2D-Unterstützung.
Kling AI v2.5HochladenHochladenTextfeldTextfeld"Emotional Depth", "Cinematic Composition", "Motion Precision", "Turbo Mode"Bis 120 Sekunden1080pFokus auf emotionale Tiefe, präzise Komposition, native Audio-Unterstützung, Turbo-Modus.
Luma LabsHochladenNeinTextfeldTextfeld"Photorealistic", "Fast Render", "Lightweight", "Dream Machine"Bis 30 Sekunden720p, 1080pSchnelle Rendering-Zeiten, fotorealistische Ergebnisse, keine native Audio-Integration.
RunwayHochladenHochladenTextfeldTextfeld"Advanced VFX", "Detailed Text-to-Video", "Customizable Scenes", "Gen-4 Turbo"Bis 60 Sekunden720p, 1080pProfessionelle VFX-Optionen, detaillierte Szenenanpassung, native Audio-Integration.