Ik run globalpetsitter.com. Het verbindt huisdiereigenaren met oppassen over de hele wereld. Zoals elke startup heb ik promotiecontent nodig, met name video-advertenties voor social media. Het probleem is dat zelfs een simpele advertentie van 30 seconden eeuwen duurt om te maken
Het Probleem
Elke keer als ik een video-advertentie wilde maken, ging het proces ongeveer zo:
- Een script of storyboard schrijven
- Afbeeldingen zoeken of maken voor elke scène
- Voice-over genereren of opnemen
- Afbeeldingen omzetten naar videoclips met beweging
- Audio synchroniseren met video
- Alles monteren in CapCut
Elke stap vereist andere tools, andere logins, eindeloos context switchen. Voor een advertentie van 6 scènes hebben we het over uren. En als ik het resultaat niet goed vond? Opnieuw beginnen
Ad Forge
Ik bouwde Ad Forge om dit allemaal samen te voegen in één pipeline. Beschrijf je advertentie in platte tekst, laat AI het zware werk doen
Zo ziet de output eruit:
Hoe Het Werkt
7 stappen:
1. Schets — beschrijf je advertentieconcept, doelgroep, toon, duur. Voor de globalpetsitter-advertentie schreef ik iets als „vrouw vertrekt op reis, maakt zich zorgen over haar huisdier, voelt zich dan opgelucht wetende dat er goed voor gezorgd wordt"
2. Scènes — Gemini breekt je schets op in individuele scènes met beschrijvingen, settings, sfeer en voorgestelde duur. Het structureert de verhaallijn automatisch
3. Stijl — AI genereert een stijlgids. Kleurenpalet, belichting, visuele sfeer, karakterbeschrijvingen, locatiedetails. Houdt alles visueel consistent
4. Afbeeldingen — Fal.ai genereert een afbeelding voor elke scène. Het systeem gebruikt referentieafbeeldingen van eerdere scènes en karakterportretten om consistentie te behouden. Dit was het moeilijkste om goed te krijgen
5. Video's — elke afbeelding wordt een videoclip met camerabeweging (pan, zoom, dolly, etc). Fal.ai's image-to-video is hier best goed in
6. Audio — voor scènes met dialoog genereert het voice-over met TTS (text-to-speech). Je kunt verschillende stemmen toewijzen aan verschillende karakters
7. Samenvoegen — combineert video en audio, optionele lip-sync voor sprekende karakters. FFmpeg handelt dit af
Tech Stack
- Next.js 16 met React 19 voor de UI
- Google Gemini voor scriptgeneratie en scène-opbouw
- Fal.ai voor beeldgeneratie en image-to-video
- OpenAI voor sommige tekstgeneratie
- FFmpeg WebAssembly voor videoverwerking in de browser
Enkele Ontwerpbeslissingen
Campagnepersistentie — alles slaat automatisch op in localStorage. Je kunt de browser sluiten en later verdergaan
Referentieafbeeldingen — dit was cruciaal. Bij het genereren van scène 3 kun je de locatieafbeelding, karakterportretten en eerdere scènes als referentie meegeven. De AI gebruikt deze als stijlankers
Stapsgewijze workflow — elke stap levert output op die je kunt reviewen. Scènes niet goed? Regenereer ze voordat je verder gaat. Geeft je controle zonder overweldigende opties
Resultaten
De globalpetsitter-advertentie die me een hele dag zou kosten, kost nu ongeveer 30 minuten actief werk (plus generatietijd). Belangrijker nog: ik kan snel itereren. Verschillende tonen uitproberen, scènes wisselen, individuele afbeeldingen regenereren zonder opnieuw te beginnen
Wat Komt Er Nog
Ad Forge is nog ruw. Ik wil toevoegen:
- achtergrondmuziek selectie
- meer camerabewegingsopties
- directe export naar sociale formaten (9:16 voor TikTok/Reels, 16:9 voor YouTube)
- templates voor veelgebruikte advertentieformaten
Voor nu lost het mijn probleem op: video-advertenties maken voor globalpetsitter zonder de tijdsinvestering. Soms is dat genoeg :)
Stay Updated
Get notified about new posts on automation, productivity tips, indie hacking, and web3.
No spam, ever. Unsubscribe anytime.



