Standard: Blah, Blah, Blah, lüg, missversteh, nicht auskenn - falsch aussag, Bevölkerung verarsch, was bin ich für ein großer Experte, blah…

Und dann wie anno 1994, als Trottel wie sie noch nicht im Internet unterwegs waren:
Erstes Kommentar (zum Zeitpunkt des Aufrufs)

Korrekt.
Da rackerst du dich als Standard Redakteur ne Stunde ab um kompletten bullshit zu produzieren, und dann kommt ein Nutzer daher, der mehr als eine Stunde investiert hat, der dich einfach korrigiert, wo gibts denn sowas? Also nicht im Netz seit 1994!
Background.
Ich lass mir seit drei Jahren Untertitel maschinell übersetzen - und das vom Tool von “Akbar on Development”
https://www.syedgakbar.com/projects/dst
Ich habe mir das Equivalent von 35 1950er comics maschinell übersetzen lassen, als ich die mal für drei Wochen gelesen habe.

Dabei jedes mal die günstigsten Modelle verwendet, um noch eine brauchbare Qualität zu erhalten.
Hier ein Vergleichfrontend für einige Modelle und Sprachen:
https://frontendtranslator.onrender.com/compare-translate


Bei TTS ist das aktuell vielversprechendste Modell kokoro-tts
https://huggingface.co/spaces/webml-community/kokoro-webgpu
Siehe auch: https://claudio.uk/posts/audiblez-v4.html
edit: Die beste komerzielle Lösung zur Zeit ist: https://cartesia.ai
Das ehemals beste kostenlose Modell, das noch keine Intonation from word context beherrscht Ivona Marlene für Deutsche Intonation und Ivona Amy für british English:
https://speech2go.online/ (Die Android Apps (apkpure.com) kostenlos nutzbar.)
Hier das tatsächliche Fazit:
Es liegt am Language pair.
Einige Modelle sind deutlich besser als andere.
Das Resultat war seit mehr als einem Jahr immer brauchbar.
Price performance Sieger war ChatGPT 4o. Reasoning Modelle habe ich dafür noch nicht verwendet. Multi line translation wird oftmals zum Problem beim Untertitel-Formating, weshalb die meisten im Produktionsumfeld wohl nur single line Kontext nutzen dürften. Prompting to skip, if unsure hilft um Gibberish weiter zu reduzieren.
Deepl wird aktuell bereits von aktuellen LLM Base models ausgestochen.
Modelle die ähnlich wahrscheinliche Wort Übersetzungen anzeigen, und die bei Bedarf wechseln lassen - ersparen bereits in 99% manuelles Nachübersetzen, nach einmaliger manueller Korrektur.
Idiome bleiben problematisch.
TTS die Intonation aus dem Kontext automatisiert ableitet ist bereits sehr gut.
TTS die es schafft dabei das Voice Profil des Sprechers zu clonen noch mal deutlich besser.
Siehe:
Was mich bereits zu folgendem Nutzungsprofil bewogen hat -- auch wenn mein Englisch in Reading, Use of English and Listening der höchsten Punktebewertung von CEFR Level C2 entspricht (besser geht nicht) lasse ich mir doch bereits fürs casual watching einer doofen Serie, oder eines Films Untertitel automatisiert von english auf Deutsch übersetzen, da ich Deutsch entspannter (weniger Aktivierung) lese. Und das seit nem Jahr. Formelles Sie Fehler, falsche Pronomina Wechsel (erneut, Kontextlimit “per Zeile”) -- alles egal, ich les es lieber auf Deutsch.
Zwei drei grobe Schnitzer Pro Film, bei denen man kurz auflacht, die aber meist im Kontext des Films sofort richtig identifiziert werden können -- dafür korrigier ich nichts.
Besonders wichtig wird es für mich bei Filmen die ich gerne in einer Sprache sehen würde, die ich verstehe, bei denen aber nur andersprachige Untertitel vorliegen. Auch das klappt beinahe immer. Übersetzungen nach english sind dabei qualitativ beinahe immer besser. (Holländisch Deutsch ist die einzige Ausnahme von der Regel, die mir bisher untergekommen ist.).
Menschlich erstellte Untertitel sind in 80% der Fälle in Punkto Textqualität immer noch deutlich besser.