Geht schon - aber der Aufwand ist immens
Kurzfassung :
Zuerst jede Sprache (Tonspur) in MONO umwandeln.
Danach jede Tonspur (dt. + franz.) wieder zu einer Stereotonspur zusammenfuegen.
Jetzt hast du links/rechts jeweils eine Sprache
Jetzt Video mit neuer Tonspur verbinden.
... und wenn das alles ohne asynchron zu werden geklappt hat
Einfachste Loesung = entweder dt. oder franz. und Untertitel