Die europäische Hoffnung trägt einen Namen, und es ist stets derselbe: Mistral. Von Bruno Retailleau, dem konservativen früheren Innenminister, bis zu Jordan Bardella vom Rassemblement National verweisen französische Politiker auf das Pariser KI-Unternehmen. Sein quelloffenes Programmiermodell Devstral läuft auf gewöhnlicher Rechentechnik und reicht an die besten geschlossenen Modelle heran.
src: click
AMAZING!

Such amazing, dass bei den aktuellen Rebenches den Dreck keiner mehr testet, weil das hinten und vorne nicht die toolcall Fähigkeiten mitbringt, dies aktuell braucht -- aber Hauptsache die FAZ hat wieder recherchiert…
Das letze Mal dass die Franzosen noch jemand Unabhängiges gebechmarkt hat, war im Februar diesen Jahres - und da hatte Devstral, bei swe-rebench eine Pass@5 percentage von 59%.

Gut sagen sie, das ist ja nicht so schlimm, das sind ja nur 10 Prozent im Vergleich zu den aktuellen Topmodellen!
Jo bei nem variablen Schwierigkeitsgrad an neuen Problemen, …

Zum selben Testzeitpunlt im Februar - erreichte
Step 3.5 Flash von Stepfun 71,9%
und
GPT 5.2 medium with tools 73,7%
Zwei Testzeitpunkte davor erreichte
GPT OSS 120b high with tools 62,5%
und jetzt schaun wir mal auf den Preispunkt, nicht?
Devstral 2 2512: $0,40 / $2
Stepfun 3.7 Flash: $0,20 / $1,15
GPT OSS 120b: 0,039 / $0,18
GPT-5.2 Chat: $1,75 / $14
Opus 4.8 $5 / $25
Gut für die deutschsprachigen Qualitätszeitungsleser wirds reichen…
Gut werden sie jetzt sagen, aber ein Vergleichswert von einem besseren, günstigeren chinesischen Open weights Modell -- gibts da nichts woran mans so im Zeitverlauf vergleichen könnte. Klar.
GLM 4.7 mit Tools $0,40 / $1,75

Komisch, bei uns in Europa verwenden ja alle Mistral, und dann beschweren sie sich dass die Modell schlecht sind. Also ich seh da keinen Zusammenhang…
Gut, also das ist SWE Bench rebenched - also eh nur coding, wie siehts denn in anderen Feldern aus?
Gut dass sie fragen:
GLM 5.2 (max): ($1,20 / $4,10) - ebenfalls open weights
Devstral 2 2512: ($0,40 / $2)
Mistral 3.5 Medium: ($1,50 / $7,50)
Mistral 3 Large: ($0,50 / $1,50)
Stepfun 3.7 Flash ($0,20 / $1,15) - ebenfalls open weights
https://artificialanalysis.ai/models/glm-5-2
https://artificialanalysis.ai/models/devstral-2
https://artificialanalysis.ai/models/mistral-medium-3-5
https://artificialanalysis.ai/models/mistral-large-3
https://artificialanalysis.ai/models/step-3-7-flash
GDPval-AA v2 (SOTA Claude Fable 5: 64%)
Agentic real world tasks
GLM 5.2 (max): 51%
Devstral 2: nicht mehr getestet
Mistral medium 3.5: 21%
Mistral large 3: nicht mehr getestet
Step 3.7 Flash: 26%
R3-Banking (SOTA GPT 5.5 xhigh: 31%)
Agentic tool use
GLM 5.2 (max): 27%
Devstral 2: nicht mehr getestet
Mistral medium 3.5: 14%
Mistral large 3: nicht mehr getestet
Step 3.7 Flash: 11%
Terminal Bench v2.1 (SOTA Claude Fable 5: 85%)
Agentic terminal use and coding
GLM 5.2 (max): 78%
Devstral 2: nicht mehr getestet
Mistral medium 3.5: 51%
Mistral large 3: nicht mehr getestet
Step 3.7 Flash: 36%
SciCode (SOTA Claude Fable 5: 60%)
Coding
GLM 5.2 (max): 50%
Devstral 2: 33%
Mistral medium 3.5: 40%
Mistral large 3: 36%
Step 3.7 Flash: 40%
Humanity’s last exam (SOTA Claude Fable 5: 53%)
Reasoning and Knowledge
GLM 5.2 (max): 40%
Devstral 2: 4%
Mistral medium 3.5: 13%
Mistral large 3: 4%
Step 3.7 Flash: 20%
GPQA Diamond (SOTA Gemini 3.1 Pro Preview: 94%)
Scientific Reasoning
GLM 5.2 (max): 89%
Devstral 2: 59%
Mistral medium 3.5: 75%
Mistral large 3: 68%
Step 3.7 Flash: 81%
CritPt (SOTA Claude Fable 5: 29%)
Physics reasoning
GLM 5.2 (max): 21%
Devstral 2: 0%
Mistral medium 3.5: 0%
Mistral large 3: 0%
Step 3.7 Flash: 2%
AA-Omniscience Accuracy (SOTA Claude Fable 5: 61%)
Knowledge
GLM 5.2 (max): 25%
Devstral 2: 21%
Mistral medium 3.5: 26%
Mistral large 3: 24%
Step 3.7 Flash: 25%
AA-Omniscience Non-Hallucination Rate (SOTA MinMax M3 84%)
hallucination rate (inverse, so higher is better)
GLM 5.2 (max): 72%
Devstral 2: 15%
Mistral medium 3.5: 18%
Mistral large 3: 16%
Step 3.7 Flash: 16%
AA-LCR (SOTA GPT 5.5 xhigh: 74%)
Long context reasoning
GLM 5.2 (max): 71%
Devstral 2: 30%
Mistral medium 3.5: 61%
Mistral large 3: 35%
Step 3.7 Flash: 64%
IFBench (SOTA MiniMax M3: 83%)
Instruction following
GLM 5.2 (max): 73%
Devstral 2: 38%
Mistral medium 3.5: 69%
Mistral large 3: 36%
Step 3.7 Flash: 67%
Ich mein, sehen wirs positiv, dadurch dass Mistral seit Dezember 2025 keine großen Modelle veröffentlicht und nur noch Mistral Small und Medium released, hat Europa ja sehr viel Strom gespart. Wobei nein, auch das nicht - sie trainieren schon noch größere nur veröffentlichen sie sie nicht mehr - weils ökonomisch keinen Sinn mehr macht.
Vielleicht noch zwei Punkte als Randnotiz:
StepFun 3.7 Flash is a multimodal Mixture-of-Experts (MoE) model featuring 198 billion total parameters.
Mistral Medium 3.5 is a dense transformer model with 128 billion total parameters. Unlike StepFun 3.7 (which uses a sparse MoE design to only run 11B active parameters), Mistral Medium is fully dense, meaning all 128 billion parameters are active for every single token processed during inference.
TOI, TOI, TOI!
Moment, mal - für den Preis, was krieg ich denn da an token pro Sekunde raus?
Stepfun 3.7 Flash: 55 tps
Mistral 3.5 Medium: 24 tps (supi und das nur bei 10 mal so viel eingesetzter Hardware, weil dense - zum Schnäppchen vom nur siebenfachen Preis!)
Kann ich eigentlich auch 14 fach überbezahlen, damit das doppelt so schnell wird? Nein kann ich nicht?
