Wenn die FAZ Digitalwirtschaft - AI Berichterstattung schreibt

20. Juni 2026

Die europäische Hoffnung trägt einen Namen, und es ist stets derselbe: Mistral. Von Bruno Retailleau, dem konservativen früheren Innenminister, bis zu Jordan Bardella vom Rassemblement National verweisen französische Politiker auf das Pariser KI-Unternehmen. Sein quelloffenes Programmiermodell Devstral läuft auf gewöhnlicher Rechentechnik und reicht an die besten geschlossenen Modelle heran.

src: click

AMAZING!

Bildschirmfoto 2026 06 20 um 11 43 54

Such amazing, dass bei den aktuellen Rebenches den Dreck keiner mehr testet, weil das hinten und vorne nicht die toolcall Fähigkeiten mitbringt, dies aktuell braucht -- aber Hauptsache die FAZ hat wieder recherchiert…

Das letze Mal dass die Franzosen noch jemand Unabhängiges gebechmarkt hat, war im Februar diesen Jahres - und da hatte Devstral, bei swe-rebench eine Pass@5 percentage von 59%.

Bildschirmfoto 2026 06 20 um 11 55 20

Gut sagen sie, das ist ja nicht so schlimm, das sind ja nur 10 Prozent im Vergleich zu den aktuellen Topmodellen!

Jo bei nem variablen Schwierigkeitsgrad an neuen Problemen, …

Bildschirmfoto 2026 06 20 um 12 01 03

Zum selben Testzeitpunlt im Februar - erreichte

Step 3.5 Flash von Stepfun 71,9%

und

GPT 5.2 medium with tools 73,7%

Zwei Testzeitpunkte davor erreichte

GPT OSS 120b high with tools 62,5%

und jetzt schaun wir mal auf den Preispunkt, nicht?

Devstral 2 2512: $0,40 / $2
Stepfun 3.7 Flash: $0,20 / $1,15
GPT OSS 120b: 0,039 / $0,18
GPT-5.2 Chat: $1,75 / $14
Opus 4.8 $5 / $25

Gut für die deutschsprachigen Qualitätszeitungsleser wirds reichen…

Gut werden sie jetzt sagen, aber ein Vergleichswert von einem besseren, günstigeren chinesischen Open weights Modell -- gibts da nichts woran mans so im Zeitverlauf vergleichen könnte. Klar.

GLM 4.7 mit Tools $0,40 / $1,75

Bildschirmfoto 2026 06 20 um 12 13 24

Komisch, bei uns in Europa verwenden ja alle Mistral, und dann beschweren sie sich dass die Modell schlecht sind. Also ich seh da keinen Zusammenhang…

Gut, also das ist SWE Bench rebenched - also eh nur coding, wie siehts denn in anderen Feldern aus?

Gut dass sie fragen:

GLM 5.2 (max): ($1,20 / $4,10) - ebenfalls open weights
Devstral 2 2512: ($0,40 / $2)
Mistral 3.5 Medium: ($1,50 / $7,50)
Mistral 3 Large: ($0,50 / $1,50)
Stepfun 3.7 Flash ($0,20 / $1,15) - ebenfalls open weights

https://artificialanalysis.ai/models/glm-5-2
https://artificialanalysis.ai/models/devstral-2
https://artificialanalysis.ai/models/mistral-medium-3-5
https://artificialanalysis.ai/models/mistral-large-3
https://artificialanalysis.ai/models/step-3-7-flash

GDPval-AA v2 (SOTA Claude Fable 5: 64%)
Agentic real world tasks

GLM 5.2 (max): 51%
Devstral 2: nicht mehr getestet
Mistral medium 3.5: 21%
Mistral large 3: nicht mehr getestet
Step 3.7 Flash: 26%

R3-Banking (SOTA GPT 5.5 xhigh: 31%)
Agentic tool use

GLM 5.2 (max): 27%
Devstral 2: nicht mehr getestet
Mistral medium 3.5: 14%
Mistral large 3: nicht mehr getestet
Step 3.7 Flash: 11%

Terminal Bench v2.1 (SOTA Claude Fable 5: 85%)
Agentic terminal use and coding

GLM 5.2 (max): 78%
Devstral 2: nicht mehr getestet
Mistral medium 3.5: 51%
Mistral large 3: nicht mehr getestet
Step 3.7 Flash: 36%

SciCode (SOTA Claude Fable 5: 60%)
Coding

GLM 5.2 (max): 50%
Devstral 2: 33%
Mistral medium 3.5: 40%
Mistral large 3: 36%
Step 3.7 Flash: 40%

Humanity’s last exam (SOTA Claude Fable 5: 53%)
Reasoning and Knowledge

GLM 5.2 (max): 40%
Devstral 2: 4%
Mistral medium 3.5: 13%
Mistral large 3: 4%
Step 3.7 Flash: 20%

GPQA Diamond (SOTA Gemini 3.1 Pro Preview: 94%)
Scientific Reasoning

GLM 5.2 (max): 89%
Devstral 2: 59%
Mistral medium 3.5: 75%
Mistral large 3: 68%
Step 3.7 Flash: 81%

CritPt (SOTA Claude Fable 5: 29%)
Physics reasoning

GLM 5.2 (max): 21%
Devstral 2: 0%
Mistral medium 3.5: 0%
Mistral large 3: 0%
Step 3.7 Flash: 2%

AA-Omniscience Accuracy (SOTA Claude Fable 5: 61%)
Knowledge

GLM 5.2 (max): 25%
Devstral 2: 21%
Mistral medium 3.5: 26%
Mistral large 3: 24%
Step 3.7 Flash: 25%

AA-Omniscience Non-Hallucination Rate (SOTA MinMax M3 84%)
hallucination rate (inverse, so higher is better)

GLM 5.2 (max): 72%
Devstral 2: 15%
Mistral medium 3.5: 18%
Mistral large 3: 16%
Step 3.7 Flash: 16%

AA-LCR (SOTA GPT 5.5 xhigh: 74%)
Long context reasoning

GLM 5.2 (max): 71%
Devstral 2: 30%
Mistral medium 3.5: 61%
Mistral large 3: 35%
Step 3.7 Flash: 64%

IFBench (SOTA MiniMax M3: 83%)
Instruction following

GLM 5.2 (max): 73%
Devstral 2: 38%
Mistral medium 3.5: 69%
Mistral large 3: 36%
Step 3.7 Flash: 67%

Ich mein, sehen wirs positiv, dadurch dass Mistral seit Dezember 2025 keine großen Modelle veröffentlicht und nur noch Mistral Small und Medium released, hat Europa ja sehr viel Strom gespart. Wobei nein, auch das nicht - sie trainieren schon noch größere nur veröffentlichen sie sie nicht mehr - weils ökonomisch keinen Sinn mehr macht.

Vielleicht noch zwei Punkte als Randnotiz:

StepFun 3.7 Flash is a multimodal Mixture-of-Experts (MoE) model featuring 198 billion total parameters.

Mistral Medium 3.5 is a dense transformer model with 128 billion total parameters. Unlike StepFun 3.7 (which uses a sparse MoE design to only run 11B active parameters), Mistral Medium is fully dense, meaning all 128 billion parameters are active for every single token processed during inference.

TOI, TOI, TOI!

Moment, mal - für den Preis, was krieg ich denn da an token pro Sekunde raus?

Stepfun 3.7 Flash: 55 tps
Mistral 3.5 Medium: 24 tps (supi und das nur bei 10 mal so viel eingesetzter Hardware, weil dense - zum Schnäppchen vom nur siebenfachen Preis!)

Kann ich eigentlich auch 14 fach überbezahlen, damit das doppelt so schnell wird? Nein kann ich nicht?

Veröffentlicht by me am Samstag, 20. Juni 2026 unter Allgemein, Media.

harlekin.me

Wenn die FAZ Digitalwirtschaft - AI Berichterstattung schreibt

Hinterlasse eine Antwort

Wenn die FAZ Digitalwirtschaft - AI Berichterstattung schreibt

Hinterlasse eine Antwort

harlekin.me Cookies