Wenn die FAZ Digitalwirtschaft - AI Berichterstattung schreibt

20. Juni 2026

Die euro­päi­sche Hoff­nung trägt einen Namen, und es ist stets der­sel­be: Mis­tral. Von Bru­no Retail­leau, dem kon­ser­va­ti­ven frü­he­ren Innen­mi­nis­ter, bis zu Jor­dan Bar­del­la vom Ras­sem­ble­ment Natio­nal ver­wei­sen fran­zö­si­sche Poli­ti­ker auf das Pari­ser KI-Unternehmen. Sein quell­of­fe­nes Pro­gram­mier­mo­dell Devs­tral läuft auf gewöhn­li­cher Rechen­tech­nik und reicht an die bes­ten geschlos­se­nen Model­le heran.

src: click

AMAZING!

Bildschirmfoto 2026 06 20 um 11 43 54

Such ama­zing, dass bei den aktu­el­len Reben­ches den Dreck kei­ner mehr tes­tet, weil das hin­ten und vor­ne nicht die tool­call Fähig­kei­ten mit­bringt, dies aktu­ell braucht -- aber Haupt­sa­che die FAZ hat wie­der recherchiert…

Das let­ze Mal dass die Fran­zo­sen noch jemand Unab­hän­gi­ges gebech­markt hat, war im Febru­ar die­sen Jah­res - und da hat­te Devs­tral, bei swe-rebench eine Pass@5 per­cen­ta­ge von 59%.

Bildschirmfoto 2026 06 20 um 11 55 20

Gut sagen sie, das ist ja nicht so schlimm, das sind ja nur 10 Pro­zent im Ver­gleich zu den aktu­el­len Topmodellen!

Jo bei nem varia­blen Schwie­rig­keits­grad an neu­en Problemen, …

Bildschirmfoto 2026 06 20 um 12 01 03

Zum sel­ben Test­zeit­punlt im Febru­ar - erreichte

Step 3.5 Flash von Ste­pfun 71,9%

und

GPT 5.2 medi­um with tools 73,7%

Zwei Test­zeit­punk­te davor erreichte 

GPT OSS 120b high with tools 62,5%

und jetzt schaun wir mal auf den Preis­punkt, nicht?

Devs­tral 2 2512: $0,40 / $2
Ste­pfun 3.7 Flash: $0,20 / $1,15
GPT OSS 120b: 0,039 / $0,18
GPT-5.2 Chat: $1,75 / $14
Opus 4.8 $5 / $25

Gut für die deutsch­spra­chi­gen Qua­li­täts­zei­tungs­le­ser wirds reichen…

Gut wer­den sie jetzt sagen, aber ein Ver­gleichs­wert von einem bes­se­ren, güns­ti­ge­ren chi­ne­si­schen Open weights Modell -- gibts da nichts wor­an mans so im Zeit­ver­lauf ver­glei­chen könn­te. Klar.

GLM 4.7 mit Tools $0,40 / $1,75

Bildschirmfoto 2026 06 20 um 12 13 24

Komisch, bei uns in Euro­pa ver­wen­den ja alle Mis­tral, und dann beschwe­ren sie sich dass die Modell schlecht sind. Also ich seh da kei­nen Zusammenhang…

Gut, also das ist SWE Bench reben­ched - also eh nur coding, wie siehts denn in ande­ren Fel­dern aus?

Gut dass sie fragen:

GLM 5.2 (max): ($1,20 / $4,10) - eben­falls open weights
Devs­tral 2 2512: ($0,40 / $2)
Mis­tral 3.5 Medi­um: ($1,50 / $7,50)
Mis­tral 3 Lar­ge: ($0,50 / $1,50)
Ste­pfun 3.7 Flash ($0,20 / $1,15) - eben­falls open weights

https://artificialanalysis.ai/models/glm-5-2
https://artificialanalysis.ai/models/devstral-2
https://artificialanalysis.ai/models/mistral-medium-3-5
https://artificialanalysis.ai/models/mistral-large-3
https://artificialanalysis.ai/models/step-3-7-flash

GDPval-AA v2 (SOTA Clau­de Fable 5: 64%)
Agen­tic real world tasks

GLM 5.2 (max): 51%
Devs­tral 2: nicht mehr getestet
Mis­tral medi­um 3.5: 21%
Mis­tral lar­ge 3: nicht mehr getestet
Step 3.7 Flash: 26%

R3-Banking (SOTA GPT 5.5 xhigh: 31%)
Agen­tic tool use

GLM 5.2 (max): 27%
Devs­tral 2: nicht mehr getestet
Mis­tral medi­um 3.5: 14%
Mis­tral lar­ge 3: nicht mehr getestet
Step 3.7 Flash: 11%

Ter­mi­nal Bench v2.1 (SOTA Clau­de Fable 5: 85%)
Agen­tic ter­mi­nal use and coding

GLM 5.2 (max): 78%
Devs­tral 2: nicht mehr getestet
Mis­tral medi­um 3.5: 51%
Mis­tral lar­ge 3: nicht mehr getestet
Step 3.7 Flash: 36%

Sci­Code (SOTA Clau­de Fable 5: 60%)
Coding

GLM 5.2 (max): 50%
Devs­tral 2: 33%
Mis­tral medi­um 3.5: 40%
Mis­tral lar­ge 3: 36%
Step 3.7 Flash: 40%

Humanity’s last exam (SOTA Clau­de Fable 5: 53%)
Rea­so­ning and Knowledge

GLM 5.2 (max): 40%
Devs­tral 2: 4%
Mis­tral medi­um 3.5: 13%
Mis­tral lar­ge 3: 4%
Step 3.7 Flash: 20%

GPQA Dia­mond (SOTA Gemi­ni 3.1 Pro Pre­view: 94%)
Sci­en­ti­fic Reasoning

GLM 5.2 (max): 89%
Devs­tral 2: 59%
Mis­tral medi­um 3.5: 75%
Mis­tral lar­ge 3: 68%
Step 3.7 Flash: 81%

CritPt (SOTA Clau­de Fable 5: 29%)
Phy­sics reasoning

GLM 5.2 (max): 21%
Devs­tral 2: 0%
Mis­tral medi­um 3.5: 0%
Mis­tral lar­ge 3: 0%
Step 3.7 Flash: 2%

AA-Omniscience Accu­ra­cy (SOTA Clau­de Fable 5: 61%)
Knowledge

GLM 5.2 (max): 25%
Devs­tral 2: 21%
Mis­tral medi­um 3.5: 26%
Mis­tral lar­ge 3: 24%
Step 3.7 Flash: 25%

AA-Omniscience Non-Hallucination Rate (SOTA Min­Max M3 84%)
hal­lu­ci­na­ti­on rate (inver­se, so hig­her is better)

GLM 5.2 (max): 72%
Devs­tral 2: 15%
Mis­tral medi­um 3.5: 18%
Mis­tral lar­ge 3: 16%
Step 3.7 Flash: 16%

AA-LCR (SOTA GPT 5.5 xhigh: 74%)
Long con­text reasoning

GLM 5.2 (max): 71%
Devs­tral 2: 30%
Mis­tral medi­um 3.5: 61%
Mis­tral lar­ge 3: 35%
Step 3.7 Flash: 64%

IFBench (SOTA Mini­Max M3: 83%)
Inst­ruc­tion following

GLM 5.2 (max): 73%
Devs­tral 2: 38%
Mis­tral medi­um 3.5: 69%
Mis­tral lar­ge 3: 36%
Step 3.7 Flash: 67%

Ich mein, sehen wirs posi­tiv, dadurch dass Mis­tral seit Dezem­ber 2025 kei­ne gro­ßen Model­le ver­öf­fent­licht und nur noch Mis­tral Small und Medi­um released, hat Euro­pa ja sehr viel Strom gespart. Wobei nein, auch das nicht - sie trai­nie­ren schon noch grö­ße­re nur ver­öf­fent­li­chen sie sie nicht mehr - weils öko­no­misch kei­nen Sinn mehr macht.

Viel­leicht noch zwei Punk­te als Randnotiz:

Ste­pFun 3.7 Flash is a mul­ti­modal Mixture-of-Experts (MoE) model fea­turing 198 bil­li­on total parameters.

Mis­tral Medi­um 3.5 is a den­se trans­for­mer model with 128 bil­li­on total para­me­ters. Unli­ke Ste­pFun 3.7 (which uses a spar­se MoE design to only run 11B acti­ve para­me­ters), Mis­tral Medi­um is ful­ly den­se, mea­ning all 128 bil­li­on para­me­ters are acti­ve for every sin­gle token pro­ces­sed during inference.

TOI, TOITOI!

Moment, mal - für den Preis, was krieg ich denn da an token pro Sekun­de raus?

Ste­pfun 3.7 Flash: 55 tps
Mis­tral 3.5 Medi­um: 24 tps (supi und das nur bei 10 mal so viel ein­ge­setz­ter Hard­ware, weil den­se - zum Schnäpp­chen vom nur sie­ben­fa­chen Preis!)

Kann ich eigent­lich auch 14 fach über­be­zah­len, damit das dop­pelt so schnell wird? Nein kann ich nicht?









Hinterlasse eine Antwort