
src: click
Abofallen-Redakteur.

src: cick
edit: Der Vorteil von frei Schnauze:
Gut, wenn man die Bevölkerung seit fünf Jahren dazu belogen hat, was wir eigentlich machen, und ihr nichts dazu vermittelt hat, …
Und die öffentliche Meinung durch Medien und trusted Flagger manipuliert hat…
Ist am Ende DSDS gefährdet, oder so…
Wo bleiben eigentlich die Honeytraps, wenn man sie braucht, der braucht grad dringend eine neue Freundin… 😉 *sarkasmus*

src: click
Wobei, man muss das auch positiv sehen, Deutschland plant neue Investitionen in Leopard II.
edit: Bitte lieber Herrgott, mach dass das Kopfweh weggeht: click (Stichwort “Das Problem mit den Molekülen”)
Die europäische Hoffnung trägt einen Namen, und es ist stets derselbe: Mistral. Von Bruno Retailleau, dem konservativen früheren Innenminister, bis zu Jordan Bardella vom Rassemblement National verweisen französische Politiker auf das Pariser KI-Unternehmen. Sein quelloffenes Programmiermodell Devstral läuft auf gewöhnlicher Rechentechnik und reicht an die besten geschlossenen Modelle heran.
src: click
AMAZING!

Such amazing, dass bei den aktuellen Rebenches den Dreck keiner mehr testet, weil das hinten und vorne nicht die toolcall Fähigkeiten mitbringt, dies aktuell braucht -- aber Hauptsache die FAZ hat wieder recherchiert…
Das letze Mal dass die Franzosen noch jemand Unabhängiges gebechmarkt hat, war im Februar diesen Jahres - und da hatte Devstral, bei swe-rebench eine Pass@5 percentage von 59%.

Gut sagen sie, das ist ja nicht so schlimm, das sind ja nur 10 Prozent im Vergleich zu den aktuellen Topmodellen!
Jo bei nem variablen Schwierigkeitsgrad an neuen Problemen, …

Zum selben Testzeitpunlt im Februar - erreichte
Step 3.5 Flash von Stepfun 71,9%
und
GPT 5.2 medium with tools 73,7%
Zwei Testzeitpunkte davor erreichte
GPT OSS 120b high with tools 62,5%
und jetzt schaun wir mal auf den Preispunkt, nicht?
Devstral 2 2512: $0,40 / $2
Stepfun 3.7 Flash: $0,20 / $1,15
GPT OSS 120b: 0,039 / $0,18
GPT-5.2 Chat: $1,75 / $14
Opus 4.8 $5 / $25
Gut für die deutschsprachigen Qualitätszeitungsleser wirds reichen…
Gut werden sie jetzt sagen, aber ein Vergleichswert von einem besseren, günstigeren chinesischen Open weights Modell -- gibts da nichts woran mans so im Zeitverlauf vergleichen könnte. Klar.
GLM 4.7 mit Tools $0,40 / $1,75

Komisch, bei uns in Europa verwenden ja alle Mistral, und dann beschweren sie sich dass die Modell schlecht sind. Also ich seh da keinen Zusammenhang…
Gut, also das ist SWE Bench rebenched - also eh nur coding, wie siehts denn in anderen Feldern aus?
Gut dass sie fragen:
GLM 5.2 (max): ($1,20 / $4,10) - ebenfalls open weights
Devstral 2 2512: ($0,40 / $2)
Mistral 3.5 Medium: ($1,50 / $7,50)
Mistral 3 Large: ($0,50 / $1,50)
Stepfun 3.7 Flash ($0,20 / $1,15) - ebenfalls open weights
https://artificialanalysis.ai/models/glm-5-2
https://artificialanalysis.ai/models/devstral-2
https://artificialanalysis.ai/models/mistral-medium-3-5
https://artificialanalysis.ai/models/mistral-large-3
https://artificialanalysis.ai/models/step-3-7-flash
GDPval-AA v2 (SOTA Claude Fable 5: 64%)
Agentic real world tasks
GLM 5.2 (max): 51%
Devstral 2: nicht mehr getestet
Mistral medium 3.5: 21%
Mistral large 3: nicht mehr getestet
Step 3.7 Flash: 26%
R3-Banking (SOTA GPT 5.5 xhigh: 31%)
Agentic tool use
GLM 5.2 (max): 27%
Devstral 2: nicht mehr getestet
Mistral medium 3.5: 14%
Mistral large 3: nicht mehr getestet
Step 3.7 Flash: 11%
Terminal Bench v2.1 (SOTA Claude Fable 5: 85%)
Agentic terminal use and coding
GLM 5.2 (max): 78%
Devstral 2: nicht mehr getestet
Mistral medium 3.5: 51%
Mistral large 3: nicht mehr getestet
Step 3.7 Flash: 36%
SciCode (SOTA Claude Fable 5: 60%)
Coding
GLM 5.2 (max): 50%
Devstral 2: 33%
Mistral medium 3.5: 40%
Mistral large 3: 36%
Step 3.7 Flash: 40%
Humanity’s last exam (SOTA Claude Fable 5: 53%)
Reasoning and Knowledge
GLM 5.2 (max): 40%
Devstral 2: 4%
Mistral medium 3.5: 13%
Mistral large 3: 4%
Step 3.7 Flash: 20%
GPQA Diamond (SOTA Gemini 3.1 Pro Preview: 94%)
Scientific Reasoning
GLM 5.2 (max): 89%
Devstral 2: 59%
Mistral medium 3.5: 75%
Mistral large 3: 68%
Step 3.7 Flash: 81%
CritPt (SOTA Claude Fable 5: 29%)
Physics reasoning
GLM 5.2 (max): 21%
Devstral 2: 0%
Mistral medium 3.5: 0%
Mistral large 3: 0%
Step 3.7 Flash: 2%
AA-Omniscience Accuracy (SOTA Claude Fable 5: 61%)
Knowledge
GLM 5.2 (max): 25%
Devstral 2: 21%
Mistral medium 3.5: 26%
Mistral large 3: 24%
Step 3.7 Flash: 25%
AA-Omniscience Non-Hallucination Rate (SOTA MinMax M3 84%)
hallucination rate (inverse, so higher is better)
GLM 5.2 (max): 72%
Devstral 2: 15%
Mistral medium 3.5: 18%
Mistral large 3: 16%
Step 3.7 Flash: 16%
AA-LCR (SOTA GPT 5.5 xhigh: 74%)
Long context reasoning
GLM 5.2 (max): 71%
Devstral 2: 30%
Mistral medium 3.5: 61%
Mistral large 3: 35%
Step 3.7 Flash: 64%
IFBench (SOTA MiniMax M3: 83%)
Instruction following
GLM 5.2 (max): 73%
Devstral 2: 38%
Mistral medium 3.5: 69%
Mistral large 3: 36%
Step 3.7 Flash: 67%
Ich mein, sehen wirs positiv, dadurch dass Mistral seit Dezember 2025 keine großen Modelle veröffentlicht und nur noch Mistral Small und Medium released, hat Europa ja sehr viel Strom gespart. Wobei nein, auch das nicht - sie trainieren schon noch größere nur veröffentlichen sie sie nicht mehr - weils ökonomisch keinen Sinn mehr macht.
Vielleicht noch zwei Punkte als Randnotiz:
StepFun 3.7 Flash is a multimodal Mixture-of-Experts (MoE) model featuring 198 billion total parameters.
Mistral Medium 3.5 is a dense transformer model with 128 billion total parameters. Unlike StepFun 3.7 (which uses a sparse MoE design to only run 11B active parameters), Mistral Medium is fully dense, meaning all 128 billion parameters are active for every single token processed during inference.
TOI, TOI, TOI!
Moment, mal - für den Preis, was krieg ich denn da an token pro Sekunde raus?
Stepfun 3.7 Flash: 55 tps
Mistral 3.5 Medium: 24 tps (supi und das nur bei 5 mal so viel eingesetzter Hardware, weil dense - zum Schnäppchen vom nur siebenfachen Preis!)
Kann ich eigentlich auch 14 fach überbezahlen, damit das doppelt so schnell wird? Nein kann ich nicht?
Schade, ich hätte auch schon einen Abnehmer!

src: click
Sie wissen schon, die die der NZZ - die von Bürgenstock ablenken wollte so heilig waren?
Sie wissen schon, die die den E3 so wichtig waren dass sie nie konkret aussprechen konnten, was diese Vorbedingungen eigentlich beinhalten sollten.

src: click
Gut, der deutschsprachigen Qualitätspresse wird schon wieder was einfallen…
Den hohen Stellenwert von Vermittlungen, ohne Verhandlungen zu betonen, zum Beispiel.
Die Europäer ziehen derweil für Selenskyj die US wieder auf ihre Seite, gell “Nicht mehr Jermak Office”?
Politik ist ein schmutziges Geschäft. Und mindestens drei Europäer lügen immer.
edit:
Brasilien also. Wenn ihnen die US als Verhandler zu zielorientiert waren, und sie als Ukraine bereits die guten Dienste der Türkei, der UAE und der Schweiz bis aufs Blut verarscht haben, sodass die nicht mehr wollen, dass sich ihr Präsident bei denen blicken lässt, sie aber unbedingt ein Reise Schedule für ihren 60iger IQ Präsidenten für die nächsten zwei Jahre brauchen um ihre Bevölkerung weiter zu verarschen bis Trump abgewählt wird - warum nicht Brasilien!? Dort ists doch auch schön.

src: click
Man hört Lula ist schon ganz außer sich vor Freude, dass die Propaganda der Ukraine jetzt die US als Verhandlungsführer gegen das so prestigeträchtige Brasilien als Verhandlungsführer getauscht haben - unter dem Jubel der Europäer, dass sich Selenskyj ENDLICH vom US Friedensformat lösen konnte, um die US über die Europäer auf seine Seite zu ziehen, warum also nicht noch Brasilien über die nächsten zwei Jahre bis aufs Blut verarschen, während man darauf beharrt, dass bei seinen Verhandlungen die E3 mit am Tisch sitzen müssen, aber China nicht…
Brasilien, Samba, Sonne, und Selenskyj Presseauftritte für zwei weitere volle Jahre.
Selenskyj der zum Zuckerhut fährt um sich zu beschweren, dass Putin nicht dort ist um mit ihm zu verhandeln.
Vielleicht kann er dort auch ein Stefan Zweig Zitat neu interpretieren, das wär doch gut für die Pressestimmen.
Propaganda kann so schön sein. Und so sommerlich, locker und erbaulich.
Brasilien also. Die haben historisch auch nicht so Probleme mit den Nazis.

src: click
Niemand steht so sehr für einen gerechten Frieden wie Jair Bolsonaro, den Tip hat das ukrainische Presidential Office frisch von ihren Freunden im economics department der Universität von Chicago.
Eine Frage noch: Wie sicher ist jetzt Brasilien?

src: click
Sehr sicher oder? Sicher wie ne Bank, vor der Jesus-Statue in Rio.
Ich kümmer mich schon mal ums Promomaterial…



Kaufen sie ihr “Brasilia 2026 - paz com os presidentes!” Friedens-Tshirt noch heute. Von jedem Kauf gehen 15 Euro an die ukrainische Drohen-Initiative von Timothy Snyder!
Der US-amerikanische Historiker und Yale-Professor Timothy Snyder engagiert sich als offizieller Botschafter der ukrainischen Spendenplattform UNITED24 aktiv für mehrere Drohnen- und Luftabwehr-Initiativen. Anstatt rein akademisch zu bleiben, sammelt er gezielt Gelder, um die ukrainische Zivilbevölkerung und Infrastruktur vor russischen Angriffen zu schützen.
Zitat: Google Gemini
Jedes “Brasilia 2026 - paz os presidentes!” T-Shirt ist aus 30% recyclebarer Baumwolle gefertigt.
edit:
Moment, ich hör grad, das proeuropäische Polen hat dazu auch eine Meinung:

src: click
Grüße an Alpbach bitte!