Neuer GPT-4.1 von OpenAI: Best AI Image Generator und verbesserte Leistung
4/16/2025
Die heutige Nacht hat OpenAI das neue Modell der GPT-4.1-Serie vorgestellt.[IMAGE_0] Diese Serie umfasst drei Modelle: GPT-4.1, GPT-4.1 mini und GPT-4.1 nano, die nun über API-Aufrufe für alle Entwickler zugänglich sind. Mit ähnlicher oder sogar verbesserter Leistung in vielen wichtigen Funktionen und reduzierten Kosten und Latenzen wird OpenAI beginnen, die GPT-4.5-Vorabversion in der API nach drei Monaten (14. Juli 2025) abzulehnen, um den Entwicklern Zeit für den Übergang zu geben. OpenAI gab an, dass die Leistung dieser drei Modelle die von GPT-4o und GPT-4o mini erheblich übertrifft, mit signifikanten Verbesserungen in den Bereichen Programmierung und Anweisungsbefolgung. Sie bieten auch ein größeres Kontextfenster – bis zu 1 Million Kontext-Token – und nutzen durch verbesserte Langtextverständnis diese Kontexte effizienter. Das Wissens-Cutoff-Datum wurde auf Juni 2024 aktualisiert. Insgesamt zeigt GPT-4.1 hervorragende Ergebnisse in den folgenden Standardmetriken: Programmierung: GPT-4.1 erzielte im SWE-bench Verified-Test 54,6 %, was einer Verbesserung von 21,4 % gegenüber GPT-4o und 26,6 % gegenüber GPT-4.5 entspricht, was es zum führenden Programmiermodell macht. Anweisungsbefolgung: Im MultiChallenge-Benchmark von Scale (ein Maß für die Anweisungsbefolgung) erreichte GPT-4.1 38,3 %, was eine Verbesserung von 10,5 % gegenüber GPT-4o darstellt. Langtext: In der multimodalen Langtextverständnisbewertung Video-MME stellte GPT-4.1 einen neuen Rekord auf und erlangte 72,0 % im langen, ununtertitelten Test, was 6,7 % besser ist als GPT-4o. Obwohl die Benchmark-Ergebnisse beeindruckend sind, konzentrierte OpenAI sich während des Trainings dieser Modelle stark auf die praktische Anwendbarkeit. Durch enge Zusammenarbeit und Partnerschaften mit der Entwicklergemeinschaft wurden diese Modelle für die relevantesten Aufgaben in Entwickleranwendungen optimiert. Daher bietet die GPT-4.1-Modellreihe hervorragende Leistungen zu niedrigeren Kosten. Diese Modelle weisen an jedem Punkt der Latenzkurve Leistungsverbesserungen auf.[IMAGE_1]
Das GPT-4.1 mini-Modell hat signifikante Sprünge in der Leistung kleiner Modelle erzielt und übertrifft sogar in mehreren Benchmark-Tests GPT-4o. Dieses Modell bietet in Bezug auf intelligente Bewertungen vergleichbare oder sogar bessere Ergebnisse als GPT-4o und reduziert gleichzeitig die Latenz um fast die Hälfte bei einer Kostenersparnis von 83 %. Für Aufgaben, die niedrige Latenz erfordern, ist GPT-4.1 nano das derzeit schnellste und kostengünstigste Modell von OpenAI. Es verfügt über ein Kontextfenster von 1 Million Token und bietet auch bei geringem Datenvolumen außergewöhnliche Leistungen: 80,1 % im MMLU-Test, 50,3 % im GPQA-Test und 9,8 % im Aider-Multilingual-Coding-Test, was sogar über GPT-4o mini liegt. Dieses Modell eignet sich ideal für Aufgaben wie Klassifizierung oder automatisches Vervollständigen. Verbesserung in Anweisungsbefolgung und Langtextverständnis macht das GPT-4.1-Modell auch effizienter beim Antrieb intelligenter Agenten (d.h. Systeme, die Aufgaben selbständig im Auftrag des Benutzers ausführen können). In Kombination mit Primitiven wie der Responses API können Entwickler jetzt nützliche und zuverlässige Agenten in der praktischen Softwareentwicklung erstellen, die Einsichten aus umfangreichen Dokumenten extrahieren, Kundenanfragen mit minimalem manuellem Aufwand lösen und andere komplexe Aufgaben durchführen können. Darüber hinaus ermöglicht OpenAI durch die Verbesserung der Effizienz der Inferenzsysteme eine Senkung der Preise für die GPT-4.1-Serie. Die Kosten für moderate Abfragen von GPT-4.1 sind 26 % niedriger als bei GPT-4o, während GPT-4.1 nano das günstigste und schnellste Modell von OpenAI ist. Für wiederholte Anfragen, die den gleichen Kontext übermitteln, hat OpenAI den Rabatt für die Sofort-Caching-Funktion des neuen Serienmodells von 50 % auf 75 % erhöht. Zusätzlich zu den Standardkosten pro Token bietet OpenAI auch Langtextanfragen an, ohne dass zusätzliche Kosten anfallen.[IMAGE_2]
Der CEO von OpenAI, Sam Altman, erklärte, dass GPT-4.1 nicht nur bei Benchmark-Tests hervorragende Ergebnisse erzielt, sondern auch auf die praktische Anwendbarkeit in der realen Welt ausgerichtet ist, was die Entwickler erfreuen sollte.[IMAGE_3]
Es scheint, dass OpenAI die „4.10 > 4.5“-Fähigkeiten des eigenen Modells erfolgreich verwirklicht hat.[IMAGE_4]
Referenz: https://x.com/stevenheidel/status/1911833398588719274. Programmierung: GPT-4.1 übertrifft GPT-4o in nahezu jederCodierungsaufgabe, einschließlich intelligenter Agenten, Frontend-Programmierung, Reduzierung irrelevanter Bearbeitungen, zuverlässige Befolgung des Diff-Formats und Sicherstellung der Konsistenz bei der Nutzung von Werkzeugen. Im SWE-bench Verified-Test, der reale Softwaretechnikfähigkeiten bewertet, hat GPT-4.1 54,6 % der Aufgaben erfolgreich abgeschlossen, während GPT-4o (11-20-2024) 33,2 % erreicht hat. Dies spiegelt die verbesserte Fähigkeit des Modells wider, Codebasen zu erkunden, Aufgaben abzuschließen und lauffähigen sowie getesteten Code zu generieren.[IMAGE_5]
Für API-Entwickler, die große Dateien bearbeiten müssen, ist GPT-4.1 zuverlässiger beim Umgang mit verschiedenen Code-Diffs. Im mehrsprachigen Differenz-Test von Aider hat GPT-4.1 mehr als doppelt so viele Punkte wie GPT-4o erzielt und lag sogar 8 % über GPT-4.5. Diese Bewertung misst die Codierungsfähigkeiten über verschiedene Programmiersprachen hinweg und die Fähigkeit des Modells, Änderungen in Gesamt- und Diff-Format zu erzeugen. OpenAI hat GPT-4.1 speziell trainiert, um eine zuverlässigere Befolgung des Diff-Formats zu ermöglichen, was es Entwicklern erleichtert, nur die geänderten Zeilen auszugeben, anstatt die gesamte Datei neu zu schreiben, was Kosten und Latenz spart. Darüber hinaus hat OpenAI das Token-Limit für Ausgaben von GPT-4.1 auf 32.768 Token erhöht (im Vergleich zu 16.384 Token bei GPT-4o) für Entwickler, die es vorziehen, die gesamte Datei neu zu schreiben. OpenAI empfiehlt zudem die Verwendung von Vorhersageausgaben zur Reduzierung der Latenz beim vollständigen Dateineuschreiben.[IMAGE_6]
GPT-4.1 hat auch signifikante Fortschritte im Bereich Frontend-Programmierung erzielt und kann leistungsstärkere und attraktivere Web-Anwendungen erstellen. In einem direkten Vergleich zeigen 80 % der von bezahlten menschlichen Bewertern vergebenen Bewertungen, dass Websites von GPT-4.1 beliebter sind als die von GPT-4o.[IMAGE_7]
Über die oben genannten Benchmark-Tests hinaus zeigt GPT-4.1 eine bessere Formatbefolgung, höhere Zuverlässigkeit und eine reduzierte Häufigkeit irrelevanter Bearbeitungen. In einer internen Bewertung von OpenAI sank der Anteil irrelevanter Bearbeitungen im Code von 9 % bei GPT-4o auf 2 % bei GPT-4.1. Anweisungsbefolgung: GPT-4.1 kann Anweisungen zuverlässiger befolgen und hat signifikante Verbesserungen in verschiedenen Anweisungsbefolgungseinschätzungen erzielt. OpenAI hat ein internes Bewertungssystem für Anweisungsbefolgung entwickelt, um die Leistung des Modells in mehreren Dimensionen und wichtigen Kategorien der Anweisungsbefolgung zu verfolgen, darunter: Formatbefolgung, Bereitstellung von Anweisungen, die das Antwortformat des Modells anpassen, z.B. XML, YAML, Markdown usw. Negative Anweisungen, die angeben, welches Verhalten das Modell vermeiden soll, z.B.: „Bitte fordern Sie die Benutzer nicht auf, den Support zu kontaktieren“. Ordentliche Anweisungen, die eine Reihe von Anweisungen bieten, die das Modell in der angegebenen Reihenfolge befolgen muss, z.B.: „Fragen Sie zuerst nach dem Namen des Benutzers, dann nach seiner E-Mail-Adresse“. Inhaltsanforderungen, die bestimmte Informationen enthalten müssen, z.B.: „Stellen Sie sicher, dass der Proteingehalt beim Erstellen eines Ernährungsplans enthalten ist“. Sortierung der Ausgabe, z.B.: "Ordnen Sie die Antworten nach der Bevölkerung". Übermäßiges Vertrauen: Weisen Sie das Modell an, „Ich weiß es nicht“ oder ähnliches zu antworten, wenn die angeforderten Informationen nicht verfügbar sind oder die Anfrage nicht in die angegebene Kategorie fällt, z.B.: „Wenn Sie die Antwort nicht kennen, geben Sie die E-Mail-Adresse für den Support an“. Diese Kategorien basieren auf dem Feedback der Entwickler, das aufzeigt, welche Anweisungsbefolgung für sie am relevantesten und wichtigsten ist. OpenAI hat innerhalb jeder Kategorie die Eingabeaufforderungen in einfach, mittel und schwierig unterteilt. Insbesondere bei schwierigen Eingabeaufforderungen hat GPT-4.1 eine deutlich bessere Leistung als GPT-4o.[IMAGE_8]
Die mehrfache Anweisungsbefolgung ist für viele Entwickler von entscheidender Bedeutung. Für das Modell ist es wichtig, in Gesprächen kohärent zu bleiben und frühere Benutzereingaben zu verfolgen. GPT-4.1 kann Informationen aus vorherigen Nachrichten im Dialog besser erkennen, was zu natürlicheren Konversationen führt. Der MultiChallenge-Benchmark von Scale ist ein wirksames Maß für diese Fähigkeit, bei dem GPT-4.1 10,5 % besser abschnitt als GPT-4o.[IMAGE_9]
GPT-4.1 erzielte auch 87,4 % im IFEval, während GPT-4o einen Wert von 81,0 % erreichte. IFEval verwendet Eingabebefehle mit verifizierbaren Anweisungen, wie z.B. Angabe einer bestimmten Länge des Inhalts oder Vermeidung bestimmter Begriffe oder Formate.[IMAGE_10]
Eine verbesserte Fähigkeit zur Anweisungsbefolgung macht bestehende Anwendungen zuverlässiger und unterstützt neue Anwendungen, die zuvor durch geringe Zuverlässigkeit eingeschränkt waren. Frühe Tester berichteten, dass GPT-4.1 intuitiver sein kann, sodass OpenAI empfiehlt, Eingabeaufforderungen klarer und spezifischer zu gestalten. Langtext: GPT-4.1, GPT-4.1 mini und GPT-4.1 nano können bis zu 1 Million Kontext-Token verarbeiten, während das vorherige GPT-4o-Modell maximal 128.000 verarbeiten konnte. Eine Million Token entspricht 8 vollständigen React-Codebasen, daher ist das Langtextverständnis besonders geeignet, um große Codebasen oder umfangreiche Dokumente zu verarbeiten. GPT-4.1 kann zuverlässig mit einer Kontextlänge von 1 Million Token umgehen und ist dabei zuverlässiger hinsichtlich der Relevanz des Textes und ignoriert Störungen durch lang und kurz. Das Verständnis von Langtexten ist eine entscheidende Fähigkeit in den Bereichen Recht, Programmierung, Kundenbetreuung und vielen anderen.[IMAGE_11]
OpenAI demonstrierte die Fähigkeit von GPT-4.1, versteckte kleine Informationen (Nadeln) an verschiedenen Punkten innerhalb des Kontextfensters zu extrahieren. GPT-4.1 kann anhaltend genau alle Positionen und alle Kontextlängen der Nadeln abfragen, maximal bis zu 1 Million Token. Unabhängig von der Position dieser Tokens im Eingabetext kann GPT-4.1 relevante Details, die mit der aktuellen Aufgabe zusammenhängen, effektiv extrahieren. In der Realität sind jedoch nur wenige Aufgaben so einfach wie das Abrufen einer offensichtlichen „Nadel“-Antwort. OpenAI stellte fest, dass Benutzer häufig das Modell benötigen, um mehrere Informationen abzurufen und deren Beziehungen zu verstehen. Um diese Fähigkeit zu demonstrieren, hat OpenAI eine neue Bewertung veröffentlicht: OpenAI-MRCR (Multiple Round Co-reference). Die OpenAI-MRCR-Bewertung testet die Fähigkeit des Modells, mehrere versteckte Nadeln im Kontext zu identifizieren und zu extrahieren. Die Bewertung umfasst syntaktische Dialoge zwischen Benutzer und Assistent, bei denen der Benutzer den Assistenten auffordert, über ein bestimmtes Thema zu schreiben, wie beispielsweise: „Schreiben Sie ein Gedicht über einen Tapir“ oder „Schreiben Sie einen Blogbeitrag über Felsen“, und dann werden zwei, vier oder acht identische Anforderungen im gesamten Kontext eingefügt, wobei das Modell schließlich die Antwort abrufen muss, die mit einer bestimmten Instanz übereinstimmt (z.B.: „Geben Sie mir das dritte Gedicht über den Tapir“). Die Herausforderung besteht darin, dass diese Anforderungen Ähnlichkeiten mit dem Rest des Kontexts aufweisen, das Modell könnte leicht durch subtile Unterschiede fehlgeleitet werden, wie z.B. eine Kurzgeschichte über den Tapir anstelle von Gedichten oder ein Gedicht über einen Frosch anstelle eines Tapirs. OpenAI fand heraus, dass GPT-4.1 in Dokumenten mit einer Länge von bis zu 128K Tokens besser abschnitt als GPT-4o und auch bei Längen bis zu 1 Million Tokens weiterhin starke Leistungen erbrachte.[IMAGE_12]
OpenAI hat auch Graphwalks veröffentlicht, einen Datensatz zur Bewertung des mehrschichtigen Langtextverständnisses. Viele Entwickler benötigen bei Langtextanwendungen mehrfache logische Sprünge im Kontext, z.B. beim Programmieren, wenn sie zwischen mehreren Dateien wechseln, oder beim Beantworten komplexer rechtlicher Fragen, indem sie Dokumente berechnen. Theoretisch könnte das Modell (oder auch Menschen) das OpenAI-MRCR-Problem lösen, indem es die Befehle immer wieder liest. Graphwalks hingegen sind so konzipiert, dass sie mehrfache logische Schlussfolgerungen im Kontext erfordern und nicht sequenziell gelöst werden können. Graphwalks fügen das Kontextfenster mit gerichteten Graphen aus hexadezimalen Hashwerten an und verlangen vom Modell, eine Breitensuche (BFS) von einem zufälligen Knoten im Graphen aus durchzuführen. Es wird dann gebeten, alle Knoten auf einer bestimmten Tiefe zurückzugeben. Die Ergebnisse zeigen, dass GPT-4.1 in diesem Benchmark eine Genauigkeit von 61,7 % erzielte, was den Leistungen von o1 entspricht und GPT-4o bequem übertrifft.[IMAGE_13]
Visuelle Fähigkeiten: Das GPT-4.1-Modell ist auch im Bereich der Bildverständnis sehr leistungsfähig; insbesondere hat GPT-4.1 mini bedeutende Fortschritte erzielt und übertrifft oft GPT-4o in Bildbenchmarks. Nachfolgend sind die Vergleichsergebnisse auf Benchmarks wie MMMU (Antworten auf Fragen, die Diagramme, Illustrationen, Karten usw. enthalten), MathVista (Lösung visueller Mathematikprobleme) und CharXiv-Reasoning (Antworten auf Diagrammfragen in wissenschaftlichen Arbeiten) aufgeführt.[IMAGE_14] [IMAGE_15] [IMAGE_16]
Die Langtext-Performance ist auch für multimodale Anwendungsfälle (z.B. Bearbeitung langer Videos) von entscheidender Bedeutung. In Video-MME (lange Videos ohne Untertitel) beantworten die Modelle Multiple-Choice-Fragen basierend auf ununtertitelten Videos von 30-60 Minuten Länge. GPT-4.1 erzielte die beste Leistung mit 72,0 %, was über den 65,3 % von GPT-4o liegt.[IMAGE_17]
Für weitere Testmetriken besuchen Sie bitte den ursprünglichen Blog von OpenAI. Blogadresse: https://openai.com/index/gpt-4-1/
Unsere großartigen Bewertungen

Der Beste AI Bildgenerator: FLUX nunchaku für ultraschnelle Bildgenerierung
Dieser Artikel beschreibt die neuesten Entwicklungen im Bereich der AI-Bildgenerierung mit dem FLUX nunchaku Modell und dessen beeindruckenden Geschwindigkeiten.

Neuer GPT-4.1 von OpenAI: Best AI Image Generator und verbesserte Leistung
OpenAI hat das GPT-4.1 Modell veröffentlicht, das verbesserte Funktionen, niedrigere Kosten und eine außergewöhnliche Leistung in Programmierung und Anweisungsbefolgung bietet.

Die beste AI Bildgenerator: AIEASE revolutioniert die Foto Bearbeitung
Entdecken Sie das revolutionäre AI Bildbearbeitungstool AIEASE, das in nur drei Sekunden Ihre Fotos neu gestaltet und viele innovative Funktionen bietet.

Entdecken Sie den besten AI-Bildgenerator: Fantastische Tier-Mensch-Kombinationen in der digitalen Kunst
Eine faszinierende Reise in die Welt der Digital Art mit unglaublichen Tier-Mensch-Fusionen.