Gemini Advanced vs. ChatGPT Plus im Vergleich

Wenn es um KI-Chatbots geht, sprechen alle über Gemini Advanced und ChatGPT Plus. Diese beiden sind die großen Spieler auf dem Feld und jeder hat seine eigenen Stärken. In diesem Beitrag werfen wir einen Blick darauf, was jedes von ihnen zu bieten hat.

Ob Gemini Advanced oder ChatGPT Plus besser ist, hängt vom jeweiligen Anwendungsfall ab. Für unseren täglichen Gebrauch empfinden wir ChatGPT Plus derzeit noch überlegen. Gemini Advanced ist zwar schneller, aber der Output ist oft nicht konsistent.

1) Test im Bereich Bilderstellung

Da wir inzwischen stark auf AI generierte Bilder setzen, ist ein wichtiges Entscheidungskriterium für uns, ob hochwertige Bilder erstellt werden können. Leider kann Gemini Advanced aktuell keine Bilder generieren. Hier das Ergebnis unseres Tests mit dem Prompt: Erstelle mir ein Bild von einem Roboter in der Wüste.

Chat GPT 4 Plus Gemini Advanced

2. Artikel schreiben

Das war der Prompt: Schreibe mir einen ausführlichen Beitrag mit 1000 Wörtern zum Thema „Digitale Transformation“. Wähle selbst geeignete Unterüberschriften aus und gestalte den Beitrag mit strukturellen Elementen wie Bullet Point Listen und Tabellen. Wähle selbst die Abschnitte aus wo das Sinn macht. Mach immer nach 2 bis 3 Sätzen einen Absatz. Gib mir den gesamten Beitrag als html code damit ich ihn direkt in WordPress kopieren kann.

Chat GPT Plus Gemini Advanced
Dauer für die Erstellung 2:10 Minuten 0:32 Minuten
Ergebnis Schlecht Schlecht
Textlänge 416 Wörter 325 Wörter
  • Problem:
  • Code war unvollständig
  • Text zu kurz
  • Falsche Formatiert
  • Code war unvollständig
  • Text zu kurz
  • Falsche Formatiert
Fertigen Text ansehen Link Link

Aus Interesse haben wir den gleichen Prompt auch noch mit GPT 3.5 ausprobiert. Das Ergebnis sehen Sie hier: Link . Die Textlänge war 484 Wörter. Insgesamt wohl das beste Ergebnis.

Hinweis
Wir werden den Beitrag konstant erweitern und weitere Tests in verschiedenen Kategorien durchführen.

Preisvergleich

Wenn wir uns dem Preisvergleich zuwenden, ist es interessant festzustellen, dass Gemini Advanced und ChatGPT Plus mit ihren aktuellen Abonnementpreisen nahezu gleichauf liegen.

Gemini Advanced wird für 21,99 Euro angeboten, während ChatGPT Plus auf dem Markt für 23,80 Dollar, umgerechnet etwa 21,91 Euro bei aktuellem Wechselkurs, erhältlich ist. Dies zeigt, dass die Kosten für die beiden KI Modelle bemerkenswert ähnlich sind.


Leistungsvergleich von KI-Modellen in Schlüsselkategorien

Im Folgenden betrachten wir einen direkten Vergleich der Leistungsfähigkeit von führenden KI-Modellen in diversen Bewertungskriterien. Diese Tabelle veranschaulicht, wie Gemini Pro, ChatGPT-3.5, Gemini Ultra und ChatGPT-4 in unterschiedlichen Disziplinen abschneiden.

Jedes Modell wurde in einer Reihe von Benchmarks getestet, um ihre Fähigkeiten in Sprachverständnis, arithmetischem Denken, Codegenerierung und weiteren anspruchsvollen Bereichen zu evaluieren.

Gemini Pro ChatGPT-3.5 Gemini Ultra ChatGPT-4
Sprache 79,13% (MMLU) 70% (MMLU) 90,0% (MMLU) 86,4% (MMLU)
Arithmetisches Denken 86,5% (GSM8K) 57,1% (GSM8K) 94,4% (GSM8K) 92% (GSM8K)
Codegenerierung 67,7% (HumanEval) 48,1% (HumanEval) 74,4% (HumanEval) 67% (HumanEval)
Mathematik 32,6% (MATH) 34,1% (MATH) 53,2% (MATH) 52,9% (MATH)
Bildverarbeitung (Pixel) 59,4% (MMMU) 56,8% (MMMU)
VQAV2 77,8% 77,2%
TextVQA 82,3% 78%
DOCVQA 90,9% 88,4%
Videoverarbeitung (Pixel) 53% (MathVista) 49,9% (MathVista)
VATEX 62,7% (CIDEr) 56% (CIDEr)
CoVoST 2 (BLEU) 40,1% 29,1%
FLEURS (Wortfehlerrate) 10% 17,6%

Datenquelle: Link

Es folgt eine Erklärung der verschiedenen Kriterien:

  • Sprache: Dieser Test misst die Fähigkeit des Modells, Fragen zu 57 verschiedenen Themen zu verstehen und zu beantworten. Der MMLU-Benchmark (Massive Multitask Language Understanding) wird verwendet, um die Leistung zu bewerten.
  • Arithmetisches Denken: Dieser Test misst die Fähigkeit des Modells, mathematische Probleme der Grundschule zu lösen. Der GSM8K-Benchmark (General Scholastic Mathematics 8K) wird verwendet, um die Leistung zu bewerten.
  • Codegenerierung: Dieser Test misst die Fähigkeit des Modells, Python-Code zu generieren. Die HumanEval-Benchmarks werden verwendet, um die Leistung zu bewerten.
  • Mathematik: Dieser Test misst die Fähigkeit des Modells, komplexere mathematische Probleme zu lösen, einschließlich Algebra und Geometrie.
  • Bildverarbeitung (Pixel): Dieser Test misst die Fähigkeit des Modells, Bilder auf Pixelebene zu verstehen und zu interpretieren. Der MMMU-Benchmark (Multi-discipline College-level Reasoning) wird verwendet, um die Leistung zu bewerten.
  • VQAV2: Dieser Test misst die Fähigkeit des Modells, die Qualität von Bildern zu beurteilen.
  • TextVQA: Dieser Test misst die Fähigkeit des Modells, Fragen zu beantworten, die sich auf den Inhalt von Bildern beziehen.
  • DOCVQA: Dieser Test misst die Fähigkeit des Modells, Fragen zu beantworten, die sich auf den Inhalt von Dokumenten beziehen.
  • Videoverarbeitung (Pixel): Dieser Test misst die Fähigkeit des Modells, Videos auf Pixelebene zu verstehen und zu interpretieren.
  • VATEX: Dieser Test misst die Fähigkeit des Modells, Videos zu beschreiben und zu betiteln.
  • CoVoST 2 (BLEU): Dieser Test misst die Fähigkeit des Modells, Sprache automatisch zu übersetzen. Der BLEU-Score (Bilingual Evaluation Understudy) wird verwendet, um die Leistung zu bewerten.
  • FLEURS (Wortfehlerrate): Dieser Test misst die Fähigkeit des Modells, Sprache automatisch zu erkennen. Die Wortfehlerrate wird verwendet, um die Leistung zu bewerten.
4.7/5 - (59 votes)

Schreibe einen Kommentar