Close Menu
Jsp-Develop.de

    Abonnieren Sie Updates

    Facebook X (Twitter) Instagram
    Wednesday, January 14
    Facebook X (Twitter) Instagram
    Jsp-Develop.deJsp-Develop.de
    • Home
    • Technologien
    • Software-Neuigkeiten
    • Hochwertige Software
    • beste Software
    • Softwareentwickler
    Jsp-Develop.de
    Home»Software-Neuigkeiten»Ist das neue KI-Modell wirklich besser als ChatGPT?
    Software-Neuigkeiten

    Ist das neue KI-Modell wirklich besser als ChatGPT?

    FrancisBy FrancisOctober 19, 2023Updated:January 6, 2024No Comments5 Mins Read
    Facebook Twitter Pinterest LinkedIn Tumblr Email
    Share
    Facebook Twitter LinkedIn Pinterest Email
     

    Google Deepmind hat kürzlich angekündigt Gemini, sein neues KI-Modell, das mit ChatGPT von OpenAI konkurrieren soll. Während beide Modelle Beispiele für „generative KI“ sind, die lernen, Muster bei der Eingabe von Trainingsinformationen zu finden, um neue Daten (Bilder, Wörter oder andere Medien) zu generieren, ist ChatGPT ein großes Sprachmodell (LLM), das sich auf die Produktion von Text konzentriert.

    So wie ChatGPT eine Web-App für Konversationen ist, die auf dem neuronalen Netzwerk GPT basiert (trainiert auf großen Textmengen), hat Google eine Konversations-Web-App namens Barde das auf einem Modell namens LaMDA (Traininged on Dialog) basierte. Doch Google rüstet das nun auf Basis von Gemini nach.

    Was Gemini von früheren generativen KI-Modellen wie LaMDA unterscheidet, ist, dass es ein „multimodales Modell“ ist. Das bedeutet, dass es direkt mit mehreren Ein- und Ausgabemodi arbeitet: Neben der Texteingabe und -ausgabe unterstützt es auch Bilder, Audio und Video. Dementsprechend entsteht ein neues Akronym: LMM (großes multimodales Modell), nicht zu verwechseln mit LLM.

    Im September OpenAI ein Modell angekündigt namens GPT-4Vision, das auch mit Bildern, Audio und Text arbeiten kann. Es handelt sich jedoch nicht um ein vollständig multimodales Modell in der Art und Weise, wie Gemini es verspricht.

    Während beispielsweise ChatGPT-4, das mit GPT-4V betrieben wird, mit Audioeingängen arbeiten und Sprachausgaben generieren kann, OpenAI hat bestätigt dass dies durch die Umwandlung von Sprache in Text bei der Eingabe mithilfe eines anderen Deep-Learning-Modells namens Whisper geschieht. ChatGPT-4 wandelt Text bei der Ausgabe auch mithilfe eines anderen Modells in Sprache um, was bedeutet, dass GPT-4V selbst ausschließlich mit Text arbeitet.

    Ebenso kann ChatGPT-4 Bilder erzeugen, allerdings durch die Generierung von Textaufforderungen, die an weitergeleitet werden ein separates Deep-Learning-Modell namens Dall-E 2, das Textbeschreibungen in Bilder umwandelt.

    Im Gegensatz dazu hat Google Gemini so konzipiert, dass es „nativ multimodal“ ist. Das bedeutet, dass das Kernmodell eine Reihe von Eingabetypen (Audio, Bilder, Video und Text) direkt verarbeitet und diese auch direkt ausgeben kann.

    Das Urteil

    Die Unterscheidung zwischen diesen beiden Ansätzen mag akademisch erscheinen, ist aber wichtig. Die allgemeine Schlussfolgerung aus Technischer Bericht von Google und andere qualitative Tests Bisher ist bekannt, dass die aktuell öffentlich verfügbare Version von Gemini, Gemini 1.0 Pro genannt, im Allgemeinen nicht so gut wie GPT-4 ist und in ihren Fähigkeiten eher GPT 3.5 ähnelt.

    Auch Google kündigte an eine leistungsstärkere Version von Gemini namens Gemini 1.0 Ultra und präsentierte einige Ergebnisse, die zeigten, dass es leistungsfähiger als GPT-4 ist. Dies ist jedoch aus zwei Gründen schwer zu beurteilen. Der erste Grund ist, dass Google Ultra noch nicht veröffentlicht hat, sodass die Ergebnisse derzeit nicht unabhängig validiert werden können.

    Der zweite Grund, warum es schwierig ist, die Behauptungen von Google zu beurteilen, besteht darin, dass Google sich für die Veröffentlichung eines etwas irreführenden Demonstrationsvideos entschieden hat, siehe unten. Das Video zeigt das Gemini-Modell, wie es einen Live-Videostream interaktiv und flüssig kommentiert.

    Allerdings da ursprünglich von Bloomberg berichtet, die Demonstration im Video wurde nicht in Echtzeit durchgeführt. Beispielsweise hatte das Modell zuvor einige spezifische Aufgaben gelernt, etwa den Drei-Becher- und Ball-Trick, bei dem Gemini verfolgt, unter welchem ​​Becher sich der Ball befindet. Dazu wurde ihm eine Standbildsequenz zur Verfügung gestellt, in der sich die Hände des Moderators auf den Tassen befinden, die getauscht werden.

    Vielversprechende Zukunft

    Trotz dieser Probleme glaube ich, dass Gemini und große multimodale Modelle einen äußerst spannenden Fortschritt für die generative KI darstellen. Das liegt sowohl an ihren zukünftigen Fähigkeiten als auch an der Wettbewerbslandschaft der KI-Tools. Wie ich in einem früheren Artikel erwähnt habe, wurde GPT-4 auf etwa 500 Milliarden Wörter trainiert – im Wesentlichen alles öffentlich zugängliche Texte von guter Qualität.

    Die Leistung von Deep-Learning-Modellen wird im Allgemeinen durch die zunehmende Komplexität des Modells und die Menge an Trainingsdaten bestimmt. Dies hat zu der Frage geführt, wie weitere Verbesserungen erreicht werden könnten, da uns die neuen Trainingsdaten für Sprachmodelle fast ausgegangen sind. Multimodale Modelle erschließen jedoch enorme neue Reserven an Trainingsdaten – in Form von Bildern, Audio und Videos.

    KIs wie Gemini, die auf der Grundlage all dieser Daten direkt trainiert werden können, werden in Zukunft wahrscheinlich über viel größere Fähigkeiten verfügen. Ich würde zum Beispiel erwarten, dass sich Modelle entwickeln, die auf Video trainiert werden ausgefeilte interne Darstellungen der sogenannten „naiven Physik“. Dies ist das grundlegende Verständnis, das Menschen und Tiere über Kausalität, Bewegung, Schwerkraft und andere physikalische Phänomene haben.

    Ich bin auch gespannt, was das für die Wettbewerbslandschaft der KI bedeutet. Im vergangenen Jahr waren die GPT-Modelle von OpenAI trotz des Aufkommens vieler generativer KI-Modelle dominant und zeigten ein Leistungsniveau, das andere Modelle nicht erreichen konnten.

    Googles Gemini signalisiert das Auftauchen eines großen Konkurrenten, der dazu beitragen wird, das Feld voranzutreiben. Natürlich arbeitet OpenAI mit ziemlicher Sicherheit an GPT-5, und wir können davon ausgehen, dass es auch multimodal sein und bemerkenswerte neue Fähigkeiten demonstrieren wird.

    Abgesehen davon bin ich gespannt auf die Entstehung sehr großer multimodaler Modelle, die Open Source und nicht kommerziell sind und die hoffentlich in den kommenden Jahren auf dem Weg sind.

    Mir gefallen auch einige Funktionen der Gemini-Implementierung. Google hat beispielsweise eine Version namens angekündigt Zwillinge Nanodas viel leichter ist und direkt auf Mobiltelefonen ausgeführt werden kann.

    Leichte Modelle wie dieses reduzieren die Umweltauswirkungen von KI-Computing und bieten aus Sicht des Datenschutzes viele Vorteile, und ich bin sicher, dass diese Entwicklung dazu führen wird, dass die Konkurrenz diesem Beispiel folgt.

    Bereitgestellt von The Conversation

    Dieser Artikel wurde erneut veröffentlicht von Die Unterhaltung unter einer Creative Commons-Lizenz. Lies das originaler Artikel.Die Unterhaltung

    Zitat: Googles Gemini: Ist das neue KI-Modell wirklich besser als ChatGPT? (2023, 15. Dezember), abgerufen am 2. Januar 2024 von https://techxplore.com/news/2023-12-google-gemini-ai-chatgpt.html

    Dieses Dokument unterliegt dem Urheberrecht. Abgesehen von einem fairen Handel zum Zweck des privaten Studiums oder der Forschung darf kein Teil ohne schriftliche Genehmigung reproduziert werden. Der Inhalt dient ausschließlich Informationszwecken.

    Share. Facebook Twitter Pinterest LinkedIn Tumblr Email
    Previous ArticleJetzt, damals und zukünftige Trends
    Next Article Die NASA lässt Drohnen autonom für die Lufttaxi-Forschung fliegen
    Francis

    Related Posts

    Eine kostenlose, benutzerfreundliche Plattform zum Verständnis und zur Verwaltung von Stromnetzen

    November 5, 2023

    Die NASA lässt Drohnen autonom für die Lufttaxi-Forschung fliegen

    October 21, 2023

    Europäische Forscher warnen vor großen Sicherheitslücken in Java-Anwendungen

    October 13, 2023

    Leave A Reply Cancel Reply

    Top-Bewertungen

    Erforschung generativer KI

    October 17, 2024

    Der Aufstieg von Reise-Apps in Indien: Ein umfassender Leitfaden

    December 25, 2023

    Wie lokale Reise-Apps Geschäftsreisen revolutionieren

    December 2, 2023

    Ein Leitfaden für Kühllagerlogistikunternehmen

    November 28, 2023

    Abonnieren Sie Updates

    Wat is heet

    Erforschung generativer KI

    October 17, 2024

    Der Aufstieg von Reise-Apps in Indien: Ein umfassender Leitfaden

    December 25, 2023
    Archiv
    • October 2024
    • December 2023
    • November 2023
    • October 2023
    Recente berichten
    • Erforschung generativer KI
    • Der Aufstieg von Reise-Apps in Indien: Ein umfassender Leitfaden
    • Wie lokale Reise-Apps Geschäftsreisen revolutionieren
    • Ein Leitfaden für Kühllagerlogistikunternehmen
    Facebook X (Twitter) Instagram Pinterest
    2024 © www.jsp-develop.de Alle Rechte vorbehalten

    Type above and press Enter to search. Press Esc to cancel.