ChatGPT 4o begeistert und irritiert

Freitag, 17. Mai 2024 von Oliver Schwartz

Das neue Omnimodell von OpenAI irrlichtert zwischen Gadget-Klamauk und Science Fiction

ChatGPT 4o begeistert und irritiert

Zu Wochenbeginn schaute die KI-interessierte Welt gebannt auf einen Online-Event von OpenAI, der im Vorfeld für die mittlerweile übliche, und sicher auch gewollte, Gerüchteküche sorgte: Wir ChatGPT zur ultimativen Suchmaschine? Ist das die Kampfansage an Google vor Beginn von deren Entwicklerkonferenz? Was sagt eigentlich Microsoft zu den kolportierten Such-Ambitionen ihres Investments? Und bekommen wir ein überragendes ChatGPT 5 zu sehen, wie voreilige Medienkollegen und KI-Experten mit voller Überzeugung schon verkündet hatten? Die Antwortet lautet: Nein! Und doch auch: Ja! Denn das vorgestellte ChatGPT 4o, besser ChatGPT 4 Omni, ist weit mehr als ein kleines Update des bisherigen GPT-Modells 4. Es vereint Text, Bilder und Audio und wird selber zu einer Mischung aus Alexa und You.Com, wird zum Dolmetscher, Kundenservice-Agent und Alleinunterhalter. Und ChatGPT 4o wurde darauf trainiert Emotionen zu zeigen. Text, Bild und Audio werden erstmals durchgängig in ein- und demselben neuronalen Netzwerk verarbeitet. Daher der Begriff „Omnimodell“. Soweit beeindruckt das neue KI-Modell von OpenAI mit bislang einzigartigen Fähigkeiten, ist aus Sicht der Entwickler aber eben genau das: Ein neues Modell, das zwar bisherige Einschränkungen von GPT 3.5 oder GPT 4 aufhebt oder minimiert, aber dennoch keine direkte Weiterentwicklung ist. Mit ChatGPT 4o betritt der Anbieter Neuland und kratzt, wie er selber sagt, erst einmal an der Oberfläche noch viel weitreichender Fähigkeiten.

Die Resonanz auf die Neuvorstellung kann man mit Fug und Recht als euphorisch bezeichnen! Aber zu Recht? Die Headlines übertreffen sich in Superlativen und die Experten orakeln schon von neuen disruptiven Wellen in diversen Branchen, wie zum Beispiel dem Callcenter-Business. Die Launch-Show am vergangenen Montag war eine Mischung zwischen Gadget-Klamauk und Science Fiction und wenn OpenAI uns nicht schon bewiesen hätte, dass sie derzeit die Welt der Generativen KI dominieren, hätte man das ganze auch für ein schlecht gefaktes Schmierentheater halten können. Denn ChatGPT 4o spricht nicht mehr wie Alexa oder Siri oder anderer synthetische Stimmen sondern klingt ähnlich irritierend, als wäre die Showpraktikantin hinter der Bühne, nervös bis gelangweilt, am Sprechen. Zeitweise klingt die Sprachausgabe des neuen Modells so erschreckend echt nach genau den Callcenter-Agents, die uns alle typischerweise nerven. Etwas höflicher vielleicht. Der Event, im Vorfeld mehrfach verschoben, wirkte reichlich improvisiert und gewollt lässig. Als hätte eine Studiengruppe in die Aula oder den Hörsaal geladen um erste lustige Versuchsanordnungen zu demonstrieren. Und dennoch ist ChatGPT 4o ein weiterer Meilenstein im derzeitigen Überschall-Wettflug der verschiedenen KI-Mega-Airlines. Eine Business-Adaption wurde nur angedeutet. Viel zu sehr gefällt sich OpenAI derzeit in einer Plattform-Rolle und möchte seinen Drittanbieter-Marktplatz für sogenannte GPTs zu einem ähnlich lukrativen Business ausbauen, wie die App-Marktplätze für iOS und Android. Dazu passte dann auch die Nachricht, dass ab sofort der Zugriff auf alle Modelle von ChatGPT -mit kleinen Einschränkungen- kostenlos möglich ist.

Hervorragende Benchmark-Ergebnisse

Rein technologisch gesehen haben die OpenAI Entwickler ganze Arbeit geleistet, um im Sprachmodus die ungewünschten Latenzen zu reduzieren. Und die Tokenisierung, als das Aufbrechen von Text in kleinere Einheiten, konnte deutlich reduziert werden. Insbesondere bei exotischeren Sprachen. Für Gujarati, also eine indische Sprache konnte der Token-Bedarf gar von 145 auf 33 reduziert werden. Also um das fast viereinhalb-fache. Auch weitere Benchmark-Ergebnisse sind hervorragend, so dass die teure Rechenleistung und damit die Kosten reduziert werden können. Dennoch dürfte das euphorische Rumspielen der weltweiten Early-Adopters mit den neuen Möglichkeiten vergleichsweise hohe Kosten verursachen. Ja, ChatGPT 4o ist sehr wohl eine Suchmaschine, allerdings in dem neuen Verständnis a la You.Com – also nicht mit einer Auflistung von Webergebnissen, sondern mit einer Quintessenz dieser Webfundstellen. Und diese Zusammenfassung ist mittlerweile so gut, dass ein Besuch der Webseiten oft überflüssig ist. Der Anwender kann damit in bestimmten Szenarien viel Zeit sparen. Dies wird die Welt der Suchmaschinen und der SEO nachhaltig verändern. Das wissen natürlich auch Google und Bing. Die einzige Frage, die unbeantwortet bleibt, ist die nach der Finanzierung. Das Signal von OpenAI, den Zugriff auf alle GPT-Modelle für Anwender auch ohne kostenpflichtiges Abo zu öffnen, ist eine Marketingstrategie – aber ebensowenig ein in sich tragfähiges Business-Modell. Es wiederholen sich derzeit viele Erinnerungen an die frühe Internet-Zeit.

Omnimodell-Ansatz ist eine starke Ansage

Auf seiner Webseite zeigt OpenAI einige Beispiele der konkreten Fähigkeiten von ChatGPT 4o, die aus Business-Perspektive weit beeindruckender sind als die lock-flockigen Demos im Live-Event: Visualisierungen, Design, Typografie, Objekt-Synthese, Markenplatzierung auf Objekten. Und noch vieles mehr. Aber natürlich ist der Omnimodell-Ansatz eine starke Ansage. Selbst wenn die bisherigen Sprachassistenten von Siri bis Alexa die ganz großen Erwartungen an voice-basierte Bedienoberflächen nicht erfüllt haben, glauben dennoch viele Experten daran, dass sich die Menschen sprachgewandte, humanoide Maschinen mit vielen Emotionen und Empathie wünschen. Und OpenAI beweist, dass man ein Sprachmodell in diese Richtung trainieren kann. ChatGPT 4o macht sogar Gedankenpausen oder kleine Versprecher um authentischer zu wirken. Aber Moment, mag der sensible Ethiker erschreckt ausrufen! Haben wir uns nicht darauf geeinigt, dass die Künstliche Intelligenz ein Werkzeug des Menschen bleiben soll und auch Formen einer Super-Intelligenz zumindest einer menschlichen Überwachung unterliegen sollen? Selbst wenn die Technologie dann längst in vielen Aspekten dem Menschen überlegen sein könnte. Und haben wir nicht gerade bei Bildern und Videos viel von Transparenz und Kennzeichnung gesprochen?

Sorgentelefone und Pflegebetreuung der Senioren

Ist es dann ethisch überhaupt vertretbar, wenn die KI demnächst auch sprachlich den Menschen so perfekt imitiert, dass die Grenzen zwischen Mensch und Maschine vollends verschwimmen? Und wollen wir es, dass demnächst empathische bis launische KI-Agents im Kundenservice das fortsetzen, was wir schon jetzt nicht an Callcentern mögen? Denn eigentlich erhoffen wir doch den serviceorientierten, entscheidungsbefugten Ansprechpartnern, der kundenorientierte Einzelfallentscheidungen treffen kann. Diese kritischen Fragen sind berechtigt und notwendig, wenn sich wieder die Fanboys von Disruption in ihrer Euphorie suhlen. Aber umgekehrt fallen mir endlose Anwendungsgebiete ein, in denen die Fähigkeiten von ChatGPT 4o, also einem Omnimodell, gesellschaftlich sehr wertvoll sein können (und werden): Man denke nur an vereinsamte Menschen, an Sorgentelefone oder die Pflegebetreuung unserer Senioren. Überall dort haben wir einen Mangel. Einen Personalmangel. Und ein Kostenproblem. Hier ist es eindeutig wünschenswert, wenn die sprachlichen Grenzen, die Barrieren zwischen Mensch und Maschine, fallen und die KI empathische Fähigkeiten weiterentwickelt. Bei all diesen Szenarien ist aber ein sehr verantwortliches Training der Sprachmodelle wichtig und volle Kontrolle des Betreibers über die Algorithmen. Beim Launch-Event von OpenAI spielte das keine Rolle, vielmehr persönliche Einsatzszenarien, also ein Konsumenten-Ansatz. Das ist marketingseitig ein erfolgreicher Hebel, entspricht aber nicht der Marktrealität.

Bei der Generativen KI zählt nun mehr als die „eine“ Fertigkeit

Das hohe Investment der KI-Entwickler lässt sich über längere Zeit nicht mittels Einzeluser-Abos oder Marktplatz-Provisionen amortisieren. Auch das hochprofitable Google-Suchmodell lässt sich nicht einfach in die KI-Welt übertragen. Wenn Entwickler wie OpenAI also nicht dauerhaft Venture Capital verbrennen oder „nur“ die KI-Zulieferer von etablierten Tech-Giganten wie Microsoft, Google oder Meta bleiben wollen, macht es Sinn, verstärkt konkrete, relevante und gewinnbringende Szenarien für Unternehmen und Institutionen zu identifizieren und zu präsentieren. Diese unternehmerischen KI-Strategien gibt es und bereits vielfältige Erfolgsgeschichten. In der breiten öffentlichen Wahrnehmung überwiegen aber die Gadgets. Und schon wieder ein irritierendes Versprechen: „KI ist kostenlos“. Zumindest ab sofort das bekannteste Tool – ChatGPT. Das dieses Versprechen nicht wirklich trägt, haben wir beim Internet gesehen. Und wollen wir demnächst perfekt dampfplaudernde KI-Assistenten, deren vermeintlich schlaue Auskünfte und Hilfestellungen durch Sponsoring und Werbegelder beeinflusst sind?

Alle diese Gedanken ausgeblendet, bleibt aber das klare und optimistische Fazit: OpenAI hat wieder einmal überrascht und hat mit dem Omnimodell ChatGPT 4o erneut unterstrichen, dass die Künstliche Intelligenz in hohem Tempo weitere mächtige Fähigkeiten erhält, die künftig immer stärker verwoben werden. Wie beim Menschen zählt dann, zumindest bei der Generativen KI, nicht mehr nur die „eine“ Fertigkeit.

#openai, #chatgpt4o, #omnimodell, #kiinnovation, #sciencefiction, #gadgetklamauk, #digitaletransformation, #sprachmodell, #kundenservice, #emotionaleki, #empathie, #neuefaehigkeiten, #technologiewandel, #geschaeftsmodell, #kikosten, #ethischefragen, #seniorenbetreuung, #sorgentelefone, #callcenterbusiness, #disruptiveinnovation, #kiethik, #personalmangel, #technologieeinsatz, #unternehmensstrategie, #marktrealitaet, #verantwortungsvolleki

-Promotion-