Weniger Hamburger und mehr Paellas: Dies wird das von Pedro Sánchez | angekündigte spanische ChatGPT sein Technologie

ChatGPT, Gemini, Copilot und andere KI-basierte Apps großer Unternehmen funktionieren gut auf Spanisch. Diesen Sonntag kündigte Präsident Pedro Sánchez jedoch in Barcelona an, dass seine Regierung zusammenarbeiten werde, um „ein großartiges Grundmodell einer Sprache mit künstlicher Intelligenz zu schaffen, die auf Spanisch und den Co-Amtssprachen in offenem und transparentem Code trainiert wird“. Welche neuen Funktionen und Vorteile bietet diese Initiative? Regierungsquellen zufolge befinden sie sich vorerst nur „in der Projektankündigungsphase“: Einzelheiten über das Personal und die Finanzierung des Plans werden „bald“ bekannt gegeben, ohne dass ein Datum angegeben wird.

EL PAÍS hat die Einzelheiten des Projekts mit den Organisationen besprochen, die in der Ankündigung von Sánchez als Mitarbeiter auftreten, sowie mit Experten, die an ähnlichen Projekten in Spanien teilgenommen haben. Dies sind einige der Merkmale, die dieses in Spanien hergestellte grundlegende Modell der künstlichen Intelligenz (KI) aufweisen wird.

1. Es wird kein allgemeiner „Chatbot“ sein

Ein „grundlegendes“ Modell bedeutet nicht, dass es ein ist Chatbot allgemein wie ChatGPT, was eine lange und kostspielige Arbeit mit Menschen erfordert, die Tausende von Anweisungen bereitstellen. Sie können also nicht alles fragen und haben auch keine Seite, auf der die Öffentlichkeit darauf zugreifen kann. Es wird ein grundlegendes KI-Modell sein, das Unternehmen und Verwaltungen für ihre spezifischen Bedürfnisse trainieren können.

„Das ist das grundlegende Problem“, sagt Pep Martorell, stellvertretender Direktor des Barcelona Supercomputing Centre (BSC), einer Institution, die Sánchez als einen der Verantwortlichen für das Projekt bezeichnete. „Wenn die Verwaltung eine erstellen möchte Chatbot Wie würden Sie zum Beispiel im Bereich der Grundversorgung vorgehen? Über OpenAI? Das bringt viele Probleme mit sich, mit Lizenzen, Voreingenommenheit, Datensperre, Sprache“, fügt Martorell hinzu.

Das Gründungsmodell ist die Grundlage, auf der jede Organisation mit KI ihr „Zuhause“ schaffen wird. Für den Gründer dieser Stiftungen ist es einfacher, eine nahegelegene öffentliche Organisation zu sein, die stärker zur Transparenz verpflichtet ist, als ein Unternehmen aus dem Silicon Valley: „Ein Unternehmen wird ChatGPT kaum für je nachdem welche Aufgaben nutzen, weil es den Verstand sprengt“, sagt Marta Villegas. Technologieführer für Sprache im BSC, in Bezug auf die skandalösen Fehler in ihren Antworten. „Es gibt Situationen, für die man nicht so viel braucht, und es besteht eine große Nachfrage nach Modellen, die sich an ein bestimmtes Unternehmen anpassen und es umschulen, um Fragen zu einer Automarke, einem öffentlichen Dienst (wie zahlt man den IBI usw.) zu beantworten Beispiel)“, fügt er hinzu.

2. Es wird nicht einfach sein

Das BSC und sein kürzlich veröffentlichter Supercomputer MareNostrum 5 sind ein Grundbestandteil für die Erstellung dieses Modells. Ohne enorme Rechenleistung ist es unmöglich, einer KI das Schreiben beizubringen. In einem Land wie Spanien wäre es ohne die öffentliche Unterstützung verschiedener Verwaltungen nicht möglich, auch nur den Versuch zu unternehmen, so etwas zu schaffen: „Das ist etwas, was wir bereits in mehreren europäischen Ländern sehen, der öffentliche Sektor fördert die Generierung von Modellen, die sich an der Entwicklung beteiligen.“ „Wir nutzen die Ressourcen der großen Forschungszentren“, sagt Martorell.

Lesen Sie auch  An diesem Tag in der Geschichte, dem 5. Juni 1968, wird der Präsidentschaftskandidat Robert F. Kennedy in Los Angeles tödlich erschossen

Hinzu kommt ein zweites Problem: In Spanien sind nur eine Handvoll Konzerne in der Lage, ein solches Modell zu programmieren. Sie alle befinden sich in Forschungszentren oder Universitäten: „Wir sind eine Handvoll Leute, die dazu fähig sind“, sagt Germán Rigau, stellvertretender Direktor von HiTZ (Baskisches Forschungszentrum für Sprachtechnologien), einem Pionier in Spanien. „Innerhalb der KI ist es etwas, von dem nicht jeder weiß, wie man es macht. Nur einige Zentren machen das und werten es aus“, erklärt er. Das HiTZ hat gerade das größte in Spanien hergestellte Sprachmodell vorgestellt, das auf Baskisch ist und auf Llama basiert, von Meta, das Open Source ist. Darüber hinaus ist es schwierig, Talente zu halten: „Wir motivieren junge Menschen, indem wir ihnen sagen, dass dies ein Referenzzentrum ist, aber viele gehen trotzdem zu Google, Amazon, Cohere oder gründen ihr eigenes Unternehmen“, fügt er hinzu.

All dies bedeutet nicht unbedingt, dass diese gemeinsame Anstrengung ein Modell der nächsten Generation hervorbringen wird. Es ist wahrscheinlicher, dass es von einer früheren Generation stammt: „Es ist durchaus vorstellbar, dass wir vor Ende 2024 ein GPT-3-Modell in Spanisch und den übrigen Co-Amtssprachen für Unternehmen zur Verfügung haben werden.“ sagt Martorell. Und wenn GPT-4, welches ist jetzt der Standard für ChatGPT? „So schnell wie möglich, basierend auf den von uns gesammelten Daten und der Kapazität von MareNostrum 5, die es uns ermöglicht“, fügt er hinzu.

3. Viel Baseball, weniger Fußball

Modelle wie ChatGPT sind bereits mehrsprachig: Es macht wenig Sinn, beim Training, beim Erlernen und beim Übersetzen keine Sprachen hinzuzufügen. Aber eine Sprache besteht nicht nur aus ihren Worten, sie ist auch der Kontext und die Kultur. Es gibt viele Variablen: Tradition, Freizeit, Küche, Sport. Dieser gesamte Kontext ist nicht nur Kultur, sondern auch die Bedeutung von Sprichwörtern oder Redewendungen, die nur in einer Sprache Sinn ergeben und nicht übersetzbar sind.

Mit Spanisch, einer im Internet weit verbreiteten Sprache, ist es relativ einfach, eine gute Qualität zu erreichen. Sogar mit Katalanisch. Aber die Millionen von Texten (genannt “Korpus”), mit denen Galizisch oder Baskisch trainiert werden, seien viel kleiner, erklärt Rigau: „Im Baskischen haben wir 4.000 Millionen.“ Token [pequeños bloques de texto que usan las máquinas para entender el lenguaje]. Der Katalane wird rund 20 Milliarden haben, fünfmal mehr. Die Spanier werden 250.000 haben, zehnmal mehr als die Katalanen. Das ist alles, was wir erreichen konnten. Egal wie sehr wir kratzen, die Skala ist diese.“

Lesen Sie auch  Nets müssen Mikal Bridges auf die gleiche Seite wie Cam Thomas bringen

Ein Ziel dieses Gründungsmodells ist es, a Korpus besser in den vier Amtssprachen. Jede Institution versucht, Vereinbarungen mit Organisationen zu schließen, die Texte in ihren Sprachen erstellt haben, von Regionalparlamenten bis hin zu Fernsehsendern: „Für unsere Sprachen haben wir eine kuratiertere Suche nach Inhalten durchgeführt und uns bemüht, nicht widersprüchliche Daten zu sammeln: Wikipedia, Natürlich, aber auch Daten von regionalen Parlamenten, von TV3, Dialnet oder dem CSIC haben es uns ermöglicht, offene Zeitschriften zu sammeln, auch Daten von der Elcano Foundation und sie haben mir viel hinterlassen. Für Katalanisch haben wir beispielsweise Daten von Òmnium, Vilaweb, jede Gruppe bemüht sich innerhalb ihrer Sprache, kuratierte Daten zu erhalten“, sagt Villegas. Ähnliche Arbeiten wurden mit Galizisch und Baskisch durchgeführt.

Dieser ganze Aufwand soll nicht nur dazu dienen, dass das Model in korrekterem Galizisch antwortet, sondern auch, dass es besser weiß, wovon es spricht, wenn es um lokale Themen geht: „Ein Model aus einem großen Unternehmen wird viel über den Superbowl wissen.“ und wird sehr anglozentrisch sein“, sagt Villegas. „Es geht nicht nur um die Sprache, sondern auch um das implizite Wissen, um das Modell der Welt“, fügt er hinzu. Das spanische Modell sollte weniger Baseball und Hamburger und mehr Fußball und Paellas haben.

Wenn Sie einen größeren haben Korpus In einer Sprache verfügen Sie über mehr Informationen über die komplexe Welt, die in dieser Sprache beschrieben wird. Wenn es darum geht, von Ärzten verfasste klinische Aufzeichnungen oder Rechtsurteile zu analysieren, ist es daher wichtig, dass sie geschult sind und mit der lokalen Sprache und dem Inhalt im Einklang sind, sonst würden sie zu viele Nuancen verlieren.

4. Es ist eine strategische Wette

Neben den sprachlichen und kulturellen Bedürfnissen eines Landes wie Spanien besteht auch der Versuch, sich technologisch zu engagieren. „Es ist nicht nur eine sentimentale, historische oder kulturelle Frage“, sagt Senén Barro, Professor an der Universität Santiago de Compostela und Direktor des Singular Research Center in Intelligent Technologies. „Es ist strategisch. Wenn es uns gelingt, in Spanien eine leistungsstarke Industrie von Unternehmen im Bereich Sprachtechnologien zu schaffen, können diese nicht nur für den Eigenverbrauch, sondern auch für die Welt arbeiten, beispielsweise in mehrsprachigen Ländern wie diesem. Es ist ein brutaler Markt. Es wird geschätzt, dass die Wirtschaft rund um Sprachtechnologien bis zum Ende des Jahrzehnts etwa 100 Milliarden betragen könnte. „Es ist eine riesige Menge“, fügt er hinzu.

Lesen Sie auch  Große Menschenmengen erwarten das Fünf-Meilen-Rennen am Holmenkollen

Es wäre seltsam, wenn viele der medizinischen oder rechtlichen Daten, die spanische Verwaltungen oder Unternehmen verwenden müssen, der amerikanischen oder chinesischen Technologie zur Verfügung stünden. „Es muss auch um Souveränität gehen, es geht darum, der Industrie Stoff zu geben“, sagt Rigau. „Werden wir immer auf Außenstehende angewiesen sein? „Es gibt viele sensible Daten.“

5. Das Urheberrechtsproblem besteht weiterhin

Die anfängliche Schwierigkeit beim Training eines solchen Modells besteht darin, Milliarden von Texten zu erreichen. Der offensichtlichste Ort ist das Internet. Die Organisation Common Crawl sammelt regelmäßig alles im Internet. Sein Ziel ist lobenswert, dass dieses Material für jedermann zugänglich ist, nicht nur für große Technologieunternehmen: „Kleine Unternehmen oder sogar Einzelpersonen können auf hochwertige Tracking-Daten zugreifen, die bisher nur großen Konzernen zur Verfügung standen“, heißt es auf ihrer Seite. Von dort stammen auch die Daten für dieses aus Spanien gefertigte Modell.

In den Common Crawl-Archiven befindet sich das gesamte Web: auch Grafiken, Pornografie, absurde Memes und aller Wahrscheinlichkeit nach urheberrechtlich geschütztes Material mit Rechten. Die Verantwortlichen des Modells bereinigen beim Training alle voreingenommenen, giftigen oder anstößigen Verweise, aber urheberrechtlich geschütztes Material ist heikler: „Die Tatsache, dass es keine Urheberrechtsprobleme gibt, ist kompliziert. Wir nehmen Downloads von Common Crawl entgegen, was in den USA unter dem Schutz des erlaubt ist faire Nutzung”sagt Villegas. Diese „faire Nutzung“ erlaubt die Verwendung von Material mit Rechten für bestimmte Fälle, wie z. B. Bildung, Zitieren in Informationen oder Wissenschaft. Sein Einsatz zum Trainieren von KI-Modellen ist immer noch umstritten.

„Diese Modelle machen keine Kopien“, erklärt Rigau. „Es ist etwas sehr Komplexes, es ist, als würde ein Mensch viel lesen, 20 Millionen Bücher. Woran erinnern Sie sich? Das ist das gleiche. Lesen, nicht kopieren. Auch das Gedächtnis der Maschine ist nicht so gut: Sie erfindet Dinge, sie stellt sie sich vor. Wenn du ihm den Anfang erzählst Der Quijote werde nicht wissen, wie es weitergehen soll. Er wird Dinge wissen, er wird sich wie jeder andere an Lieder erinnern. Es merkt sich etwas, aber es entsteht kein vollständiges Werk“, sagt er.

Du kannst Folgen EL PAÍS-Technologie In Facebook j X oder melden Sie sich hier an, um unsere zu erhalten Newsletter-Semanal.

Abonnieren Sie, um weiterzulesen

Lesen Sie ohne Grenzen

_

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.