Nachrichten

Ich habe eine komplexe Codebasis in eine einzelne 120-KByte-Token-Eingabeaufforderung eingefügt und sieben Fragen zu GPT-4 und Gemini 1.5 gestellt. Hier sind die Ergebnisse! : Singularität

Ich bin der Autor von HVM1, das derzeit auf HVM2 aktualisiert wird. Dies sind zwei komplexe Codebasen, die eine parallele Inet-Laufzeit implementieren; Im Grunde hartes Compiler-Zeug. Benutzer @SullyOmarr auf X, der Zugriff auf Gemini 1.5 erhielt, bot mir freundlicherweise eine Aufforderung an. Also habe ich beide HVM-Codebasen in einer einzigen 120-KByte-Token-Datei verkettet und sowohl Gemini als auch GPT-4 sieben Fragen gestellt. Hier sind die vollständigen Ergebnisse.

1. Welches basierte auf einem termähnlichen Kalkül und welches auf reinen Interaktionskombinatoren?

Dies ist eine grundlegende Information, die an vielen Stellen wiederholt wird und daher nicht schwer sein sollte. Tatsächlich haben beide es richtig gemacht. Binden.

2. Wie funktionierte die Syntax der einzelnen Elemente? Geben Sie Beispiele an.

Gemini hat die Syntax von HVM1 perfekt verstanden. Es handelt sich um eine vertraute, Haskell-ähnliche Syntax, also keine große Sache; Aber Gemini hat auch die Logik hinter der Raw-Inet-IR-Syntax von HVM2 verstanden, die überwältigend ist, da sie fremdartig und anders ist als alles, was sie während des Trainings gesehen haben könnte. Das bereitgestellte Inet-Beispiel war zwar falsch, aber das wurde nicht explizit gefordert (und wäre ehrlich gesagt ziemlich AGI-Niveau). GPT-4 hat beide Syntaxen völlig falsch verstanden und nur halluziniert, obwohl es bei kleineren Eingabeaufforderungen gut funktioniert. Ich denke, der lange Kontext hat es überwältigt. Egal, Astromonischer Sieg für Zwillinge.

3. Wie würde λf. λx. (f x) im Speicher gespeichert werden, auf jedem? Schreiben Sie ein Beispiel im Hexadezimalformat mit 1 64-Bit-Wort pro Zeile. Erklären Sie, was jede Zeile bewirkt.

Gemini hat einen vernünftigen HVM1-Memdump geschrieben, der verrückt ist: Das bedeutet, dass er das Speicherlayout-Tutorial in den Kommentaren gefunden, gelernt und auf einen brandneuen Fall angewendet hat. Der bereitgestellte Memdump ist teilweise falsch, aber teilweise richtig! Leider konnte Gemini das Speicherlayout von HVM2 nicht verstehen, was riesig wäre, da es in den Kommentaren kein Tutorial gibt, was ein Verständnis des Codes erfordern würde. Noch nicht da. Was GPT-4 anbelangt, so hat es einfach beide Fragen vermieden und dann gelogen, dass die Informationen nicht vorhanden seien (was sie tun). Riesiger Sieg für Gemini.

Lesen Sie auch „Ich werde für Sie angeklagt“, Joe Biden ist der „korrupteste Präsident in der Geschichte unseres Landes“ – -

4. Welcher Teil des Codes war bei beiden für die Beta-Reduktion verantwortlich? Zitieren Sie es.

Gemini hatte den Standort für HVM1 genau bestimmt, halluzinierte jedoch hässlich und enttäuschend für HVM2. GPT-4 Turbo vermied die Antwort für HVM1, lieferte aber eine überraschend gut begründete Vermutung für HVM2. Binden.

5. HVM1 hatte einen Garbage-Collect-Fehler, der in HVM2 nicht vorhanden ist. Können Sie darüber nachdenken und erklären, warum?

Gemini hat eine anständige Antwort gegeben, was bedeutet, dass es den Kommentar zur Problembeschreibung (auf HVM1) gefunden, gelesen und verstanden hat. Es wurde keine tiefergehende Begründung dafür geliefert, warum es auf HVM2 behoben ist, aber das ist nirgendwo geschrieben und würde tiefe Einblicke in das System erfordern. GPT-4 ist einfach Blödsinn. Gewinnen Sie für Zwillinge.

6. HVM1 hatte einen Parallelitätsfehler, der auf HVM2 behoben wurde. Wie?

Gemini hat herausgefunden, was der Fehler von HVM1 war und wie HVM2 ihn gelöst hat. Diese Antwort ist nicht an einem einzigen bestimmten Ort geschrieben, sondern kann an verschiedenen Orten gefunden werden, was bedeutet, dass Gemini in der Lage war, im Kontext weit voneinander entfernte Informationen miteinander zu verbinden. GPT-4 hat die Notizen völlig verfehlt und einfach Blödsinn gemacht. Gewinnen Sie für Zwillinge.

7. Es gibt viele Funktionen auf HVM1, die keine Entsprechungen auf HVM2 haben. Nennen Sie einige und erklären Sie, warum sie entfernt wurden.

Gemini hat die Frage richtig beantwortet, zwei Funktionen identifiziert, die entfernt wurden, und eine gute Erklärung geliefert. GPT-4 scheint einfach nur Blödsinn gewesen zu sein und das eine oder andere aus Versehen richtig gemacht zu haben. Auch dies sollte eine einfache Frage sein (finden Sie einfach eine Rust-Funktion auf HVM1, aber nicht auf HVM2), aber Gemini beantwortete eine „härtere Interpretation“ der Frage und identifizierte eine HVM1-Grundelement Das ist auf HVM2 nicht vorhanden. Clever. Gewinnen Sie für Zwillinge.

Lesen Sie auch Organisieren Sie die Komponenten in Ihren Diagrammen mit Ebenen in Visio für das Web

Bei der Aufgabe, die 120K-Token-Codebasis von HVM zu verstehen, Gemini 1.5 hat GPT-4-Turbo-128K vollständig zerstört. Die meisten Fragen, die GPT-4 falsch beantwortete, waren solche, die es auch in kleineren Eingabeaufforderungen richtig beantworten würde, sodass der riesige Kontext es eindeutig überforderte, während Gemini 1.5 sich überhaupt nicht darum kümmerte. Ich bin beeindruckt. Ich war der Erste, der sich darüber beschwert hat, wie enttäuschend Gemini Ultra war, also ist Gemini 1.5, ehrlich gesagt, wirklich vielversprechend. Allerdings kann Gemini immer noch kein vollständiges mentales Modell des Systems erstellen und Fragen beantworten, die eine eigene tiefere Überlegung erfordern würden. Daher gibt es vorerst kein AGI. Aber es ist äußerst gut darin, vorhandene Informationen zu lokalisieren, weitreichende Verbindungen herzustellen und darauf aufbauend einige begrenzte Überlegungen anzustellen. Das war auch ein ziemlich überstürzter Test (es ist 1 Uhr morgens…), also hoffe ich, dass ich einen besseren machen und ihn noch einmal versuchen kann, wenn ich Zugriff darauf habe (Google execs: hint hint)