DataStax erleichtert die Erstellung generativer KI-RAG-Apps mit der neuen Daten-API

DataStax möchte es Entwicklern mit einer neuen Daten-API erleichtern, generative KI-Retrieval-Augmented-Generation-Anwendungen (RAG) zu erstellen.

DataStax ist einer der führenden kommerziellen Anbieter hinter der Open-Source-Datenbank Apache Cassandra, die die Grundlage seiner Cloud-Datenbank-as-a-Service AstraDB bildet. Wie viele andere Datenbankanbieter hat DataStax im Jahr 2023 Vektordatenbankfunktionen zu seiner Plattform hinzugefügt. Bei einer kürzlichen Veranstaltung behauptete der CEO von DataStax, Cassandra sei „die verdammt beste Datenbank für die KI der Generation“.

Die Fähigkeit von Vektordatenbanken ist entscheidend für die Ermöglichung von RAG-Anwendungen, die große Sprachmodelle (LLMs) mit Datenplattformen kombinieren, um hochpräzise und individuelle Ergebnisse zu generieren.

(Bildnachweis: DataStax)

Obwohl DataStax seit Juli 2023 über Vektorfunktionen in AstraDB verfügt, erforderte diese Funktion weiterhin, dass Benutzer mit der Cassandra Query Language (CQL) als primärem Pfad zum Abfragen der Daten arbeiten. Die heute veröffentlichte neue Daten-API ändert dies und bietet Entwicklern die Möglichkeit, die Programmiersprachen Python und JavaScript für den Zugriff auf die Datenbank zu verwenden, was nach Angaben des Unternehmens dazu beiträgt, die Lücke zwischen DataStax und speziell entwickelten Vektordatenbanken wie Pinecone zu schließen, die gerade ihren Namensvetter aktualisiert haben Plattform mit serverloser Datenbankfunktionalität.

„Es gab eine Art Tauziehen zwischen den nativen Vektordatenbanken, die außer Vektoren keinen anderen Abfragetyp unterstützen, und den Hybriddatenbanken, die über sehr robuste Abfragemodelle verfügen“, sagte Ed Anuff, Chief Product Officer bei DataStax, gegenüber VentureBeat. „Wir wollten diese Lücke schließen, und genau darum geht es bei der Datums-API.“

Wie die DataStax-Daten-API die Art und Weise verändert, wie Entwickler RAG-Anwendungen erstellen

Die neue Daten-API bietet keine neuen Vektorfunktionen für die AstraDB-Datenbank. Vielmehr erleichtert es Entwicklern das Erstellen von Anwendungen.

Lesen Sie auch  Die San Francisco 49ers werden mit sieben kompensatorischen Draft-Picks auf Liganiveau ausgezeichnet

Laut Anuff zielt die neue API darauf ab, die Impedanzinkongruenz zwischen dem, was Entwickler tun, und dem, was die Datenbank bereitstellt, zu reduzieren. Anuff stellte fest, dass seit Juli 2023, als die Vektorfunktionen erstmals in AstraDB landeten, etwa die Hälfte aller neuen Benutzer, die sich für die Cloud-Datenbank angemeldet haben, diese zum Erstellen von Gen-KI-Anwendungen verwenden.

Die Herausforderung besteht darin, dass diese Entwickler nicht einfach in der Lage waren, die Programmiersprachen, die sie bereits zum Erstellen von Gen-KI-Anwendungen nutzten (hauptsächlich Python und JavaScript), für den Zugriff auf AstraDB zu nutzen.

Vor der neuen Daten-API hätten Entwickler, die KI-Anwendungen mit AstraDB erstellen, die standardmäßige Cassandra Query Language (CQL) verwenden müssen, die mehr Datenmodellierungskenntnisse erfordert, als Entwickler für einfache Rack-Anwendungen benötigen. Die Abfragen wären auch nicht so für Vektordaten optimiert gewesen.

Anuff erklärte, dass die neue Daten-API dies einfacher macht, indem sie die Vektorisierung automatisch handhabt, eine einfachere Schnittstelle in Sprachen wie Python und JavaScript bietet und die Leistung optimiert, indem die Vektordaten effizienter auf Datenbankebene gespeichert und indiziert werden, anstatt Vektoren nur als weiteren Datentyp hinzuzufügen . Dies verkürzt die Lernkurve und verbessert die Leistung im Vergleich zum einfachen Aufbau auf den vorhandenen Cassandra-APIs und dem Datenmodell.

Es dreht sich alles um APIs

Bei einigen Klassen von Datenbank-APIs erfolgt lediglich eine Form der Übersetzung einer nativen Programmiersprache wie Python oder JavaScript in die Abfragesprache der Datenbank. Das ist funktional einem jahrzehntealten Ansatz zur Arbeit von Entwicklern mit Datenbanken über einen Object Relational Mapper (ORM) sehr ähnlich.

Die DataStax-Daten-API unterscheidet sich etwas, da Cassandra anders aufgebaut ist als andere Datenbanken. Cassandra ist auf Architekturebene um eine Reihe leistungsstarker Grundelemente herum organisiert, die miteinander kombiniert werden, um verschiedene Arten von Abfragemustern zu unterstützen. Anuff sagte, dass die Cassandra-Datenarchitektur es ermöglicht, eine Verbindung auf einer tieferen Ebene in der Datenbank herzustellen, was die allgemeine Abfrageleistung verbessert.

Lesen Sie auch  Jurastudent der NYU verlor Stellenangebot, nachdem er Israel für Hamas-Angriffe verantwortlich gemacht hatte

„Die Daten-API stellt dem Entwickler ein sehr einfaches JSON-basiertes Datenformat zur Verfügung, bei dem der Entwickler alles, was man in JSON ausdrücken kann, senden und aus der Datenbank abrufen kann“, sagte Anuff. „Aber wir speichern das auf sehr effiziente Weise in Cassandra, wo wir dies direkt auf der Speicherebene tun und sicherstellen, dass die Leistung, die ein Entwickler erhält, erhalten bleibt.“

Beschleunigen von Vektoren mit der JVector-Engine

Ein weiterer wichtiger Teil der Weiterentwicklung der Vektordatenbank von DataStax ist die JVector-Suchmaschine, die Teil von AstraDB ist. JVector ist eine eingebettete Open-Source-Vektorsuchmaschine, die von DataStax entwickelt wurde.

Anuff erklärte, dass JVector einen Algorithmus namens DiskANN verwendet, eine festplattenbasierte, speicheroptimierte Version des ANN-Algorithmus (Approximation Nearest Neighbor Search), der in fast allen Vektordatenbanken weit verbreitet ist. Er stellte fest, dass DiskANN im Vergleich zu anderen Algorithmen, die bei großen Speicher- und Verteilungsmaßstäben nicht so gut funktionieren, deutlich bessere Abruffunktionen bietet.

Laut DataStax ist es die JVector-Engine, die es AstraDB ermöglicht, eine bessere Relevanz und einen besseren Rückruf als andere Vektordatenbanken zu erreichen. Ein Großteil der Vektorarbeit von DataStax, einschließlich JVector und der Daten-API, ist Open Source und kann von der Cassandra-Open-Source-Community sowie den AstraDB-Kunden von DataStax verwendet werden.

„Wir setzen uns sehr dafür ein, Inhalte für Open-Source-Ökosysteme verfügbar zu machen“, sagte Anuff. „Wir möchten auch nur sicherstellen, dass Sie als Entwickler den einfachsten Weg haben, um herauszufinden, welchen Cloud-Dienst Sie verwenden sollten.“

Die Mission von VentureBeat soll ein digitaler Stadtplatz für technische Entscheidungsträger sein, um sich Wissen über transformative Unternehmenstechnologie anzueignen und Transaktionen durchzuführen. Entdecken Sie unsere Briefings.

Lesen Sie auch  Augustas Marciulionis hilft St. Mary's, die VCU im NCAA-Turnier zu überdauern

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.