Die KI-Revolution im Kleinformat: Warum lokale Modelle die Zukunft sind

Modelle der künstlichen Intelligenz werden normalerweise online verwendet, aber eine Vielzahl frei verfügbarer Tools ändert das.

lokalen KIs im Trend.

KI - Warum lokale Modelle die Zukunft sind

Die Website histo.fyi ist eine Datenbank mit Strukturen von Proteinen des Immunsystems, die als Haupthistokompatibilitätskomplex (MHC)-Moleküle bezeichnet werden. Sie enthält Bilder, Datentabellen und Aminosäuresequenzen, der künstliche Intelligenz (KI)-Tools, sogenannte Large Language Models (LLMs), verwendet, um diese Assets in lesbare Zusammenfassungen umzuwandeln. Aber er verwendet weder ChatGPT noch ein anderes webbasiertes LLM. Stattdessen die KI auf seinem Laptop laufen.

In den letzten Jahren wurden Chatbots auf Basis von LLMs für ihre Fähigkeit gelobt, Gedichte zu schreiben oder Gespräche zu führen. Einige LLMs haben Hunderte von Milliarden Parametern – je mehr Parameter, desto komplexer – und sind nur online zugänglich. Doch zwei neuere Trends haben sich herauskristallisiert. Erstens erstellen Organisationen „Open Weights“-Versionen von LLMs, bei denen die Gewichte und Verzerrungen, mit denen ein Modell trainiert wird, öffentlich verfügbar sind, sodass Benutzer sie herunterladen und lokal ausführen können, sofern sie über die nötige Rechenleistung verfügen. Zweitens erstellen Technologieunternehmen abgespeckte Versionen, die auf Verbraucherhardware ausgeführt werden können – und die mit der Leistung älterer, größerer Modelle mithalten können.

Forscher könnten solche Tools nutzen, um Geld zu sparen, die Vertraulichkeit von Patienten oder Unternehmen zu schützen oder die Reproduzierbarkeit zu gewährleisten. Dieser Trend wird sich wahrscheinlich verstärken. Da Computer immer schneller und Modelle effizienter werden, werden die Menschen zunehmend KIs auf ihren Laptops oder Mobilgeräten laufen haben, außer für die anspruchsvollsten Zwecke. Wissenschaftler werden endlich KI-Assistenten zur Hand haben – aber die eigentlichen Algorithmen, nicht nur den Fernzugriff darauf.

Große Dinge in kleinen Paketen

Mehrere große Technologieunternehmen und Forschungsinstitute haben in den letzten Jahren kleine und offene Modelle veröffentlicht, darunter Google DeepMind in London, Meta in Menlo Park, Kalifornien, und das Allen Institute for Artificial Intelligence in Seattle, Washington (siehe „Einige kleine offene Modelle“). („Klein“ ist relativ – diese Modelle können etwa 30 Milliarden Parameter enthalten, was im Vergleich zu früheren Modellen groß ist.)

Einige kleine Modelle mit offenem Gewicht

Entwickler	Modell	Parameter
Allen Institute for AI	OLMo-7B	7 Milliarden
Alibaba	Qwen2-0,5B	0,5 Milliarden
Apfel	DCLM-Baseline-7B	7 Milliarden
Google DeepMind	Gemma-2-9B	9 Milliarden
Google DeepMind	CodeGemma-7B	7 Milliarden
Meta	Rufen Sie 3.1-8B an	8 Milliarden
Microsoft	Phi-3-medium-128K-Anweisung	14 Milliarden
Mistral-KI	Mistral-Nemo-Base-2407	12 Milliarden

Obwohl das kalifornische Tech-Unternehmen OpenAI seine aktuellen GPT-Modelle nicht offen gewichtet hat, hat sein Partner Microsoft in Redmond, Washington, eine Menge Arbeit geleistet und 2023 die kleinen Sprachmodelle Phi-1, Phi-1.5 und Phi-2 veröffentlicht, in diesem Jahr dann vier Versionen von Phi-3 und drei Versionen von Phi-3.5. Die Modelle Phi-3 und Phi-3.5 haben zwischen 3,8 und 14 Milliarden aktive Parameter, und zwei Modelle (Phi-3-vision und Phi-3.5-vision) verarbeiten Bilder ¹ . Bei einigen Benchmarks übertrifft sogar das kleinste Phi-Modell OpenAIs GPT-3.5 Turbo aus dem Jahr 2023, das Gerüchten zufolge 20 Milliarden Parameter haben soll.

Sébastien Bubeck, Microsofts Vizepräsident für generative KI, führt die Leistung von Phi-3 auf seinen Trainingsdatensatz zurück. LLMs trainieren zunächst, indem sie das nächste „Token“ (ein Jota Text) in langen Textfolgen vorhersagen. Um beispielsweise den Namen des Mörders am Ende eines Krimis vorherzusagen, muss eine KI alles „verstehen“, was vorher kam, aber solche folgenschweren Vorhersagen sind in den meisten Texten selten. Um dieses Problem zu umgehen, verwendete Microsoft LLMs, um Millionen von Kurzgeschichten und Lehrbüchern zu schreiben, in denen eins auf dem anderen aufbaut. Das Ergebnis des Trainings an diesem Text, sagt Bubeck, ist ein Modell, das auf ein Mobiltelefon passt, aber die Leistung der ersten Version von ChatGPT aus dem Jahr 2022 hat. „Wenn Sie in der Lage sind, einen Datensatz zu erstellen, der sehr reich an diesen Denktoken ist, dann wird das Signal viel reichhaltiger sein“, sagt er.

Phi-3 kann auch beim Routing helfen – also entscheiden, ob eine Abfrage an ein größeres Modell weitergeleitet werden soll. „Das ist ein Bereich, in dem Phi-3 glänzen wird“, sagt Bubeck. Kleine Modelle können Wissenschaftlern auch in abgelegenen Regionen helfen, in denen es kaum eine Cloud-Verbindung gibt. „Hier im pazifischen Nordwesten gibt es tolle Wandergebiete, und manchmal habe ich einfach kein Netz“, sagt er. „Und vielleicht möchte ich ein Foto von einer Blume machen und meine KI nach Informationen dazu fragen.“

Forscher können diese Tools nutzen, um benutzerdefinierte Anwendungen zu erstellen. Die chinesische E-Commerce-Site Alibaba hat beispielsweise Modelle namens Qwen mit 500 Millionen bis 72 Milliarden Parametern erstellt. Ein Biomediziner in New Hampshire hat das größte Qwen-Modell mithilfe wissenschaftlicher Daten verfeinert und Turbcat-72b erstellt, das auf der Modell-Sharing-Site Hugging Face verfügbar ist. (Die Forscherin ist auf der Messaging-Plattform Discord nur unter dem Namen Kal'tsit bekannt, da KI-gestützte Arbeit in der Wissenschaft immer noch umstritten ist.) Kal'tsit sagt, sie habe das Modell erstellt, um Forschern beim Brainstorming, beim Korrekturlesen von Manuskripten, beim Erstellen von Code-Prototypen und beim Zusammenfassen veröffentlichter Arbeiten zu helfen; das Modell wurde tausende Male heruntergeladen.

Ki - Wahrung der Privatsphäre

Wahrung der Privatsphäre

Neben der Möglichkeit, offene Modelle für bestimmte Anwendungen zu optimieren, ist laut Kal'tsit ein weiterer Vorteil lokaler Modelle der Datenschutz. Das Senden personenbezogener Daten an einen kommerziellen Dienst könnte gegen Datenschutzbestimmungen verstoßen. „Wenn es zu einer Überprüfung kommt und Sie zeigen, dass Sie ChatGPT verwenden, könnte die Situation ziemlich unangenehm werden“, sagt sie.

Cyril Zakka, ein Arzt, der das Gesundheitsteam bei Hugging Face leitet, verwendet lokale Modelle, um Trainingsdaten für andere Modelle zu generieren (die manchmal ebenfalls lokal sind). In einem Projekt verwendet er sie, um Diagnosen aus medizinischen Berichten zu extrahieren, damit ein anderes Modell lernen kann, diese Diagnosen auf der Grundlage von Echokardiogrammen vorherzusagen, die zur Überwachung von Herzerkrankungen verwendet werden. In einem anderen Projekt verwendet er die Modelle, um Fragen und Antworten aus medizinischen Lehrbüchern zu generieren, um andere Modelle zu testen. „Wir ebnen den Weg zur vollständig autonomen Chirurgie“, erklärt er. Ein Roboter, der darauf trainiert ist, Fragen zu beantworten, könnte besser mit Ärzten kommunizieren.

Zakka verwendet lokale Modelle – er bevorzugt Mistral 7B, das von der Technologiefirma Mistral AI in Paris herausgebracht wurde, oder Metas Llama-3 70B –, weil sie billiger sind als Abonnementdienste wie ChatGPT Plus und weil er sie feinabstimmen kann. Aber auch der Datenschutz ist wichtig, denn er darf keine Patientenakten an kommerzielle KI-Dienste senden.

Johnson Thomas, Endokrinologe beim Gesundheitssystem Mercy in Springfield, Missouri, ist ebenfalls von der Privatsphäre der Patienten motiviert. Ärzte haben selten Zeit, Patientengespräche zu transkribieren und zusammenzufassen, doch die meisten kommerziellen Dienste, die KI dafür einsetzen, sind entweder zu teuer oder nicht für die Verarbeitung privater medizinischer Daten zugelassen. Thomas entwickelt daher eine Alternative. Das System basiert auf Whisper – einem Open-Weight-Spracherkennungsmodell von OpenAI – und Gemma 2 von Google DeepMind und ermöglicht es Ärzten, Gespräche zu transkribieren und in medizinische Notizen umzuwandeln sowie Daten von Teilnehmern an medizinischen Studien zusammenzufassen.

Auch in der Industrie ist Datenschutz ein Thema. CELLama, das beim südkoreanischen Pharmaunternehmen Portrai in Seoul entwickelt wurde, nutzt lokale LLMs wie Llama 3.1, um Informationen über die Genexpression einer Zelle und andere Eigenschaften auf einen zusammenfassenden Satz zu reduzieren ² . Anschließend erstellt es eine numerische Darstellung dieses Satzes, die verwendet werden kann, um Zellen in Typen zu gruppieren. Die Entwickler heben den Datenschutz als einen Vorteil auf ihrer GitHub-Seite hervor und weisen darauf hin, dass CELLama „lokal arbeitet und so sicherstellt, dass keine Datenlecks auftreten“.

KI - Modelle sinnvoll nutzen

Modelle sinnvoll nutzen

Während sich die LLM-Landschaft weiterentwickelt, stehen Wissenschaftler vor einer sich schnell ändernden Auswahl an Optionen. „Ich bin noch in der Tüftel- und Experimentierphase, was die lokale Verwendung von LLMs angeht“. verwenden sie Llama lokal, mit entweder 8 Milliarden oder 70 Milliarden Parametern, die beide auf seinem Mac-Laptop laufen.

Ein weiterer Vorteil, ist, dass sich lokale Modelle nicht ändern. Kommerzielle Entwickler hingegen können ihre Modelle jederzeit aktualisieren, was zu unterschiedlichen Ergebnissen führt und zwingt, die Eingabeaufforderungen oder Vorlagen zu ändern. „In den meisten wissenschaftlichen Bereichen will man Dinge, die reproduzierbar sind“, erklärt er. „Und es ist immer besorgniserregend, wenn man die Reproduzierbarkeit der eigenen Ergebnisse nicht unter Kontrolle hat.“

Für ein anderes Projekt Code, der MHC-Moleküle auf der Grundlage ihrer 3D-Struktur ausrichtet. Um seine Algorithmen zu entwickeln und zu testen, braucht er viele verschiedene Proteine – mehr als es in der Natur gibt. Um plausible neue Proteine zu entwerfen, verwendet er ProtGPT2 , ein Open-Weights-Modell mit 738 Millionen Parametern, das an etwa 50 Millionen Sequenzen trainiert wurde ³ .

Manchmal reicht eine lokale App jedoch nicht aus. Zum Programmieren cloudbasierte GitHub Copilot. „Es fühlt sich an, als wäre mir der Arm abgehackt, wenn ich Copilot aus irgendeinem Grund nicht verwenden kann“, sagt er. Es gibt zwar lokale LLM-basierte Programmiertools (wie CodeGemma von Google DeepMind und eines der in Kalifornien ansässigen Entwickler Continue ), aber seiner Erfahrung nach können sie nicht mit Copilot konkurrieren.

Zugriffspunkte

Wie führt man also ein lokales LLM aus? Mit einer Software namens Ollama (verfügbar für die Betriebssysteme Mac, Windows und Linux) können Benutzer offene Modelle, darunter Llama 3.1, Phi-3, Mistral und Gemma 2, herunterladen und über eine Befehlszeile darauf zugreifen. Weitere Optionen sind die plattformübergreifende App GPT4All und Llamafile , mit der LLMs in eine einzelne Datei umgewandelt werden können, die auf sechs Betriebssystemen mit oder ohne Grafikprozessor läuft.

Sharon Machlis, ehemalige Redakteurin bei der Website InfoWorld, lebt in Framingham, Massachusetts und hat einen Leitfaden zur lokalen Nutzung von LLMs geschrieben , in dem sie ein Dutzend Optionen behandelt. „Als Erstes würde ich vorschlagen“, sagt sie, „die Software, die Sie auswählen, so zu wählen, dass sie zu Ihrem Niveau passt, wie viel Sie herumspielen möchten.“ Manche Leute bevorzugen die Einfachheit von Apps, während andere die Flexibilität der Befehlszeile bevorzugen.

Welchen Ansatz Sie auch wählen, lokale LLMs sollten für die meisten Anwendungen bald gut genug sein, sagt Stephen Hood, Leiter der Open-Source-KI beim Technologieunternehmen Mozilla in San Francisco. „Die Fortschritte in diesem Bereich im letzten Jahr waren erstaunlich“, sagt er.

Welche Anwendungen das sein könnten, müssen die Benutzer selbst entscheiden. „Haben Sie keine Angst, sich die Hände schmutzig zu machen“, rät Zakka. „Die Ergebnisse könnten Sie angenehm überraschen.“

Künstliche Intelligenz

#KünstlicheIntelligenz #KI #LokaleKI #LLM #OpenWeights #ChatGPT #DeepLearning #MaschinellesLernen #Bioinformatik #Datenwissenschaft #Technologie #Forschung #Innovation #SoftwareEntwicklung #OpenSource #Datenschutz #Reproduzierbarkeit