Mensch-Technik-Interaktion: Large Action Models (LAMs) und Large Language Models (LLMs) im Vergleich


Large Action Models (LAMs) und Large Language Models (LLMs) sind unterschiedliche Technologien. LLMs, wie GPT, sind darauf spezialisiert, Texte zu verstehen und zu erstellen – sie können Fragen beantworten, Geschichten schreiben oder Informationen zusammenfassen. LAMs hingegen sind darauf ausgelegt, Aufgaben zu erledigen oder Probleme zu lösen, indem sie verschiedene Daten und Sensoren nutzen, ähnlich wie ein Roboter, der spezifische Befehle ausführt.

Diese beiden Technologien ergänzen einander und verbessern die Art und Weise der Mensch-Technik-Interaktion (MTI). Während LLMs uns helfen, mit Maschinen durch Sprache zu kommunizieren, ermöglichen es LAMs diesen Maschinen, auf unsere Anweisungen zu reagieren und Aktionen durchzuführen. Zusammen bieten sie ein breiteres Spektrum an Möglichkeiten, wie Menschen und Technik miteinander interagieren.

Mensch-Technik-Interaktion: Large Action Models (LAMs) und Large Language Models (LLMs) im Vergleich

Vergleich und Kontrast

Large Language Models (LLMs):
  • Zweck: LLMs sind darauf trainiert, menschliche Sprache zu verstehen und zu generieren. Sie können Texte verfassen, Fragen beantworten, Zusammenfassungen erstellen und sogar in begrenztem MaĂźe logische SchlĂĽsse ziehen, basierend auf den Daten, mit denen sie trainiert wurden und natĂĽrlich in Abhängigkeit der Prompts.
  • Trainingsdaten: Sie werden mit enormen Mengen von BĂĽchern, Artikeln und Webseiten trainiert, um ein umfassendes Verständnis der menschlichen Sprache und ihrer Nuancen zu entwickeln.
  • Anwendungen: LLMs finden Einsatz in Bereichen wie automatisierten Kundenbetreuungssystemen, Content-Erstellung, Ăśbersetzungsdiensten und als Assistenzsysteme, die auf natĂĽrliche Spracheingaben reagieren.
  • Interaktion: Die Interaktion mit LLMs erfolgt primär ĂĽber Text, obwohl einige Modelle auch fĂĽr sprachbasierte Interaktionen adaptiert werden können.
Large Action Models (LAMs):
  • Zweck: LAMs sind dafĂĽr ausgelegt, Aktionen oder Aufgaben auszufĂĽhren. Während der genaue Umfang eines LAM entsprechend seiner Auslegung variieren kann, bezieht sich der Begriff generell auf Systeme, die darauf trainiert sind, komplexe Aufgaben in digitalen oder physischen Umgebungen auszufĂĽhren, möglicherweise durch die Integration verschiedener Dateninputs und Sensoren.
  • Trainingsdaten: LAMs können mit einer Vielzahl von Daten trainiert werden, einschlieĂźlich, aber nicht beschränkt auf, sensorische Daten, Benutzerinteraktionen und spezifische Aufgabenbeschreibungen. Ihr Training ist oft spezifisch fĂĽr die Aufgaben, die sie ausfĂĽhren sollen.
  • Anwendungen: Die potenziellen Anwendungen fĂĽr LAMs sind breit gefächert und könnten von der Automatisierung komplexer Arbeitsabläufe ĂĽber die Interaktion mit Smart-Home-Geräten bis hin zur Steuerung von Robotern oder anderen Geräten reichen. Die Zeit wird uns zeigen, was möglich wird.
  • Interaktion: LAMs interagieren ĂĽber eine Vielzahl von Schnittstellen mit der Welt, einschlieĂźlich, aber nicht beschränkt auf, Spracheingabe, physische Sensoren und direkte digitale Befehle.
Vergleich und Kontrast:
  • Fokus auf Interaktion vs. Aktion: Der Hauptunterschied liegt in der Natur ihrer Ausgabe. LLMs sind auf die Generierung von Sprache fokussiert, während LAMs auf die AusfĂĽhrung von Aktionen ausgerichtet sind.
  • Datenverarbeitung: LLMs verarbeiten und generieren Informationen hauptsächlich in Textform. LAMs hingegen könnten eine breitere Palette von Dateninputs nutzen, um Aktionen in der realen Welt oder in digitalen Umgebungen zu steuern.
  • Anwendungsbereiche: Während LLMs primär in Bereichen eingesetzt werden, in denen es um die Verarbeitung und Erzeugung von Sprache geht, könnten LAMs eine breitere Anwendung in der physischen Interaktion mit der Umwelt oder in spezialisierten digitalen Aufgaben finden.

FĂĽr einen weiterfĂĽhrenden Deep-Dive empfehle ich diesen Artikel.

Es kündigt sich eine neuartige Gattung von LAM Endgeräten an.

Eine erste Hands-on Erfahrung mit neuartigen Endgeräten steht uns in Form des Rabbit R1 (keine Werbung) bevor, ein Produkt, das die Grenzen zwischen Nutzer und Technologie zu verwischen verspricht. Es steht für angewandtes LAM; die Plattform des R1 bildet das Rabbit OS, dies soll eine nahtlose, intuitive Interaktion ermöglichen. Apps werden nicht länger durch das Tippen auf einen Bildschirm, sondern durch natürliche Spracheingabe ausgeführt. Eine der Eigenschaften ist die Push-to-Talk-Taste am Rand des Geräts. Push-to-Talk erlaubt es den Nutzern, dem Rabbit R1 Sprachbefehle zu erteilen, ohne das Gerät in die Hand nehmen oder den Bildschirm berühren zu müssen. Die Möglichkeit, Aufgaben wie das Abspielen von Musik oder das Buchen einer Mitfahrgelegenheit auszuführen, und das ganz ohne Smartphone, deutet auf eine neue Ära der MTI hin.

Ein weiteres Merkmal des Rabbit R1 ist der geplante „Teach Mode“. Diese Funktion ermöglicht es den Benutzern, das Gerät selbst anzulernen und Anpassungen vorzunehmen. Die Entwickler versprechen, dass diese Funktionserweiterung in naher Zukunft fĂĽr Ăśberraschungen sorgen wird, was das Potenzial von LAM-Endgeräten weiter unterstreicht. So könnte einem LAM-Device beigebracht werden, genau auf die eigenen BedĂĽrfnisse und Vorlieben zu reagieren – ein weiterer Schritt in Richtung personalisierter Technologie.

Das Rabbit R1 steht für eine nächste Generation von LAM enabled Devices, und kündigt einen Paradigmenwechsel in der Interaktion mit digitalen Diensten an. Mit LAM enabled Devices könnte die Vision einer vollständig integrierten und persönlich zugeschnittenen digitalen Erfahrung Wirklichkeit werden.

Die Entwickler des Rabbit R1 sind im ersten Quartal 2024 eine Kooperation mit Perplexity Ai eingegangen, mehr zur Suchmaschine fĂĽr Dialoge mit Informationen: hier.

ZurĂĽck zur Startseite.

Aktuell in der Kategorie: