Mensch-Technik-Interaktion: Large Action Models (LAMs) und Large Language Models (LLMs) im Vergleich


Large Action Models (LAMs) und Large Language Models (LLMs) sind unterschiedliche Technologien. LLMs, wie GPT, sind darauf spezialisiert, Texte zu verstehen und zu erstellen – sie können Fragen beantworten, Geschichten schreiben oder Informationen zusammenfassen. LAMs hingegen sind darauf ausgelegt, Aufgaben zu erledigen oder Probleme zu lösen, indem sie verschiedene Daten und Sensoren nutzen, ähnlich wie ein Roboter, der spezifische Befehle ausführt.

Diese beiden Technologien ergänzen einander und verbessern die Art und Weise der Mensch-Technik-Interaktion (MTI). Während LLMs uns helfen, mit Maschinen durch Sprache zu kommunizieren, ermöglichen es LAMs diesen Maschinen, auf unsere Anweisungen zu reagieren und Aktionen durchzuführen. Zusammen bieten sie ein breiteres Spektrum an Möglichkeiten, wie Menschen und Technik miteinander interagieren.

Mensch-Technik-Interaktion: Large Action Models (LAMs) und Large Language Models (LLMs) im Vergleich

Vergleich und Kontrast

Large Language Models (LLMs):
  • Zweck: LLMs sind darauf trainiert, menschliche Sprache zu verstehen und zu generieren. Sie können Texte verfassen, Fragen beantworten, Zusammenfassungen erstellen und sogar in begrenztem Maße logische Schlüsse ziehen, basierend auf den Daten, mit denen sie trainiert wurden und natürlich in Abhängigkeit der Prompts.
  • Trainingsdaten: Sie werden mit enormen Mengen von Büchern, Artikeln und Webseiten trainiert, um ein umfassendes Verständnis der menschlichen Sprache und ihrer Nuancen zu entwickeln.
  • Anwendungen: LLMs finden Einsatz in Bereichen wie automatisierten Kundenbetreuungssystemen, Content-Erstellung, Übersetzungsdiensten und als Assistenzsysteme, die auf natürliche Spracheingaben reagieren.
  • Interaktion: Die Interaktion mit LLMs erfolgt primär über Text, obwohl einige Modelle auch für sprachbasierte Interaktionen adaptiert werden können.
Large Action Models (LAMs):
  • Zweck: LAMs sind dafür ausgelegt, Aktionen oder Aufgaben auszuführen. Während der genaue Umfang eines LAM entsprechend seiner Auslegung variieren kann, bezieht sich der Begriff generell auf Systeme, die darauf trainiert sind, komplexe Aufgaben in digitalen oder physischen Umgebungen auszuführen, möglicherweise durch die Integration verschiedener Dateninputs und Sensoren.
  • Trainingsdaten: LAMs können mit einer Vielzahl von Daten trainiert werden, einschließlich, aber nicht beschränkt auf, sensorische Daten, Benutzerinteraktionen und spezifische Aufgabenbeschreibungen. Ihr Training ist oft spezifisch für die Aufgaben, die sie ausführen sollen.
  • Anwendungen: Die potenziellen Anwendungen für LAMs sind breit gefächert und könnten von der Automatisierung komplexer Arbeitsabläufe über die Interaktion mit Smart-Home-Geräten bis hin zur Steuerung von Robotern oder anderen Geräten reichen. Die Zeit wird uns zeigen, was möglich wird.
  • Interaktion: LAMs interagieren über eine Vielzahl von Schnittstellen mit der Welt, einschließlich, aber nicht beschränkt auf, Spracheingabe, physische Sensoren und direkte digitale Befehle.
Vergleich und Kontrast:
  • Fokus auf Interaktion vs. Aktion: Der Hauptunterschied liegt in der Natur ihrer Ausgabe. LLMs sind auf die Generierung von Sprache fokussiert, während LAMs auf die Ausführung von Aktionen ausgerichtet sind.
  • Datenverarbeitung: LLMs verarbeiten und generieren Informationen hauptsächlich in Textform. LAMs hingegen könnten eine breitere Palette von Dateninputs nutzen, um Aktionen in der realen Welt oder in digitalen Umgebungen zu steuern.
  • Anwendungsbereiche: Während LLMs primär in Bereichen eingesetzt werden, in denen es um die Verarbeitung und Erzeugung von Sprache geht, könnten LAMs eine breitere Anwendung in der physischen Interaktion mit der Umwelt oder in spezialisierten digitalen Aufgaben finden.

Für einen weiterführenden Deep-Dive empfehle ich diesen Artikel.

Es kündigt sich eine neuartige Gattung von LAM Endgeräten an.

Eine erste Hands-on Erfahrung mit neuartigen Endgeräten steht uns in Form des Rabbit R1 (keine Werbung) bevor, ein Produkt, das die Grenzen zwischen Nutzer und Technologie zu verwischen verspricht. Es steht für angewandtes LAM; die Plattform des R1 bildet das Rabbit OS, dies soll eine nahtlose, intuitive Interaktion ermöglichen. Apps werden nicht länger durch das Tippen auf einen Bildschirm, sondern durch natürliche Spracheingabe ausgeführt. Eine der Eigenschaften ist die Push-to-Talk-Taste am Rand des Geräts. Push-to-Talk erlaubt es den Nutzern, dem Rabbit R1 Sprachbefehle zu erteilen, ohne das Gerät in die Hand nehmen oder den Bildschirm berühren zu müssen. Die Möglichkeit, Aufgaben wie das Abspielen von Musik oder das Buchen einer Mitfahrgelegenheit auszuführen, und das ganz ohne Smartphone, deutet auf eine neue Ära der MTI hin.

Ein weiteres Merkmal des Rabbit R1 ist der geplante „Teach Mode“. Diese Funktion ermöglicht es den Benutzern, das Gerät selbst anzulernen und Anpassungen vorzunehmen. Die Entwickler versprechen, dass diese Funktionserweiterung in naher Zukunft für Überraschungen sorgen wird, was das Potenzial von LAM-Endgeräten weiter unterstreicht. So könnte einem LAM-Device beigebracht werden, genau auf die eigenen Bedürfnisse und Vorlieben zu reagieren – ein weiterer Schritt in Richtung personalisierter Technologie.

Das Rabbit R1 steht für eine nächste Generation von LAM enabled Devices, und kündigt einen Paradigmenwechsel in der Interaktion mit digitalen Diensten an. Mit LAM enabled Devices könnte die Vision einer vollständig integrierten und persönlich zugeschnittenen digitalen Erfahrung Wirklichkeit werden.

Die Entwickler des Rabbit R1 sind im ersten Quartal 2024 eine Kooperation mit Perplexity Ai eingegangen, mehr zur Suchmaschine für Dialoge mit Informationen: hier.

Zurück zur Startseite.

Aktuell in der Kategorie: