Episode: AI, Robotics, VR, AR & Quantum Computing mit Rene Schulte Head of 3D & AI Practises bei Reply
Links und Kontaktmöglichkeiten
- Rene Schulte auf LinkedIn: https://www.linkedin.com/in/sebastian-scheele/
- Rene Schulte auf X: https://x.com/rschu
- Rene's Podcast bei Reply: Digital Dialogues: https://www.reply.com/de/artificial-intelligence/digital-dialogues
- Reply: https://www.reply.com/de
- Andrew Ng AI Newsletter - the batch: https://www.deeplearning.ai/the-batch/
- Matt Wolfe AI Youtube-Kanal: https://www.youtube.com/@mreflow
Links und Empfehlungen aus der Episode
- Von Angesicht zu Angesicht mit Luigi Einaudi
- Paul Ekman's Emothions-Theorien
- Casey Neistat’s Apple Vision Pro video is a wild ride.
- Meta: Introducing Orion, Our First True Augmented Reality Glasses
- Boston Dynamics Spot
- Engineered Arts: Ameca
- Unitree
- ROS - Robot Operating System
- Open RMF - A Common Language for Robot Interoperability
- Vision Action Language Model
Das Transkript der Episode
Hi, hallo und herzlich willkommen zu Beyond Code, dem Interview-Podcast mit den Machern und Experten aus der Textszene. Mein Name ist Felix Becker. Schön, dass du wieder da bist. Heute starten wir absolut durch mit den Trend-Themen aus der Szene. Wir sprechen über KI, wir sprechen Virtual Reality, Augmented Reality. Wir schauen uns das Thema Robotics an und finden heraus, was Embodied AI
machen einen kurzen Schwenker zum Thema Quantencomputing und noch viel Dafür habe ich einen absoluten Experten in dem Bereich heute zu Gast René Schulte. René Head 3D und AI Practices bei Replay. Darüber hinaus ist er ein 16-facher MVP bei Microsoft. Er ist Director von Microsoft. ist Global Advisory Board Member von der VA und R Association.
und im Advisory Board ein Member der XR René, diese Liste geht mit Sicherheit noch ohne Ende weiter, aber jetzt wollen wir starten. Herzlich willkommen zu Beyond Code. Schön, dass du da bist.
Ja, danke, dass ich hier sein darf, Ja, die ganzen Awards. Wen kümmert es einfach? Lass uns ein gutes Gespräch führen. Und 16-facher MVP, vielleicht korrekt, also 16 Jahre in Folge. Ich habe zwei MVP in der Azure AI Plattform, aber nicht 16 MVP-Titel gleichzeitig. Also nicht, dass jemand falsch versteht. Aber ist egal. Hauptsache, bisschen in der Community aktiv sein. Aber lass uns ein bisschen über die AI-Trends schwatzen.
Alles klar, danke für die Klarstellung. Wir starten gleich mit der obligatorischen Frage, wann hast du denn eigentlich zum letzten Mal Code geschrieben und was für ein Code war das?
Ja, das war vielleicht vor drei, vier Tagen oder so was. Und das war Python Code. Viel davon habe ich gar nicht selber geschrieben. Natürlich nutze ich mir entsprechende Tools heutzutage. Und ich habe einfach mal GPD 5 auch bisschen getestet und habe mir faktisch einen Deep Research Agenten mit Azure AI Foundry gebaut, der jetzt für mich so R &D Reports faktisch erstellt zu bestimmten Themen.
Und das ist eigentlich eine ganz coole Sache, weil dieses OpenAI O3 Modell ist das, das Deep Research da. Das kannst du gar nicht direkt nutzen, wenn du das über Azure OpenAI Services nutzt, sondern das ist wie ein Tool für einen Agenten. Das heißt, du musst einen Agenten bauen. Und da entsprechend dann musst du das natürlich mit Python Code ansteuern. Entsprechend kommt dann, das läuft so fünf bis zehn Minuten, kommt drauf an, dann kriegst du so einen schönen Research Report raus. Es ist ganz nette Sache, ist aber auch nicht ganz billig. ⁓
5 bis 10 Euro pro Run ungefähr. Der frisst da richtig viele Tokens. Aber die Qualität ist wirklich gut, muss ich sagen. Das ist wie eine Web-Recherche, bloß halt, dass du die automatisiert laufen lassen kannst.
Research on steroids, spannend. Was auch sehr interessant ist, dass du nicht nur trockene Research machst, sondern du wennest es auch gleich an dem Code selbst, bist dort aktiv. Richtig gut. Wie bist du denn eigentlich zur Technologie gekommen? Was waren so deine ersten Schritte? Wie hat es dich da hingebracht, dass du jetzt Code ist und das Thema Virtual Reality AI und das alles deine Hauptthemen sind?
Ja, also ich fange jetzt mal beim Kindergarten an. Lass mir das mal weg. Aber kurz kurz darauf. Anfang der 90er war so meine meine Phase, wo ich angefangen habe. Komodoro Amica war das was irgendwie hatten wir in Amiga 500. Meine Eltern hatten Amiga 500 gekauft und damit habe ich angefangen und da war ich dann gehuckt sozusagen, was das ganze Thema Computing angeht. Hab damals noch wenig programmiert, eher das so genutzt. Ein paar Sachen haben wir schon
programmiert, da muss man jetzt nicht im Detail drauf eingehen, was man da gemacht hat. ja, war ganz cool. Genau damit habe ich so angefangen. Das hat mich so den Virus vielleicht deniziert, wenn du so willst. Und danach habe ich dann studiert, Medieninformatik studiert und da habe ich mich immer fokussiert, so bisschen auf Real-Time, 3D, die ganzen Sachen, auch physikalische Simulation, alles sowas. Irgendwo, wo was Cooles passiert, bunte Sachen, nicht nur einfach eine Datenbank oder so, sondern wirklich auch Interaktion, Your Access.
Aber auch so, sag ich mal, so Bleeding Edge Technology, so real-time 3D, ja zu der Zeit damals noch, gab es so DirectX gab es dann schon. Und da musstest du wirklich auch hier C++ noch programmieren, solche Sachen. War noch ein bisschen mehr zu tun als jetzt, wo du schön Unity hast und so was, wo du dann mit Unity oder Unreal dann entsprechend solche Engines hast, wo du schönes Tooling dazu hast. Aber genau, so bin ich dazu gekommen und, wie gesagt, dann studiert und hab dann für verschiedene Firmen gearbeitet. Aktuell bin ich bei Reply.
Wie du gesagt hast und leitet dort verschiedene Innovations Teams zu ja, verschiedensten Themen, die du auch genannt hast, also AI, Real-Time, 3D und so weiter. ja, macht halt super Spaß, einfach da immer an der, sag ich mal, so an den Bleeding Edge Themen dran zu sein, an den sogenannten Emerging Technologies. Ja, das ist immer so ein Fokus von mir, diese Innovation System.
Ja, bleeding edge hat auch immer bisschen was mit Schmerz zu tun und Blut. Spürst du das auch bei den emerging technology öfters?
Mh.
Ja, ganz klar. Super Frage. Denn ich sage immer, heißt auch nicht Bleeding Edge umsonst. Das heißt halt, weil man auch bleedet on the Edge sozusagen. Und das ist wirklich so ab und zu. Das geht aktuell ist es weniger, aber es war früher halt immer noch noch krasser. Wir haben zum Beispiel auch Xbox 360 Apps entwickelt. Das war Silverlight Stack damals. Da hatten wir so einen Silverlight Stack gebaut, einen Custom Stack für Xbox 360 Development.
Versuch da mal was online zu finden, wie du das programmierst. Also da ist es dann schwierig. Da findest auch nicht mit Stack Overflow oder auch die Sprachmodelle haben einfach nicht viel Daten dazu drinne. Deswegen musst du dann halt auch immer viel selber einfach ausprobieren. Und es sind natürlich auch immer Buggy Code dabei. ja, das gehört dazu. Aber das ist irgendwie auch ein bisschen spaßig.
Ja, das macht es auch spannend, nicht nur klassische Line-of-Business-Applikationen, sondern auch wirklich mal dort hinzugehen, wo neue Ufer zu erforschen sind. haben eingangs hast schon erzählt, du beschäftigst dich sehr viel mit AI. Kannst uns vielleicht kurz abholen, was sind so die Trends 2025, die du im Umfeld AI so siehst aktuell?
Ja, absolut. Gibt es eine ganze Reihe von Trends? Natürlich müssen wir sagen, ein großer Trend sind die kleinen Sprachmodelle. Die werden auch häufig offene Modelle genannt oder Open-LLMs oder Open Source Models. Da würde ich direkt erst mal sagen, stimmt nicht. Weil warum werden die als Open Source Modelle bezeichnet, wenn ich überhaupt nicht den Quellcode habe? Das ist irgendwie bisschen seltsam, aber gut, sei es drum.
Aber wir haben Modelle zum Beispiel vom Paul Allen Institute in Seattle, die sind wirklich open source. Die veröffentlichen halt nicht nur das trainierte neuronale Netz. das ist ja ein Binary Blob im Endeffekt. Du hast irgendwelche Matrizenwerte, also irgendwelche numerischen Werte und das ist dann dein offenes Modell. Das kriegst du von Meta, von Llama und verschiedenen anderen Modellen. Du kriegst einfach dein Open Weight Modell. Das ist eigentlich was es ist. Du kriegst die Gewichte und dann kriegst ein trainiertes neuronales Netz. Also zum Beispiel Paul Allen Institute mit den MoLMo Modellen.
die veröffentlichen die Trainingsdaten und den Code. Also die ist wirklich open source. Da muss man auch gut aufpassen mit den Lizenzen. MetaLama beispielsweise, kommerzielle Nutzung, das sind so Speziallizenzen auch teilweise. Also muss man ein bisschen aufpassen, aber dennoch sind das natürlich Trends, ganz großer Trend sind die kleinen Sprachmodelle. Ja, und es ist immer so, du hast halt diese großen Foundational Models von OpenAI mit GPT oder Google Gemini oder Anthropic Cloud und noch ein paar andere dabei.
Und die pushen natürlich immer so ein bisschen die Leistungsfähigkeit immer weiter. Und dann kommen kleine Modelle, die halt wirklich nur einen Bruchteil der Größe haben. Und die holen dann immer so ein paar Monate später auf und kommen dann den Benchmark auf relativ krass immer nachher dann irgendwann. GPT hat ja auch dieses OSS veröffentlicht, verschiedene andere. Und das Schöne ist halt, du kannst die teilweise auch, wenn die klein genug sind, lokal ausführen auf deinem Rechner. Und das ist natürlich auch ein großer Vorteil, wenn wir jetzt immer über Data Sovereignty und solche Themen reden.
dass man das lokal faktisch nicht nur auf dem Rechner, sondern du kannst es auch faktisch in deinem eigenen Server laufen lassen, ohne dass du jetzt unbedingt das in der Cloud hosten musst. Das ist natürlich auch eine Kostenfrage, du musst auf bestimmte Dinge beachten, aber du hast auch mehr Kontrolle bei den kleinen Sprachmodellen. Also das ist ein großer Faktor und natürlich der nächste Trend ganz klar Agentensysteme, dass ich sage, ich nutze nicht nur ein so ein Modell, sondern mehrere davon, baue mir so ein Multi-Agentensystem beispielsweise und da kann ich natürlich mit so einen kleineren Sprachmodell
auch viel Bewerkstelligen und gerade was der Kostenpunkt angeht, muss man natürlich auch da ein Auge drauf haben. Das sind so ein paar Trends und natürlich Multimodalität. Das heißt, die Modelle verstehen immer mehr Datentypen und können auch immer mehr Datentypen generieren. Das heißt, ganz klar, Beispiel ChatGPT mit GPT Vision. Ich weiß gar nicht, wann sie eingeführt haben. Ich glaube, mit 3, 5 oder 4 oder irgendetwas. Da kam dann so GPT Vision. Kann man dann halt faktisch ein Bild hochladen.
und eine Frage dazu stellen im Prompt und dann beschreibt er das. Das sind dann solche Vision Transformer Modelle, die das dann halt implementieren. Damit hat es angefangen, können mittlerweile eigentlich alle Modelle, auch die kleinen Modelle gibt es welche, die so eine Vision Funktionalität haben. Das ist aber bloß zwei Modalitäten, Text und Bild. Stell dir vor, du nimmst ein Video dazu, nimmst 3D-Daten dazu. Es gibt auch Forschung an der, ich glaube, oder ich weiß nicht, ob es ETH Zürich ist oder DIN LUSANZ, kann auch sein, also nicht, wenn es jemand hört.
der an den Unis studiert, nicht mich jetzt hauen, wenn ich das irgendwie durcheinander bringe. Es gibt dann ein Modell, das hat, glaube 24 Modalitäten, was das unterstützt, was sie da entwickeln. Und da sind zum Beispiel auch Sensordaten dabei. Das ist zum Beispiel Spektralinformation oder Tiefendaten, von so einer RGBD-Kamera noch mit reingeben kann. Das ist nicht nur die Farbinformation, sondern auch die Tiefeninformation. Dass ich die ganzen Modalitäten mit in so Modell geben kann und es kann damit was anfangen.
Und dann auf der Ausgabeseite natürlich auch verschiedene Modalitäten erzeugen. Nicht nur Bilder erzeugen, sondern auch Videos beispielsweise und so weiter und so fort. Und da gibt es natürlich auch viel Fortschritt. Denn da ist wirklich wohl noch die große Schwelle ist im Vergleich zu Menschen. Menschen sind immer noch besser vor allen Dingen im Verarbeiten von diesen multimodalen Daten, also die ganzen Sensordaten. Wir haben ja viele Sensoren auch selber als Menschen, die ganzen Sinne, die wir haben.
und die können wir natürlich auch multimodal verarbeiten als Menschen in unserem Gehirn. Und da sind natürlich die Modelle noch nicht so weit, was das angeht. Aber in bestimmten Benchmarks, zum Beispiel Textdarstellen oder Bilderkennung zum Beispiel für Melanome oder so was, Hautkrebs und so was, da sind die Modelle besser schon als Menschen mittlerweile. Also für bestimmte spezifische Anwendungsfelder. Aber so dieses generische Multimodale, ist so die große Barriere noch, wo Menschen deutlich besser sind.
Ja, super spannend. Bist du eigentlich eher in einem Team? Viele verschiedene kleine Modelle, so die Unix-Philosophie, ein spezialisiertes Modell und die dann zu orchestrieren oder sagst du, du gehst eher auf die großen Modelle, die dann halt multimodal arbeiten? In welchem Lager bist du oder kommt das für dich auf den Use-Case an?
Ja, also absolut, wie du gesagt hast, kommt immer auf den Use Case an. Ich bin natürlich ein großer Freund von den kleinen Modellen, zumal ich einfach mehr Kontrolle darüber habe. Die sind halt dann doch ein bisschen offener als das angeht. Und ich kann natürlich auch, wie gesagt, das lokale Tunen noch. kann das noch feintunen, kann es noch spezifisch für meine Anwendungsfälle anpassen. Das ist sehr gut, finde ich. Auf der anderen Seite hast du natürlich immer die großen Breakthroughs mit den großen Foundation Modellen. Da kommen dann immer die neuen tollen Features.
Deswegen hängt vom Anwendungsfall ab, was willst du machen? Wie ist deine Umgebung? Wie ist auch deine ganze, gerade das Thema Data Sovereignty? Wie willst du jetzt Abhängigkeiten gestalten? Und so weiter. Es ist ja heute in geopolitischen Situationen immer eine ganz große Frage auch, die sich dann stellt. Und von daher hängt vom Anwendungsfall ab. Aber prinzipiell bin ich großer Freund von den Kleinmodellen. Ganz klar, dass du dann halt mehrere davon orchestriert hast. Kann man ja auch noch mal drüber reden, wie das so gestaltet wird, wie das mit den Agenten zusammenhängt.
Weil es wird auch so bisschen immer, ja, für den einen ist der Agenten das, für den anderen ist der Agenten wieder das. Das ist alles ein bisschen schwammig heutzutage, aber es gibt ja schon ein paar klare Punkte eigentlich.
Ja, kommen wir gleich dazu. Vorher noch mal, du hast von den multimodalen Modellen gesprochen. Im Vorgespräch hast du gesagt, es gibt da noch eine andere Sache, heißt diese Joint Embeddings. Was ist denn der Unterschied oder was sind Joint Embeddings und wozu und wie nutze ich sie?
Ja, ja, Wenn du dir dieses GPT-4-O-Modell beispielsweise anguckst, das hat zum Beispiel Joint Embeddings für Audio-Token und für Image-Token und Text-Token. Was das bedeutet, ist, diese Modelle funktionieren ja mit sogenannten Embeddings. Das heißt, dein Text, da wird ja, wenn du ja Text eingibst, dann wird es ja zerbrochen in Tokens. Man könnte sagen, Silben. Es ist nicht immer eine Silbe exakt, als würde so kleine Bausteine zerhackt sozusagen. Das ist Token.
Und dann gibt es jetzt Texttoken beispielsweise. Ich nehme Text, trainiere das mit diesen Texttoken. Wenn ich auch Joint Embeddings mache, heißt, ich habe nicht nur einen Texttoken, sondern habe dazu noch das passende Audioschnipsel und vielleicht noch das passende Bildschnipsel. Und das kann ich dann, diese sind ja faktisch gejoint, sozusagen, in einem Embedding und damit trainiere ich dann mein Modell. Das heißt, das hat dann ein Verständnis nicht nur von dem Text, sondern auch, wie dann zum Beispiel der Zusammenhang ist von der Phonetik. Wie klingt das?
beispielsweise. Und das ist auf der Ausgabeseite dann auch. Das merkt man, man zum Beispiel bleibt beim ChatGPT mit dem mit dem 4o. Wie gesagt, die anderen, ich will sie niemanden bevorzugen. Aber wenn ihr Gemini, Anthropic und wie sie alle heißen, die haben alle ähnliche Dinge schon mittlerweile. Aber was die halt dann können, ist dann in Echtzeit auch Sprachverarbeitung. Das Gbt 4o. Wenn man vielleicht die Chat Gbt App hat, da gibt es dann dieses Real Time Voice Conversation, was sie dann auch schon vor vielen Monaten mittlerweile eingeführt haben.
Das funktioniert nur, wenn ich diese Joint Embeddings habe, weil das in Echtzeit auch die Token produzieren kann und ausgeben kann. Da sieht man dann den Vergleich zu anderen Modellgruppen oder Systemen im Endeffekt, wo die mehrere dedizierte kleine Modelle haben, oder nicht unbedingt kleine, können auch schon große Foundation-Modelle sein, und die dann sozusagen verketten. So ein Chain of Models. das gibt es zum Beispiel, könnte ich sagen, ich mache eine Kette mit einem Modell, eins, was eine Vision hat.
Da gebe ich ein Bild rein und das erkennt mir und beschreibt mir alles, was in dem Bild ist. Sagen wir mal, ist eine Szene, wo ein Vogel im Wald sitzt und an, was ich am Fluss, Wasser trinkt oder irgendwas. Und das wird mir beschrieben textuell. Und das kann ich dann in ein anderes Modell rein geben. Zum Beispiel gibt es ein Audio-LDM-Modell. Und das erzeugt mir dann aus einer textuellen Beschreibung den Audio. Und da kann ich faktisch sagen, gib mir mal Bild zu Audio. Da kriege ich dann praktisch dann schön, höre ich dann den Vogel-Switcher, nur wieder Wasserplätschert und so weiter. Und das sind aber zwei Modelle verkettert.
Das ist kein Joint Embedding. Das sind zwei verschiedene Modelle. Ich nutze die Ausgabe des einen als Eingabe für das andere, für die Audio-Generierung. Bei Joint Embeddings ist es so, dass ich das alles in einem Modell habe. Dadurch ist die Qualität besser und vor allen die Latenz ist deutlich besser. Wenn man das 4-Ohm-Modell mit Real-Time Audio benutzt auf seinem Telefon, da gibt es auch noch das Real-Time Vision, das noch die Kamera offen ist. Da hat man dann Echtzeit zu Video, die machen im Endeffekt auch Screenshots. Das ist nicht die ganze Zeit Video live.
Aber das funktioniert halt auch nur in der Geschwindigkeit, weil die diese Joint Embeddings nutzen. Und dahin geht es natürlich. Und deswegen werden teilweise die Modelle auch größer und schwieriger zu trainieren. Aber das kommt halt näher dran an dieses komplexere Verständnis, wenn du so willst.
Also ganz klar ist das der Geschwindigkeitsvorteil, wir haben und wahrscheinlich auch eine höhere Qualität irgendwann. Aber nichts für uns als Entwickler jetzt zu nutzen, sondern das machen die großen Modelle, die viele Daten haben, die viel Rechenleistung haben, die großen Modelle noch größer und noch besser zu machen.
Es gibt natürlich auch die kleineren Modelle, multimodal sind. Quan von Alibaba. Es gibt viele andere mittlerweile. Da gibt es seine bestimmte Spezialisierung. Also wie gesagt, die Small Models, die holen sie immer ein bisschen auf, wenn du so willst.
Ja, spannend. Du hattest Agents schon mal kurz angesprochen. Sind Agents nur Workflows auf Steroids Du hattest gesagt, da gibt es so paar Sachen, die man oft verwechselt, aber dann gibt es noch eine klare Definition. Klär uns doch bitte auf, wie es mit den Agents so aussieht und wie die richtige Herangehensweise bei Agents ist.
Ja, absolut. Ja, aber diese ganze Agent Tem... Agentic AI, diese große Bass und diese großen Verteiler, die da faktisch überall benutzt werden und ja, 2025, Agentic Transformation und überall hört man das. Aber wovon reden wir eigentlich? Das ist immer natürlich die Frage. Also zwar kann man das vielleicht so aufschließen, ja. Du hast als erstes hast du Assistenten, dann hast du Agenten und dann hast du Multiagenten-Systeme. Und das fängt, gesagt, mit dem Assistenten an.
Und es ist zum Beispiel, wie gesagt, beim OpenAI, bei den GPTs oder bei Microsoft die Co-Piloten, du kannst faktisch deinem Assistenten gewisse Instruktionen geben. Du bist jetzt ein Assistent, der das und das kann. Und da hast du dann den Chat Interface und dann kannst du dich damit unterhalten. Aber da ist keine Auton... Die sind nicht autonom. Die handeln faktisch, ist wie eine Konversation. Das ist ein Assistent. Wie gesagt, kannst du noch mal spezifisch definieren mit solchen Instructions, auf was er sich spezifizieren soll.
Aber hier ist halt keine Autonomität. die sind halt wirklich Eingabe, Ausgabe sozusagen. Wenn wir jetzt Agenten betrachten, dann ist es so, ich gebe halt da schon ein bisschen mehr an Kontrolle ab an den Agenten, sodass sie dann autonom bestimmte Aufgaben erfüllen können. Und das könnte zum Beispiel sein, was ich erzählt habe mit diesem Research Agent, den ich jetzt gebaut habe, den gebe ich so grobes Ziel vor und dann arbeitet dieser Agent völlig autonom.
und iteriert dann auch teilweise mehrfach und kann auch externe Tools nutzen. Jetzt in dem Fall, beispielsweise mit dem Research Agent, nutzt er dann Web Search. Also kann dann auch external Tool Calling machen, kann auch vielleicht andere APIs anbinden und die dann mitbenutzen. Da spielt auch dieses ganze MCP und A2A eine ganz große Rolle, dass ich so Schnittstellen habe. Dieses MCP ist im Endeffekt Interfaces, die Applikationen anbieten können.
damit dann solche Modelle damit interagieren können, autonom. Oder verschiedene andere. Also, das ist schon agentfaktisch, ein Single Agent sozusagen. Und die sind halt, das ist der große Unterschied zu Workflows, weil du das angesprochen hast, die sind natürlich auch, wir reden hier von probabilistischen Modellen. Also, die ganzen AI-Sachen sind da nicht deterministisch immer. Also, da kommt immer mal bisschen was anderes aus. Es kommt auch darauf an, was du für einen random seed nimmst, einzusteigen, das Modell. Das ist nicht immer exakt. Das kannst du natürlich weiter...
eingrenzen, im Endeffekt, wenn du so ein Grounding nutzt. Und das wird immer besser. Und die Halluzinationen gehen auch massiv zurück, wenn man sich die letzten Benchmarks so anguckt. Das wird auch immer besser. es dennoch sind es probabilistische Modelle. Das ist ganz wichtig. Und dann kann ich nicht nur ein Agent nehmen, sondern mehrere Agenten. Das sind dann solche Multiagentensysteme. Und da kann ich zum Beispiel diesen Agenten verschiedene Rollen geben. können dann auch jeder Agent kann dann ein spezifisches Modell nutzen. Wenn man jetzt sage, wir bleiben bei der Softwareentwicklung.
ein Multi-Agenten-System für eine komplette Softwareentwicklung. Da könnte ich zum Beispiel sagen, ein Agent ist der Coder sozusagen, der implementiert. Der andere Agent ist zum Beispiel einer, der die Kundenanforderungen in Requirements übersetzt oder so was. Und dann hast du noch einen für Q &A und dann hast du vielleicht noch einen Projektmanagement, der dann immer guckt, ob die Tickets alle getrackt sind und was auch immer. Dann kannst du so diese Rollen abbilden als verschiedene autonome Agenten, die dann aber meistens gibt es dann noch einen zentralen Agenten, der das dann so alles ein bisschen steuert.
Und da ist dann auch der Mensch natürlich auch mit beteiligt. Aber du hörst schon, umso mehr ich von diesen Agenten nutze, umso mehr ich den Aufgaben abgebe, umso höher wird natürlich die Komplexität. Aber auf der anderen Seite umso geringer wird der menschliche Aufwand, den ich betreiben muss. Und das ist natürlich dann auch zu den verschiedenen Ebenen, von den verschiedenen Levels der Autonomität, wenn du so willst. Also zuerst der Mensch, dann der Mensch mit Agenten, dann haben wir Agenten mit Menschen.
Und dann irgendwann mal wird es Agent First with Human Oversight. Das ist dann wirklich, ja gerne machen und du guckst ab und zu mal, ob das so in dem richtigen Bereich läuft.
Ja, super spannend. Was für mich in der Praxis oft ist, ist, wenn ich jetzt solche ... agentic IDE's hab zum Beispiel, da gibt's ja einige, die das Thema jetzt schon aufgreifen oder vielleicht simulieren, wie auch immer. Auf jeden Fall, wenn man merkt, da sind mehrere Rollen, einfach loslaufen und dann arbeiten die und machen, machen und irgendwann erkennt man, da stimmt was nicht. Und meistens, wenn man dann wieder zurück will, dann verwuschelt man sich. Ich sag dann immer so, es ist genauso ...
mit der KI zu diskutieren, wie mit der Frau, du kannst ja nur noch verlieren und fängst dann am besten wieder drei Schritte von hinten an. Stichwort Human in the Loop, wie machst du das denn in der Praxis? Also wenn die dann so alle loslaufen, also ich hab mir jetzt angewöhnt, denen so einen Plan mitzugeben in einzelnen Schritten, sag mal hier, stopp nach dem Schritt und zeig mir das. Also wie sind denn deine Empfehlungen, weil meine Einschätzung oder meine persönliche Geschichte ist dort, wenn die zu viel
Auf einmal machen wird es dann meistens nichts werden. Wie siehst du das oder mache ich das einfach nur falsch?
Das ist ein guter Punkt. Man muss ganz klar sagen, ist auch massiver Hype in dem Thema drin. Da ist auch bisschen Overhype, muss ich ganz klar sagen. gerade wenn man das immer hört, immer überall, irgendwelche Marketing-Buzzwords, ja, agentic, agentic und überall und dies und das. Und ja, die Agenten, die werden dann die ganzen Softwareentwickler ablösen und so weiter. Ja, Pustekuchen. Also sehe ich überhaupt nicht so. Sehe ich einen ziemlichen Overhype drin, gerade weil genau was du sagst. Wenn man sich mal damit befasst und wirklich was damit macht, dann kommt man halt häufig an den Punkt.
wo dann halt irgendwelcher Quatsch passiert. Wie kann man damit am besten umgehen? Wie sagst durch Checkpoints, dass man sagt, mach mal nicht ganz so viel, gib mir mal immer einen Checkpoint, alle paar Schritte raus, finde ich ganz gut gelöst. Was GitHub da mit dem Coding Copilot Agent gemacht hat, da kommt dann auch manchmal zu dir zurück sozusagen für dich als Mensch und fragt dich dann, wie er vielleicht weitermachen soll. Das fand ich eigentlich eine ganz gute Lösung. andere, man kann ja auch zum Beispiel von so Agenten zum Beispiel auch
komplett jetzt Browser bedienen lassen. Dieses Computer Use Agent nenne ich es sich CUAs, wenn das mal jemand schon gehört hat. Gibt es auch einen Chat GPT, die nennt es den Agent Mode. Dann hat Perplexity diesen Comet Browser entwickelt. Dann gibt es jetzt ein Open Source Projekt, das nennt sich CUA, Open CUA oder so was. Was die machen, und Endeffekt bedient dann so ein Agent...
visuell zum Beispiel eine Website und bedient dann die Website für dich. Und die kommt dann zum Beispiel auch zurück, wenn dann eine Stufe ist, was ich muss sich irgendwo einloggen. Ja, dann kommt die dann zu dem Nutzer. Hey, log dich mal ein und dann gibst du die Kontrolle wieder zurück. Aber noch mal zu dem Human in the Loop Thema zu kommen, was halt wirklich ganz wichtig ist, essentiell, dass der Mensch immer noch die Entscheidungen trifft, weil es dann dennoch ab und zu mal Halluzinationen gibt. Und natürlich, wie schon sagte, nicht deterministische Modelle kann halt auch mal irgendwas Komisches bei rumkommen. Deswegen ist immer wichtig, dass man dann immer noch mal eine Kontrolle hat.
Ein anderes Beispiel, das wir bei Replay, beispielsweise für Kunden entwickelt haben, ist so ein Multi-Agenten-System im Bereich von Engineering zu diesem V-Cycle. Ich weiß nicht, ob du ihn kennst, so diesen Validation Cycle. wird halt auch im Automotive benutzt, wo du dann sagst, muss für jede Komponente, die ich implementiere, eine Validierung haben auf der anderen Seite. Und da haben wir faktisch Agenten dafür erstellt. Und die machen dann zum Beispiel eine Analyse von den Tests oder von der Simulation. Wenn ich jetzt eine Autosimulation habe, gibt es da verschiedenste...
Agenten oder einer, der sich nur die Logfiles anguckt und die analysiert und die aggregieren dann faktisch ihre Ergebnisse. Das geht dann nochmal an so einen Supervisor Agent, der das dann nochmal ein bisschen aufbereitet und dann geht es an den Menschen und erst der macht dann den Haken. Ist ja auch immer eine Frage, was rechtlich angeht. Im Endeffekt für viele Prozesse kannst du das ja gar nicht rechtssicher dann komplett abdecken lassen, dass du das komplett autonom machen lässt. Hätte ich auch mal eine Bauchschmerzen mit, zumal bei der aktuellen, wie gesagt.
Diese immer noch probabilistischen Modelle, und das werden die auch immer bleiben, das ist einfach die Grundstruktur von unserem Transformer-Modell, das ist die Architektur, dahinter hängt von solchen Sprachmodellen, ist einfach so, das wird sich nicht ändern. Deswegen Human in Loop, ganz wichtig, und wie du schon sagst, schön Checkpoints einbauen, dass ich auch immer zurückgehen kann. Finde ich ganz cool, wie es zum Beispiel Replit gelöst hat, das ist auch so eine Vibe-Coding-Plattform, die machen dann immer automatisiert zu Checkpoints. Und dann kannst du dann sagen, wenn dann doch mal was falsch gegangen ist, okay, geh mal zu dem Checkpoint zurück.
hängt auch oftmals am Kontext-Window von den ganzen großen Modellen. wenn du ein großes Kontext-Window hast von so einem Modell, wie zum Beispiel, ich glaube, Anthropic hat es jetzt erhöht, auch auf eine Million, Gemini hat auch eine Million, Tokens als Eingabe, da kann es schon richtig viel Code abdecken. Und du musst ja immer vorstellen, jedes Mal, du eine Kononvorsion führst, umso länger die wird, umso länger die wird, das muss ja alles im Kontext behalten. Das hatte ich jetzt letztens auch, wo ich mit GPT-5 dieses Coding gemacht habe. Ich glaube, die haben 128 K, also nicht fest auf der Zahl, aber die haben keine Million Kontext-Window.
Und irgendwann hab ich gemerkt, er hat vergessen, was er am Anfang gemacht hat. Ich hab irgendwann an die Grenze des Kontextwindows gekommen. Das muss man auch immer im Kopf behalten. Wichtig ist, dass man versteht, wie die Dinge funktionieren.
Ich glaube, das ist entscheidend. Die Modelle im Detail verstehen, wie sie ticken, aber auch das Denken in Wahrscheinlichkeiten, das ist ja auch was, was bei uns irgendwie nicht so gebräuchlich ist. Also Leute spielen Lotto, obwohl die Wahrscheinlichkeit in die Millionen gehört, aber haben zum Beispiel Angst davor, ein Investment zu tätigen, was eine 70 Prozent Gewinnchance hat. da sind wir Menschen so, müssen wir uns dran gewöhnen. Aber ich glaube, das ist ein wichtiger Skillset, den wir aufbauen müssen. Du hast eben schon
mal das Wort Supervisor erwähnt in dem Agententhema. Geht das dann schon in die Richtung Agent Society und Agent Swarms oder ist das nochmal was anderes?
Das ist noch mal was anderes. Das deine Implementierung. Das kann ich jedem nur empfehlen. Das ist so ein Pattern, was sich etabliert. Dass man sagt, okay, hat es auch das Beispiel gebracht mit der Softwareentwicklung, dass du so Multi-Agenten-Systeme hast. Du hast die verschiedenen Rollen. Jeder Agent hat eine Rolle. Und dann gibt es den Boss-Agenten, du so willst. Oder den Team-Lied-Agenten. Und der orchestriert das so bisschen. Wir sagen, entweder Supervisor Agent oder auch gerade im Bereich von Robotik sind es dann Orchestration Agent, der das alles so bisschen orchestriert.
der faktisch so der Dirigent oder so kannst du auch nennen aber Agent Smith, der Super Agent, genau, ja, genau, das ist eine coole Analogie. Genau, das ist einfach ein gutes Pattern, dass du das ein bisschen steuern kannst und dass dann der faktisch die Ausgaben mit dir validiert, dass du dann immer das anschaust davon und dann entsprechend Feedback gibst. Das ist schon, denke ich, ein guter Ansatz, man da machen kann, dass man sagt, okay, ich habe so einen Supervisor oder so.
Agent Smith von Matrix quasi.
zentralen Agent.
Und diese
Agent Societies, ist das jetzt Skynet? Ist das was, was man ausprobieren sollte oder ist das eher was, was nur Tokens verbrennt? Hast du damit schon mal gearbeitet aktuell? Wie ist denn da deine Einschätzung? Was ist das überhaupt?
Ja, also diese ganze Thematik, Agent Society und Multiagentensysteme, wir müssen uns ja überlegen, wir werden dann irgendwann faktisch hinkommen, dass wir so eine Art Agent, also wir haben jetzt zum einen, was wir jetzt schon haben, ist die ganzen Hyperscaler, eine Microsoft, eine Google und eine Amazon und wie sie alle heißen, die haben alle diese Agent Factories.
irgendein Offering, irgendein Service, wo du dir Agenten relativ simpel bauen kannst oder halt auch nicht simpel, so eine Co-Pilot angefangen, kannst relativ simpel zusammenklicken, wenn es dann doch ein bisschen tiefer geht, machst du es halt mit Azure AI Foundry im Microsoft Stack, dass du dann sagst, okay, ich entwickle jetzt meine Agenten halt wirklich mit Code, mit Python oder was auch immer du da nimmst. Das sind dann so diese Agent Factories, das bieten die alle an. Und was natürlich auch schon manche anbieten, aber noch nicht alle, sind dann solche Agent Marketplaces, dass du dann deine Agenten oder deine Multi-Agenten-Systeme dann natürlich auch so
marketplace anbieten kannst. Was ich, Hugging Face oder Open AI, GPT Store und so weiter, kannst du die dann anbieten. Und der nächste Schritt ist dann diese Agent Society, dass ich halt bei meinen Agenten, kann ja auch mein Agent, wenn ich das Agent sage, kann es auch Multiagentensystem sein, aber bei meinem System biete ich Schnittstellen an, mit deren andere agentische Systeme zusammenarbeiten können. Ich stelle dir vor, zum Beispiel
Wie gesagt, die ganzen großen Firmen, die Salesforce, SAP und wie sie alle heißen, die haben natürlich auch ihre Multi-Agenten-Systeme, die die dann schon anbieten, faktisch, die du mit nutzen kannst. Und jetzt hast du aber keine Schnittstelle. Und wenn du jetzt aber sagen willst, ich will von meiner Microsoft-Welt damit arbeiten, da brauch ich halt dann Schnittstellen entsprechend. Da hat Google dieses A2A, dieses Agent-to-Agent-Protokoll vorgestellt. Und das ist dann, wie gesagt, diese Agent Society. Wir haben dann halt solche heterogenen Agentensysteme, die aber irgendwie auch miteinander zusammenarbeiten müssen, so wie in unserer Gesellschaft.
Jeder ist bisschen anders gestrickt, aber wir gehen auch gut miteinander Deswegen ist wichtig, da gute Schnittstellen zu haben. Und das ist diese ganze Agent Society. Da wird noch viel kommen, denke ich, was dann auch eine große Rolle spielen wird. Weil du hast, glaube ich, auch irgendwie dieses Thema Blockchain schonmal angesprochen, wie da der Hype so bisschen drin ist, ob das so ähnlich ist mit Blockchain. Ist natürlich schon viel Hype drinne. Aber gerade wenn wir von Blockchain reden, sehe ich hier vor allen Dingen auch noch einen großen Faktor, der interessant sein könnte.
dass man den ganzen kommerziellen Aspekt vielleicht dann über sowas abbildet. Dass man dann sagt, ich kann auch wirklich Transaktionen durchführen. Also richtig monetäre Werte verschieben und das könnten dann die Agenten zum Beispiel machen in solchen Agent-Societies, dass sie dann auf Blockchain auch mit aufsetzen, dann halt wirklich solche Transaktionen nachverfolgbar und unveränderbar faktisch abzudecken.
Wow, richtig interessant, was die Zukunft noch bringen wird. sind alle gespannt. Du hast sehr viel Hintergrund mit der visuellen Verarbeitung. Und jetzt gibt es ein neues Thema, oder ich weiß gar nicht, wie neu es ist. Der Digital Human. Das heißt, wir haben jetzt plötzlich eine visuelle Repräsentation von einem Mensch, der ziemlich echt aussieht und auch in Echtzeit mit einem kommuniziert. Und da steckt eine KI dahinter. Erklär uns doch noch mal.
Ich bisschen besser, was ein Digital Human ist und wofür ich ihn benutze.
Ja, absolut. Digital Human ist im Endeffekt, dir vor, du hast zu deinem KI-Modell, dem gibst du ein Gesicht. Den gibst du nicht nur eine Personalität im Text, sondern auch visuell. So, und das ist es, was im Endeffekt das ist. Man kann natürlich noch 1000 andere Definitionen machen, aber das ist, was du häufig siehst, halt ein Avatar im Endeffekt, der halt dann in Echtzeit sich mit dir unterhalten kann. Und die Knowledge Base dahinter ist halt auch so ein großes Sprachmodell.
oder ein kleines Sprachmodell, kommt drauf an. Aber genau darum geht's. Ich kann mal ein Beispiele machen, ⁓ es weniger abstrakt zu machen. Wir haben beispielsweise mit der Luigi Inaudi Foundation zusammengearbeitet in Italien. Die haben den Luigi Inaudi, das war mal der zweite Präsident von Italien, die wollten die gerne wieder zum Leben erwecken, wenn du so willst, als Digital Human. Und da haben wir mit denen zusammengearbeitet. Was wir gemacht haben, wir haben das faktisch 3D modelliert, also den Kopf und alles in Unreal modelliert.
Dann mit Unreal Meta Human kannst du das schön lippensynchron in Echtzeit animieren. Und haben dann auch das ganze Wissen von Luigi Einaudi. Er ist wirklich ein Mann mit Expertenwissen, Wirtschaftsexperte, hat auch viel Paper und Bücher geschrieben. Und das ganze Wissen haben wir da reingegeben. Und dann kannst du auf die Website gehen, kannst mit Luigi in Unterhaltung führen über verschiedenste volkswirtschaftliche Themen, wenn du so willst. Genau, wir haben nicht seine Stimme genommen.
Weil er ist natürlich schon nicht mehr unter uns, er ist natürlich schon lange tot. Und da können wir nicht einfach seine Stimme klonen, obwohl es ja genügend Audiomaterial gibt. Aber das machst du einfach nicht, weil das ist natürlich dann auch, das ist immer ganz wichtig bei den ganzen Sachen, was wir so entwickeln. Was KI angeht, dieses ganze Responsible AI, Ethical AI Thema. Das wir auch wirklich überlegen, cool, ich kann ganz, ganz viel machen. Aber soll ich das in dem Fall machen oder ist es vielleicht nicht so ganz ethisch in dem konkreten Fall? Und es ist natürlich bei Stimmen klonen auch so eine Sache, wenn jemand schon
nicht mehr erlebt, dass man seine Stimme einfach so klonen sollte, man nicht machen. Aber das vielleicht nur am Rande. Das ist ein Beispiel für den Digital Human verschiedenste Anwendungsfälle. Wir haben auch mit zahlreichen Kunden zusammengearbeitet. Ich kann es leider nicht alle nennen, aber da sind auch viele Automobilhersteller dabei, dass man zum Beispiel so ein Kiosk-System hat. Ich kann jetzt zum Beispiel eine Autokonfiguration einfach mit natürlicher Sprache machen. Und ich sehe dann halt auch ein 3D Rendering von meinem Auto, wenn ich das verändere. Und daneben habe ich zum Beispiel noch eine Assistentenfigur.
so ein Digi-Human, der mich da bisschen durchführt und das ein bisschen auch empathischer gestaltet. Daher kommt es ja auch, dass ich nicht einfach so eine KI, so eine kalte KI, wenn du es willst, habe, sondern mehr dieses empathische, diese emotionale Komponente mit einfließen lasse. Und das ist die nächste Stufe, an der wir auch arbeiten, ist dieses Affective Computing. Also nicht Effective, sondern mit einem A-Affective Computing. Und da geht es darum, zum Beispiel auch die emotionale Situation des Gegenübers zu verstehen. Das kann ich zum Beispiel
Kann ich die Stimme analysieren? Da bekomme ich zum Beispiel raus nicht nur, die Person sagt, sondern auch, wie sie es sagt. Da kriege ich schon mal ein paar Faktoren. Dann kann es natürlich auch Gesichtsmimik analysieren, verschiedene andere Punkte. Da aber auch ganz wichtig natürlich, was das Thema Privacy angeht. Muss man gucken, kann man da überhaupt eine ganze Kameraanalyse machen? Gerade EU AI Act ist da restriktiv. Das darfst zum Beispiel nicht in bestimmten Umgebungen machen. So eine emotionale Analyse einfach von den Menschen, was auch prinzipiell gut ist, dass man sich einfach überall
die Dinge auffängen kann und es gemacht wird. Aber in bestimmten Anwendungsfällen macht das natürlich schon ganz konkret Sinn. Das ist die Eingabeseite bei Affective Computing. Also erst mal verstehen, ist der Mensch drauf. Und dann natürlich auf der Ausgabeseite auch diese ganzen Zustände auch zu simulieren. Da haben wir auch übrigens ein Multi-Agenten-System entwickelt. Da folgt das in einem Modell von einem Psychologen, heißt Paul Ekman. Und der hat zum Beispiel verschiedene Emotionen kategorisiert. Wer den Film kennt,
Da heißt auf Deutsch, alles steht Kopf, Inside Out. Nee, Quatsch. Ja, doch, alles steht Kopf heißt er. Da gibt es verschiedene Emotionen, die sind so im Kopf und die feuern und so was. So kann man sich das vorstellen. Das folgt übrigens dem Paul-Eckman-Modell, der Film. Und so kann man sich das vorstellen, hat dann unser KI-System im Endeffekt auch für jede Emotion einen Agenten. Und die feuern dann mit bestimmter Stärke auf eine Eingabe. Die sagen dann, okay
Die Eingabe macht mich traurig oder hyped mich ab. Oder ich werde wütend oder was auch immer. Die geben das an den zentralen Agenten. Der entscheidet, was die finale Emotion ist. empathisch auf das Gegenüber zu reagieren. Das verändert dann z.B. die Stimme. Man kann mit der Stimmensynthese die Emotionen übergeben. Oder die Gesichtsmimik verändern. Da ist man auch aktiv dran. Das ist schon echt cool.
Es aber noch viele Herausforderungen, Multikonversationen. Wenn mehrere Menschen einfach so reden, wer redet dann, wie erkenne ich das? Oder auch mal Memory faktisch für diese Modelle beinhalten, dass die sich merken, wer, was hat wann gesagt und so weiter. Da gibt es noch viele Sachen, die noch zu lösen sind. Aber da sind wir halt auch dran. Das ist wichtiger Punkt. Aber wie gesagt, mal zurückzukommen, Digital Human ist im Endeffekt ein digitaler Mensch. Und häufig sind natürlich KI-Modelle dahinter. Und ich habe auch eine visuelle Repräsentation.
Und vielleicht noch mal abschließend, weil ich das habe auch zufällig das T-Shirt an. Das habe ich jetzt gar nicht extra für den Podcast angezogen. Aber hier AI for Inclusion steht auf meinem T-Shirt. Ich weiß nicht, ob man es sehen kann, aber da hier so Hände drauf. Da arbeiten wir auch. Das machen jetzt die Kollegen in Italien. Da gibt es Zeichen. Italian Sign Language ist das ganz konkrete, also Gebärdensprache. Und es ist auch übrigens interessant, jedes Land hat auch andere Gebärdensprache. Also es gibt eine deutsche Gebärdensprache, gibt eine amerikanische Gebärdensprache.
Genau, American Sign Language. Es gibt nicht die englische Sign Language, es gibt direkt eine American Sign Language. Dann gibt es Italien Sign Language. Long story short, was machen wir da? Das ist einfach ein schönes Werkzeug mit einem Digital Human. ich faktisch so einen Gebärdendolmetscher auch natürlich abbilden, dass ich dann entsprechend dann die ganzen Zeichen damit abbilde, die... faktisch, wenn die Personen... Wir nehmen Audio Schnipsel, die Personen können das ja nicht hören, weil die zum Beispiel taubstumm sind.
Dann kann ich das mit so einer Digital-Human-Gebärdensprache anzeigen und auf der anderen Seite natürlich auch verstehen, also auch die Gebärdenzeichen erkennen. Und da arbeiten wir auch zusammen mit einem Team, so etwas zu lösen beispielsweise. Weil das einfach auch ein cooler Anwendungsfall, finde ich, da wirklich Mehrwert bietet für viele Menschen, denke ich. Und da es auch eine Skalierungsproblematik gibt. Es ist nicht einfach so, dass wir jetzt irgendwelchen Gebärden-Dollmatch den Job wegnehmen. So ist es nicht gedacht, sondern es ist einfach, dass man sagt, okay,
Das gibt ja gar nichts genügend, dass ich das einfach überall dann anbieten kann. Das sind jedes Video und überall, jeder Live-Konferenz, so klein wie sie ist, wenn ich kleines Meetup habe, kann ich das dann halt auch anbieten.
Wow,
ich bin begeistert, das sind ja ganz, ganz viele Eindrücke. Ich muss jetzt noch mal zwei, drei Schritte zurückgehen. Wie funktioniert das jetzt richtig mit diesen Digital Humans und den Modellen? Ist das jetzt in einem Modell drin oder hast du das Modell, was dann quasi die Emotionen oder auch die Gebärdensprache dann steuert? Ist das irgendwie separat voneinander oder trainiere ich dann wirklich ein Modell für einen Human dann vollständig selbst?
Ja, so viel.
Wir nutzen mehrere Modelle, das das für verschiedenste Fälle. Das sind dann auch so verkettet faktisch. Ganz konkret, hier sind natürlich dann auch Spachsynthese-Modelle. Wir nutzen da auch kein multimodales Modell, wo dann die Spachsynthese und die Spacherkennung direkt mit drin ist, sondern es sind halt separate Komponenten, die wir verketten. Es hat halt auch den Hintergrund, dass wir zum Beispiel jetzt gerade in dem Bereich, was Gebärdensprache angeht, natürlich dann schon sehr starke Spezialisierungen haben.
Und so ein großes Modell dann zu trainieren, ist natürlich auch relativ kostspielig. Was auch gar nicht nicht nur unbedingt das Training angeht, sondern auch zu sagen, die Ausführung, große Latenz natürlich, die muss man alles in Echtzeit machen. Das muss man auch bedenken. Deswegen ist auch wichtig, dass dann auch kleine spezialisierte Modelle für den Anwendungsfall machen dann mehr Sinn als das große generische Modell. Das vielleicht noch mal zu dem Anfang, zu der Konversation, dass wir einfach dort vielleicht auch noch mal festhalten, der große Benefit, hat es ja auch schon in deiner Frage vorhin
In der Frage hat es auch so bisschen die Richtung schon geschaut, dass man sagt, ich habe für bestimmte spezifische Fälle, habe ich ein spezifisches Modell. Ja, zum Beispiel, ich habe jetzt Modell, was jetzt zum Beispiel nur, weil ich Kaffeetassen erkennen kann oder so was. Ja, und da ist es natürlich super schnell dann, weil das hat dann nur einen ganz eingeschränkten Rahmen. Das ist viel schneller als wenn ich so einen generischen Vision Transformer nehme, der mir alle Szenen beschreiben kann und alles beschreiben kann und so weiter. Deswegen macht das dann ganz, ganz konkret Sinn.
Auch hier noch mal zu dem Thema Digital Human Affective Computing, die emotionale Sache, da wirklich spezifische kleine Modelle zu nutzen, die man dann miteinander verknüpft entsprechend. Und man kann sie auch teilweise parallel ausführen. Das auch so wie in der Grafikprogrammierung eine parallele Pipeline sozusagen.
Ja.
Das sehr interessant. Stichwort Performance. Ich kenne das noch von früher. Zu Zeiten 3D, 3D Studio Max, Maya, Lightwave. Da hast du dann 3D modelliert und dann hast du auf dein F9 oder irgendeine Tastenkombination gedrückt und hast es erst mal gerendert. Und dann hat das gedauert und gedauert und dann kurz den Kaffee holen und bist dann erstmal eine Animation fertig war. jetzt erzählst du mir, das passiert alles in Real-Time. Wie kann ich mir das vorstellen? Also...
das Thema Realtime 3D, Realtime Capturing, wo stehen wir denn da oder wie kriegen die das so schnell hin? Ist es mega Rechenpower in der Cloud oder ist es einfach optimiert? Kannst uns da ein bisschen Insights geben?
Ja, also das ganze Thema ist natürlich massiver von den Grafikkarten, vor allen Dingen natürlich Nvidia hier getrieben. Wie du schon sagtest, früher hast du deinen 3D Studio Max oder so, da habe ich auch mit gearbeitet. Dann hast du ewig gedauert, dann hast du irgendetwas gerendert bekommen, was dann wirklich auch, wenn du das vergleichst mit Grafik von vor zehn Jahren, ist die schon besser gewesen auf dein Mobiltelefon oder so. Also es ist schon Wahnsinn, was da passiert ist. Es ist ganz klar das Computing.
Wir haben natürlich diese ganzen RTX-Grafikkarten. Hey, wir haben Echtzeit-Raytracing jetzt. Das ist ja abgefahren. weiß nicht, ich hatte damals noch auf einem alten Rechner, gab es noch Puffray, ich weiß nicht, ob Sie jemanden kennen, so ein Programm, da kann man Raytracing machen, da muss man aber alles so Code schreiben. Und dann hat er dann immer gewartet, hat dann jede Zeile so gescannt und dann der Teil langsam, dann bildet sich auf so eine VGA-Auflösung. Das hat dann fünf Stunden gedauert, so gefühlt.
Aber jetzt hast Echtzeit Ray Tracing. natürlich massives Computing. Aber wie kriegen die das überhaupt hin? Es ist nicht nur massives Computing, wenn du an Echtzeit Ray Tracing schaust, sondern was zum Beispiel auch letztens hier bei der Gamescom war ja diese auch die von Nvidia hier eine Keynote dabei. Die haben es auch noch mal ganz gut erklärt. Ich weiß nicht exakt mehr die Zahlen, aber im Endeffekt ist es so diese DLSS, also dieses Super Sampling.
was Sie da faktisch nativ in die Grafikkarten reingegossen haben, in die Chips jetzt, macht das überhaupt erst möglich, dass wir Echtzeit-Raidchasing haben. Weil die rendern das Bild faktisch in viel geringeren Auflösung und dann skalieren die das hoch über AI im Endeffekt. Also das sind natürlich vier Durchbrüche, was Hardware, was Computing angeht, immer Minitärisierung, immer kleinere Wafers und so weiter, das spielt natürlich eine große Rolle, aber natürlich auch Fortschritte, was AI angeht. Wie gesagt, diese Grafikkarten...
Wenn ich die jetzt dafür nutze, wo sie eigentlich für gedacht sind, für Echtzeit-3D-Grafik, dann haben die auch, wie gesagt, dann nutzen die diese Tensor-Cores auch dann, ⁓ AI in Echtzeit auszuführen, eine Echtzeit-Hochskalierung zu machen, damit die visuelle Qualität gut ist, aber du halt wirklich auch Raytracing zum Beispiel in Echtzeit kannst. Da geht noch viel, da wird noch viel kommen. Barriere ist natürlich jetzt so Geräte, also für die, ich weiß nicht, ob jetzt alle deinen Podcast visuell anschauen, aber ich hole jetzt mal so eine Meta-Quest jetzt raus.
Die kennen ja auch vielleicht einige. Also diese Geräte beispielsweise, die haben ja das ganze Computing eingebaut hier drinnen. Das ist ja wie ein Mobile Rechner. Da wird es natürlich noch bisschen dauern. Aber man muss sagen, diese Qualcomm XR Prozessoren, die hier drin sind, also es ist abgefahren, was die mittlerweile können in Echtzeit. Aber es wird noch bisschen dauern, ehe du hier Raytracing drauf machen kannst.
Super spannend. Sehr guter Hinweis übrigens, also alle Leute, die die Virtual Reality-Brille jetzt sehen wollen. Den Podcast gibt's doch auf YouTube, schaut mal vorbei. Wir freuen uns auf jeden Fall. Das war aber auch eine sehr gute Überleitung zum Thema Virtual Reality und Occument Reality. Also, was ich jetzt als Laie mitbekommen ist, bei Apple, Apple Vision war jetzt nicht so der Erfolg und Google Classes ist eingestellt worden. Es wird jetzt aber wohl irgendwie wiederbelebt.
Wie ist denn da so der Stand der Dinge? Ich finde es ja eine super spannende Technologie auch. sehe jetzt aktuell eher so Use Cases im Worker Guidance oder sowas in der Art. Ist das Thema, wo sind wir im Hypecycle? Sind wir da schon drüber hinaus oder haben wir noch gar nicht angefangen? Wie schätzt du das ein?
Ja, wir sind so, ich glaube, wir kommen so langsam, wenn du diesen Gardener Hype-Style siehst, wir kommen so langsam aus dem Valley of the Illusion-Mandra, wie sie das nennt. du hast ja diese Kurve, dann geht die ganz hoch, den Hype hatten wir. Metaverse Hype, so Anfang, ich sag mal so 2021, 22, so in der Dreh. Dann ging es steil runter, ganz unten, sag ich mal, sind wir jetzt immer, und dann kommst du so langsam raus aus dem Tal. Ich glaube, wir sind so langsam, als wir rauskommen aus dem Tal. Denn es war viel Hype.
in den letzten zehn Jahren auch in dem Thema. Es gab viele tolle Geräte, auch Microsoft, Hololens, Rest in Peace. Ja, wie toll war das? Hab ich auch viel entwickelt mit und war auch viel aktiv da in dem Bereich, auch in der Community. Es sind auch viele tolle Sachen entwickelt worden. Aber vielleicht war es noch zu früh, vielleicht war der Kostenpunkt noch zu hoch. Kann ich nicht sagen. Aber wurde halt dann die Entscheidung getroffen, das dann nicht wahrscheinlich weiter zu verfolgen. Aber im Endeffekt ist es so, dass natürlich auch eine Apple, wie gesagt, die Apple Vision Pro
hat das so ähnlich bisschen aufgegriffen, was die HoloLens gemacht hat, wenn du so willst. Und ich glaube, die haben die gleiche Problematik im Endeffekt. Der Kostenpunkt ist sehr hoch. du musst ja erstmal, ich weiß, dreieinhalbtausend kostet die, glaube ich, jetzt. Du musst ja erstmal dafür auf Tisch legen. Und die Anwendungsfälle, die du mit so einer Apple Vision Pro hast, sind natürlich auch begrenzt. Deswegen hast du halt bestimmte Segmente, zum Beispiel Luxusmarken oder so, die das dann auch mal anbieten können, so ein Gerät für ihre Kunden. Ich will jetzt eine neue Uhr oder neues Auto, dann kriegst du so eine Apple Vision Pro mit dazu.
Da kannst du dir das vorher mal mit angucken, bevor du das überhaupt produziert hast. Also da macht das schon Sinn, aber das ist halt wirklich eine enge Nische. Jetzt gibt es natürlich die neuesten Gerüchte, dass, ich weiß gar nicht, wann dieses nächste Apple Event ist, ich glaube im September sogar schon oder Oktober, dass sie da eine Lite-Version vorstellen, die ein bisschen günstiger ist oder so. Das kann ich mir auch durchaus vorstellen, dass es dann auch den Konsumenten entsprechend anspricht. Die Problematik ist einfach, du brauchst die Killer App für den Konsumenten. Und das ist halt...
auch noch nicht da. Der andere Punkt ist auch der Formfaktor. So eine Apple Vision Pro, die kannst du eigentlich gar nicht, die kannst du noch aufsetzen. Viel zu schwer, viel zu groß, viel zu klopisch. Was sagen die Leute nur, wenn du damit rumläufst? War vielleicht ganz lustig, wo Casey Neistat uns über andere super Videos gemacht hat, wo die mit dieser Apple Vision Pro durch New York mit dem Skateboard oder was da immer gemacht hat. Das ist ja ganz lustig, aber auf Dauer ist es natürlich schon weird, wenn dann jemand damit rumläuft. Deswegen ist natürlich der wichtige Punkt der Formfaktor.
Und gerade was den Firmfaktor angeht, ist noch viel Spielraum. Im Endeffekt, wenn ihr Video seht, ich bin Brillenträger. Also diese Brillengröße, dass das ganze Computing hier drin ist, das ist natürlich das Ziel. Und dann wird es auch den Massenmarkt erreichen. Aber soweit ist das alles noch gar nicht. Da sind natürlich physikalische Hürden zu überwinden, gerade was die Bildschirme angeht. Da ist noch viel zu tun.
Nichtsdestotrotz sieht man ein großes Investment immer noch von Meta und auch von Google. Meta hat natürlich mit der Quest, die ich von gezeigt habe, eine beständige Virtual Reality-Plattform. Und das ist ein tolles Gerät mit einer super Auflösung. Hat natürlich aber, wie gesagt, den Virtual Reality Faktor. Das heißt, ich bin immer komplett abgeschirmt in der virtuellen Welt. Was du natürlich im Endeffekt willst, wo der Markt auch größer ist, ist dieses Augmented Reality oder Mixed Reality. Dass ich die echte Welt mich herum noch sehen kann. Bloß augmentiert, erweitert mit
virtuellen Inhalten. natürlich das Ziel. Das hat die HoloLens, hat die Magic Leap, das hat auch die Apple Vision Pro. Die machen das mit bisschen verschiedenen Technologien. Die einen haben durchsichtige Displays. Solches Pass-Through nennt sich das. Sorry, See-Through nennt sich das dann, wo du halbtransparente Bildschirme hast, wo du die durchschauen kannst. Die Apple Vision Pro beispielsweise macht das ein bisschen anders. Die machen das mit einem Pass-Through, dass die faktisch außen Kameras haben und das Kamerabild dann in Echtzeit faktisch rekonstruiert wird und auf Bildschirmen.
und das ist das beste Pass-Through, was es aktuell am Markt gibt. Aber wie gesagt, es ist auch relativ teuer. Aber was du willst, ist ja dieses Augmented Reality Mix-Reality irgendwann mal. Und da ist der Form-Faktor ganz entscheidend. Und da, nochmal den Bogen zu schließen, ist halt Meta auch aktiv. Die haben diesen Orion-Prototyp mal vorgestellt. Kann man sich auch mal anschauen. sieht aus wie eine... Wenn ich jetzt meine Brille nehme, skaliere die mal 1,2 oder 1,1, dann sieht es so ein bisschen...
wie eine riesen Brille aus, dieser fette Bügel und so, weil das ganze Computing dann drin ist. Das sind aber auch nur Prototypen. Aber es gibt auch die Gerüchteküche. Bei der Metaconnect im September wollen sie wahrscheinlich auch den ersten Nachfolger von Ray-Ban oder so ein Zwischenblinken zwischen der Orion, also dieser Full Augment Reality mit Display und der Ray-Ban bringen, die dann halt auch für einen vernünftigen Preis rauskommen soll. Aber wie gesagt, sind nur Gerüchte, müssen wir mal sehen, was dann wirklich kommt.
Aber Apple und Meta und auch Google sind auch stark am Investieren. Google mit Android XR versucht da eher eine Referenzplattform zu schaffen, wo dann zum Beispiel eine Samsung oder eine N-Real oder X-Real, heißen sie, dann eigene Devices entwickeln können und auf der Android XR-Plattform aufsetzen. Also passiert noch viel, wird sicherlich auch, sage ich mal, bis Ende der Dekade, hoffe ich mal, dass wir dann auch Geräte haben, wirklich den Formfaktor haben. Größe, sage ich von der Meta-Ray-Band.
Also ganz normale Sonnenbrille oder Brillengröße, bisschen breiteren Bügel vielleicht, aber dann halt auch mit guten Displays drin. Ich denke mal, das wird schon noch kommen, aber das wird noch ein paar Jahrchen dauern.
Also Hardware muss definitiv günstiger werden und vor allem kleiner und der Formfaktor muss sich anpassen. Jetzt haben einige ja das Thema, also das iPhone oder das Android-Telefon, wo sie dann argumenten, ist das eine Konkurrenz für die Brille oder ist das ein Zwischending oder ist das was ganz anderes?
Ja, guter Hinweis, da bin ich gar nicht so richtig, ich bin schon mal richtig vorbeigegangen, aber du hast natürlich Augmented Reality auch mit einem Mobiltelefon oder mit einem Tablet, kannst du ja auch machen. Das Blöde ist bloß, du guckst dann halt irgendwie auf ein Display und siehst halt die echte Welt nicht mit deinen eigenen Augen, sondern siehst die über ein Kamerabild auf deinem Display und da siehst du ein paar virtuelle Objekte drauf. Und das in 2D. Das ist ja eine 2D-Projektion auf deinem Bild schon. Wenn ich jetzt aber so eine Brille auf habe, habe ich ja Stereo 3D. Das heißt, ich kriege ja ein Bild für jedes Auge und somit sehe ich ja auch Stereo dreidimensional.
Und damit sind natürlich die Objekte, dann in mein Sichtfeld eingeblendet werden. Also ich sehe die echte Welt, die physische Welt und da werden dann Wirtsfeldobjekte eingeblendet. Die sehe ich dann natürlich ganz anders, weil es Stereo 3D ist. Also es ist komplett anderes User Experience. Und das ist, sag ich mal, zu der Real Deal. Deswegen sagt man auch häufig Mixed Reality, das auch vielleicht noch mal zu dem Augmented Reality Thema, was viele von Mobile AR kennen, noch mal abzugrenzen. Aber wie gesagt, die ganzen Begrifflichkeiten, das ist alles ganz schwammig.
Ich nenne es auch ganz gerne immer alles Spatial Computing, alles räumliche Verarbeitung. Ob ich nur komplett in einer virtuellen Welt bin oder noch die echte Welt sehe, mich herum spielt in dem Zusammenhang gar nicht so die große Rolle. Aber die Welt mich herum wird halt über Sensordaten erkannt mit Echtzeit, Sensorverarbeitung und dann werden entsprechend auch die Inhalte eingeblendet. Wie gesagt, wenn ich zum Beispiel in komplett virtuelle Welt bin, dann die Quest erkennt zum Beispiel auch, wo jetzt die Wände in meinem Zimmer sind.
damit ich nicht dagegenlaufe. Das ist auch Spaced Computing, also räumliche Verarbeitung. Die verstehen auch ganz viel mit AI-Passierter und dann entsprechend kontextbezogene Inhalte mit Anzeigen.
Ich habe eine Frage von einem Hörer bekommen, die ich mitnehmen darf. zwar gibt es ein Add-in für die Browser, und zwar WebXR sozusagen. Kennst du das? Und wie sieht das aus? Ist das auch eine Sache, die vorangetrieben wird? Weil eine Standardisierung im Moment ist alles ziemlich proprietär in dem Bereich. Also Apple macht sein Ding und Meta natürlich. Sagt dir der WebXR Standard was, wird das ...
Werden die Browser das pushen oder macht es mehr Sinn, das Ganze dann auf dem Gerät in der Brille vor den Augen zu haben? Was sagst du dazu?
Ja, ja, macht total Sinn, ist eine feine Sache. Der Standard wird von dem W3C Konsultium auch vorangetrieben. Das bekannte Web-Konsultium sozusagen. Also wir haben auch diesen WebXR Device Standard im Endeffekt auch mit rausgegeben. Der wird von einigen Browser-Abstellern schon umgesetzt. Es wird zum Beispiel auf Google Chrome, auf Android hast du das oder auf Safari, auf dem iPhone ist er auch schon umgesetzt. Da konkret
Und das eine tolle Sache, weil du keine App installieren Du machst einfach eine Website auf deinem Mobiltelefon im Browser. Und dann kannst du zum Beispiel auch mal nicht Reality benutzen. Und wie gesagt, brauchst du keine App Installation in den ganzen Mist. Du kannst das direkt im Browser nutzen. Deswegen ist WebExile eine feine Sache. Und auch was das Tooling angeht, also Unity beispielsweise, kann
Jetzt weiß ich nicht aktuell, wie die letzten Standards sind, ob die das jetzt drin haben. Die konnten es eine ganze Weile nicht exportieren nach WebXR, deine Unity-Applikation. Es kann aber sein, dass sie das hinzugefügt haben. Aber es gibt dann auch eine ganze Reihe an Bibliotheken. Babylon.js ist da eine von den bekannten oder Three.js auch ganz bekannt. Das sind solche Engines, dass du halt nicht den ganzen Code alles selber schreiben musst, sondern dass du halt bestimmte Funktionen schon eingebaut hast. Und die nutzen dann auch WebXR unten drunter sozusagen als Unterbau, als Schnittstelle, mit dem Browser zu reden.
Das ist eine coole Sache, weil du hast echt Zeit im Browser. Wie gesagt, kannst du auf dem Desktop natürlich auch nutzen. Aber ich finde eigentlich der richtig coole Anwendungsfall dafür ist, wirklich am Mobiltelefon mit WebAR, dass ich dann einfach solche Augmented Reality Applikationen im Browser aufrufen kann. Wie gesagt, geht auch mit VR. Also Hololens oder Quest und so weiter. Die unterstützen das auch. Das heißt, ich kann dann zum Beispiel, wenn ich jetzt in der Quest bin, dort im Browser eine Website öffnen und dann, wenn die VR anbietet, geht dann so eine VR-Umgebung an.
Du kannst ja auch schon eine 3D-Game oder auch Applikation abbilden. Ist cool, weil Wide Reach ist immer diese klassische Web-Applikation. Kann ich immer ganz viele Menschen erreichen. Muss ich natürlich dann auch gucken, was die ganzen verschiedenen... Also ich habe so einen gemeinsamen Nenner, auf den ich mich natürlich auch ein bisschen einschränke. Was die Geräte dann so können und so weiter. Wenn ich jetzt eine dedizierte Applikation entwickle für eine Quest oder eine dedizierte Applikation für eine Apple Vision Pro, dann kann ich natürlich viel mehr rausholen, was dann spezifisch...
spezifische Dinge angeht. gerade WebXR ist halt cool, weil ich echt viele Menschen erreiche.
Da kommen dann die Browser-Prefixes wieder zurück plötzlich. Und ich glaube, auch so ein offener Standard kann helfen, dieses Thema dann noch voranzubringen, große Reichweite zu bekommen. Und das Web ist nun mal die Plattform, die sehr viele nutzen. Im Browser ist auch so der Zugang zur Welt. Jetzt haben wir AI ganz ohne Anfassen gehabt. haben jetzt AI gehabt, Digital Human. Da konnten wir schon mal was sehen.
Und dann haben wir mit der Brille sind wir schon ein bisschen mehr ins Physische gegangen und ihr macht aber auch im Team Robotics einiges, also AI wirklich zum Anfassen. Was ist embodied AI? Kannst du uns da vielleicht mal abholen?
Absolut. Embodied AI, wenn man es direkt übersetzen würde, wäre das verkörperte KI. Es gibt faktisch der KI, Körper, wenn du so willst. Und eine Implementation davon ist ein Digital Embodiment. Und das ist der Digital Human beispielsweise. Das ist dem, wie gesagt, ist natürlich virtuell, aber ist auch ein Embodiment, wenn ich so will. Das andere ist dann sozusagen das Physical AI Thema, dieses Physical Embodiment, dass ich diese Modelle auf
physischen Geräten implementiere. Das kann zum Beispiel auch relativ simpel on the edge sein. Computer Vision zum Beispiel, Echtzeitkamera, Security Detection oder sowas. Das kann das auch sein. Aber ganz interessant wird es natürlich, wenn ich dann mich im Bereich von Robotik bewege. hast du auch in Video immer viel von physical AI reden. Und wie gesagt, es ist nicht nur Robotik. Es sind noch viele andere Bereiche, Autonomes Fahren. Im Endeffekt sind ja Autonomes Fahren sind ja auch Robotiksysteme, wenn du so willst.
Aber dass wir im Endeffekt sagen, ich habe eine verkörperte KI, ich bringe diese Modelle auf verschiedene Instanzen von Geräten. Und das ist natürlich Robotik zum einen. Und da können wir dann noch mal das Weite unterteilen, dass wir dann sagen, okay, ich habe jetzt zum Beispiel diese Quadrupled Robots, beispielsweise Boston Dynamics Spot, diese Roboterhunde. Oder von Unitree gibt es dann den Go und was weiß ich, da gibt es so viele mittlerweile. Aber wir auch Partner mit einigen von den Firmen.
wo wir da faktisch den devices nutzen und da entsprechende Implementierungen für unsere Kunden vornehmen. Weil im Endeffekt, wenn du so einen Robotik Device kaufst, das hat so ein paar Standard-APIs, aber die sind nicht autonom. Die musst du noch steuern mit der Fernbedienung beispielsweise. Und jetzt würde ich eine Autonomität zum Beispiel in diese Geräte bringen. Also wie gesagt, du diese vierbeinigen, dann kannst du jetzt, der große neue Trend ist natürlich humanoider Roboter. Und da hast du zum einen dann welche, die halt so gedacht sind, dass sie bestimmte Aufgaben erfüllen sollen. Die sind dann
sehen nicht sehr menschlich aus, aber haben zwei Beine und können sich auch in entsprechenden Umgebungen bewegen. Wir können vielleicht auch noch mal im Detail darauf eingehen. Aber der andere Teil ist natürlich dieses Thema Social Robotics. Das ist vielleicht dann eher vergleichbar mit einem Digital Human. Da nutzen wir auch zum Beispiel von Engineered Arts diese Amica. Wenn jemand vielleicht schon mal gesehen hat, das ist so eine Büste im Endeffekt. Und sie hat halt 32 Servo-Motoren im Gesicht. Und dadurch kann sie sehr, sehr gut diese Mimiken abbilden.
Und da haben wir dann auch zum Beispiel unsere Plattform, die wir für Digi Humans nutzen. Wir haben da faktisch so ein Common, ja, wie soll ich sagen, so Common Backends, ein Common Framework. Und da können wir dann ausspielen nach Digi Human oder wir können es auch auf die Amica ausspielen. Das ist dann im Endeffekt das gleiche Gehirn, wenn du so willst, darunter. Aber wir haben verschiedene Endpunkte dafür. Und dann steuerst du das an. Das ist schon abgefahren, wenn ich dann mit der Amica dann so unterhalte. Das ist schon cool. Es ist manchmal ein bisschen creepy, muss man auch sagen.
Aber es ist schon eine schöne Sache. nochmal den Bogen zurückzubringen. In Body.de es geht einfach verkörperte KI. Ich kann halt solche KI-Systeme in physischen Systemen implementieren. Das ist natürlich ganz großer Faktor, die Robotik. Und da passiert ganz viel, was humanoide Roboter angeht.
Wie weit sind wir denn eigentlich in Deutschland oder in Europa dort? Man sieht ja Elon Musk mit Tesla, den Optimus oder wie du jetzt auch Boston Dynamics sieht man einige Experimente. Schauen wir da wieder nur in die USA oder haben wir dort auch außer euch jetzt, mit Sicherheit auch ganz weit vorne sind? Wie steht es da bei uns in Europa, in Deutschland?
Ja, ja, Also du hast natürlich ganz, ganz wichtig, du hast erzählt, die die der der Maske beispielsweise mit dem Tesla mit dem Tesla Bot mit dem Optimus. Ist immer beeindruckend, die Videos muss man ganz klar sagen, aber man kann es nicht kaufen. Es gibt es auch noch nicht irgendwo zu erwerben. Nix davon. Erst mal abwarten. Ja, das ist so ähnlich auch mit dem von dem Helix, von dem anderen Hersteller F1 beispielsweise da.
Ich nicht. Erst mal gucken, ja. mal sehen, wie die dann funktionieren. Was wir beispielsweise erworben haben, die kann man halt kaufen, ist Unitree H1 und Unitree G1. Den kannst du kaufen, ist ein chinesischer Hersteller. Ist nicht ganz günstig, der H1 ist, glaube ich, fast 100k oder so, oder 80. Musst ja noch mal gucken, was die genauen Preise sind. Aber wie gesagt, da kann man auch, die kann man bereits erwerben und die kommen halt auch, da ist schon ein Standard-SDK dabei, aber die können doch nicht viel.
Deswegen, was wir halt machen für unsere Kunden, ist, entsprechend dann die ganze Software zu implementieren, dass sie dann halt dort, was ich im Warnlager beispielsweise, arbeiten können oder solche Sachen. Das ist ganz interessant. Aber deine Frage war ja, wie steht es in Europa, wie steht es in Deutschland rum? Also wir haben schon ein paar Anbieter in Europa, zum Beispiel PAL Robotics ist da einer, die arbeiten auch an einem humanoiden Roboter. Oder hier aus Deutschland haben wir diese Neura Robotics. Die sind da auch aktiv dran, einen humanoiden Roboter zu entwickeln.
Aber man muss ganz klar sagen, absolute Marktführerschaft kommt aktuell aus China, was das angeht. Und die hatten jetzt auch in China, die hatten die, ich glaube, die haben die Robotics Olympic Games oder so was genannt. Und da hatten die wirklich, verschiedenen Sportarten hatten die humanoid Roboter gegeneinander angetreten lassen. Und du musst mal gucken, was alleine an humanoiden Robotern, was ist, wie viele chinesische Firmen es da gibt. Das ist der absolute Wahnsinn. Die haben natürlich auch ein bisschen unfairen Vorteil.
Weil bei denen ist das so, die können ohne Ende Startups gründen und die werden massiv finanziert vom Staat. Da wird unheimlich Geld reingebuttert. Und deswegen können die auch teilweise die Roboter relativ günstig anbieten. ja, mal sehen. Also es bleibt ein spannendes Feld. Aber ganz klar Marktführer China, dann USA und dann vielleicht irgendwann Europa. Aber es gibt ein paar Player in Deutschland. Das ist immer gut. Wir arbeiten auch mit ein paar zusammen. Ich denke unsere
unsere, sag ich mal, diese krasse oder starke Ingenieurskultur und Geschichte und so weiter, die sollten wir auch nicht aus den Augen verlieren und wir sollten uns auch nicht immer kleiner machen, als wir sind hier Deutschland und Europa. Das ist schon so, dass wir da auch viel bewegen können. Und wenn du dich umguckst bei vielen von den Firmen, gerade Bosnianamex oder anderen Firmen, da arbeiten auch ganz viele Europäer und so. Deswegen ist es wichtig, dass hier in der EU und in Deutschland auch die richtigen Weichen gestellt werden.
Dass da halt dann doch mal das einfache gemacht wird, dass man zum Beispiel einen Start-up gründen kann und dass man auch da noch mehr Förderung bekommt. Da muss natürlich auch Subventionen fließen, ist ganz klar. Sonst können wir da nicht gegenhalten, was China macht.
Ja, das ist ganz klar. heißt, diese Startup-Gründung und auch die Finanzierung des Startups, die ist natürlich auch ein Treiber von Innovationen. Und gerade auch in China sieht man das ja in der Riesenskalierung. Die haben ja jetzt auch das Electro-Weekal-Thema irgendwie in die Skalierung gebracht. Am Anfang hat sich jeder darüber kaputt gelacht, dass sie es nicht können. Mittlerweile haben sie schon richtig gute Modelle am Start. Also da ist es einfach die Skalierung, die es bringt. Sehr spannend. Du hast jetzt gesagt...
Guck dir mal die Marketingvideos an, die die manchmal von
den Autos, die da rauskommen, was die alles können und was die für Features haben. Da schlagst du mit den Ohren. Das ist der Wahnsinn. Jetzt haben sie auch gesagt, ich weiß nicht, ob du das mitbekommen hast. Sorry, das ist interessant, gerade weil ich das heute irgendwie in News gelesen habe. NVIDIA hat ja neuen H20 gemacht. Dieser H20, den haben die ja ursprünglich für den chinesischen Markt gemacht, weil USA Exportbeschränkungen gemacht hat für die NVIDIA Chips und da haben NVIDIA einen speziellen gebaut jetzt und hatten jetzt die neue Version in Entwicklung.
hatten da auch die Aufträge an die Fabs gegeben. wissen ja auch nicht unbedingt alle, aber Nvidia macht das Design, aber die reine Fertigung machen dann Auftragnehmer. Also die Fabriken gehören nicht zu Nvidia, sondern die machen das ganze Design. Das ist natürlich auch viel Aufwand. Aber die Entwicklung dann oder die Produktion machen dann andere Firmen. Und das haben die jetzt gegeben, dass sie die neuen Age 20s entwickeln sollen. Jetzt haben sie rausgegeben an die Firmen, erst mal halblang. Okay, wir brauchen vielleicht doch nicht so viele, weil China jetzt nämlich gesagt hat, hey.
Hier, chinesische Firmen, nutzt man nicht die Nvidia-Chips, nehmt jetzt mal die von Huawei und die anderen AI-Chips. Wir haben bisschen Befürchtung, dass in den Nvidia-Chips da irgendwas drinstecken könnte, irgendeine Bekte oder so. Ob das der Fall ist, weiß ich nicht. Aber Fakt ist, dass natürlich von der Regierung dort ausgegeben wurde, jetzt mal die eigenen Chips zu nehmen, die immer noch nicht so gut sind wie die von Nvidia, aber wahrscheinlich dann irgendwann doch mal rankommen werden. Und das hat Nvidia schon wirklich aktiv reagiert und hat die Produktion ein bisschen zurückgefahren von den neuen H20 für den chinesischen Markt. Das ist natürlich auch ein interessantes Zeichen, wie ich finde.
Ja, das Zeichen konnte man auch beobachten bei dem Zoll-Tarifstreit mit Apple und der Aufforderung, die iPhones in Amerika zu produzieren. Da ging es unabhängig von den Kosten, hat Tim Cox natürlich auch gesagt, wir können das gar nicht. Also die Skill-Set, dort ist, das Know-how, dort ist, auch wie sie fertigen in der Skalierung, wie sie fertigen, selbst wenn wir das subventionieren würden in Amerika, wir würden es gar nicht hinkriegen.
Das ist natürlich schon erstaunlich auch zu sehen, dass dort einfach eine hohe Spezialisierung ist und dass im Hardware-Bereich dort einiges geht. Und wenn man auch sieht, ganzen Chipfirmen, also das ist ja so ein Gennikes-Pattern, Intel und Nvidia machen das Design und dann geht das an diese Chipfirmen, dann teilweise in China, aber auch woanders sind. Und du mir sagen, du willst ein bisschen nur Haubleb überall hängen und dass die das dann noch mal optimieren. ja, also...
mit Sicherheit ein ernstzunehmender Player im Hardware-Bereich. Und ich glaube auch, dass die Nvidia-Krone, da ist einfach zu viel Geld drin im Thema, das sieht man auch im Aktienkurs, dass es früher oder später andere Firmen geben wird, die in das Chip-Geschäft einsteigen und dort einen Teil von dem Korn haben wollen. Ob sie dort hinkommen, weiß man nicht, aber sie werden es zumindest probieren. Und es ist aber auch gar nicht schlecht, bisschen Wettbewerb dort zu haben.
Absolut.
Ja, super spannend. Jetzt hast du gesagt, so ein Roboter, ihr habt ihn gekauft, der kommt mit in der SDK. Wie programmier ich denn eigentlich so ein Ding? Also ist das so C-Sharp? Ich schreib da irgendwas runter oder Go oder was weiß ich oder irgendwie Rust, eine Hardware-Nahesprache? Oder trainiere ich dort ein Modell und ich spiele dann einfach nur das Modell rüber und das macht alles von selbst? wie kann ich mir das praktisch vorstellen?
Ne
Ja, in der Regel ist es so, viel davon ist dann doch Python Code, den du schreibst, weil einfach das ganze Thema, weil da viel in Python in der Faktion existiert. Aber die Low-Level-Schnittstellen sind meistens C++, weil du einfach, wie du schon sagst, dass du einfach dort eine höhere Performance hast einfach. Also wenn du dir das mal anguckst, was Python teilweise von Overhead hat, ist schon echt bitter.
ROS ist ein Open Source Projekt, das nennt sich Robot Operating System. Aktuell ist es ROS 2.
und die meisten davon unterstützen das, und dann entwickelst du das in der Regel damit, weil du hast dann noch mal so ein Layer, weißt du, und damit kannst du dann zum Beispiel auch verschiedene Robotiksysteme dann mal anspeuern. So, das nutzt mir halt viel, ROS 2, und dann bastelst du dann solche Nodes, heißt es dann, und da musst du dann halt eine spezielle Implementierung für das Robotiksystem haben, oder eine Note für, was ist ich, dein Slam, oder irgendwas anderes, was du so laufen lassen musst, oder bestimmte Modelle einzufügen, und das verknüpft du dann so, ne? Das ist dann faktisch so ein Framework, was du dann nutzen kannst. Das ist ganz cool, das ROS.
gibt noch etwas anderes, das nennt sich OpenRMF. Das auch ein schöner Standard. da ist das Coole, das Ganze wirklich. OpenRMF ist direkt dafür gedacht, dass du mehr Robot-Systeme koordinieren kannst. Das heißt, das Management Framework heißt das. Sorry, ist ein Fleet Management. Im Endeffekt kein Risk Management. Blödsinn. Fleet Management
Mit diesem Flottenmanagement kann ich verschiedene Robotiksysteme ansteuern. Das nutzt mir auch, weil mir die Zukunft nicht... Ich habe einen Roboter, sondern ich habe eine Flotte davon. Ich habe spezialisierte Roboter für bestimmte Anwendungsfälle. Ich habe z.B. mein Rasenmäher... Ein sinnloses Beispiel. Im Haushalt Rasenmäher-Roboter. Ich habe noch meinen Staubsauger-Roboter. Dann habe ich noch meinen anderen Haushaltsroboter, der mir den Geschirrspüler einräumt. Die müssen sich alle miteinander abstimmen.
und da kann ich zum Beispiel OpenRMF nutzen. Oder was wir auch machen, wir haben zum Beispiel dort bei OpenRMF, kannst du dann auch Attribute hinterlegen für deine Roboticsysteme, zum Beispiel, okay, das ist ein vierbeiniger Roboter, dieser Roboter, diese Instanz, davon hat jetzt noch hier, bei Boston Dynamics gibt es diesen Greifarm, der hat diesen Arm noch, der andere hat zum Beispiel keinen Arm, das kann ich alles hinterlegen, oder dann habe ich noch einen zwebeinigen humanoiden Roboter, der hat die und die Fähigkeiten und so weiter und so fort.
Und dann kommt z.B. zentral in mein System eine Aufgabe rein. Ja, wir müssen Bereich A, B, C reinigen oder weiß ich nicht, keine Ahnung. Und dann entscheidet dann das System, welcher Roboter ist nah dran, welcher hat die entsprechenden Fähigkeiten und schickt die dann raus. Muss ja alles koordinieren. Und da gibt es dann auch so schöne Open Source Projekte wie OpenRMF. Und da setzen wir z.B. auch oben drauf aus. das ist... Teilweise kannst du OpenRMF mit ROS nutzen, musst du aber nicht, kannst du auch separat machen.
Also so so diese Layer und diese Frameworks, man da in der Regel so nutzt.
Also es ist doch noch was zu tun, das bedeutet nicht, ich habe einfach eine KI und die macht alles selbstständig, sondern ich würde wirklich noch mit Frameworks dort arbeiten. Ich finde das mit dem Fleet-Management da auch sehr spannend. stelle mir das jetzt schon vor, mein Rasenmäher-Roboter, der tabbelt immer noch da an seinem Kordel entlang und da ich gucke in die Zukunft, also wirklich erstaunlich. Hammer.
Ja.
Es gibt ja mittlerweile
schon einige Rasenmähroboter, die auch wirklich visuell das machen, mit Slam faktisch, dann die entsprechende Umgebung erkennen. Ja, das ist halt immer so eine Sache. Das wird noch ein Weilchen dauern Das ist auch immer eine Preisfrage jetzt im Consumerbereich. Aber gerade im professionellen Bereich mit unseren Kunden da wirklich im Enterprisebereich, manufakturing und sowas, da sind wir schon langsam so an dem Punkt, wo das alles Sinn macht. Oder so Patrolling ist auch ganz häufig, was wir viel machen mit Kunden. Oder Brückeninspektionen machen wir auch.
Verschiedenste Sachen. Es gibt schon wirklich interessante Dinge, mit diesen Roboticsystemen umsetzbar sind. Und wie gesagt, der Stack ist ganz verschieden. In der Regel ist es, wenn du dann Low Level, was mit hoher Effizienz machen willst, CC++. Und dann hast du auch kleinere Modelle. hast zum Beispiel ein Vision-Modell, was eine Kategorisierung macht. Was sieht der Roboter zum Beispiel? Und dann, ist das für eine Action, die dann kommt? Da gibt es diese Vision-Language Action-Modelle. Da haben wir vorhin kurz über diese Vision-Language-Modelle geredet. Diese Vision-Transformer.
wo du faktisch ein Sprachmodell hast und da kommt ein Bild noch dazu mit rein. Und diese Vision Language Action Modelle ist im Endeffekt, du gibst ein Bild und einen Textprompt rein und hinten kommt eine Action aus für den Roboter sozusagen. Also Auge und Instruktion des Roboters als Eingabe und dann Ausgabe im Entsprechend. Was musst du jetzt machen für eine Action? sehe, Roboter sieht Glas, dann ist die Aktion, greife es oder macht es kaputt. Weiß ich nicht. Kommt drauf an, was du dann endlich einstellst. genau.
Das ist die Zukunft, was diese Steuerung angeht von den Robotics-Systemen, diese VLA, diese Vision Language Action Modelle.
Ja, auf jeden Fall spannende Zukunft, da vor uns liegt. Und ich kann mir das gut vorstellen, dass die Smart Fabrics aktuell schon einiges davon umsetzen. Endkonsumerbereich wird es noch bisschen dauern. Ich mache jetzt noch mal einen Schwenk. Du hast ein weiteres Trendthema mit in deinem Wirkungsbereich sozusagen. Quantum Computing. Kannst du mir und den Zuschauern das mal ganz kurz in knappen Worten erklären, was der Unterschied ist und was Quantum Computing denn eigentlich ist?
Also Quantencomputing nutzt faktisch die physikalischen Grundprinzipien der Quantenmechanik, um Informationen zu verarbeiten. Da muss man vielleicht schon kurz ausholen. Quantenmechanik kennt vielleicht ein oder andere, so gerade 100 Jahre alt ungefähr, das ganze Gebiet, ja, ist noch relativ jung, wenn man sich diese Zeitspanne anschaut. Aber was alleine durch die Entdeckung von den ganzen Prinzipien und die Quantenmechanik, was praktisch passiert ist in unserem Leben, ist schon massiv.
Viele wissen das gar nicht, was im Endeffekt da natürlich mit einhergeht. Aber was ist Quantencomputing? Quantencomputing nutzt, wie gesagt, diese Prinzipien. Und du arbeitest da nicht mit Bits und Bytes, sondern du arbeitest da mit sogenannten Q-Bits. Und diese Q-Bits sind Quantenbits. Und diese Quantenbits werden physisch repräsentiert als Partikel. Also, muss dir vorstellen, diese quantenmechanischen Effekte, die kannst du nur beobachten,
bei den bei ganz ganz kleinen Teilchen, wenn du so willst. das da reden wir von Atom oder Ion oder Elektronen oder Photon und alles solche Subatom und Partikel. Und die haben bei bestimmten Konditionen zeigen diese quanten mechanischen Effekte. Und das kannst du dir zunutze machen, damit Computing zu zu erstellen. Und was man da macht, ist diese Qbits. Die kann ich zum Beispiel eigentlich kann ein Photon nehmen. Und das ist mein Cubit. Oder ich nehme ein, was halt auch häufig gemacht wird, sind diese
Eonisierte Atome, ionisierte Atome oder gibt auch neutral Atome, gibt so verschiedene physikalische, wie die physikalisch implementieren, gibt es ganz verschiedene Gebiete aktuell. Da wird sich irgendwann mal eins rausstellen. Okay, das ist der der Weg, der funktioniert. Wie gesagt, alles neu in den Kinderschuhen. Aber noch mal zurück zum Thema. Also ich habe dann zum Beispiel sagen wir mal so ein Photon. Das ist dann mein Q-Bit und das kann ja bestimmte Informationen transportieren oder beinhalten.
Du musst dir vorstellen, ist bei so einem Partikel, hat einen Spin. Eine Rotation, in welche Richtung das zeigt. Damit kann ich die Information abbilden. Das Coole ist, dieser Spin ist ja nicht 0 und 1, nur wie beim normalen, regulären, digitalen Bit, sondern das ist ja faktisch... Eigentlich ist das ja wie ein Zeiger auf einer 3D-Kugel. Das ist die sogenannte Bloch-Sphere, die Bloch-Kugel. Das ist dann faktisch mein Wert. Ich kann nicht nur 0 1 abbilden, sondern kann alle Werte dazwischen abbilden. Und plus oben drauf kommt noch...
Wenn ich die in den Zustand der sogenannten Superposition versetze, das kann man zum Beispiel rein. Praktisch wird es zum Beispiel gemacht, wenn diese Partikel mit bestimmten Lasern auf bestimmten Frequenzen geschossen sind und dann kommen die in diese Superposition. Dann kommt das wirklich Abgefahrene. Dann kann ich nicht nur 0 und 1 und die werde alle dazwischen repräsentieren, sondern alles noch zur gleichen Zeit. Und das ist das Abgefahrene. Was das bedeutet ist, ich kann mehrere Zustände, also mehrere Daten, wenn es so ist, gleichzeitig abbilden und damit kann ich dann
Verarbeitungen durchführen. gibt es dann bestimmte Gates, heißen die. Da kann ich dann bestimmte Operationen auf so einen Qbit ausführen. Und dann wird dann faktisch, der Zustand verändert sich so ein bisschen. Es kann dann immer noch in Superposition bleiben. So, ganz praktisch, was kann ich damit machen? Ich kann dann zum Beispiel Optimisierungsprobleme abbilden, weil ich kann dann massiv parallele Verarbeitungen, kannst du damit im Endeffekt machen. Das ist der eine Teil. Ich habe Qbits in Superposition, das ist eine Komponente. Ich kann dann faktisch mehrere Zustände gleichzeitig abbilden und kann auch gleichzeitig damit
berechnen, kann ich wie gesagt diese massiv parallele Verarbeitung durchführen. andere Aspekt ist es, diese Entanglement, diese Verschränkung heißt das auf Deutsch. Entanglement, das heißt, ich kann zwei Qbits miteinander verschränken und dann kommt auch das Abgefahrene. Da weiß man auch noch nicht so richtig, wie genau das Grundprinzip funktioniert. Aber im Endeffekt ist es so, wenn ich jetzt enttängel diese, diese zum Beispiel Photonen wurde es gemacht, die wurden enttängelt, verschränkt und dann wurde ein Photon in die eine Richtung geschickt.
Nach der Verschränkung und das andere Photon in die andere Richtung. Und ich glaube, es waren mittlerweile 50 Kilometer. Aber es mehrere Kilometer, wo die die getrennt haben, faktisch. Und dann haben die aber nur bei einem Kubit, bei einem von diesen enttängelt verschränkten Photon eine Veränderung durchgeführt. Also zum Beispiel durch ein, wenn es Photon ist, ein Lichtteichen, durch einen Phasenfilter geschickt. Und der Phasenfilter dreht es dann, faktisch. Und dann messen die aber beide am Ende. Wie gesagt, ich habe die Veränderung nur bei dem einen durchgeführt. Am Ende werden aber beide gemessen.
Und komischerweise haben beide die Veränderungen durchgeführt, obwohl ich es nur bei einem Applied habe. Und da ist auch noch nicht so ganz klar, warum das so ist. Einstein hat das Spooky Action at a Distance genannt, hat das nie so richtig geglaubt. Und mittlerweile gab es jetzt einen Versuch vom MIT. Und da konnten die das nachweisen, das Doppelspalt-Experiment, Doppelslit-Experiment. Long story short, das führt ein bisschen zu weit. was ich hinaus will, ist, Quantencomputing nutzt diese quantenmechanischen Prinzipien, Superposition, Entanglement.
Damit kann ich, wie gesagt, massiv große verschiedene Zustände gleichzeitig abbilden und kann dann sich Optimisierungsprobleme relativ gut lösen. Das ist relevant bei dem Drug Discovery, das angeht. Protein falten, weil ich da massive, mehrdimensionale Optimisierungsprobleme. Und da sind die halt gut, weil die diesen Optimisierungsraum gleichzeitig durchsuchen, wenn du so willst. Weil ich die ganzen Zustände gleichzeitig abbilden kann. Und Endeffekt muss ich dann ein Ergebnis rausbekommen. Deswegen muss ich das messen.
Dann kollabiert die Superposition. Der Witz ist, natürlich nicht deterministisch auch. Das ist immer ein bisschen anders. Und da mache ich das so, dass ich diese Berechnung mehrfach durchführe. Tausendmal, zehntausendmal, millionenmal, was auch immer. Und dann hast du so eine Gaussverteilung im Endeffekt. Dann nimmst halt den Durchschnitt. Deswegen wirst du auch nie einen Quantencomputer, wird nie einen klassischen Computer ersetzen. Also ein Smartphone wird immer faktisch einen klassischen Chip haben, der wirklich deterministisch ist, wo 0 und 1 usw. alles beachtet wird.
Aber bei Quantencomputer hat halt für bestimmte Probleme massive Vorteile. Das sind diese großen, ungelösten Computation-Problems. Wir haben da auch schon bereits Projekte umgesetzt mit Kunden für klassische Traveling-Salesman-Probleme, also Routenoptimierung. Dafür gehen die halt wirklich hervorragend schon mittlerweile auch mit kleinen Quantencomputern. Setzt alles noch ein bisschen in den Kinderschuhen, wird auch noch bisschen länger dauern, als der Hype drinne ist.
Wie lange das dauert, wird sich zeigen, aber die Implikationen werden massiv sein, auch was Security angeht.
Ja, der Security Scarcity Case, der ist mir natürlich auch bekannt, dass jetzt im Prinzip schon Passwörter und Zugangsdaten gesammelt werden, bis wir dann zu dem Zeitpunkt sind, wo die Security nicht mehr sicher ist. Also alle Krypto-Algorithmen, die im Moment noch standhalten, können dann durch die massive Rechenleistung quasi dann zunichte gemacht werden und nicht mehr existieren, nicht mehr müssen neue Algorithmen gefunden werden.
Ja, wir hatten anfangs schon mal Blockchain angesprochen. Das war ja auch so ein Hype-Thema, wo alle draufgesprungen sind. Und dann ist irgendwann, außer die Crypto-Bros, ist es ziemlich ruhig geworden. Darum siehst du, Quantum Computing irgendwie auch in die gleiche Falle laufen, dass wir jetzt das ganze Thema hypen und es irgendwann ruhig werden. Oder glaubst du, wir sind da noch am Anfang und das wird wirklich was werden?
glaube, wir haben so bisschen auch schon wieder dieses Valley of Delusionment oder wie auch immer das heißt, das Tal der Enttäuschungen. Das ist auch mittlerweile bei Quantum Computing so langsam angekommen, weil da, wie gesagt, war so vor ein paar Jahren, da so ein Hype drin und so ein Druck in dem Thema, wo ich gedacht habe, nächstes Jahr wird dann der große fette Quantum Computer kommen. Also wir müssen ja mal sagen, haben jetzt Quantum Computer, sind alle experimentell. IBM treibt das von der kommerziellen Seite natürlich massiv voran. Ich glaube, die haben jetzt auch einen Quantum Computer, hat 1000 Qbits oder so was.
Aber du musst dir vorstellen, diese Qbits, um die stabil zu halten, musst du nahe den Nullpunkt kühlen. Also 273 Grad Celsius, minus 273 Grad Celsius, also um die Null Kelvin, musst du das runterkühlen, in einem Vakuum halten. Und dann kannst du diesen Superpositionenzustand auch nur für Nanosekunden halten. Das ist ja Wahnsinn. Also nicht mal Millisekunden. Teilweise bringen sie es jetzt so weit, dass es Millisekunden geht und so weiter. Also da wird noch viel, viel geforscht.
Was ich sagen will, überhaupt so eine sinnvolle Berechnung in einem großen Skalierungen zu machen, brauchst du einen Quantencomputer, der über eine Million Qbits hat. Und das wird noch einige Jahre dauern. Da ist noch viel Hype drin. Und ich glaube, das ist ein Problem unserer Zeit, dass immer alles so schnell und so viel gehypt wird. Einfach oben wahrscheinlich auch Investorengeld locker zu machen für die Start-ups. Weil im Endeffekt ist das Thema noch lange nicht so weit, wie es manchmal gestellt wird. Es kann natürlich auch sein, dass nächstes Jahr jetzt der große Durchbruch kommt.
kann auch passieren, dann irgendein Material, die muss man auch vorstellen, es ist auch viel Material Science mit dabei, dass der Material, was sind jetzt der richtige Ansatz? Sind es jetzt Ionized Atoms oder ist es, was Microsoft zum Beispiel macht, mit den Topological Cubits, ein komplett anderer Ansatz, anstatt Semikondakte. Also da gibt es verschiedenste Ansätze, das ist so ein bisschen wie, wo vielleicht Videorecorde rausgekommen sind, da gab es ja dieses Betamax und dann das andere System und das eine hat sich halt dann durchgesetzt. So das wird auch mit den Quantencomputern passieren. Aktuell ist der Hype, denke ich mal, schon ein bisschen zurückgegangen.
Aber da ist in vielen Themen so ein Hype drin, auch was humanoider Roboter geht. Das ist auch so ein Hype drin. Man kann schon aktuell ein paar sinnvolle Dinge machen, aber ehe die die Schwelle erreichen, dass du vielleicht mal einen Haushaltsroboter hast, der sinnvoll ist, da gehen noch ein paar Jahre ins
Deshalb Bleeding Edge, deshalb in die Zukunft schauen. Superspannend. Wie gehst du denn eigentlich persönlich damit ⁓ Du hast in deiner Rolle ja eigentlich sehr viel mit Innovationen zu tun und das sorgt natürlich auch immer für den Druck für eure Kunden, vielleicht aber auch für Replay, dann immer wieder neue Innovationen zu finden oder dort neue Erkenntnisse zu finden. Wie gehst du mit dem Druck
Ja, man ist konstant am Hustlen. Es ist wirklich so. Man muss immer dranbleiben. Es ist einfach ein Thema dranbleiben. muss immer die neuesten Informationen haben. Das ist für mich einfach wichtig, dann auch immer entsprechende Quellen zu nutzen. Also vielleicht gleich ein paar praktische Tipps für die Zuhörer und Zuhörerinnen hier. Andrew Ng ist ein relativ bekannter Experte im AI. Der hat einen Newsletter, der heißt The Badge.
Da kommt einmal am Donnerstag und dann kommt er auch zwischendurch noch ein, zwei Mal. Das sind irgendwie Data Points oder so. Denen kann ich jeden wärmsten ans Herz legen. Der ist immer sehr, gut geschrieben. Der nimmt immer die drei bis vier Top-Themen mit raus der aktuellen letzten paar Tage. Da kann man sich super informieren. Und dann natürlich ganz klar x.com oder Twitter. Da gibt es auch schöne Listen, AI-Lists und so weiter. Da kann man denen wirklich Experten folgen.
Es ist einfach Fakt, dass die immer das Neueste, von Sam Altman oder so von OpenAI und wie sie alle heißen, das Erste, was die machen, ist die News-Teilung, Zeit auf X. Da muss man einfach da sein, es nützt halt nichts. Und kann man diese Information nutzen. Das sind so die Informationsquellen, da muss man immer dranbleiben, wie ich das versuche, damit umzugehen, ich schalte es dann halt abends ab. Irgendwann muss es auch mal gut sein, aber man muss halt ständig sich informieren, das ist ganz klar. Und dann baue ich natürlich den Research Agent, der mir das vielleicht ein bisschen einfacher macht.
Ja, sehr cool. Ich glaube, es ist halt auch spannend, weil du bist natürlich in diesem Themenfeld, wo es nicht viele Informationen gibt. Also jeder normale, der irgendwelche Tech-Themen hat, geht halt vielleicht hier auf YouTube und guckt mal kreuz und quer. Und wenn die Themen so ganz neu sind, wo es noch nicht sehr viele Inhalte gibt, also das erinnert mich, wie du eingangs das beschrieben hast damals mit der Xbox und mit Silverlight, da gibt es halt einfach keine Doku oder da gibt es noch nicht so viele Leute, die sich damit beschäftigen. Und da heißt es wahrscheinlich auch manchmal einfach ausprobieren und diese...
Research reinstecken.
Was ist dein Lieblingsspiel
Ja, ich werde alles mit in die Show Notes quasi aufnehmen. Im Nachgang werde ich da nochmal alles was viele gute Tipps fallen lassen. Du bist natürlich jetzt in deinem Head of 3D und AI Practices. Hast du natürlich auch Kundenkontakt und du brauchst natürlich Research. Wie balanciere du das aus? Weil es ist natürlich sehr wichtig, immer nochmal Feedback vom Kunden zu bekommen. Aber auf der anderen Seite bringst du quasi die neuen Sachen mit rein. Wie groß ist der Anteil beim Kunden? Wie
Viel Zeit hast du für Research.
Ja, also bei mir ist so meine Rolle, ich leite verschiedene Teams, die sich mit den Themen befassen, muss man ganz klar sagen. Also für mich ist dedizierte R &D-Rolle, wo ich auch sehr dankbar darüber bin. Ich muss jetzt also nicht als Consultant in irgendwelchen Projekten mit Kunden arbeiten. Es ist natürlich schon so, wenn wir jetzt Kunden haben, die sind interessiert an diesen Themen, die wir machen. Und häufig bin ich auch mit dabei in irgendwelchen Präsentationen oder Pitches und so weiter, auch natürlich, ⁓ auch den Kunden zu zeigen, dass wir halt diese neuen Dinge auch machen und nicht nur die Standortsachen.
ist natürlich auch immer ein Mehrwert. Und wenn dann die Kunden natürlich kommen, dann sind wir dann auch mitgeteilt an solchen Projekten. Das ist auch ganz klar. Aber ich habe dann schon eher die Rolle, dass ich sage, ich koordiniere das und wie gesagt, bin da immer im aktuellen Aber ja, es ist natürlich auch wichtig, man das R &D ist ja schön und gut. Aber wenn man sich da im Kreis dreht und nicht bei rumkommt, ist es natürlich auch nicht zielführend. Deswegen ist es uns auch immer wichtig, dass wir an Dingen arbeiten, die auch relevant im Markt sind, die relevant für unsere Kunden sind.
Und da gucken wir natürlich auch auf die entsprechenden Signale von unseren kleinen Partnern und so weiter, was sie dann zu uns bringen und versuchen dann auch entsprechend die richtigen Themen zu setzen.
Und wie multipliziert ihr das bei Replay, wenn ihr jetzt irgendwelche neuen Erkenntnisse habt? Gibt es da Community of Practice oder hast du intern einen Blog oder wie organisiert ihr euch da?
Genau.
Genau, wir haben die Communities of Practices bei uns. Das sind halt, wie gesagt, diese verschiedenen Teams, ich sagte. Da gibt es zum Beispiel eins. Das Thema hat mir jetzt gar nicht zeit groß zu reden. Synthetic Data ist auch ein ganz großes Thema. Synthetische Daten auch im Bereich Robotik ganz wichtig. Stell dir vor, du willst ein Robotiksystem trainieren, dass es zum Beispiel autonom an Rasen geht. Ja, dann kannst du ja gar nicht alle Rasentypen und alle Gattentypen faktisch Daten rekorden. Mit Video geht ja gar nicht.
sondern simulierst du das in einer 3D-Umgebung oder mit AI kannst du auch schon mittlerweile solche Sachen rendern und erstellen, virtuellen Welten. Und da trainierst du dann alle Permutationen, die du dir vorstellen kannst in den Servern massiv mit synthetischen Daten. Das ist auch ganz, ganz wichtig. Und dann kannst du das mit Sim2Real, diese Simulation, auf ein echtes System überführen. Das ist auch ein ganz wichtiger Punkt, woran überhaupt, dass überhaupt diese humanoiden Roboter so weit sind und überhaupt weiterkommen. Das liegt daran, synthetische Daten dann eine große Rolle spielen.
Wie gesagt, ich habe da verschiedene Teams. Eins für Syntetic Data ein anderes habe ich zum Beispiel auf kurzem gestartet Generative Search. Man befasst sich mit der ganzen Aspekt, wie verändert sich Suche im Web. Weil die Leute, Google spuckt ja jetzt auch schon AI Results aus. Hast ja vielleicht auch die News gelesen und immer weniger Klicks kommen auf die Website. Was kann man da machen für die ganzen Brands und so weiter. Das ist so ein Thema, mit dem wir uns befassen. Und wir haben ja wie gesagt dedizierte Ressourcen. Aber es ist bei uns halt auch so, dass man sagen kann, okay.
Du kannst einen Teil deiner Arbeitszeit, also 10, 20 Prozent, dann für solche Themen auch aufwenden. Das macht dann jeder Replayer. Die sind dann Beispiel auch im Kundenprojekten aktiv. Die sagen, okay, ein Tag der Woche oder ein paar Stunden jede Woche will ich halt auch mit der COP an solchen Innovationsthemen arbeiten. Und darüber betreiben wir das faktisch. Dann nehmen wir die Ressourcen, dann auch so ein bisschen, natürlich auch das billable Geschäft, ja auch irgendwie Geld verdient werden, um das so bisschen abzuhaben.
Ich nicht, abzuwägen oder so. Keine Ahnung, also auch es zu finanzieren natürlich.
Ja, spannend. Ja klar, also es bringt ja nichts, wenn der Research nur allein in den kleinen Teams bleibt. Am Ende des Tages sind das natürlich auch gute Themen, ⁓ eure Kunden weiterzubringen und die Innovationen von morgen jetzt schon zu platzieren, weil es wird wahrscheinlich noch lang genug dauern, deshalb ist es oft ganz hilfreich, früh anzufangen. Ja, sehr viele Daten, sehr viele Informationen. Wir haben jetzt schon anderthalb Stunden gesprochen, war wirklich der Hammer. Also die Zeit ist vergangen.
wie nichts und ich danke dir ganz recht herzlich, dass du mit dabei bist. Wenn jetzt Leute mit dir Kontakt aufnehmen wollen, dich finden wollen, was sind denn die besten Plätze, wo kann man dich erreichen, wo kann man mit dir Kontakt aufnehmen?
Ja, Beste ist einfach LinkedIn. Mein Name ist René Schulte. Suchen bei LinkedIn, connecten und dann ist das gleich das Einfachste, sich darüber zu melden. X oder Twitter findet mich auch. Hab das ein bisschen zurückgefahren, mach das nur noch tagsüber so ein bisschen am Rechner und so weiter. Mach ja nicht mehr so sehr aktiv. Also Beste ist am besten. LinkedIn. Das finde ich, das finde ich immer am besten darüber, sich zu melden. Und natürlich noch ein Punkt, fast vergessen. Hab auch meinen eigenen Podcast, ja, shamelessplug hier.
Digital Dialogues nennt sich der, den ich mit Replay natürlich. Könnt ihr mal suchen, Replay Digital Dialogues findet man auf den ganzen Podcastplattformen. Ein bisschen anderes Format als deins, ein bisschen kürzer und auf Englisch und so weiter und so fort. versucht halt auch immer, das ist dem ich auch immer interessant, ich versuche da auch mit Experten zu reden. Ich weiß nicht, wie es dir jetzt geht, aber ich lerne da auch immer ganz viel, wenn ich mit den Leuten dann rede. Das ist auch immer cool irgendwie, deswegen macht das auch so ein bisschen mit. Aber genau, kann man sich auch angucken, Digital Dialogues, Replay.
Perfekt hätte er hier auf meiner Liste gestanden, dich danach zu fragen. Du hast es vorweggegriffen, passt für mich sehr gut. ja, muss ich sagen, solche Gespräche wie jetzt mit dir, kommen natürlich nur zustande, dadurch, dass man einen Podcast hat und dass man es einfach mal probiert. Und deshalb noch mal 1.000 Dank, dass du auch so spontan zugesagt hast, dass du dir die Zeit genommen hast. Und an alle anderen, danke auch, dass ihr zugehört habt. Schreibt in die Kommentare, wie ihr die Themenauswahl fand, wie ihr das heute
das Gespräch fand. Ich fand es auf jeden Fall mega spannend und ich verbleibe bis zur nächsten Episode. Bis dann, ciao!
Ciao! Ciao!