Zweiter Platz:

Dee - DeepLens Educating Entertainer

Inspiration

Junge Kinder, und auch ältere mit besonderen Lernanforderungen, haben Probleme mit der Interaktion mit elektronischen Geräten. Sie können vielleicht keine Tablet-Bildschirm lesen oder ein Keyboard verwenden, oder für Spracherkennung deutlich genug sprechen. Aber durch Videoerkennung kann sich das ändern. Technologie kann nun die Welt des Kindes verstehen und erkennen, wenn es etwas tut, wie ein Objekt aufzuheben oder eine Handlung auszuführen. Und das führt zu ganz neuen Wegen der Interaktion.

DeepLens ist besonders für die Interaktion mit Kindern geeignet, da die Modelle für tiefes Lernen offline ausgeführt werden. Das bedeutet, das Gerät kann überall verwendet werden, ohne zusätzliche Kosten, und ohne Datenschutzbedenken der Daten Ihrer Kinder.

Funktionsweise

Dee (der DeepLens Educating Entertainer) fragt Fragen, durch Sprechen. Sie fragt den Nutzer etwas zu zeigen. Die Fragen (in einer JSON-Datei und einfach erweiterbar) haben Antworten, die zu einem von vier Tieren (Vogel, Kuh, Pferd und Schaf) und vier Transportmöglichkeiten (Flugzeug, Fahrrad, Bus und Motorrad) gehören. Manche Fragen haben nur eine richtige Antwort (z. B. „Was macht Muuh?“) und machen haben mehrere (z. B. „Was hat Räder?“). Richtige Antworten werden gelobt und falschen Antworten werden direkte Hinweise für die richtige Antwort gegeben. (Es geht um Interaktion und positive Verstärkung, nicht um ein herausforderndes Quiz.)

Der Teilnehmer beantwortet die Fragen, indem Dee ein Bild des relevanten Projekts gezeigt wird. Das GitHub-Archiv enthält eine PDF von Bildern, die dafür ausgedruckt werden können.

Schöpfer: Matthew Clark

Erfahren Sie mehr über Matthew und das DEE-Projekt in diesem AWS Machine Learning-Blogbeitrag.

Entwicklung

Das vordefinierte DeepLens-Modell deeplens-object-detection hat gut dafür funktioniert, von daher musste kein neues erstellt werden. Das bedeutete, dass mehr Zeit für die Logik der Lambda verwendet werden konnte.

Eine Lambda-Funktion, die auf einem DeepLens-Gerät ausgeführt wird (über GreenGrass, natürlich), übernimmt die Interaktion. Es sucht zufällig eine Frage aus, spricht diese und analysiert dann die Modelantwort, um zu sehen, wie der Nutzer geantwortet hat. Viele Nachrichten wie „Lass uns mehr machen!“ und „Gut gewählt!“ helfen dem Nutzer, dass sich diese Erfahrung positiv und interessant anfühlt.

Dee ist so entworfen, dass kein WiFi-Zugriff benötigt wird (um sicherzugehen, dass keine Verbindung, Kosten und Datenschutzbedenken benötigt werden). Das war schwierig als es um Sprache ging, da Amazon Polly verwendet wurde. Um das zu bestehen, wurde ein Skript erstellt, um alle benötigten Phrasen aufzuzeichnen und diese lokal zu speichern. Das bedeutet, dass das Lambda 69 MP3-Dateien enthält.

Herausforderungen

Meine ursprüngliche Hoffnung was es, dass Kinder Dee Spielzeuge statt Bilder zeigen können. Beispielsweise ein Spielzeugflugzeug oder eine knuddeliges Shaf aufzuheben, wäre interessanter als ein Blatt Papier aufzuheben. Aber in Tests hatte das Modell zur Objekterkennung Spielzeuge nicht als dasselbe wie Ihre echten Gegenstücke erkannt. Es scheint, ein Spielzeugflugzeug ist zu verschieden von einem echten Flugzeug. Ein Modell zur Arbeit mit Spielzeugen zu trainieren würde dies natürlich beheben, aber ich konnte keinrn guten und ausreichend großen Trainingsdatensatz finden. Daran muss gearbeitet werden.

Erfolge, die mich stolz machen

Ich bin beeindruckt, wie diese Form der Interaktion wirklich funktioniert. Wie Sie im YouTube-Video sehen können, haben wir Dee mit meinem drei Jahre alten Sohn ausprobiert, und er liebte es. Er hat danach gefragt wieder damit zu spielen. Das mag ein Prototyp sein, aber für Ihn ist es gut genug.

Ich bin auch gespannt, wie die Aspekte der positiven Verstärkung Kindern mit Autismus oder Asperger helfen können.

Was ich gelernt habe

Dieses Projekt hat mich auf den neuesten Stand von Konzepten für tiefes Lernen und vom Ansatz von AWS diese zu verwalten und auszuführen (durch SageMaker und GreenGras) gebracht.

Neben der Technik habe ich auf mehr über das Potenzial der Technologie gelernt, besser die menschliche Welt zu verstehen. Intelligente Videoerkennung ermöglicht viele neue Arten und Möglichkeiten, Spiele zu spielen und neue Sachen zu lernen.

Die Zukunft von Dee

Das Potenzial für Dee ist groß. Wenn Sie mehr Dinge erkennen könnte, könnten mehr Fragen gestellt werden. Beispielsweise:

„Kannst du drei Finger hochhalten?“ (um Zählfähigkeiten zu testen)
„Zeig mir dein breitestes Grinsen!“
„Kannst du einen Sternsprung machen?“
„Welches ist der Buchstabe A?“
„Kannst du mir dein Lieblingsspielzeug zeigen?“

Natürlich ist das Trainieren neuer Modelle ein wichtiger Teil davon. Und mit Diensten wie SageMaker, die das Trainieren einfacher machen, entsteht die Möglichkeit, das Endnutzer Ihre eigenen Modelle trainieren können. Ein Lehrer könnte beispielsweise Dee trainieren, bestimmte Objekte im Klassenraum zu erkennen. Oder ein Pfleger könnte Dee trainieren, auf bestimmte Objekte zu reagieren, die wichtig für jemanden mit Autismus sind.

Abschließend gibt es auch viele Verbesserungen, die in der Logik durchgeführt werden können. Könnte Dee Ihren Fortschritt über einen Zeitraum nachverfolgen und berichten, wie gut Sie beispielsweise das Alphabet lernen? Könnte es verschiedene Menschen erkennen und Ihnen verschiedene Herausforderungen geben? Die Möglichkeiten sind endlos.

Erstellt mit

DEEPLENS
Lambda
Greengrass
Python
Polly

Jetzt testen