3 Tracking In-Air Gestures in Collaborative Environments Using Commodity Hard- Ware 17 3.1 Depth Cameras
Total Page:16
File Type:pdf, Size:1020Kb
Research Collection Doctoral Thesis A Framework for Optimal In-Air Gesture Recognition in Collaborative Environments Author(s): Alavi, Ali Seyed Publication Date: 2020 Permanent Link: https://doi.org/10.3929/ethz-b-000449030 Rights / License: In Copyright - Non-Commercial Use Permitted This page was generated automatically upon download from the ETH Zurich Research Collection. For more information please consult the Terms of use. ETH Library DISS. ETH NO. 26416 A Framework for Optimal In-Air Gesture Recognition in Collaborative Environments A thesis submitted to attain the degree of DOCTOR OF SCIENCES of ETH Zurich (Dr. sc. ETH Zurich) presented by SEYED ALI ALAVI Master of Science in Secure and Dependable Computer Systems born on 15.09.1984 citizen of Iran accepted on the recommendation of Prof. Dr. Konrad Wegener, examiner Prof. Dr. Andreas Kunz, co-examiner Prof. Dr. Morten Fjeld, co-examiner 2020 Abstract Hand gestures play an important role in communication between humans, and increasingly in the inter- action between humans and computers, where users can interact with a computer system to manipulate digital content, provide input, and give commands to a digital system. Thanks to advances in computer vision and camera technology, in-air hand gestures can be tracked without the need for instrumenting the hands. This allows for a wide variety of interesting and powerful use cases. First, hand gestures that happen naturally during human to human communication can be tracked and interpreted. This has been extensively used and researched, for example for communicating deictic ges- tures to remote participants. Most such solutions rely on communicating such gestures using extensive visual feedback, for example by showing remote participant’s hand, or even his or her full body, to their remote partners. While useful for many scenarios, such heavy reliance on visual feedback limits the us- ability and accessibility of such solutions, for example for blind and visually impaired (BVI) participants, or for scenarios where screen real state is limited. Even when used for human-computer interaction, in-air interfaces rely on visual feedback. Because in-air gestures are ephemeral, and there is no haptic feedback, it is difficult for a new user to perform them properly. Thus, a typical approach to address this problem is by drawing the hand trajectory on the display. This causes distraction, especially if multiple users who share a single display simultaneously interact with the system. Another approach is to have a fast gesture classifier, which allows giving quick feedback to the user, even shortly before finishing the gesture, provided that it is sufficiently different. Due to the way that most of the current classifiers are designed, these feedbacks are mainly limited to reporting whether the gesture could be classified, and if so, to which class did it belong. Such feedback has limited usefulness, as the only thing the user can do after receiving such feedback is to repeat the gesture if it was failed. But why it failed and how their performance can be improved remains unknown. This thesis proposes methods for utilizing in-air gestures for enhancing digital collaboration without iii heavy reliance on visual feedback. This is especially useful for collaborative scenarios where some participants have limited access to the visual channel, most notably BVI participants and remote partic- ipants, and for scenarios where the display in the collaborative environment is crowded with content, to showing large visual cues is not desirable. Specifically, this thesis addresses two main challenges: • How to communicate in-air gestures, specifically deictic gestures, to blind and visually impaired participants, as well as remote participants, while minimizing (or eliminating) the need for visual feedback. For BVI participants, this is achieved by tracking deictic gestures of sighted participants, deciding whether they are performing a deictic gesture, and then communicating the target of the gesture to the BVI participants using a Braille display or a screen reader. For remote participants, this is achieved by showing the target of pointing gesture using a small highlighter on the screen, as well as by allowing the remote participant to control the opacity of the visual feedback if a more complicated visual feedback is necessary. • How to use in-air gestures in collaborative scenarios for human-computer interaction, while min- imizing the use of visual feedback. This is achieved by proposing a new algorithm for gesture recognition that can provide fast, useful, and non-distracting feedback for in-air gestures. The algorithm always keeps the user informed about the state of the gesture recognizer, and informs the user about what they need to do next to get closer to finishing a gesture by giving them non- distracting visual cues. Moreover, the proposed algorithm is independent of the speed, scale or orientation of the gestures. This allows the users to perform gestures from different distances and angles relative to the camera, with a speed they are comfortable with, which gives them ample opportunity to learn how to perform gestures. Additionally, a new algorithm for creating large gesture sets for in-air interactions using a smaller set of gestures is introduced, thus reducing the need for learning new gestures by the users. The resulting gestures are also guaranteed to be easily detectable by the proposed gesture recognizer. Finally, because studying these problems requires a setup capable of uninstrumented hand tracking, this thesis proposes cost-effective hardware setups that allow for setting up collaborative environments with horizontal or vertical displays that are capable of tracking in-air gestures. iv Zusammenfassung Handgesten spielen eine wichtige Rolle in der Kommunikation zwischen Menschen, aber in zunehmen- dem Masse auch in der Kommunikation mit Computern. Mit seinen Gesten kann der Mensch den digita- len Inhalt manipulieren, Eingaben vornehmen, oder Befehle in den Computer eingeben. Durch die stetige Weiterentwicklung in der Bildverarbeitung und der Kameratechnologie können solche frei im Raum aus- geübten Gesten erkannt werden, ohne dass hierfür Sensoren an der Hand oder an dem Arm angebracht werden müssen. Dies ermöglicht eine Vielzahl interessanter und leistungsfähiger Anwendungsfälle. Diese Systeme können auch solche intuitiven Gesten erkennen und interpretieren, wie sie in der Kom- munikation zwischen Menschen auftreten. Diese Möglichkeit wurde intensiv erforscht, beispielsweise hinsichtlich der Übertragung deiktischer Gesten an entfernte Teilnehmer. Viele der Lösungen beruhen darauf, dass eine umfassende visuelle Darstellung ermöglicht wird, indem man beispielsweise die Hand des entfernten Teilnehmers darstellt oder sogar der ganze Körper den anderen Gesprächsteilnehmern gezeigt wird. Obwohl die Lösungen für viele Anwendungen nützlich sind, so ist doch diese starke Aus- richtung auf den visuellen Wahrnehmungskanal ein limitierender Faktor für einige Personen, beispiels- weise für Blinde und Sehbehinderte (BVI), aber auch für Szenarien, in denen nur kleine Bildflächen zur Verfügung stehen, z.B. Smartphones oder Tablets. Aber auch für die Interaktion zwischen Mensch und Computer sind solche frei im Raum ausgeführten Gesten auf ein visuelles Feedback angewiesen. Da solche Gesten kurzlebig sind und keine haptische Rückmeldung liefern, fällt es einem neuen Anwender schwer, diese zu erlernen und richtig auszufüh- ren. Eine Möglichkeit, diesem Problem zu begegnen besteht darin, den durch die Geste ausgeführten Pfad auf einem Bildschirm darzustellen. Hierdurch entstehen aber Ablenkungen und Missverständnisse, insbesondere dann, wenn die Gesten mehrerer Anwender auf dem gleichen Bildschirm dargestellt wer- den. Ein anderer Ansatz besteht in einer schnellen Zuordnung der Gesten, welche dem Anwender eine Rückmeldung über die korrekte Ausführung der Geste gibt. Allerdings beschränken sich die heutigen Klassifizierungsmodule darauf, lediglich die korrekte Klassifizierung und die zugehörige Klasse auszu- geben. Diese Information ist allerdings für den Anwender nur bedingt hilfreich, da er im Falle einer v fehlerhaften oder nicht erkannten Geste diese einfach nur wiederholen kann. Er erhält aber keine Mittei- lung darüber, warum diese Geste fehlerhaft war und wie sie korrigiert werden kann. Im Rahmen dieser Arbeit werden Methoden entwickelt, mit welchen solche Gesten für die Verbesserung der digitalen Zu- sammenarbeit eingesetzt werden können, ohne sich stark auf eine visuelle Rückmeldung abstützen zu müssen. Das ist insbesondere für solche Formen der digitalen Zusammenarbeit wichtig, in denen einige Teilnehmer nur einen eingeschränkten Zugang zu dem visuellen Wahrnehmungskanal haben, wie bei- spielsweise BVI oder Teilnehmer mit kleinen mobilen Endgeräten; aber auch für solche Fälle, in denen der Bildschirm bereits mit anderem Inhalt komplett belegt ist. Die Arbeit fokussiert insbesondere auf die folgenden beiden Punkte: · Ausgabe von frei im Raum ausgeführten Gesten – insbesondere deiktischen Gesten – an BVI oder an Anwender mit kleinen mobilen Endgeräten, während für den Ausführenden dieser Gesten die visuelle Rückmeldung minimiert oder komplett eiminiert wird. Hierzu werden die Gesten der sehenden Teilnehmer erfasst und entschieden, ob es sich um eine deiktische Geste handelt oder nicht. Die erkannten deiktischen Gesten werden dann für BVI auf einer Braille-Zeile oder über ein Bildschirm-Lesegerät ausgegeben. Für die Teilnehmer mit kleinen