<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN">
<html><body style='font-family: Verdana,Geneva,sans-serif'>
<p>We are making 24 GB of a new dataset, called Kara One, freely available. This database combines 3 modalities (EEG, face tracking, and audio) during imagined and articulated speech using phonologically-relevant phonemic and single-word prompts. It is the result of a collaboration between the Toronto Rehabilitation Institute (in the University Health Network) and the Department of Computer Science at the University of Toronto.</p>
<p>In the associated paper (abstract below), we show how to accurately classify imagined phonological categories solely from EEG data. Specifically, we obtain up to 90% accuracy in classifying imagined consonants from imagined vowels and up to 95% accuracy in classifying stimulus from active imagination states using advanced deep-belief networks.</p>
<p>Data from 14 participants are available here: <a href="http://www.cs.toronto.edu/~complingweb/data/karaOne/karaOne.html">http://www.cs.toronto.edu/~complingweb/data/karaOne/karaOne.html</a>.</p>
<p>If you have any questions, please contact Frank Rudzicz at <a href="mailto:frank@cs.toronto.edu">frank@cs.toronto.edu</a>.</p>
<p> </p>
<p>Best regards,</p>
<p>Frank</p>
<p> </p>
<p>PAPER Shunan Zhao and Frank Rudzicz (2015) Classifying phonological categories in imagined and articulated speech. <em>In Proceedings of ICASSP 2015</em>, Brisbane Australia</p>
<p>ABSTRACT This paper presents a new dataset combining 3 modalities (EEG, facial, and audio) during imagined and vocalized phonemic and single-word prompts. We pre-process the EEG data, compute features for all 3 modalities, and perform binary classification of phonological categories using a combination of these modalities. For example, a deep-belief network obtains accuracies over 90% on identifying consonants, which is significantly more accurate than two baseline support vector machines. We also classify between the different states (resting, stimuli, active thinking) of the recording, achieving accuracies of 95%. These data may be used to learn multimodal relationships, and to develop silent-speech and brain-computer interfaces.</p>
<div> </div>
</body></html>