東京工業大学 情報理工学研究科 情報環境学専攻
中臺研究室のホームページです。

What's new

  • ・三浦君の研究発表が人工知能学会の2011年度研究会優秀賞を
     受賞しました. 
  • ・新M1の手塚くんが配属されました. 
  • ・奥谷君の講演がSI2011優秀講演として表彰されました. 

更新履歴

  • '12/04/26 学生による受賞を更新しました。
  • '12/04/04  新M1の手塚君が配属されました。
  • '12/03/12 学生による受賞を更新しました。
  • '11/10/04 学生による受賞を更新しました。
  • '11/07/07 学生の研究の紹介を掲載しました。
  • '11/04/08 メンバー構成変更に伴い,ホームページの内容を更新しました。
  • '10/08/09 10年度夏季インターンシップ募集終了のお知らせを掲載しました。
  • '10/06/18 10年度夏季インターンシップ募集のお知らせを掲載しました。
  • '10/04/07 ホームページの内容を更新しました。
  • '09/07/14 09年度夏季インターンシップ募集終了のお知らせを掲載しました。
  • '09/06/29 09年度夏季インターンシップ募集のお知らせを掲載しました。
  • '09/04/07 ホームページの内容を更新しました。
  • '07/09/26 ホームページをリニューアルしました。

研究の紹介

robot audition image新しい研究領域として、「ロボット聴覚」研究を行っています。ロボット聴覚研究は、人工知能、信号処理、ロボティクスをまたがる新たな研究分野として 2000 年に提唱した分野で、近年、国内外で注目を浴びてきています。 「ロボット聴覚」では、大きなテーマとして、人が普段聞いているような音環境を、如何にロボットに理解できるようにするかという問題を扱っています。特に、ロボットでは、雑音、反響が動的に変化し、時には目的信号よりも大きくなるような劣悪な実環境でのロバスト性を実時間で扱う必要があります。こうした問題に対し、ロボットならではの動作を積極的に利用するアクティブオーディションを鍵として、音源の位置推定(音源定位)、目的音源の抽出(音源分離)、抽出音源の認識(音声認識)といった要素技術から要素技術の統合によるロバスト性向上、また、実際にこうした技術を人・ロボットコミュニケーションへ応用していく研究を行っています。

最近の研究テーマ

具体的には、以下の3つの研究を中心に進めています。

  1. ロボット聴覚のための要素技術の研究
    • 複数音源の定位・追跡、音源分離、分離音声の音声認識
  2. システム統合技術研究
    • 時間統合:アクティブオーディション - ロボットならではの「動作」を積極的に利用
    • 空間統合:マイクロホンアレイ、複数マイクロホンアレイの統合
    • マルチモーダル統合:視聴覚統合、視聴覚音声認識
    • システム統合:ミッシングフィーチャ理論に基づく統合
  3. アプリケーション研究
    • 人・ロボットコミュニケーション
    • 実環境・実時間音環境理解

学生による研究

現在,学生が取り組んでいる研究のテーマは,以下の様になっています

  • ・ロボットのためのアクティブ視聴覚統合による音声認識
  • ・非同期分散マイクアレイによる音源定位
  • ・屋外での音環境理解のためのクワドロコプターによる音源定位

以下は,これまでの修士論文のテーマです

  • [2008年] ロボットへの適用を考慮した視聴覚音声認識に関する研究
  • [2009年] 実時間ビートトラッキング手法の開発とその音楽ロボットへの
          適用に関する研究
  • [2010年] ロボットを対象とした二階層視聴覚統合による音声認識の研究
  • [2012年] SLAMに基づく非同期分散マイクロホンアレイのオンラインキャリ
          ブレーション

最近の publication

詳細な論文リストはこちら

  1. Ryu Takeda, Kazuhiro Nakadai, Toru Takahashi, Kazunori Komatani, Tetsuya Ogata, Hiroshi G. Okuno: ICA-based efficient blind dereverberation and echo cancellation method for barge-in-able robot audition. ICASSP 2009: 3677-3680
  2. Kazuhiro Nakadai, Hirofumi Nakajima, Yuji Hasegawa, Hiroshi Tsujino: Sound source separation of moving speakers for robot audition. ICASSP 2009: 3685-3688
  3. Gokhan Ince, Kazuhiro Nakadai, Tobias Rodemann, Yuji Hasegawa, Hiroshi Tsujino, Jun-ichi Imura: Ego noise suppression of a robot using template subtraction. IROS 2009: 199-204
  4. Ryu Takeda, Kazuhiro Nakadai, Toru Takahashi, Kazunori Komatani, Tetsuya Ogata, Hiroshi G. Okuno: Step-size parameter adaptation of multi-channel semi-blind ICA with piecewise linear model for barge-in-able robot audition. IROS 2009: 2277-2282
  5. Takuma Otsuka, Toru Takahashi, Hiroshi G. Okuno, Kazunori Komatani, Tetsuya Ogata, Kazumasa Murata, Kazuhiro Nakadai: Incremental polyphonic audio to score alignment using beat tracking for singer robots. IROS 2009: 2289-2296
  6. Toru Takahashi, Kazuhiro Nakadai, Kazunori Komatani, Tetsuya Ogata, Hiroshi G. Okuno: Missing-feature-theory-based robust simultaneous speech recognition system with non-clean speech acoustic model. IROS 2009: 2730-2735
  7. Keisuke Nakamura, Kazuhiro Nakadai, Futoshi Asano, Yuji Hasegawa, Hiroshi Tsujino: Intelligent sound source localization for dynamic environments. IROS 2009: 664-669
  8. Hirofumi Nakajima, Keiko Kikuchi, Touru Daigo, Yutaka Kaneda, Kazuhiro Nakadai, Yuji Hasegawa: Real-time sound source orientation estimation using a 96 channel microphone array. IROS 2009: 676-683
  9. Hirofumi Nakajima, Kazuhiro Nakadai, Yuji Hasegawa, Hiroshi Tsujino: Adaptive step-size parameter control for real-world blind source separation. ICASSP 2008: 149-152
  10. Kazuhiro Nakadai, Shun'ichi Yamamoto, Hiroshi G. Okuno, Hirofumi Nakajima, Yuji Hasegawa, Hiroshi Tsujino: A robot referee for rock-paper-scissors sound games. ICRA 2008: 3469-3474
  11. Ryu Takeda, Kazuhiro Nakadai, Kazunori Komatani, Tetsuya Ogata, Hiroshi G. Okuno: Barge-in-able robot audition based on ICA and missing feature theory under semi-blind situation. IROS 2008: 1718-1723
  12. Hirofumi Nakajima, Kazuhiro Nakadai, Yuji Hasegawa, Hiroshi Tsujino: High performance sound source separation adaptable to environmental changes for robot audition. IROS 2008: 2165-2171
  13. Kazumasa Murata, Kazuhiro Nakadai, Kazuyoshi Yoshii, Ryu Takeda, Toyotaka Torii, Hiroshi G. Okuno, Yuji Hasegawa, Hiroshi Tsujino: A robot uses its own microphone to synchronize its steps to musical beats while scatting and singing. IROS 2008: 2459-2464
  14. Kazumasa Murata, Kazuhiro Nakadai, Kazuyoshi Yoshii, Ryu Takeda, Toyotaka Torii, Hiroshi G. Okuno, Yuji Hasegawa, Hiroshi Tsujino: A Robot Singer with Music Recognition Based on Real-Time Beat Tracking. ISMIR 2008: 199-204
  15. 村田 和真, 中臺 一博, 武田 龍, 奥乃 博, 長谷川 雄二, 辻野 広司: ビートトラッキングロボットの構築と評価, 第28回 AI チャレンジ研究会, SIG-Challenge-A802-3, 13-20, 人工知能学会, Nov. 2008.
  16. 村田 和真, 中臺 一博, 武田 龍, 吉井 和佳, 奥乃 博, 鳥井 豊隆, 長谷川 雄二, 辻野 広司: 人・ロボットインタラクションに向けたビートトラッキングロボットの開発とその評価, 日本ロボット学会第26回学術講演会, Sep. 2008.
  17. 吉田 尚水, 中臺 一博: ロボット聴覚のための音声発話区間検出の検討, 日本ロボット学 会第26回学術講演会, Sep. 2008.
  18. 村田 和真, 吉井 和佳,奥乃 博,鳥井 豊隆,中臺 一博, 長谷川 雄二: ロボットによるビートトラッキングにおける周期性自己発生音の影響評価, SICE システムインテグレーション部門大会 SI 2007,Dec. 2007.
  19. 小岩 智明,中臺 一博,井村 順一: 視聴覚音声認識における唇検出手法の検討, SICE システムインテグレーション部門大会 SI 2007, Dec. 2007.
  20. 小岩 智明, 中臺 一博, 井村 順一: ロボットを対象とした視聴覚音声認識の検討: 音素・口形素グルーピングとミッシングフィーチャー理論に基づくアプローチ, 日本ロボット学会第25回大会, Sep. 2007.
  21. 中臺 一博, 辻野 広司: 指向性スピーカを用いたロボット音声インタフェースの提案, ヒューマンインターフェース学会誌, Vol.8, No.2, 2006. (in print)
  22. Kazuhiro Nakadai, Hirofumi Nakajima, Masamitsu Murase, Satoshi Kaijiri, Kentaro Yamada, Takahiro Nakamura, Yuji Hasagawa, Hiroshi G. Okuno, Hiroshi Tsujino: ROBUST TRACKING OF MULTIPLE SOUND SOURCES BY SPATIAL INTEGRATION OF ROOM AND ROBOT MICROPHONE ARRAYS, IEEE International Conference on Acoustics, Speech, Signal Processing (ICASSP 2006), SAM-P1.8, 2006.
  23. 小岩智明, 中臺一博, 井村順一: 視覚音声認識における口形素グループの検討, システムインテグレーション部門大会 SI 2006, 計測自動制御学会, Dec. 2006.
  24. 山本 俊一, 中臺 一博, 辻野 広司, 奥乃 博: ミッシングフィーチャ理論を利用した音源分離と音声認識のインターフェースと複数ロボットへの適用, 日本ロボット学会誌, Vol.23, No.6, pp.743-751, 2005.
  25. Kazuhiro Nakadai, Daisuke Matsuura, Hiroshi G. Okuno and Hiroshi Tsujino: Improvement of Recognition of Simultaneous Speech Signals Using AV Integration and Scattering Theory for Humanoid Robots, Speech Communication, Vol.44, pp. 97-112, 2004.
  26. Hiroshi G. Okuno, Kazuhiro Nakadai and Hiroaki Kitano: Effects of Increasing Modalities in Recognizing Three Simultaneous Speeches, Speech Communication, Vol.43, No.4, pp.347-359, 2004.
  27. 中臺 一博, 日台 健一, 溝口 博, 奥乃 博, 北野 宏明: ヒューマノイドを対象にした視聴覚統合による実時間人物追跡 ? アクティブオーディションと顔認識の統合 ?, 日本ロボット学会誌, Vol.21, No.6, pp.517-525, 2003
  28. 中臺 一博, 奥乃 博, 北野 宏明: ヒューマノイドにおける聴覚機能の課題とアクティブオーディションによる音源定位, 人工知能学会論文誌, Vol. 18, No. 2-F, pp.104-113, 2003.

受賞歴

  1. 小岩 智明, 中臺 一博, 井村 順一: (社)計測自動制御学会 第7回システムインテグレーション部門 講演会SI-2006 ベストセッション賞「視覚音声認識における口形素グループの検討」.
  2. Kazumasa Murata, Kazuhiro Nakadai, Kazuyoshi Yoshii, Ryu Takeda, Toyotaka Torii, Hiroshi G. Okuno, Yuji Hasegawa, Hiroshi Tsujino: A Robot Uses Its Own Microphone to Synchronize Its Steps to Musical Beats While Scatting and Singing, Award for Entertainment Robots and Systems (NTF Award) Nomination Finalist, IEEE/RSJ IROS-2008, Nice, Sep. 2008.

研究室紹介

2006年度に発足した新しい研究室です。ロボットの聴覚に関する研究を核に、様々な技術や理論を如何にロボットへ適用し、知能を実現していくのかをテーマにしています。
私が HRI-JP と兼務で大学に籍を置いている関係で、あまり頻繁には研究室には顔を出すことはできません(週一度程度)。実際には、井村研、早川研 と協力しながら研究室運営を行っています。その代わりに、本研究室に配属希望の方は、HRI-JP(埼玉県和光市)にときどき来ていただき、そこで研究を進めていくことも可能な体制を整えています。将来的に企業で働こうと考えている方や企業の基礎研究機関がどのようなものか興味のある方は、企業の研究者とのふれあいを通じて、様々なことを吸収できるチャンスだと思います。

活動紹介

Members

  • 連携教授
  • 博士課程 3年
  • 修士課程 2年
    • 奥谷 啓太
  • 修士課程 1年
    • 手塚 太貴
  • 卒業生
    • 小岩 智明
    • 村田 和真
    • 三浦 弘樹