プレスリリース

深層強化学習法による超音波モータの最適制御システムの開発に成功


1.発表者:
アブドラ ムスタファ(東京大学 大学院新領域創成科学研究科 博士課程3年)
笹村 樹生(東京大学 大学院新領域創成科学研究科 博士課程1年)
森田  剛(東京大学 大学院新領域創成科学研究科 人間環境学専攻 教授:研究当時/大学院工学系研究科 精密工学専攻 教授:現在)

2.発表のポイント:
◆ 高速応答性、高トルクという特性から触覚提示デバイス等への応用が期待される超音波モータの制御システムを、深層強化学習法(注1)を用いて開発することに成功しました。
◆ これまで、温度変化や超音波モータの強い非線形特性(注2)によって制御困難性がありましたが、深層強化学習法を導入することで、超音波モータの優れた基本特性を発揮させることができるようになりました。
◆ 超音波モータを最適制御することが可能になったことで、手術ロボティックスや触覚提示システムなど、遠隔手術などでの仮想空間提示デバイスに応用できると期待されます。

3.発表概要:
東京大学 大学院新領域創成科学研究科(研究当時/現在:大学院工学系研究科 精密工学専攻)の森田 剛教授と東京大学 大学院新領域創成科学研究科のアブドラ ムスタファ氏、笹村樹生氏は、深層強化学習法の導入により超音波モータを最適駆動する制御システムの開発に成功しました。
超音波モータは一般的な電磁モータとは異なり、超音波振動を利用してロータを摩擦駆動する原理で、重量当たりのトルクが大きく、小型化が可能で、高速応答性に優れているという特長を持っています。しかし、これらの優れた機能にもかかわらず、入力電圧信号に対する回転出力の関係に強い非線形性やヒステリシス(注3)があること、さらに温度上昇に伴うパラメータ変化があることなどから、制御が難しいという本質的な問題がありました。
本研究により、温度変化や外乱に対して高い柔軟性を持った優れた速度制御性を実現することができるようになり、例えば遠隔手術等での距離の離れた患者と術者をつなぐ力覚提示デバイス(注4)や手術ロボットへと応用が期待できます。また、本手法は速度制御だけではなく、トルク制御、位置制御、コンプライアンス制御、効率最適化などが可能です。
<研究室ウェブサイト(研究紹介)> http://www.usdev.t.u-tokyo.ac.jp/contents/research.html

4.発表内容:
高速通信インフラである第5世代移動通信システムを積極的に利用した仮想現実世界の実現、例えば遠隔手術システムや遠隔救助ロボット制御に対する社会的要求が非常に高まっています。この実現には触感提示デバイスを高度化するメカトロニクス研究の基盤技術を構築する必要があり、電磁モータとは全く異なる駆動原理を持つ超音波モータに期待が高まっています。
超音波振動を用いた摩擦駆動原理を持つ超音波モータは、高速応答、高トルク、シンプルな構造による小型化が可能であること、極めて小さいロータの慣性モーメントという、触覚提示デバイスに有益な基本性能を持っています。しかし、制御システム法の確立が不十分であるため、応用範囲が残念ながら限定されていました。制御システムの最適化が困難であったのは、超音波モータが摩擦を駆動原理としているために超音波共振駆動させるための入力電圧と回転速度や出力トルクに強い非線形性とヒステリシスがあること、温度上昇に伴って各種パラメータが変化してしまうなどが原因として挙げられます。この駆動制御装置の問題が、超音波モータがハードウェアとして有する数々の特長を発揮することを難しくしている主要因です。
そこで本研究では、超音波モータの制御手法として深層強化学習法を適応した最適制御システムを開発し、高速応答の実現や外部環境の変化に対応が困難という問題を解決することで、超音波モータがハードウェアとして有する多くの優位点を容易に実現できることを目的としました(図1)。深層強化学習法としては、連続値制御のための有力手法である Soft Actor-Critic(SAC、注5)を用いて、超音波モータへの入力信号を出力するActorニューラルネットワークと、システム評価に用いるCriticニューラルネットワークを構築しました。Actorニューラルネットワークの入力パラメータには、駆動周波数、超音波モータの温度、エンコーダで計測した回転速度、目標回転速度として、駆動周波数の増減量を出力するシステムとしました。
この設定において、目標回転速度をさまざまに変化させながら制御を行い、実際の回転速度の関係などからニューラルネットワークの重み付けパラメータを学習していき、最終的には非常に柔軟な制御則を得ることに成功しました。この際、システム評価に用いるCriticニューラルネットワークの出力による評価値も収束することが確認されています(図2)。このシステムで実際に超音波モータを応用するには、学習によって得られたパラメータを用いて駆動すれば良いので、温度変化に対応しながらも、最適条件で高速駆動することができ、従来の制御装置の問題点を抜本的に解決できることになります(図3)。
このように、超音波モータのように強い非線形性が強いシステムを温度上昇も制御パラメータに含めて制御できたことは非常に重要で、従来のPID制御(注6)などではできませんでした。今回の研究では回転速度制御を目的としましたが、同様のことをトルク制御、位置制御、コンプライアンス制御、効率最適化に対して行うことが可能です。
本研究の成果は、ロボティックスや触覚提示デバイスなど、第5世代移動通信システムを利用した没入感の高い仮想現実世界を創成することに貢献できると考えられます。また、このような基盤技術の高度化により、仮想現実世界の実現だけでなく、ゲーム機におけるリアルタイム触覚や高齢者対応のリハビリシステム、車いす操作用ジョイスティックのアクティブ制御など、メカトロニクスの要素技術として高いポテンシャルを有する超音波モータのさまざまな応用が期待されます。

5.発表雑誌:
雑誌名:IEEE Access (2022年4月28日付)
論文タイトル:
Robust speed control of ultrasonic motors based on Deep Reinforcement learning of a Lyapunov function
著者: Abdullah MUSTAFA*, Tatsuki SASAMURA and Takeshi MORITA
DOI番号:10.1109/ACCESS.2022.3170995
アブストラクトURL:https://doi.org/10.1109/ACCESS.2022.3170995

6.用語解説: 
(注1)深層強化学習法:最適な入出力関係を得るために、多層ニューラルネットワークを利用した強化学習を利用して試行錯誤を繰り返すことにより学習する手法。
(注2)非線形特性:あるシステムに入力した値と出力として得られる値が比例関係にない特性。超音波モータの場合では、駆動周波数や駆動電圧などの入力パラメータとトルク、回転速度などの出力特性が複雑になり、比例関係がない。
(注3)ヒステリシス:過去の履歴に基づいて特性が変化すること。例えば、同一の入力電圧や駆動周波数を入力しても、過去の履歴によって異なる出力特性が示される現象。
(注4)力覚提示デバイス:遠隔でのセンシング情報提示や仮想現実空間を実現するために、力、振動、動きなどの機械的刺激を操作者の皮膚に提示するデバイスのこと。
(注5)Soft Actor-Critic (SAC):強化学習法のなかでも連続値制御のための有力手法であり、対象とする入出力関係を学習するActorニューラルネットワークと、このニューラルネットワーク自体を評価するCriticニューラルネットワークによって構成される。
(注6)PID制御:制御手法の一種で、制御目標値と実際の値との差異と、これを微分、積分したものの計3つの要素によって制御出力を決定する手法。

7.添付資料:
fig1
(図1)超音波モータ制御における深層強化学習のシステム構成

fig2(図2)深層強化学習法の学習履歴

fig3(図3)深層強化学習法による制御システムを用いた回転速度制御の結果


プレスリリース本文:PDFファイル
IEEE Access:https://ieeexplore.ieee.org/document/9764695