プレスリリース

音声コマンド認識AIの電力を3桁削減、新方式AIプロセッサを開発 ―乾電池1本で2年以上連続動作、ドローンやロボットへの応用に期待―

 

発表のポイント

音声コマンド認識AIの消費電力を3桁削減可能な、布線論理型AIプロセッサを開発。
布線論理型AIプロセッサの課題は膨大な実装面積。そこで、チップ面積と電力を削減するため新たなアルゴリズムと回路の協調最適化手法を開発し、16層の深層ニューラルネットワークにおける全てのニューロンとシナプスを1チップに実装。
今後は音声コマンド認識に限らず、マシンビジョン、設備点検自動化、ドローン、AR/VRなど多くのエッジAIアプリケーションへの応用に期待。

 

fig4

音声コマンド認識AIの電力を3桁削減可能な、新方式布線論理型AIプロセッサのチップ写真

 

発表概要

東京大学大学院工学系研究科の小菅敦丈 講師、澄川玲維 大学院生、濱田基嗣 特任教授、黒田忠広 教授らによる研究グループは、JST戦略的創造研究推進事業の助成のもと、35種の音声コマンド認識(注1AIを題材に、既存のAIプロセッサと比較し3桁以上低電力化できる新方式の布線論理型AIプロセッサ(注2)を開発しました。

音声コマンド認識AIは新たなマシンインターフェースとして急速に発展しています。一方で、認識可能なコマンド数が増えAIモデルが複雑化するほど、消費電力が急増するという課題がありました。これは、深層ニューラルネットワーク(注3)の処理量が飛躍的に増えてしまうためです。識別可能なコマンド数が4種程度であれば0.1mW未満での推論が可能な一方、コマンド数が35種にもなると390mW程度の電力が必要となっていました。

本研究では低電力化のため、人の大脳を真似た布線論理型の新規AIプロセッサを開発しました(図1)。省ニューロン省シナプスなアルゴリズム技術と、省面積回路実装技術を新たに開発し、1チップで16層の深層ニューラルネットワークを布線論理型AIプロセッサで実装することに成功しました。これにより、消費電力の大きかったメモリとの通信を完全になくし、152.8μWでの推論を実現しました。この新規AIプロセッサは、35種の音声コマンドを識別可能なAIを、乾電池1本で2.2年にわたり連続動作させることが可能です。今後は、スマートフォン、ドローン、自動車内エンタメ機器制御、AR/VR機器への応用が期待されます。

 

fig1

1:開発した新規AIプロセッサの概要

35種の音声コマンドを高精度認識可能なAIを、152.8μWの電力で連続動作可能。

乾電池1本で2.2年間の連続動作できる計算になる。

 

本研究成果は、202369日(日本時間)に国際会議2023 Symposium on VLSI Technology and Circuitsで発行される「Technical Digest」に掲載されました。

 

発表内容

〈研究の背景〉

AI技術は多くの産業に技術革新をもたらし、日常生活を変革すると期待されています。膨大な数のニューロンとシナプスを持つ深層ニューラルネットワークが技術の中核であり、シナプス接続を学習により最適化することでさまざまな能力を獲得しています。

AI技術の課題は、極めて大きな消費電力です。ニューロンとシナプス数を増やすほど多種多様なタスクを高精度に処理でき、高性能なAIを実現できることが知られています。一方、巨大なAIモデルであるほど計算処理量が増え、コンピュータが消費する電力も膨大なものとなります。

本研究グループではAI処理の低電力化を実現するため、人の大脳を真似た布線論理型新規AIプロセッサを開発してきました。1チップ上にすべてのニューロンとシナプスを展開実装することで、消費電力の大きいメモリアクセスをなくし低電力化を実現してきました。これまでに、画像分類タスクにおいて、GPU(注4)に比べて4桁以上電力を削減できることを実証し、プロセッサ分野における最高峰の学会の1つである2022 IEEE Hot Chips 34 Symposiumで発表しました。一方で、実際の応用に対してどのくらいの性能を発揮できるか、高いAI計算性能を実現するためにどのようなシステム上の工夫が必要であるか、という点に関しては検証できていませんでした。

 

〈研究の内容〉

新たなマシンインターフェースとして期待される音声コマンド認識AIを題材とし、高い精度、少ないチップ実装面積、低い消費電力すべてを同時に実現するため、省ニューロン省シナプスなアルゴリズム技術と、省面積回路実装技術を新たに開発しました。1チップで16層の深層ニューラルネットワークを布線論理型AIプロセッサとして実装することに成功し、152.8μWでの推論を実現しました。従来のAIプロセッサ(ISSCC’22)(注5)と比較し、消費電力を1/2552以下にできました(図2)。これにより、35種の音声コマンドを識別可能なAIを、乾電池1本で2.2年にわたり連続動作させることが可能です。

 

fig2

2:これまでの音声コマンド認識プロセッサとの性能比較

従来のAIプロセッサ(ISSCC’22)と比較し、1/2552以下に電力消費を削減。

 

従来の音声コマンド認識AIでは、識別可能なコマンド数が4種程度であれば単純なAI処理で完結するため0.1mW未満での推論が可能でした。一方、コマンド数が35種にもなると、16層もの深層ニューラルネットワークが必要になり、390mW程度の電力が必要となっていました。  

布線論理型AIプロセッサは人間の大脳を真似た方式であり、ニューラルネットワークを構成するニューロンとシナプスすべてをチップ上に並列実装しています。頻繁なデータ移動やメモリとの通信をなくすことができ、低消費電力化を実現しています。一方、16層もの深層ニューラルネットワークを布線論理型AIプロセッサとして実装しようとすると、大きな実装面積が必要でした。特に音声コマンド認識AI用途では長いビット幅が必要であり、個々の回路規模は大きくなります。試算では、30チップ以上にも上る実装面積が必要でした。チップ間通信の電力消費が大きいことに加え、チップ枚数も多いことから、実装にかかる巨額のコストと巨大な面積が課題でした。

本研究グループは、布線論理型AIプロセッサの実装面積を削減するため、深層ニューラルネットワークを簡素化し必要なニューロンとシナプス数を大幅に削減する“非線形ニューラルネットワーク(Non-linear Neural NetworkNNN))技術をこれまで提案してきました。ニューロンの非線形関数を個々に最適化することでニューラルネットワークの表現能力を高め、従来の深層ニューラルネットワークに比べて2桁少ないニューロン数とシナプス数で、複雑なAIタスクを実現する技術です。さらに音声コマンド認識向けにビット幅を削減し、ニューロンを省面積な回路として実装しやすい形に変換する“Logical Compression”技術も新たに開発しました(図3)。また、認識精度の劣化を抑えるため、ニューロン回路をAIのモデルとして再度取り込みAIモデルを再度最適化する、“Logical Compression Aware Re-Training”技術も併せて開発。結果、音声コマンド認識の精度を保ったまま、回路面積を1/497に削減することに成功しました。


 

fig3

3:音声コマンド認識に向けた布線論理型AIプロセッサ

チップ実装面積削減のためのLogical Compression技術を開発。
さらに開発した再学習アルゴリズムと組み合わせることで、認識精度を保ちながら面積を1/497に削減。

 

本研究では16層もの深層ニューラルネットワークを、40nmプロセスで製造された3mm×3mm1チップに布線論理型AIプロセッサとして実装することができました(図4)。これにより、152.8μW消費電力での推論が可能になりました。半導体回路設計分野で最も権威ある学会であるISSCCVLSIシンポジウムにて2019年以降発表された論文と比較したところ、同程度の消費電力で3.5倍以上のコマンド数を認識できました。コマンド数が増えると深層ニューラルネットワークの規模が増え、一般に大幅に電力が増大しますが、同程度の100μW台の消費電力に抑えることに成功しました。従来AIプロセッサ(ISSCC’22)と比較し、1/2552もの消費電力削減を実現しています(図2)。

 

fig4

4:試作した音声コマンド認識向け布線論理型AIプロセッサ

40nmプロセスで開発。16層の深層ニューラルネットワークを1チップに実装。

 

〈今後の展望〉

開発した布線論理型AIプロセッサはすべてデジタル回路で構成され、Pythonなどの高位プログラミング言語から、短い設計期間でAIプロセッサの製造図面にまで変換できることが特徴です。このため、短期間に機能更新を繰り返すAIアプリケーションに最適といえます。今後は音声コマンド認識に限らず、マシンビジョン、設備点検自動化、物流倉庫、無人店舗など、カメラやドローンなどの端末に直接AIを搭載したエッジAIアプリケーションへ展開することを目指しています。


〈関連の記事〉

「システムデザイン研究センター 小菅敦丈 講師が「MIT Technology Review Japan Innovators Under 35」を受賞されました」(2021/12/22

https://www.t.u-tokyo.ac.jp/topics/foe/topics/setnws_202112211123220957601664.html

 

「若手研究者紹介:小菅 敦丈 講師」(2023/5/2

https://www.t.u-tokyo.ac.jp/topics/tp2023-05-08-069

 

発表者

東京大学大学院工学系研究科附属システムデザイン研究センター

小菅 敦丈(講師)

濱田 基嗣(特任教授)

黒田 忠広(教授)

澄川 玲維(修士課程)

柴 康太(博士課程:研究当時)

許 耀中(修士課程:研究当時)

 

論文情報

〈雑誌〉Technical Digest
(国際会議2023 Symposium on VLSI Technology and Circuitsで発行)

〈題名〉A 183.4nJ/inference 152.8μW Single-Chip Fully Synthesizable Wired-Logic DNN Processor for Always-On 35 Voice Commands Recognition Application

〈著者〉Atsutake Kosuge, Rei Sumikawa, Yao-Chung Hsu, Kota Shiba, Mototsugu Hamada, Tadahiro Kuroda

 

研究助成

この研究成果は、主として、以下の事業・研究領域・研究課題によって得られました。

JST 戦略的創造研究推進事業 個人型研究(さきがけ)

研究領域:「情報担体とその集積のための材料・デバイス・システム」(研究総括:若林 整 東京工業大学 工学院 教授)

研究課題:「デバイス・システム協調による超低電圧布線論理型AIプロセッサ」

研究代表者:小菅 敦丈(東京大学 大学院工学系研究科 講師)

 

用語解説

(注1)音声コマンド認識:複数のキーワードを認識することで、スマートフォン、PC、ロボットを制御する音声インタフェースの方式。

Up”、“Down”、“Move”、“Stop”、“Fast”、“Slow”、“Right”、“Left”などの名詞や動詞を登録することで、細かい機器制御を音声で行うことができる。

 

(注2)布線論理型AIプロセッサ:演算器同士を物理的に結線し、結線を組み替えることで、プログラムの命令を実行する方式。汎用プロセッサと異なり、命令や各種データのメモリへの格納が原則不要であり、高速かつ低消費電力であるという特徴がある。

 

(注3)深層ニューラルネットワーク:脳の仕組みを模したAIモデルの1つであり、多数のニューロンとシナプスからなる層を多段に重ね、シナプスの係数を計算により最適化することで所望の認知機能を獲得する。

 

(注4GPUGraphic Processing Unitの略称であり、画像認識に特化した汎用プロセッサを指す。大規模な行列計算を高い電力効率と短い時間で実行できることから、行列計算を多数行うAI処理に多く採用されている。

 

(注5ISSCCInternational Solid-State Circuits Conferenceの略称であり、米国電気電子学会 固体回路分科会(IEEE Solid-State Circuit Society)が主催する最高峰のフラグシップ学会である。ここでは2022年度のISSCCで発表されたAIプロセッサに関する論文を指している。

J.-S. Park et al., “A Multi-Mode 8K-MAC HW-Utilization-Aware Neural Processing Unit with a Unified Multi-Precision Datapath in 4nm Flagship Mobile SoC,” IEEE International Solid- State Circuits Conference (ISSCC), Dig. Tech. Papers, pp. 246-248, 2022.

 

 

プレスリリース本文:PDFファイル