皆さん、こんにちは。本日はSakana AIより、新手法「TAID (Temporally Adaptive Interpolated Distillation)」と、それを用いて開発した小規模日本語言語モデル「TinySwallow-1.5B」について解説させていただきます。大規模言語モデル(LLM)がますます私たちの生活に浸透していくなか、「小型でも高性能なモデル」をいかに効率よく作り、運用するかは非常に大きな課題です。本日は、その課題を解決するために生まれたTAIDという技術、そして小規模でも高い性能を発揮するTinySwallow-1.5Bの魅力をお伝えしたいと思います。
正確な情報は、公式サイトでご確認ください。 https://sakana.ai/taid-jp
1. 背景:LLMの急速な発展と計算資源の壁
まず、大規模言語モデル(LLM: Large Language Model)に関して簡単に触れます。
LLMとは、数十億〜数千億といった非常に多くのパラメータ(モデル内の変数)を持ち、テキストを予測・生成できる人工知能モデルです。これらのモデルは、日常的な会話から複雑な数学問題、プログラミングのコード生成までこなす非常に高い能力を持っています。しかし、一方で、その開発や運用には膨大なGPUやメモリといった計算資源が必要になるため、個人や中小規模の企業が独自のLLMを作ることは容易ではありません。スマートフォンやPCなどのエッジデバイスにモデルを直接載せることも理想ではありますが、計算リソースの限界が大きな障壁になっているのが現状です。
2. SLM(小規模言語モデル)の重要性
そこで注目されているのが、SLM(Small Language Model)です。
- SLM(Small Language Model)とは、パラメータ数を抑えた言語モデルを指します。パラメータ数が減れば計算コストが下がり、スマートフォンやPCでも動かしやすい利点があります。一方で、その分性能も落ちやすいのが通常です。
- しかし、今回ご紹介する新手法TAIDを用いることで、小規模でも高性能を維持したままモデルを作り上げることが可能になります。これが、Sakana AIの最新研究成果である「TinySwallow-1.5B」です。
3. 知識蒸留(Knowledge Distillation)の概要
SLMの性能向上によく用いられる手法に「知識蒸留(Knowledge Distillation)」があります。
- 知識蒸留とは、性能の高い大規模モデル(教師モデル)から、生徒モデル(小規模モデル)へ知識を転移させる技術です。
- 例えば教師モデルが「ある文脈では『AI』が35%の確率で最適解、ただし『ML』も25%という確率で文脈的には自然」といった、“答えの確率分布”そのものを生徒モデルに教えます。こうすることで、単に正解ラベルを教わるだけよりも、生徒モデルが教師モデルの推論過程や判断の勘どころを学習しやすくなるのです。
しかし、従来の知識蒸留には「大きすぎる教師モデルだと、生徒モデルには荷が重すぎてうまく学習できない」という課題がありました。これは、例えるならば、大学院の専門知識をいきなり小学生に教えるようなもの。生徒モデルの能力差が大きいほど学習効率が落ちてしまうのです。
4. 新手法「TAID (Temporally Adaptive Interpolated Distillation)」の特徴
この課題を解決するために、Sakana AIと共同研究者たちが開発したのがTAIDです。
- TAID:
- Temporally Adaptive Interpolated Distillationの略称で、「時間的に段階を追って教師モデルを変えながら知識を蒸留する」新しいアプローチです。
- 学習初期の生徒モデルの理解度に合わせて、「やや小さめの教師モデル」=**中間教師(intermediate teacher)**を設定し、生徒がある程度成長したら、さらに少し大きな教師モデルへ段階的に切り替えていきます。
- これにより、生徒モデルはいつでも自分より少し上のレベルの先生に教わり続けることになり、負担なく着実に知識を習得できるわけです。
(1) なぜ段階的に教師モデルを変えるのか?
- 一度に巨大な教師モデルからすべてを教わろうとしても、生徒モデルが対応しきれず学習が進まない問題がありました。
- TAIDは教師モデルを「スライド式」に変化させるため、常に生徒モデルが理解しやすいレベルの指導が受けられます。
(2) 実験結果:大きな教師モデルも活用可能
- 従来の知識蒸留手法では「教師モデルが大きいほど良いわけではない」とされてきましたが、TAIDでは反対に教師モデルが大きければ大きいほど性能が向上するという結果が得られています。これは生徒と教師の能力差を段階的なアプローチで埋めたからこその成果です。
5. TinySwallow-1.5B:最高水準の日本語SLM
TAIDを用いた実例として、日本語のSLM「TinySwallow-1.5B」が先日公開されました。
- TinySwallow-1.5B:
- パラメータ数15億(=1.5B)という比較的小さなモデルですが、320億パラメータの大規模モデルからTAIDによる知識蒸留を受け、同規模のモデルと比べて最高水準の性能を達成しています。
- スマートフォン(iPhoneやAndroid端末)や一般的なPC上でも、オフラインでテキスト生成が可能。実際、デモではiPhone 14上で高速生成している様子が示され、大きな注目を集めています。
(1) TinySwallow ChatUI
- ウェブアプリ「TinySwallow ChatUI」: ブラウザ上でTinySwallow-1.5Bを直接動かし、外部API不要でチャット可能。ネット接続がなくても、モデルをダウンロードさえしてしまえばオフラインで使えるのが特徴です。
(2) Local版の提供
- TinySwallow ChatUI Local:
- Pythonを用いたインターフェースで、ネットワークに接続せずに完全オフラインで利用可能。
- 大規模言語モデルを外部サービスに依存せずに使いたい方には非常に魅力的な選択肢です。
(3) Hugging Face Hubへの公開
- モデルの重みが「Hugging Face Hub」で公開されており、研究者や開発者がすぐに試せる環境が整っています。
6. 今後の展望
TAIDの応用はLLMだけにとどまりません。
- 英語の視覚言語モデル(VLM: Vision-Language Model)にTAIDを適用した事例でも、優れた性能を確認しています。
- 将来的には、より多言語対応のSLMや、ロボティクスなど多様な分野へ広く展開することが期待されます。
Sakana AIは、引き続き大規模モデルの能力をより手軽な小規模モデルに落とし込む研究を進めることで、誰もが高性能なAIを活用できる世界の実現を目指してまいります。
7. まとめ・終わりに
最後に、本研究が経済産業省やNEDOの「GENIAC」プロジェクトの支援を受けていることに改めて感謝を申し上げます。Sakana AIとともに、AI技術の新たなステージを切り開いていきたい方は、ぜひ当社の募集要項をチェックしてください。
本日のポイントをまとめると、以下のとおりです。
- 計算資源の壁を乗り越える小規模モデルの重要性
- 知識蒸留という手法による大規模モデルの知識の転移
- TAIDを使った段階的知識蒸留の画期的なアプローチ
- TinySwallow-1.5Bによる日本語SLMの高性能化とオフライン運用
今後も私たちは、より多くの方が高性能なAIを活用できる世界を作るため、研究開発に取り組んでまいります。ご清聴ありがとうございました。
(専門用語解説 まとめ)
- LLM(Large Language Model)
パラメータ数が非常に多い大規模言語モデル。高度な自然言語処理が可能。 - SLM(Small Language Model)
パラメータ数を抑えた小規模言語モデル。計算資源が限られる環境でも動作しやすい。 - 知識蒸留(Knowledge Distillation)
高性能な教師モデルの持つ確率分布などの判断基準を、生徒モデルに転移する技術。 - TAID (Temporally Adaptive Interpolated Distillation)
段階的に教師モデルを変え、常に“少し上のレベル”から教わる仕組みにする新しい蒸留手法。 - 中間教師(Intermediate Teacher)
生徒モデルと最終的な大規模教師モデルとの“橋渡し”をする教師モデル。生徒の成長度合いに合わせて段階的に変化させる。 - TinySwallow-1.5B
TAID手法によって開発された日本語SLM。1.5B(15億)のパラメータを持ち、同規模帯で最高クラスの日本語性能を達成。 - Hugging Face Hub
機械学習モデルを共有するためのオンラインプラットフォーム。多くの研究者・開発者が利用。 - VLM(Vision-Language Model)
画像と言語の両方を取り扱えるモデル。例えば画像キャプション生成などに利用される。
iPhoneでの利用も可能です。https://github.com/SakanaAI/TinySwallow-ChatUI/blob/main/docs/iphone.md
機内モードでも動作できるのは素晴らしい。