※このページは、自動車関連企業等より配信されたパブリシティリリース記事をそのまま転載しております。掲載内容に関するお問い合わせ等につきましては、直接リリース配信元までお願いいたします。
新たに自動運転マルチモーダルモデルのベースとなる日本語LLMも公開、国内最高レベルの性能を達成
完全自動運転技術の開発に取り組むTuring株式会社(東京都品川区、代表取締役:山本 一成、以下「チューリング」)は、日本初(※)の自動運転向けVLAモデルデータセット「CoVLA(コブラ) Dataset」を開発し、一部を公開しました。そして、コンピュータービジョンの主要な国際会議WACV 2025(IEEE/CVF Winter Conference on Applications of Computer Vision 2025)において、同データセットの研究論文「CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving」(以下、本論文)が採択されたことをお知らせします。
本成果は経済産業省/NEDOの生成AI開発支援「GENIAC」の開発の一環として実施され、上記のほかにも、自動運転マルチモーダルモデルのベースとなる日本語LLM「LIama-3-heron-brain-70B,8B」や、高速なマルチモーダル分散学習ライブラリ「vlm-recipes」、大規模な視覚-言語データセット「Wikipedia-Vision-JA」、「Cauldron-JA」など複数成果を公開しています。
※自社調べ、2024年9月調査、日本国内における自動運転向けVLAモデルとして
背景
複雑かつ予期しない状況下においても適切に対応可能なシステムを構築する必要がある完全自動運転では、画像(視覚)やテキスト(言語)など複数種類のデータを用いて高度な判断を行うことができるマルチモーダル大規模言語モデル (以下、MLLMs)が重要な技術となります。しかし、同領域においてはAI学習用にアノテーションされた大規模なデータセットが不足していることがボトルネックとなり、E2E自動運転システム(※)の経路計画における応用研究がほとんど見られないのが現状です。
CoVLA Datasetの概要
CoVLA (Comprehensive Vision-Language-Action) Datasetは、上記課題を解決するためにチューリングが開発し、このたび一部を公開した日本初の自動運転向けVLAモデルデータセットです。車載センサーデータを含む80時間以上の運転データで構成されており、データの規模とアノテーションの多様さにおいて国外の既存データセットを上回っています。データ処理からキャプション生成まで自動化したスケーラブルな手法で構築しており、同データセットを用いて開発したVLAモデル「CoVLA-Agent」は、画像から得た運転環境を自然言語で詳細に説明し、適切な経路計画を生成することが可能です。
CoVLA-Dataset:https://huggingface.co/datasets/turing-motors/CoVLA-Dataset-Mini
今後について
CoVLA Datasetを活用したMLLMsがさまざまな運転シナリオにおいてどの程度の能力を発揮するかを検証した結果、同モデルが一貫性のある言語生成と行動出力において優れた性能を示し、視覚・言語・行動データを用いたVLAモデルが自動運転分野において効果的なアプローチであることを確認しています。
今後は、学術機関向けにCoVLA Datasetの全データセットを公開することも視野に、より安全かつ信頼性の高い自動運転システムの実現を目指していきます。
本論文は、arXivにて公開しています:https://arxiv.org/abs/2408.10845
日本語LLM「LIama-3-heron-brain-70B,8B」について
Llama-3-heron-brain-70B, 8Bは、日本の言語ニュアンスや道路状況を詳細に理解し、対応可能な指示学習済みの日本語LLMです。自動運転に向けた視覚-言語マルチモーダルモデルをベースにしており、Llama-3に対して日本語での継続事前学習を実施した後、さらに追加の指示調整を実施しています。GENIACプロジェクトで言語性能を測る共有ベンチマークにおいてはgpt-3.5-turboを上回る結果を示し、事業者間でも2番目のスコアを記録するなど、高い日本語・英語性能を有しています。また、これらをベースとした最大730億パラメータの視覚-言語モデルについても学習を実施しており、開発・評価を進めています。
LIama-3-heron-brain-70B,8B:https://huggingface.co/turing-motors/Llama-3-heron-brain-70B-v0.3
Llama-3-heron-brain-8B-v0.3:https://huggingface.co/turing-motors/Llama-3-heron-brain-8B-v0.3
視覚-言語データセット「Wikipedia-Vision-JA」「Cauldron-JA」について
日本語LLMに視覚情報を結合させるためには、大規模な画像とテキストのペアを学習させる必要があります。そこで、チューリングは日本の文化・応答に密結合した日本語と画像のデータセットを新たに構築しました。Wikipedia-Vision-JAは、日本語Wikipediaの全ページの情報から、画像とその説明、関連テキストからなる約600万件のデータセットです。また、Cauldron-JAは、Hugging Faceが公開している「The Cauldron」を日本語で再構成した視覚言語モデル データセットで、視覚言語応答に関する44のデータセットを含む大規模なコレクションです。
Wikipedia-Vision-JA:https://huggingface.co/datasets/turing-motors/Wikipedia-Vision-JA
Cauldron-JA:https://huggingface.co/datasets/turing-motors/Cauldron-JA
マルチモーダル分散学習ライブラリ「vlm-recipes」について
vlm-recipes は、チューリングがGENIACプロジェクトで大規模な視覚-言語マルチモーダルモデルを学習するために活用した分散学習ライブラリです。マルチモーダルモデルのトレーニングを簡単かつ効率的に行うために設計されたツールで、バックエンドとして PyTorch FullyShardedDataParallel (FSDP) を使用することで、大規模な GPU クラスターでの分散トレーニングをサポートしています。直感的なインターフェースと柔軟な構成オプションにより、あらゆる VLM アーキテクチャやデータセットでのトレーニングを簡単に管理することができます。より多くの研究者や開発者がより簡単に大規模マルチモーダルモデルを学習できるようにするため、オープンソースとして公開しています。(開発責任者:藤井一喜)
vlm-recipes:https://github.com/turingmotors/vlm-recipes
本プレスリリースにおける成果は、国内における生成AIの開発力強化を目的としたGENIACプロジェクトのもと、国立研究開発法人新エネルギー・産業技術総合開発機構(NEDO)による助成事業「競争力ある生成AI基盤モデルの開発」から得られた結果に基づき公開しています。
参考プレスリリース:https://tur.ing/posts/DK4fM1yr
※カメラから取得したデータのみでステアリング、アクセル、ブレーキなど、運転に必要なすべての判断をAIが行うシステム
チューリングについて
完全自動運転の開発に取り組むスタートアップです。カメラから取得したデータのみでステアリング、アクセル、ブレーキなど、運転に必要なすべての判断をAIが行うE2E (End-to-End) の自動運転システムを開発しています。複数種類のデータを用いて高度な判断を行うマルチモーダル生成AI「Heron」や、現実世界の物理法則や物体間の相互作用など複雑な状況を理解し、リアルな運転シーンを動画として生成可能な自動運転向け生成世界モデル「Terra」の開発を通じて自動運転領域における技術革新を推進し、2030年までにハンドルのない完全自動運転車の開発を目指しています。
会社概要
会社名:Turing株式会社
所在地:東京都品川区大崎1丁目11−2 ゲートシティ大崎 イーストタワー4階
代表者:代表取締役 山本一成
設立:2021年8月
事業内容:完全自動運転技術の開発
URL:https://tur.ing/
採⽤情報
チューリングは、日本発の完全自動運転実現により世界を変える仲間を積極的に募集しています。会社紹介イベントや自動運転体験会も頻繁に実施していますので、お気軽にお問い合わせください。
採⽤ページ:https://tur.ing/jobs
人気記事ランキング(全体)
様々な用途に対応する、INNO ルーフギアケース720 SUV系のクルマのルーフによく積まれている細長いボックスを見たことはないだろうか? 実はコレ、ルーフボックスと呼ばれる人気のカー用品。中でも、カ[…]
固く締まって外せないネジ…。一体どうすれば? クルマのメンテナンスを自分で行う場合、ドライバーでネジを外すというのは基本中の基本の作業となる。もちろん、車両メンテナンス以外でも、ネジを外すという作業は[…]
普段使いにも“ちょうどいい”コンパクトカーベースのキャンピングカー キャンピングカーのベース車はワンボックスのバンや軽バンが人気だが、前者は大型で価格的にも予算オーバー。後者はウチの家族構成には小さす[…]
軽トラックから生まれた本格派キャンパー バロッコは「軽キャンパーでありながら本格的なモーターホームを作る」というコンセプトから生まれている。ベースはダイハツ・ハイゼットトラックだが、ただ荷台にシェルを[…]
軽キャンパーでも広がる快適空間 軽自動車をベースにしたキャンピングカーと聞くと、どうしても手狭なイメージを持ちがちだ。しかしピッコロキャンパー+のポップアップルーフ仕様は、その印象を大きく覆してくれる[…]
最新の投稿記事(全体)
軽四輪順位は、10年連続の第1位を達成 N-BOXシリーズは、2011年12月の初代発売以来、累計販売台数は順調に増加し、2023年12月には250万台を達成。さらに、直近の年度実績でも、軽四輪車順位[…]
Copyright William Crozes @ Continental Productions シトロエンの歴史と誇りを車内に凝縮 今回導入される新型C3(第4世代)は、先代で好評だったユニーク[…]
コンパクトボディに詰め込まれた“暮らせる”装備 ZEROの最大の特徴は、ベース車両としてハイエース(キャラバンも選択可)を採用しながらも、車内での生活をしっかり支える装備を詰め込んでいる点にある。走行[…]
便利な機能を持った、実用的なカーカーバー 今回紹介するのは、車種別の便利なカー用品を多数リリースしている、クラフトワークスのカーカバーだ。同社の特長としては、車種別にピッタリとフィットするように設計さ[…]
担当者に聞く、ドライブレコーダー選びのポイントとは? 日々、新聞やテレビ、ネットのニュースで絶えることのないあおり運転や逆走運転によるトラブル。また万が一の交通事故でもその前後の「証拠」が重要視されて[…]