FlashLabs、世界初となるリアルタイム音声対話モデル「Chroma 1.0」を公開

1 / 1

プレスリリース詳細 https://kyodonewsprwire.jp/release/202601222899

あなたにオススメ

本プレスリリースは発表元が入力した原稿をそのまま掲載しております。詳細は上記URLを参照下さい。また、プレスリリースへのお問い合わせは発表元に直接お願いいたします。

Hugging Face世界1位を獲得。わずか数秒のサンプルから「本人の声」を再現するオープンソースAI

2026年1月23日

- 広告 -

FlashIntel Japan株式会社

FlashIntel Japan株式会社(本社:東京都千代田区、代表取締役:細井 洋一)は、FlashLabsが1月16日、世界初となるオープンソースのエンドツーエンド・リアルタイム音声対話モデル「Chroma 1.0(クロマ)」を正式公開したことを発表いたします。Chroma1.0はAI開発のための世界最大級のオープンソースプラットフォームHugging Faceにてマルチモーダルカテゴリで1位を獲得(2026年1月22日時点)。Chroma公開のXの投稿は100万回表示を突破しています。 Chroma 1.0は、音声入力から音声出力まで約147ミリ秒の低遅延を実現し、数秒の参照音声から高精度な個別化音声生成を可能にします。コールセンターや営業の電話対応など、ビジネスの現場で人間に代わって対話するAIとしての活用が期待され、すでにFlashIntel Japan株式会社が提供するエンタープライズ向け音声エージェント基盤FlashAI 2.0上で実運用されています。クローズドAPIが主流であったリアルタイム音声AI分野において、Chroma 1.0は研究・開発・実装のすべてを開放した、初の実用レベルのオープンモデルとなります。

【画像:https://kyodonewsprwire.jp/img/202601222899-O1-Dl7pSZ5W

【画像:https://kyodonewsprwire.jp/img/202601222899-O2-hwm6esi2

背景:音声AIの遅延問題と個別化の課題

従来の音声AI システムは、音声認識(ASR)→テキスト処理(LLM)→音声合成(TTS)という多段階処理により、応答遅延が発生していました。また、話者の声質を保持したままリアルタイムで対話する技術は、計算コストと精度の両立が困難でした。コールセンターや顧客対応の現場では、自然な会話速度と個別対応が求められており、技術的なブレークスルーが必要とされていました。

【画像:https://kyodonewsprwire.jp/img/202601222899-O2-hwm6esi2

Chroma 1.0とは:「声を声のまま理解するAI」

Chroma 1.0は、音声を音声のまま処理する「Speech-to-Speech(S2S)」設計を採用し、以下の特徴を備えた世界初のモデルです(当社調べ、2026年1月時点)。

世界初の特徴(当社調べ、2026年1月時点):

・オープンソース(コード・モデル重みを含む全公開)

・エンドツーエンド音声間処理(ASR→LLM→TTSを介さない)

・リアルタイム対話(200ミリ秒未満の応答)

・数秒の参照音声からの個別化音声クローニング

調査範囲:

主要オープンソースリポジトリ、論文データベース(arXiv等)、主要ベンダー公開情報(OpenAI Realtime API、Elevenlabs等)を対象に、上記4条件を同時に満たすモデルの有無を確認。

【画像:https://kyodonewsprwire.jp/img/202601222899-O2-hwm6esi2

技術的特徴:性能データと計測条件

Chroma 1.0は、研究・管理環境下で以下の性能を示しました。

◆ 低遅延リアルタイム応答

エンドツーエンドTTFT(Time To First Token):146.87ミリ秒

音声入力から最初の音声出力までの時間

測定条件:単一GPU環境、標準ネットワーク、平均3〜5秒の音声入力

◆ 高速推論

RTF(Real-Time Factor):0.43

実時間の半分以下で処理完了(実時間の2倍以上の速度)

測定条件:同上

◆ 高精度音声類似度

Speaker Similarity(話者類似度):0.817

人間ベースライン(0.73)比で +10.96% の向上

評価指標:客観的話者類似度評価

数秒の参照音声から高精度な個別化音声を生成

◆ 軽量・高効率設計

パラメータ数:約40億(4B)

Qwen2.5-Omni-3B、Llama 3クラスに匹敵する対話性能

ストリーミング生成に対応し、連続的な音声出力を実現

◆ インターリーブ設計

テキスト-音声トークンスケジュール(1:2)

テキストと音声を同期生成し、自然なターンテイキング(会話の交代)を実現

【画像:https://kyodonewsprwire.jp/img/202601222899-O2-hwm6esi2

想定ユースケース

Chroma 1.0は、以下の分野での活用を想定しています。

1. コールセンター・カスタマーサポート

音声応答の待ち時間を短縮し、自然な会話フローを実現。顧客ごとに最適化された音声で対応することで、満足度向上とオペレーター負荷軽減を両立。

2. 営業・インサイドセールス

リアルタイム音声エージェントが初期対応を担当し、商談機会の取りこぼしを削減。人間らしい声での見込み顧客との自然な対話で、人的リソースを高付加価値業務にシフト。

3. 予約・問い合わせ対応

24時間365日、遅延のない音声対応を提供。飲食店、医療機関、公共施設等での無人受付や多言語対応に活用可能。

4. 音声ネイティブなマルチモーダルAIアプリケーション

音声インターフェースを核とした新サービスの構築。教育、エンターテインメント、アクセシビリティ支援等、多様な領域での応用が期待される。

5. 音声アシスタント・バーチャルヒューマン

個別化された音声で対話するAIキャラクターやアバター。ゲーム、メタバース、パーソナルアシスタント等での利用を見込む。

FlashLabsが提供している電話対応AIエージェントFlashAI上でも実装され、大手システム提供会社を含めた同サービス利用者にも順次公開されます。

【画像:https://kyodonewsprwire.jp/img/202601222899-O2-hwm6esi2

オープンソース公開内容:

Chroma 1.0は、研究・開発・実装のすべてを公開しています。

◆ 公開内容

モデルウェイト(Hugging Face)

https://huggingface.co/FlashLabs/Chroma-4B

ソースコード(GitHub)

https://github.com/FlashLabs-AI-Corp/FlashLabs-Chroma

技術論文(arXiv)

https://arxiv.org/abs/2601.11141

◆ ライセンス

Apache License 2.0

商用利用、改変、再配布が可能。研究機関・企業・個人開発者が自由に活用できます。

◆ 動作環境

GPU推奨(NVIDIA A100、H100等)

transformersライブラリ最新版

PyTorch最新版

【画像:https://kyodonewsprwire.jp/img/202601222899-O2-hwm6esi2

デモと検証

◆ デモ動画

リアルタイム対話と個別化音声生成の実際の動作を確認できます。

https://www.youtube.com/watch?v=AOMmxTwsam0

◆ 技術レポート

測定方法、ベンチマーク詳細、アーキテクチャ解説を論文で公開。再現手順も含め、第三者による検証が可能です。

◆ ベンチマーク結果

主要な音声理解・推論・対話タスクにおいて、同クラスのモデルと競合する性能を確認。詳細は論文のTable 5を参照。

【画像:https://kyodonewsprwire.jp/img/202601222899-O2-hwm6esi2

コメント

FlashLabs 創業者兼Global CEO 石 一(Yi Shi) は次のように述べています。

「リアルタイム音声AIは、クローズドであるべきではありません。Chroma 1.0は、音声AIを"開かれた知能"として次の段階へ進めるための第一歩です。従来の多段階処理では、遅延、誤り伝播、副言語情報の損失が避けられませんでした。エンドツーエンド設計により、これらの課題を根本から解決しました。開発者コミュニティとともに、音声AIの民主化を推進します。」

【画像:https://kyodonewsprwire.jp/img/202601222899-O2-hwm6esi2

FlashIntel Japan株式会社について

FlashIntel Japan株式会社は、次世代AIエージェントおよび音声AI基盤の研究・開発・提供を行うAI企業です。営業AI基盤システムFlashRev、電話AIエージェントFlashAIをはじめ、に日本市場における生産性革新を推進しています。

会社名: FlashIntel Japan株式会社

代表者: 代表取締役 細井 洋一

所在地: 東京都千代田区

事業内容: AIエージェント基盤、リアルタイム音声AI、企業向けAIソリューションの研究開発・提供

ウェブサイト: https://www.flashlabs.ai/

【画像:https://kyodonewsprwire.jp/img/202601222899-O2-hwm6esi2

報道関係お問い合わせ先

FlashIntel Japan株式会社

電話: 03-6869-2514

担当: 広報担当

共同通信PRワイヤー 最新記事