アップルが新しい特許でSiriの口の動き読解機能を強化?音声入力に革命が訪れるかも!
アップルが、革新的な特許によってSiriの音声入力を革命的に向上させる可能性が浮上しています。この新たな特許によれば、アップルは専用の「リップリーディングプログラム」の研究を進めており、口の動きと音声を組み合わせて音声入力を向上させる取り組みを行っています。この特許は今年の1月に提出され、特定の単語やフレーズに対するモーションデータの一致を判断するシステムについて記載されています。
特許の図には、Siriが簡単な音声コマンド(例:「Hey Siri」「スキップ」「次の曲」)の理解と実行を向上させる方法が描かれています。これは、ユーザーの口の動きを分析するアルゴリズムを通じて実現されます。アップルは、Siriなどの音声認識システムにおいて、背景ノイズによる声の歪みや、バッテリー消費の問題などに直面してきました。
興味深いのは、この口の動き読解システムがカメラを使用せず、代わりにiPhone内のモーションセンサーを活用して口、首、頭の動きを検出し、それが人間の音声と一致するかどうかを判断する点です。このセンサーは、アクセラレータやジャイロスコープとして組み込まれる予定です。特許は、これがiPhoneに限らず、AirPodsなど他のデバイスにも統合される可能性を示唆しており、データはiPhoneに送信されるとされています。
微妙な顔の筋肉の動きや振動、頭の動きを検出するこのシステムは、以前話題となったAppleのスマートグラスのコンセプトにも関連しています。スマートグラスのプランが変更されたとはいえ、顔の動きの検出は引き続き重要な技術となっているようです。また、特許にはAIをトレーニングするための「第一言語モデル」についても触れられており、具体的な機械学習モデルに関しては詳細は不明ですが、大量のデータセットを活用して顔の動きを学習させることが示唆されています。
アップルは、AI技術の面では競合他社に比べて遅れているとされていますが、この特許を通じてSiriに新たなAI機能を取り入れる可能性が浮上しています。アップルは過去にも多くの特許を出願してきましたが、全てが実際の製品になるわけではありません。しかしながら、今回の特許は非常に具体的な内容を持っており、今後の展開が楽しみです。
アップルのサプライチェーンアナリストであるMing-Chi Kuo氏によれば、アップルのAI技術は他社と比べて遅れており、今後のハードウェア製品に新たなディープラーニングモデルを統合する可能性は低いとされています。ただし、アップルが「Apple GPT」というコードネームの内部チャットボットを開発したという情報もあり、SiriにAI機能を拡充する方向性は見受けられます。
総じて、アップルはSiriをより強力なAIアシスタントとして進化させるための研究に力を入れており、今後の展開が非常に注目されます。他のアプリも独自のAIベースの音声アシスタントを開発しており、競争が激化している中で、アップルの新たな取り組みがどのように展開していくかに期待が高まります。
コメント
コメントを投稿