【インタビュー】iPhone 13シネマティックモードの開発経緯をアップル副社長とデザイナーに聞く

iPhone 13 Proモデルのシネマティックモードは、先に行われたApple（アップル）の同端末のプレゼンテーションで特に強調されていた。これまでに公開されたレビューを読んだ人たちは、このモードの賢さは認めているものの、その利便性に疑問も感じているようだ。

筆者はこの機能を試してみた。最新のiPhoneをディズニーランドに持っていって、今後数年で数千人いや数百万人の人たちが行うような方法で実際にこの機能をざっと試してみた。筆者が行った個人的なテストの一部は、この記事でも触れる他、こちらの筆者のiPhoneレビューでも紹介している。この記事では少し掘り下げた情報をお届けする。

この記事では、世界iPhone製品マーケティング担当副社長Kaiann Drance（カイアン・ドランス）氏とアップルのヒューマンインターフェースチームのデザイナーJohnnie Manzari（ジョニー・マンザリ）氏に、この機能の目標と開発の経緯について話を聞いた。

「動画で高品質の被写体深度（DOF：ピントの合う最も近い距離と遠い距離の間）を実現するのはポートレートモードよりもはるかに難しいことはわかっていました」とドランス氏はいう。「静止画と違い、動画は撮影時に動く（撮影者の手ぶれも含め）ことが前提です。ですから、シネマティックモードで、被写体、人、ペット、モノを撮影するには、さらに高品質の深度データが必要になります。しかも、その深度データをすべてのフレームに追いつくように継続的に維持する必要があります。このようなオートフォーカスの変更をリアルタイムで実行すると、非常に重い計算負荷がかかります」。

シネマティックモードではA15 BionicチップとNeural Engineを多用する。Dolby Vision HDRでエンコードすることを考えると当然だ。また、ライブプレビュー機能も犠牲にしたくはなかった（アップルがこの機能を導入後、大半の競合他社は数年間、この機能を実現できなかった）。

しかし、アップルは最初からシネマティックモードの概念を機能として考えていたわけではない、とマンザリ氏はいう。実際、設計チームでは、機能とは反対の側面から取り掛かることが多い（同氏）。

「シネマティックモードなどというアイデアはありませんでした。ただ、興味深いとは思いました。映画製作が今も昔も人々を惹き付けるのはなぜだろうか、と。そして、それが徐々におもしろい方向へと進み始め、このテーマについて調査が始まり、社内で広く検討されるようになり、それが問題解決につながります」。

ドランス氏によると、開発が始まる前、アップルの設計チームは映画撮影技術の調査に時間を費やし、リアルな焦点移動と光学特性について学んだという。

「設計プロセスではまず、現在に至るまでの映像と映画撮影の歴史に深い敬意を払うことから始めました。映像と映画撮影のどの部分が今も昔も人々を惹き付けるのか、映画撮影のどのような技術が文化的な試練に耐えて生き残ったのか、またそれはなぜなのか、という疑問には大変魅了されました」。

マンザリ氏によると、従来とは異なる技法を選択する決断を下すときでさえ、アップルのチームはもともとのコンテキストの観点から慎重かつ丁寧に決断を下そうとするという。アップルのデザインとエンジニアリング能力を活かして、複雑さを排除し、人々が自身の可能性を引き出せるような何かを作成する方法を見出せるようにすることに重点を置く。

ポートレートライティング機能の開発プロセスでも、アップルの設計チームは、アヴェンドンやウォーホルなどの古典的な肖像画家やレンブラントなどの画家、および中国のブラシポートレートなどを研究し、多くの場合、オリジナルを見に足を運んだり、研究室でさまざまな特性を分析したりした。シネマティックモードの開発でも同様のプロセスが使用された。

画像クレジット：Matthew Panzarino

設計チームはまず、世界中の最高の映画撮影スタッフに話を聞いた。また、映画を観たり、昔のさまざまな映像例を分析したりした。

「そうすることで、いくつかの傾向が見えてきました」とマンザリ氏はいう。「ピントとピントの変更はストーリーテリングには欠かせない基本的な道具であること、私たちのように職能上の枠を超えたチームではそうした道具を使う方法とタイミングを把握する必要があることは明らかでした」。

それができたら、撮影監督、撮影スタッフ、第一助手カメラマン（ピント調整役）などと緊密になる。セットで彼らを観察したり、質問したりする。

「浅い被写界深度を使う理由、またそれがストーリーテリングという観点からどのように役に立つのかについて、撮影スタッフと話すことができたことも本当に良い刺激になりました。そこで覚えたのは、これは本当に陳腐化することのない知見ですが、見る人の注意を誘導する必要がある、ということです」。

「しかしこれは、現在のところ、スキルのあるプロ向けのアドバイスです」とマンザリ氏はいう。「あまりに難しいため、普通の人は試してみようとも思いません。1つのミスで数インチずれただけでだめです。これはポートレートモードで我々が学習したことです。いくら音楽やセリフで見る人の聴覚を刺激しても、視覚に訴えることができないなら、使いものになりません」。

その上にトラッキングショットがある。トラッキングショットでは、カメラが移動し、被写体もカメラに対して移動している状態で、ピント調整担当者は継続的にピントを合わせる必要がある。高度なスキルを要する操作だ。トラッキングショットを成功させるには、カメラマンは数年間、徹底的に練習を重ねる必要がある。マンザリ氏によると、アップルはここにビジネスチャンスを見出したのだという。

「これはアップルが最も得意とする分野なのです。つまり、難しくて、習得が困難とされている技術を、自動的かつシンプルにできるようにしてしまうというものです」。

チームはまず、フォーカスの特定、フォーカスロック、ラックフォーカスなどの技術的な問題に取り組む。こうした研究からチームは凝視にたどり着く。

「映画では、凝視と体の動きによってストーリーを組み立てていくのは極めて基本的なことです。人間はごく普通に凝視をコミュニケーションに使います。あなたが何かを見れば、私も同じものを見るという具合です」。

こうして、アップルのチームは凝視を検出する仕組みを組み込んでピントの対象をフレーム間で操作できるようにすることで、観る側がストーリーを追えるようにする必要があることに気づく。アップルは撮影現場で、こうした高度なスキルを備えた技術者を観察し、その感覚を組み込んでいったとマンザリ氏はいう。

「我々は撮影現場でこうした高い技術を備えた人たちと出会うことができます。彼らは本当に最高レベルの人たちです。そんな中、あるエンジニアが気づきます。ピント調整担当者というのはピント調整ホイールの感覚が体に染み付いていて、我々は、彼らがそれを操る様子を観ているだけだと。つまり、本当にピアノがうまい人が演奏しているのを観ていると、簡単そうに見えるけれど、自分にはできないことはわかっているのと同じ感覚です。ピント調整担当者が行っていることをそのまま真似ることなどできないのだと」とマンザリ氏はいう。

「第一助手カメラマンはアーティストで、自分がやっている仕事が本当にうまく、すばらしい技量を備えています。ですから、我々チームもフォーカスホイールを回すアナログ的感覚をモデル化しようと多くの時間を費やしました」。

これには、例えば長い焦点距離の変更と短い焦点距離の変更では、フォーカスホイールランプの操作スピードが速くなったり遅くなったりするため、変更の仕方が異なるといったことも含まれている。また、ピント調整が意図的かつ自然に感じられない場合、ストーリーテリングツールにはならない、とマンザリ氏はいう。ストーリーテリングツールは観る側に気づかれてはならないからだ。映画を観ていて、ピント調整テクニックに気づいたとしたら、おそらくピントが合っていないか、第一助手カメラマン（または俳優）が失敗したからだ。

最終的に、チームは映画撮影現場での調査研究を終えて多くの芸術的および技術的な課題を持ち帰ったのだが、それを解決するには極めて難しい機械学習の問題を解く必要があった。幸いにも、アップルには、機械学習研究者のチームとNeural Engineを構築したシリコンチームがいつでも協力してくれる体制があった。シネマティックモードに内在する問題の中には、これまでにない新しい独自のMLの問題が含まれていた。それらの問題の多くは非常に厄介で、微妙な差異や有機的な（人間くさい）感覚を維持するという掴みどころのないものを表現するテクニックを必要としていた。

シネマティックモードを試す

このテストの目的は、1日でできること（と午後のプールでのひととき）を撮影することだった。ディズニーランドに行けば誰もがやりたいと思うようなことだ。1人でカメラを持ち、特別なセットアップもなければ、撮影者の指示もほとんどない。ときどき、子どもにこっちを向いてというくらいだ。下の動画は、誰が撮っても大体こんな感じになるだろうというレベルを維持した。これは肝心なところだ。B-ROLL（ビーロール）はあまり用意していないし、何度も撮り直すようなこともしなかった。編集もしていない。唯一、撮影後にシネマティックモードを使っていくつか重要な場所を選択した。これは、エフェクトを入れるため、または自動検出機能によって選択されたカ所が気に入らなかったためだ。といっても大した編集ではなかったが、編集結果には満足している。下のデモ動画を再生できない場合は、こちらをクリックしていただきたい。

この動画はもちろん完璧なものではないし、シネマティックモード自体も完璧ではない。アップルがポートレートモードで導入して大成功した人工的なぼけ味（レンズブラー）は、1秒あたりの実行回数があまりに多くなる点が非常に苦しい。焦点追跡もカクカクすることがあるため、撮影後に編集するケースが想定していたよりも多くなるようだ。低照度設定でも問題なく動作するように思うが、高い精度を求めるならライダー光線の届く範囲内（約3メートル以内）で撮影するのがベストだ。

それでも、何を追跡しているのか、どこに向かっているのかはわかるし、このままでもとても便利で使っていて楽しい。多くのレビューがこのあたりを軽く流していることは知っているが、この種の新機能を（実際に使ってみるのではなく）人工的な負荷を与えてテストするのは、ごく普通の人がどの程度便利に使えるのかを確認するには、いささか雑な方法ではないかと思う。筆者が、2014年にディズニーランドでiPhoneのテストを始めた理由の1つもそこにある。iPhoneが数百万の人たちに使用されるようになって、処理速度とデータ量の時代はあっという間に過ぎ去りつつある。どのくらいの高い負荷を高速処理できるかはもうあまり重要なことではなくなってしまった。

人工的なテストフレームワークによって多くの早期レビューワたちが主に欠点を見つけているのを見ても別に驚きもしない（実際欠点は存在するのだ）。だが筆者は可能性のほうに注目したい。

シネマティックモードとは

シネマティックモードは実は、カメラアプリの新しいセクションに存在する一連の機能であり、iPhoneのほぼすべての主要コンポーネントを利用して実現されている。具体的には、CPUとGPUはもちろん、アップルのNeural Engineによる機械学習作業、加速度計による動きの追跡、そしてもちろんアップグレードされた広角レンズとスタビライザーも利用されている。

シネマティックモードを構成している機能の一部を以下に示す。

被写体認識と追跡
フォカースロック
ラックフォーカス（ある被写体から別の被写体に自然にピントを移動する）
イメージオーバースキャンとカメラ内蔵スタビライザー
人工的ぼけ（レンズブラー）
撮影後編集モード（撮影後にピント変更可）

上記のすべての機能はリアルタイムで実行される。

動作原理

これらすべてを、リアルタイムプレビューや後編集で毎秒30回も実行するためには、控えめにみても、かなり大きな処理能力が必要だ。アップルのA15チップで、Neural Engineのパフォーマンスが飛躍的に向上しており、GPUの処理能力も大幅に向上しているのはそのためだ。上記の機能を実現するには、そのくらいの処理能力が必要なのだ。信じられないのは、シネマティックモードを1日中かなり使ったにもかかわらず、バッテリーの駆動時間が明らかに短くなるということがなかった点だ。ここでも、アップルのワットあたりのパフォーマンスの高さがはっきりと現れている。

撮影中でも、ライブプレビューによって撮影内容を極めて正確に確認できるので、そのパワーは明らかだ。撮影中、iPhoneは加速度計からのシグナルを拾って、ロックした被写体に自分が近づいているのか、逆に被写体から遠ざかっているのかを予測し、すばやくピントを合わせることができるようにする。

と同時に「凝視」のパワーも利用している。

凝視検出機能により、次の移動先となる被写体を予測し、撮影シーン中のある人物が別の人物を見たり、フィールド中の物体を見ている場合、システムはその被写体に自動的にラックフォーカスできる。

アップルはすでにセンサーをオーバースキャンしてスタビライザーを実現している（つまり、事実上フレームの「エッジを越えて」見ている）ため、設計チームは、これは被写体予測にも使えるのではないかと考えた。

「ピント調整担当者は被写体が完全にフレーム内に収まるまで待ってからラックを行うわけではなく、被写体の動きを予測して、その人がそこに来る前にラックを開始します」とマンザリ氏は説明する。「そこで、フルセンサーを実行することで動きを予測できることがわかったのです。このように予測することで、その人が現れたときには、すでにその人にピントが合っている状態になります」。

これは上記の動画の後半のほうで確認できる。娘がフレームの左下に入ってきたときにはすでにピントが合っている。まるで、目に見えないピント調整担当者がそのシーンに娘が入ってくるのを予測して、そこ（つまりストーリーに新しく入ってきた人）に観る人の注意を惹きつけているかのようだ。

撮影した後も、焦点を修正して、クリエイティブな補正を行うことができる。

シネマティックモードの編集ビュー（画像クレジット：Matthew Panzarino）

撮影後の焦点選択ですばらしいのは、iPhoneのレンズは非常に小さいため、当然の結果として、被写界焦点が極めて深くなる（だからこそポートレートモードやシネマティックモードで人工的なぼけを実現できる）。つまり、物体に非常に近い位置にいない限り、フレーム内の任意の物体を選択してピントを合わせることができる。その後、シネマティックモードがすべての動画について保持している深度情報とセグメンテーションマスキングを使用してリアルタイムで変更が行われ、人工的なぼけエフェクトが再生される。

Here’s an interesting look at how much editing you can do to focus points and bokeh post shooting.

1. f16
2. f2
3. Foreground focus
4. Background focus

All same shot. pic.twitter.com/jgaIBGFoNh

— Panzer (@panzer) September 23, 2021

筆者は、iPhone 13 Proのレビューで、シネマティックモードについて次のように書いた。

このモードは、マーケティング上はともかく、焦点距離の設定や膝を曲げてのスタビライズ、しゃがんで歩いてラックしてのフォーカシングなどの方法を知らない大多数のiPhoneユーザーに、新たなクリエイティブの可能性を提供することを目的としている。今までは手の届かなかった大きなバケツを開けるようなものだ。そして多くの場合、実験的なものに興味があったり、目先の不具合に対処したりすることを厭わない人は、iPhoneの思い出ウィジェットに追加するためのすばらしい映像を撮影することができるようになると思う。

この機能をデモするためにアップルがどの映画会社と組もうと興味はないが、この機能から最大の恩恵を受けることができるのは、必ずしもカメラの操作に長けている人たちとは限らないと思う。幸いにも手が空いていて、このコロナ禍という厳しい現実の中でも、そこにいたときの気持ちを撮りたいという基本的な欲求を持っている人たちこそ最大の恩恵を受けるのではないか。

そして、それこそが映画という媒体の持つパワーだ。そこにいたときの気持ちになれる。シネマティックモードは、この初期バージョンではまだまだ完璧には程遠いが、従来よりもはるかに容易で、扱いやすい形で、これまではとても手が出せなかった世界への扉を開く道具を「ごく普通の人たち」に与えてくれるものだ。

現時点では、詳しく見ていけば不満な点もたくさんあるだろう。しかし、初めて実物のカイロ・レンを目の当たりにしたときの子どもの反応を撮影したことがある人なら、気にいる点もたくさんあるはずだ。完璧ではないからといって、この種の道具が使えることに異を唱えるのは難しい。

「私が誇りに思うのは、誰かが私のところにやってきて、写真を見せてくれたときです。写真の出来栄えを誇らしげに語り、自分が突如として才能あるクリエーターになったかのように満面の笑みをたたえて、こんな風に話してくれる。『私は美術学校など行ったこともないし、デザイナーでもない。私を写真家だと思った人など1人もいないけど、この写真は本当にスゴイでしょ』と」とマンザリ氏はいう。

「映画は人間のさまざまな感情やストーリーを見せてくれます。そして、基本を正しく抑えていれば、そうした感情やストーリーを観る側に伝えることができる。iPhoneであなたにも新しい世界が開けるのです。私たちはシネマティックモードに長い間、本当に懸命に取り組んできました。お客様に実際に試していただけるのを本当に楽しみにしています」。

画像クレジット：Matthew Panzarino

［原文へ］

（文：Matthew Panzarino、翻訳：Dragonfly）

TechWatch