マルチメディア処理 - Manus Documentation

Manus は、画像の生成、動画コンテンツの理解、音声出力の作成、スピーチの文字起こしなど、複数のメディアタイプに対応しています。テキスト、画像、動画、音声をワークフローにシームレスに組み合わせることができます。

機能の概要

機能	実行内容	使用例
画像生成	説明からカスタム画像を生成	製品モックアップ、イラスト、図表
画像理解	画像から情報を分析・抽出	ドキュメントスキャン、視覚分析
動画理解	動画コンテンツを分析しインサイトを抽出	会議の文字起こし、コンテンツ分析
音声出力	テキストを自然なスピーチに変換	ナレーション、オーディオコンテンツ
音声認識	音声をテキストに文字起こし	会議メモ、インタビューの文字起こし

画像生成

クイックスタート

「モダンでミニマルなオフィススペースの画像を生成してください自然光と植物があるもの」

一般的な使用方法

製品ビジュアル:

製品モックアップとプロトタイプ
機能のイラスト
UI/UXのコンセプト

マーケティングアセット:

ソーシャルメディアグラフィック
ブログ記事のイラスト
広告クリエイティブ

プレゼンテーション:

カスタムスライドの背景
コンセプトのイラスト
視覚的な比喩

図表 & グラフ:

プロセスフロー
システムアーキテクチャ
インフォグラフィック

より良い画像を作成するためのヒント

スタイルを具体的に指定する:

✅ 「ミニマリスト、モダン、プロの写真」
✅ 「フラットデザインのイラスト、明るい色」
❌ 「見た目を良くして」

構図を説明する:

✅ 「被写体は中央、背景はぼかし、自然光」
❌ 「…の写真」

使用目的を指定する:

✅ 「Instagram投稿用、正方形フォーマット、太字のテキストオーバーレイ」
✅ 「プレゼンテーションスライド用、ワイドスクリーンフォーマット、ソフトな背景」

画像理解

クイックスタート

(画像をアップロード) 「この画像で何が起こっているかを詳細に説明してください」

一般的な使用方法

ドキュメント処理 **:**スクリーンショットからテキストを抽出

手書きのメモを読む
レシートと請求書を解析
視覚分析

**:**写真内のオブジェクトを識別

図表とグラフを分析
画像の内容を説明
品質管理

**:**製品写真に問題がないかチェック

画像の内容を確認
視覚的な違いを比較
タスク例

「これら10枚の製品画像からすべてのテキストを抽出し、スプレッドシートを作成してください」

「この会議の録音を文字起こしし、アクションアイテムを含む要約を作成してください」 (動画ファイルをアップロードするか、URLを提供)

一般的な使用方法

アクションアイテムを抽出 議論を要約コンテンツ分析

:
競合他社の動画を分析
チュートリアルから重要なポイントを抽出

製品デモを確認ドキュメント化

:
動画チュートリアルをテキストガイドに変換
長い動画の要約を作成

引用とタイムスタンプを抽出### タスク例

「この1時間のウェビナーを文字起こしし、以下を作成してください。
- 完全な文字起こし
- エグゼクティブサマリー
主要なポイント（箇条書き）

一般的な使用方法

コンテンツ作成 : 書かれたコンテンツの音声バージョンスクリーンリーダーの代替

音声ガイド
マーケティング
:

広告のナレーション製品デモのナレーション

ソーシャルメディアのオーディオコンテンツ
音声オプション
トーン

: プロフェッショナル、フレンドリー、カジュアル、エネルギッシュ、穏やかペース

: 速い、普通、遅い
スタイル
: 会話調、フォーマル、教育的、宣伝的

音声認識（Speech to Text）

### クイックスタート「このインタビューの録音を文字起こししてください」(音声ファイルをアップロード)「このポッドキャストのエピソードを話者ラベル付きでテキストに変換してください」「これら20件のカスタマーサポートの通話を文字起こしし、言及されている一般的な問題を特定してください」### 一般的な使用方法

会議のドキュメント化 : 検索可能な会議アーカイブを作成ポッドキャストをブログ記事に変換 音声から番組ノートを作成ソーシャルメディアの引用を生成

リサーチ
:
インタビューを文字起こし

顧客の通話を分析フォーカスグループの録音を処理

機能
話者識別
: 話者を区別

タイムスタンプ: 発言時間をマーク

フォーマット
: 正しい句読点と区切り
精度

: アクセントやバックグラウンドノイズがあっても高い精度

## モダリティの組み合わせManus は、これらの機能を単一のワークフローで組み合わせることができます。
### 例 1：動画からブログ記事へ「この製品デモ動画を見て、文字起こしし、主要な機能を抽出し、重要な瞬間にスクリーンショットを生成し、ブログ記事を作成してください」
画像とテキストを含む」### 例 2：ナレーション付きプレゼンテーション
「当社の製品に関する10枚のスライドのプレゼンテーションを作成してください。各スライド用にカスタムイラストを生成します。その後、プレゼンテーション全体のナレーションスクリプトと音声ナレーションを作成します。」### 例 3：画像分析からレポートへ

「これら50枚の製品写真を分析し、テキストと製品の詳細を抽出し、比較チャートを生成し、調査結果をまとめたスライドプレゼンテーションを作成してください」

よくある質問

どのような画像形式がサポートされていますか？文字起こしに利用できる音声形式は何ですか？音声文字起こしの精度はどれくらいですか？

クイックユースケース

ユースケース	入力	出力
製品モックアップ	説明	生成された画像
会議メモ	ビデオ録画	文字起こし + 要約
ブログ音声	テキスト記事	音声ナレーション
ドキュメントスキャン	ドキュメントの写真	抽出されたテキスト
動画分析	競合他社の動画	機能比較
ポッドキャスト番組ノート	音声ファイル	文字起こし + 要約
ソーシャルグラフィック	説明	カスタム画像

まとめ: Manus は複数のメディアタイプをシームレスに処理します。画像の生成、動画の理解、音声出力の作成、音声の文字起こしをすべてワークフローに統合します。

​機能の概要

​画像生成

​クイックスタート

​一般的な使用方法

​より良い画像を作成するためのヒント

​画像理解

​クイックスタート

​一般的な使用方法

​タスク例

​一般的な使用方法

​一般的な使用方法

​音声オプション

​音声認識（Speech to Text）

​機能

​よくある質問

​クイックユースケース

機能の概要

画像生成

クイックスタート

一般的な使用方法

より良い画像を作成するためのヒント

画像理解

クイックスタート

一般的な使用方法

タスク例

一般的な使用方法

一般的な使用方法

音声オプション

音声認識（Speech to Text）

機能

よくある質問

クイックユースケース