以前2024年6月6日、Googleの「NotebookLM」 が日本語対応しましたが、今回新機能として先日追加されたのがAudio Overviewという機能です。
この機能について触れていきたいと思います。
この記事でわかること
・NotebookLMの新機能「Audio Overview」とは
・音声生成機能の概要と使い方
・Difyをつかって日本語で試す方法
NotebookLMとは?
簡単に言うなれば資料を基に会話できるAIということです。いろいろなPDFをはじめ、動画やYoutubeのURLなどなんでもまとめてそれについて解説してくれる生成AIです。詳しくは以下をご確認ください。
いままでこれがチャットしか対応していませんでした。文字を入力してそれに返答する。それでも十分ありがたいのですが。それが新機能でaudio機能が付いたことで読み上げしてくれるとのことです。
しかも「二人の掛け合いの解説」です。
一人の読み上げなら理解できるのですが、それを二人の掛け合いを行うということでびっくりです。
実際に試してみます。
NotebookLMに読み込ませる
ここはいつも通りです。読み込ませます。最近ではいろいろなソースに対応してきています。
最近はなんでもかんでもホームページやYoutubeをよく読み込ませてます。ちなみにYoutubeは公開から浅い動画だと読み込みエラーをおこすことがあるので数日待ってみてください。
今回は以下のyoutubeの動画をもとに会話をつくってもらいました。
こんな感じです。
これだけでもきれいにまとまってますよね。右上の音声の概要というところです。
ただ今は英語だけの対応です。以下がこの動画の音声要約会話です。13分もの内容をつくってくれました!
意外と動画作成に時間かかります。とはいっても13分もあるので。
文章→音声もいけますし、このように音声(動画)→音声もいけます。
これは英語学習にも使えるかもしれません。この音声を再度もどして日本語で解説してもらったりもできますね。
日本語でも読ませたい
話はかわりますが、実は先日Difyがファイル入力に対応しました。
それにあたりこのような記事をだしていました。
https://dify.ai/blog/introducing-dify-workflow-file-upload-a-demo-on-ai-podcast
これはDifyの機能を使ってNotebookLMを完璧ではないですが再現したものです。
ただしこれは資料のみです。Youtubeなどの音声はいけません。
ワークフローはDify内の探索のところから「NotebookLM by Dify.AI」という名前で存在しているので簡単に追加可能です。
このプロンプトエンジニアリングはなるほど。こういうことしてるのかと参考になるところも多いです。
そして、音声はOpenAIのTTSを利用しています。文章作成には初期設定ではClaudeをつかっているのでもちろんAPI費用が掛かります。そのため費用ゼロとは言えません。
やってみます。Youtubeをローカルにダウンロードするのは規約上問題なので、なにかないかなと思い今回は明治大学に掲載されているハーバード流交渉術における感情の考察というPDFを読み込ませてみます。
リンク:https://meiji.repo.nii.ac.jp/record/17399/files/shogakuronso_105_1_31.pdf
簡単な日本語の翻訳をつけました。利用方法は簡単です。
ソース元とトーン、二人の掛け合いを行うのでだれとだれで行うのか氏名。という感じです。
最後はこんな感じでWAVができてダウンロード可能です。
本家NotebookLMには劣りますが、いわゆる「掛け合い解説実況」が完成してしまうわけです。
まとめ
これができると、ここに背景動画とBGMつけるだけでも十分なショートな掛け合い動画が簡単に完成することになります。(8分あるので普通に長いですが)