AIで叶える理想の「ポッドキャスト音声編集」アプリ【Google AI Studio】バイブコーディングの可能性と試行錯誤の記録

AIで叶える理想の「ポッドキャスト音声編集」アプリ【Google AI Studio】バイブコーディングの可能性と試行錯誤の記録
声に偏る世界線 - ポッドキャスト/音声配信界隈
AIで叶える理想の「ポッドキャスト音声編集」アプリ【Google AI Studio】バイブコーディングの可能性と試行錯誤の記録
AIで叶える理想の「ポッドキャスト音声編集」アプリ【Google AI Studio】バイブコーディングの可能性と試行錯誤の記録
/

この音声はこちらのブログから配信しています「https://podcast.koukichi-t.com/?p=1016」です。

今回は動画版あります。Spotifyへ。

先日の「ないなら作る AI時代の音声配信」の続きです。開発中のポッドキャスト収録?アプリですが、もう少し調整をかけ、現状記録としてこちらに残しておきます。

現時点公開を想定しているものではありませんがしているものではありませんが、バイクコーティングの可能性。また、なかなかAIに手が出せずにいる方の参考や取り組みのきっかけになれば嬉しいです。

収録とは別途、音声投稿時の煩わしい作業を簡単に済ませる「瞬殺Spotify for Creators」も開発中 笑。こちらにも今度触れます。

目次


00:00 自作ポッドキャスト編集ツール紹介
00:04 ツールの概要と目的
00:15 複数の音声ファイル配置とSE/広告/BGM挿入機能
00:31 バイブコーディングで作成
00:52 音声エフェクト機能(コンプレッサー、EQなど)
01:07 各音量調整ミキシング機能
01:14 広告再生中のBGM自動停止
01:27 BGM開始後のボイスディレイ
01:40 BGMイントロ/アウトロ音量調整
02:08 ツールの開発現状と記録理由
02:15 音声ファイルの読み込みとデモ
02:49 録音機能について
03:48 音声広告挿入デモ(Amazon Audible)
04:57 ファイルのドラッグ順序変更
05:04 音声分割機能の不具合
05:25 リアル音声での追記収録デモ
05:35 Gemini CLIによるAI口調学習の試み
06:03 AI音声の精度向上と今回のテスト
07:10 分割と挿入の編集意図
07:38 SE挿入デモ(DJスクラッチ)
07:42 ツールの公開可能性と誰でも作れること
08:32 BGM設定とプレビュー
08:49 BGMイントロブーストの確認
09:44 言葉でプログラムできる可能性
09:56 ツールのユニークさと潜在能力
01:00:15 ノイズゲート適用テスト
01:01:32 ツールの想定される利用シーン(細切れ収録など)
01:02:13 自前の音声広告活用の経験(Anchor時代)
01:02:26 SE/BGM挿入機能(Anchorとの比較)
01:02:42 公開の可能性と需要について
01:03:06 開発における課題(修正と機能不全)
01:03:21 公開時の懸念点
01:03:38 試行錯誤の過程と配信テーマ

音声概要

ポッドキャストや音声コンテンツ制作に役立つ、複数の音源を組み合わせ編集できる自作ツールの開発過程を記録。AI音声の活用や各種音声エフェクト、ミキシング機能などを紹介し、その可能性と現状の課題について話しています。

今回の「声に偏る世界線」では、私が現在開発を進めている、ポッドキャストや音声コンテンツ制作のための自作ツールについて、その開発記録と機能デモを中心に話しています。特に、AI音声の活用や複数の音源を効率的に編集したいと考えている方にとって、ヒントになる情報があるかもしれません。

例えば、こんな疑問はありませんか?
・AI音声で長文を読み上げさせると、話速や抑揚が不安定になる問題をどのように回避して、スムーズなコンテンツにするか?
・複数の音声ファイル(AI音声の分割データ、自分の声、SE、広告など)をまとめて管理し、自由に並べ替えたり間に挿入したりする方法はないか?
・ポッドキャストの音声に、手軽にSEやBGM、音声広告などを効果的に組み込みたいが、複雑な編集ソフトは使いこなせない。
・コンプレッサーやノイズゲートといった基本的な音声エフェクトを、ファイルごとではなく、コンテンツ全体に一括で適用して音質を整えたい。
・BGMと広告の音量バランス調整や、広告再生時にはBGMを自動で停止させるといった細かい演出を実現したい。

私がバイブコーディングという手法で開発しているこのツールは、これらの課題を解決することを目指しています。AI音声の特性に合わせて音声を分割して扱いやすくしたり、ブラウザ上で直感的に複数の音声ファイルを配置・編集したりできるような機能を実装しています。具体的には、音声ファイル、SE、広告、BGMといった様々な音源をタイムライン上に並べ、ドラッグ&ドロップで順番を変えたり、必要に応じて間に別の音声を録音して挿入したりできます。

また、配信の音質を向上させるためのコンプレッサー、イコライザー、ノイズゲート、ラウドネスノーマライゼーションといった音声エフェクト機能も搭載し、各音源の音量を細かく調整できるミキシング機能も用意しています。特にこだわった点として、広告再生中は自動的にBGMを停止させる機能や、BGMの冒頭と終わりに音量ブーストをかける機能など、ポッドキャスト配信で役立つような工夫を凝らしています。

さらに、Google AI StudioのGemini CLIを使用して、私の過去の配信データから口調を学習させ、より自然なAI音声を作成する試みについても触れています。このように、技術的な試行錯誤の過程も含めて記録として残すことで、同じように音声コンテンツ制作に挑戦している方や、ノーコード/ローコード開発に興味がある方にとって、何か刺激や参考になる点があれば嬉しく思います。現状はまだ開発途上で不具合もありますが、「言葉でプログラムする」ような感覚で誰でも開発に挑戦できる可能性についても示唆しています。

この配信を聴くことで、これらの疑問や問題が解決されるかもしれません。ポッドキャスト編集の効率化、AI音声の活用方法、または自作ツール開発に関する情報などを探していた方は、是非最後まで聴いてみてください。

※この配信内で編集した「聴くまとめ」の実際のエピソードはこちら

https://open.spotify.com/episode/1lrRLsXrJbvJ65JpaxoyIl?si=w5i2YAhlSW6NVa6ISJEauw

#ポッドキャスト #AI #自作音声編集ツール #自作アプリ #バイブコーディング #AI活用 #声に偏る世界線 #音声編集 #ノーコード #GoogleAIStudio #Gemini #AIコンプレッサー #ノイズゲート

※当サイトではGoogle Adsense/Amazonアソシエイト他、各種ASPによるアフィリエイト広告リンクを含む場合があります。

  • メインポッドキャスト