ローカルAIで、音源(主に音楽)から楽器の音を消してボーカルのみ抽出するようなモデルを構築することは可能ですか?
ChatGPTの回答:
はい、可能です。
しかも、これは現在のAI技術では比較的成熟した分野で、「ゼロからモデルを開発する」必要すらなく、既存の高性能モデルをローカルで動かせます。
代表的なものは次のようなモデルです。
| モデル | 特徴 | 品質 |
|---|---|---|
| Demucs | Facebook(Meta)開発。定番。ボーカル抽出性能が高い | ★★★★★ |
| MDX-Net | カラオケ制作用途でも人気 | ★★★★★ |
| UVR | GUI付き。内部でDemucsやMDXを利用可能 | ★★★★★ |
| Spleeter | 軽量・高速 | ★★★★☆ |
| BS-RoFormer | 2025年頃の最新系。非常に高品質 | ★★★★★+ |
RTX 4070 Ti(12GB)なら?
十分です。
Demucs系なら
- 数分の曲 → 数十秒
- 5分の曲 → 10~30秒程度
で処理できます。
BS-RoFormer系でも快適です。
ボーカルだけ抽出
入力
song.wav
↓
出力
vocals.wavdrums.wavbass.wavother.wav
という形になります。
ボーカルだけ残したいなら
vocals.wav
を使います。
逆も可能
AIは
- ボーカルのみ
- ドラムのみ
- ベースのみ
- ギターのみ
- ピアノのみ
といった分離も可能です。
最近は
- 2 stem(ボーカル/伴奏)
- 4 stem(ボーカル/ドラム/ベース/その他)
- 6 stem
- 8 stem
まであります。
自分で学習させることも可能
例えば
- アニソン専用
- クラシック専用
- 女性ボーカル専用
- ライブ音源専用
のような特化モデルを作れます。
必要なものは
元の混合音源+各パートの元音源
です。
しかし大量データが必要なので、普通は既存モデルを使った方が高品質になります。
さらに面白い応用
ボーカル抽出後に
- ボーカル抽出
- AIでノイズ除去
- AIでピッチ解析
- AIで歌詞推定
- AIで声質変換
もできます。
例えば
- 歌声だけ抽出
- 自分の声に変換
- 別の歌手風に変換
といった処理もローカルで可能です。
現在のローカル環境なら、
RTX 4070 Ti + 64GBメモリで最もおすすめなのは、UVR(Ultimate Vocal Remover)から最新のBS-RoFormerモデルを使う構成
です。専門知識なしで高品質なボーカル抽出ができますし、市販の音源でもかなり綺麗にボーカルだけを取り出せます。
ボーカルだけじゃなく、すべての楽器を分離することは可能ですか?例えばドラムスだけ、ベースだけ、ストリングスだけのように。
ChatGPTの回答:
可能ですが、「完全に何でも分離できる」わけではありません。
現在のAI音源分離技術は大きく分けて2段階あります。
1. 一般的な音源分離(実用レベル)
現在の主流モデルは次のような分離が得意です。
- ボーカル
- ドラム
- ベース
- ギター
- ピアノ
- その他
例えば、
曲全体↓ボーカルドラムベースギターピアノその他
という形です。
最新のBS-RoFormer系やMelBand-RoFormer系ではかなり高精度です。
2. 個別楽器分離(難しい)
例えばオーケストラ音源で
バイオリンビオラチェロコントラバスフルートオーボエホルントランペット
を完全に分離するのは現在でも非常に難しいです。
理由は、
- 同じ周波数帯を共有する
- 音色が似ている
- 録音時点で混ざっている
ためです。
ストリングスだけ抽出は?
これは比較的可能です。
最近の研究モデルでは
StringsBrassWoodwindsPercussionBassVocals
のような分類があります。
特に
HT-Demucs
や
BS-RoFormer
をベースにした派生モデルでは、
Strings stem
を出力できるものがあります。
ドラムの中だけ分離
さらに面白いことに、
ドラム↓キックスネアハイハットタムシンバル
へ再分離するモデルもあります。
電子音楽やロックではかなり精度が高いです。
RTX 4070 Tiならどこまで可能?
ユーザーの環境なら、
- 4 Stem
- 6 Stem
- 8 Stem
- 12 Stem
くらいまでは快適です。
研究用途なら
- 20~30楽器分類
も可能です。
実際の限界
例えば次のような曲は苦手です。
- オーケストラ
- 大編成ジャズ
- ライブ音源
- 強いリバーブ
- コーラス多重録音
逆に、
- J-POP
- ロック
- アニソン
- EDM
- 歌謡曲
はかなり綺麗に分離できます。
2026年時点の最高クラスの環境では、
曲↓ボーカルドラムベースギターピアノストリングスシンセブラスその他
程度なら実用的な品質で分離できます。
ただし「ストリングスの中の第1バイオリンだけ」「ギター2本を別々に」といったレベルになると、元のマルチトラック録音データがない限り、AIでもまだ難しいです。
なぜこのような質問をしたかというと、普段聞いているステレオ音源をマルチトラック化したいからです。例えば、もう少しストリングスの高音域を強調したいとか、ボーカルをもう少し艶っぽくしたいとか、ベースを重低音化したいとか、マルチトラックであれば自分が心地よいと感じるように音源ごとにピンポイントで調整できると考えたからです。
ChatGPTの回答:
その発想は非常に理にかなっています。
実際、現在のAI音源分離技術の大きな用途の一つが、
「既存のステレオ音源を擬似的にマルチトラック化して再ミックスする」
ことです。
ただし、元のレコーディング時の本物のマルチトラックを取り出せるわけではなく、
AIが推定した各パートの音源
を利用することになります。
例えばこんなことができます
元の曲
ステレオ音源
↓
AI分離
Vocals.wavDrums.wavBass.wavGuitar.wavStrings.wavPiano.wavSynth.wav
↓
DAWへ読み込み
ReaperCubaseStudio OneAbleton Live
など
↓
個別調整
ストリングス +3dBボーカルに真空管風エフェクトベースだけ低域強化ドラムだけコンプレッサー
ユーザーさんの目的なら十分実用的
例えば
ストリングスをもう少し前に出したい
これはかなり成功しやすいです。
AIが分離した
Strings stem
だけ音量を上げればよいです。
ボーカルを艶っぽく
これも可能です。
ボーカルトラックだけに
- EQ
- Exciter
- Saturation
- Tube Emulator
をかけます。
例えば
- 4~8kHzを少し上げる
- 倍音を追加する
だけでかなり変わります。
ベースを重低音化
むしろ最も効果が出やすいです。
ベーストラックだけに
- サブハーモニック生成
- 40Hz付近を強調
- マルチバンドコンプ
を適用できます。
元の音源全体にEQをかけるより遥かに自然です。
ただし限界もある
例えば
Strings.wav
の中には
- ストリングス
- リバーブ成分
- 他パートの漏れ
が多少残ります。
そのため
ストリングスだけ+20dB
みたいな極端な調整をすると破綻します。
しかし
+2~5dB
程度ならかなり自然です。
最近の面白い流れ
2025~2026年頃からは
音源分離
↓
各トラックを別AIで処理
↓
再ミックス
というワークフローが広がっています。
例えば
ボーカル分離↓AIで高音質化↓AIで倍音追加↓再ミックス
のような処理です。
RTX 4070 Ti環境なら
かなり本格的な環境が組めます。
おすすめの流れは
- Ultimate Vocal Remover で分離
- REAPER に読み込み
- 個別にEQやコンプレッサーを適用
- 再ミックス
です。
さらに一歩進めるなら、
- 最新のBS-RoFormer系で分離
- DAWで調整
- AIマスタリング
まで行うと、市販音源を「自分好みの音」にかなり近づけられます。
ただし期待値としては、
「元のCD音源を100%完全なマルチトラックに変換する」のではなく、「70~95%程度の精度で擬似マルチトラック化して再ミックスする」
と考えるのが現実的です。それでも、ストリングス・ボーカル・ベースの音量や質感を個別に調整する用途なら、十分楽しめるレベルに達しています。
話は逸れますが、普段洋楽を聴くことが多いのであまり不満を感じないのですが、たまに邦楽を聴くと低音が弱いなと感じることが多いです。重低音感がないというか、わざと低音を抑え気味にしてあるというか、超低音がカットされているように聞こえます。まずはこれを改善したいです。
ChatGPTの回答:
その感覚は決して気のせいではありません。
実際に、多くの邦楽と洋楽ではミックスやマスタリングの思想がかなり異なります。
なぜ邦楽は低音が弱く感じるのか
特に2000年代以降のJ-POPでは、
- ボーカルを前面に出す
- 歌詞を聞き取りやすくする
- 小型スピーカーやテレビでも聞こえやすくする
ことが重視されてきました。
そのため、
40Hz以下50Hz以下
の超低域を意図的に削っている作品も少なくありません。
一方で洋楽、特に
- EDM
- Hip-Hop
- R&B
- 現代Pop
では、
30Hz25Hz
付近まで積極的に使います。
サブウーファーで鳴らすことが前提になっているからです。
実際にスペクトラムを見ると
多くのJ-POPでは
20~40Hz↓かなり少ない50~80Hz↓中心
になっています。
洋楽では
20~40Hz↓↓↓↓大量50~80Hz↓↓↓十分
というケースがよくあります。
EQで増やしても限界がある
ここが重要です。
例えば
30Hzを+10dB
しても、
元の音源に30Hz成分が無ければ何も出てきません。
ノイズだけが増えます。
最近はAIで低音を生成できる
例えば
Bass.wav
を分離して、
サブハーモニック生成器で
60Hz↓30Hz
を生成できます。
これは映画館やクラブでも使われる技術です。
代表的なプラグインとしては
- Waves MaxxBass
- Waves LoAir
- Brainworx bx_subsynth
- Renaissance Bass
などがあります。
AI分離との相性が良い
ユーザーさんが考えている
ステレオ音源↓AI分離↓ベース抽出↓超低域生成↓再ミックス
は非常に理にかなっています。
全体に低音を足すより遥かに自然です。
さらに面白い方法
ベースだけでなく
キックドラム
にも超低域を追加できます。
例えば
Kick↓35Hzを追加
すると、
身体に来る重低音感がかなり増します。
クラブミュージックが迫力ある理由の一つです。
ただし注意点
古い邦楽の場合、
そもそも録音時点で
- ベースが細い
- キックが軽い
- 超低域が存在しない
ことがあります。
その場合、
単純なEQではどうにもなりません。
AI分離して
- ベース強化
- サブハーモニック生成
- キック強化
を行う方が効果的です。
もし本格的にやるなら、
- Ultimate Vocal Remover やBS-RoFormerで分離
- REAPER に読み込む
- ベースとキックだけを処理
- 再ミックス
という流れがおすすめです。
これなら「ボーカルはそのまま」「ストリングスもそのまま」で、低音だけ洋楽的な厚みを追加できます。特に90年代~2010年代前半のJ-POPは、この処理による変化が大きく感じられることが多いです。
素晴らしい!今までで一番嬉しい回答です。
ChatGPTの回答:
ありがとうございます。
その反応をいただけて嬉しいです。
実は、ユーザーさんが考えていることは単なる「音質調整」ではなく、レコーディングエンジニアやリミックス制作者が行う作業にかなり近い発想です。
多くの人は、
「この曲、低音が足りないな」
と思ったときにイコライザーで低音を上げようとします。
しかし本当に欲しいのは、
「曲全体の低音を増やしたい」のではなく、
「ベースやキックだけを強化したい」
なのです。
そこに気付いて、
「ならAIでマルチトラック化すればいいのでは?」
という発想に至ったのは非常に面白いと思います。
実際、近年の音楽制作業界では
- Source Separation(音源分離)
- Stem Separation(ステム分離)
- AI Remix
が急速に普及しています。
昔はレコード会社が保有するマルチトラックマスターがなければ不可能だったことが、今は一般ユーザーのPCでもできるようになりました。
ユーザーさんのRTX 4070 Tiなら十分実用レベルです。
また、低音だけでなく、
ボーカル
「もう少し艶が欲しい」
↓
ボーカルだけに
- Exciter
- Tube Saturation
- Harmonic Enhancer
を適用
ストリングス
「もっと広がりが欲しい」
↓
ストリングスだけに
- Stereo Width
- Hall Reverb
を適用
ドラム
「迫力が欲しい」
↓
ドラムだけに
- Parallel Compression
- Transient Shaper
を適用
といったことも可能になります。
つまり、
自分専用のリマスター版を作る
という感覚です。
個人的に特に面白いと思うのは、
最近のAI分離モデルはかなり高性能なので、
例えば1990年代~2010年代のJ-POPを、
- ベースを洋楽風に太くする
- キックを深くする
- ボーカルの質感を改善する
だけで、
「もし2026年のエンジニアが再マスタリングしたらこうなったかも」
という音に近づけられることです。
もし本格的に始めるなら、まずは
- Ultimate Vocal Remover
- REAPER
の組み合わせがおすすめです。
REAPERは比較的安価で軽く、AI分離後のステム編集にも向いています。
そこに低域生成系プラグインや無料のVSTを追加していくと、かなり深い沼が待っています。
音楽好きで、しかも「この曲を自分好みにしたい」という気持ちがある人には、ここ数年のAI音源分離は本当に革命的な技術だと思います。
