Abstract
混合音から各音源信号を抽出する音源分離は、様々な音メディア処理システムの前処理として利用できます。汎用的に使用可能な音源分離を実現するためには、標本化周波数などの後段のタスクで要求される様々な音響的条件下でも頑健に動作する必要があります。本研究では、深層学習モデルを信号処理の観点から解釈することで、標本化周波数に非依存な層を構築し、汎用的な音メディア処理用深層学習フレームワークの実現を目指します。
Audio source separation is a technique of separating individual sources from a mixture audio, and it is often used for preprocessing of audio applications. To build a source separation model that can be used as a versatile preprocessor, various acoustic conditions (for example, sampling frequency) required by possible downstream tasks should be handled. Although conventional source separation models based on deep neural networks work well only at a trained sampling frequency, they are difficult to work with sounds of untrained sampling frequencies. In this study, interpreting deep neural networks from a signal processing viewpoint, I develop layers independent of sampling frequency to establish a more versatile deep learning framework for audio media processing.
Members
Current members
- 研究代表者:中村 友彦,産業技術総合研究所 人工知能研究センター 主任研究員
- 研究補助者:今村 奏海,東京大学 大学院情報理工学系研究科 修士課程2年
Alumni
- 研究補助者:齋藤 弘一,東京大学 大学院情報理工学系研究科 修士課程在学中
Research
Publications
- K. Imamura, T. Nakamura, N. Takamune, K. Yatabe, and H. Saruwatari, “Algorithms of Sampling-Frequency-Independent Layers for Non-integer Strides,” in "proc" # " European Signal Processing Conference", Sep. 2023, pp. 326–330.
- K. Saito, T. Nakamura, K. Yatabe, and H. Saruwatari, “Sampling-frequency-independent convolutional layer and its application to audio source separation,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 30, pp. 2928–2943, Sep. 2022.
- 今村 奏海, 中村 友彦, 矢田部 浩平, and 猿渡 洋, “サンプリング周波数非依存畳み込み層のための時間領域ニューラルアナログフィルタ,” in 日本音響学会 2022年秋期研究発表会, Sep. 2022, pp. 187–190. [日本音響学会 第25回学生優秀発表賞(受賞者:今村 奏海)]
- 中村 友彦, 矢田部 浩平, and 猿渡 洋, “ニューラルアナログフィルタを用いたサンプリング周波数非依存畳み込み層とモノラル音源分離への適用,” in 日本音響学会 2022年春期研究発表会, Mar. 2022, pp. 181–184.