Cũng y như các việc Deep Learning khác, việc đầu tiên họ cần có tác dụng là xử trí dữ liệu. Vậy với tài liệu audio, công việc tiền cách xử lý sẽ như thế nào? Trong bài viết này, mình đã trình bày chi tiết về sự việc này. Bạn đang xem: Phân tích âm thanh
Sử dụng các thư viện âm nhạc trong python để đưa đặc trưng
Thư viện python hỗ trợ xử lý âm thanh
Một số tủ sách python cung cấp xử lý âm thanh như librosa, scipy, torchaudio. Toàn bộ đều chất nhận được bạn đọc các tệp âm thanh ở các định dạng khác nhau.
Bước đầu tiên là cài đặt tệp lên:Bạn rất có thể biểu diễn sóng âm thanh như sau:Dữ liệu tín hiệu music (Audio Signal Data)
Khi music được giữ trong một tệp, nó vẫn ở format nén. Lúc tệp được tải, nó sẽ tiến hành giải nén và đổi khác thành một mảng Numpy.
Mỗi phần tử trong mảng này đại diện cho biên độ của sóng âm nhạc ở 1/sample_rate khoảng thời hạn của giây.Ví dụ cùng với file âm nhạc ở trên dài 278.521s cùng với sample rate là 16000hz thì con số samples của file vẫn là 278.52 * 16000=4456336
Biên độ của tần số ngơi nghỉ giây thứ nhất là:
Bây giờ, bọn họ tiếp tục nhóm music lấy mẫu mã thành những đoạn dài 20 mili giây.
Biểu diễn bên dưới dạng biểu thiết bị đường mang đến khoảng thời hạn 20ms này:
Chúng ta có thể thấy đoạn ghi âm này chỉ lâu năm 1/50 giây. Nhưng trong cả đoạn ghi âm ngắn này cũng chính là một bản trộn lẫn tinh vi của các tần số âm nhạc khác nhau. Có một trong những âm thanh trầm, một trong những âm thanh cỡ trung và thậm chí một số âm thanh cường độ cao. Dẫu vậy khi phần lớn tần số không giống nhau này kết phù hợp với nhau lại tạo nên âm thanh phức hợp của giọng nói của bé người.Để khiến cho dữ liệu này thuận lợi hơn mang lại mạng nơ-ron xử lý, chúng ta sẽ bóc tách sóng âm thanh phức tạp này thành những phần nguyên tố của nó. Vậy thì tách như núm nào ??? Thử tưởng tượng theo lấy ví dụ này, mọi người sẽ thấy dễ dàng nắm bắt hơn. Vào âm nhạc, ta thường xuyên có những hợp âm. Giả sử các bạn đánh vừa lòng âm C Major trên lũ piano. M thanh này là sự phối hợp của 3 nốt nhạc C, E và G. Chúng ta cần tách âm thanh tinh vi này thành các nốt trật để biết rằng chúng là C, E cùng G. Đây chính là ý tưởng phân tích âm thanh thành những thành phần của nó.Chúng ta triển khai việc phân tích này phụ thuộc biến thay đổi Fourier.
Biến đổi Fourier
Theo wikipedia, tính chất của thay đổi Fourier:
Với phép đổi khác Fourier, chúng ta biến đổi một biểu thị từ miền thời gian sang miền tần số. đổi khác Fourier không chỉ cung cấp các tần số có trong biểu đạt mà còn cung ứng độ khủng của từng tần số tất cả trong tín hiệu.Tuy nhiên, tinh giảm của trình diễn miền tần số là không có thông tin về thời gian.Xem thêm: Báo cáo tham luận sơ kết đề án 06 trong năm 2024, tổ công tác đề án 06 tham luận một số kết quả
Spectrogram
Trong phần trước, chúng ta đã chia biểu lộ thành những giá trị tần số của nó, chúng sẽ đóng vai trò là features cho mạng nơ ron thừa nhận dạng giọng nói. Nhưng mà khi áp dụng FFT cho bộc lộ của mình, nó chỉ hỗ trợ các quý giá tần số và chúng ta bị mất dấu thông tin thời gian. Vì đó, chúng ta cần tra cứu một cách khác để đo lường và tính toán các features sao cho các cực hiếm tần số và thời gian đều được quan liêu sát. Spectrogram rất có thể giải quyết được vụ việc này.Biểu diễn trực quan các tần số của một biểu thị nhất định với thời gian được gọi là Spectrogram. vào biểu đồ biểu diễn Spectrogram - một trục thể hiện thời gian, trục đồ vật hai biểu thị tần số với màu sắc biểu hiện độ to (biên độ) của tần số quan gần kề tại một thời điểm nuốm thể. Color tươi sáng thể hiện tần số mạnh. Những tần số nhỏ dại hơn tự (0–1k
Hz) là mạnh dạn (sáng). (Các tần số khỏe khoắn chỉ nằm trong vòng từ 0 mang lại 1k
Hz vì chưng đoạn music này là tiếng nói của con người. )
Tạo Spectrogram
Ý tưởng đó là chia tín hiệu âm thanh thành những khung bé dại hơn (cửa sổ) và giám sát DFT (hoặc FFT) cho từng cửa sổ đó. Bằng phương pháp này, shop chúng tôi sẽ nhận thấy tần số cho từng cửa sổ và số hành lang cửa số sẽ đại diện cho thời gian. Để không làm mất đi một vài tần số lúc lấy những cửa sổ một bí quyết liên tục, họ thường giữ cho những cửa sổ này ông chồng lên nhau (overlap). Đối với tác vụ nhấn dạng các giọng nói thông thường, bạn nên sử dụng hành lang cửa số dài từ 20 đến 30 ms. Một con tín đồ không thể nói nhiều hơn thế một âm vị vào khoảng thời hạn này.
Đầu ra của thuật toán DFT (hoặc FFT) là một trong mảng các số thay mặt cho các biên độ của các tần số khác biệt trong cửa sổ. Ma trận 2d thu được là biểu đồ vật Spectrogram.
Thử màn biểu diễn Spectrograms bằng code:
Nhìn vào biểu thứ trên, bọn họ không thể thấy rõ được các thông tin về tần số, biên độ cơ mà Spectrogram thể hiện. Điều này được giải thích là do kĩ năng nhận thức âm thanh của bé người. Hầu hết những âm nhạc mà bọn họ nghe được đều tập trung xung quanh một dải tần số và biên độ hơi hẹp. Vày vậy, trong nhiều bài toán (đặc biệt là nhấn dạng giọng nói), Spectrogram ko phải là việc lựa lựa chọn hoàn hảo. Bởi vì vậy ta phải thêm vài cách tính nữa nhằm thu được dạng MFCC hoặc Mel Spectrogram, tốt hơn, phổ cập hơn, công dụng hơn Spectrogram.Mel Spectrogram
Mel Scale
Các nghiên cứu đã cho là con tín đồ không cảm giác được tần số trên thang đo đường tính. Con người hoàn toàn có thể dễ dàng rõ ràng được music với tần số thấp hơn tần số cao. Phần đông con người có thể dễ dàng nhận biết sự khác hoàn toàn giữa music 100 Hz cùng 200 Hz dẫu vậy lại khó nhận thấy sự biệt lập giữa 2000 và 2100 Hz, khoác dù khoảng cách giữa hai bộ âm thanh là như nhau. Đây là cách con tín đồ cảm nhận các tần số. Đây là điều khiến cho Mel Scale trở thành gốc rễ cơ bạn dạng trong các ứng dụng sản phẩm học đối với âm thanh, vì chưng nó nhại lại nhận thức của con bạn về âm thanh.Sự chuyển đổi từ thang đo Hertz thanh lịch thang đo Mel như sau:Decibel Scale
Trong thang đo này, 0 dB là hoàn toàn im lặng. Từ đó, các đơn vị thống kê giám sát tăng lên theo cấp số nhân. 10 d
B lớn hơn 10 lần so với 0 d
B, trăng tròn d
B lớn hơn 100 lần và 30 d
B to hơn 1000 lần. Trên thang đo này, music trên 100 d
B bắt đầu trở đề nghị lớn đến mức không thể chịu đựng nổi.Để xử lý âm nhạc một bí quyết chân thực, bí quyết xử lý của Mel Spectrogram như sau:Tần số (trục y) được thay thế sửa chữa bằng quý hiếm Logarithmic của nó, gọi là Mel Scale.Biên độ được sửa chữa bằng quý giá Logarithmic của nó, gọi là Decibel Scale để đã cho thấy màu sắc.Chúng ta test vẽ lại Spectrogram ở trên, thay thế sửa chữa tần số bằng Mel Scale:Biểu thứ này biểu diễn tốt hơn Spectrograms, nhưng phần nhiều vẫn còn về tối và không mang đủ tin tức hữu ích. Thử sửa đổi nó để thực hiện Decibel Scale thay bởi Biên độ.Đến phía trên thì tin tức của Audio đang được bộc lộ rất ví dụ trên hình hình ảnh của Mel Spectrogram.
Ngoài Mel Spectrogram, thì đặc trưng MFCC cũng hay được sử dụng để trích xuất đặc trưng âm thanh. Các chúng ta có thể tìm phát âm kĩ hơn ở đây.
Kết luận
Ở bài này, mình đã trình diễn về một số đặc trưng âm nhạc thường được sử dụng trong câu hỏi Speech lớn Text. Bài tiếp theo mình sẽ trình bày về biện pháp tiếp cận các quy mô trong việc này. Cảm ơn chúng ta đã đón đọc và xem tiếp bài của bản thân nhé.