صدای این یارو کامپیوتریه

این نوشته در تاریخ ۴ مارس ۲۰۲۴ تو blanketfort نوشته شده و به اینجا منتقل شده

خیلی وقتا شده که وقتی تو یه جمع نشستیم و یه موزیک پخش میشه یکی اعتراض می‌کنه و میگه “صدای این یارو که کلا کامپیوتریه” یا “با دستگاه درست شده”. می‌خوام یه کم از زاویه مهندسی صدا و موسیقی این موضوعو دقیقش کنم. با بررسی یه سری چیزا می‌تونیم توضیح بدیم که این ذهنیت عمومی از کجا میاد و همین‌طور منظور اصلیشون چی بوده از این حرف. فقط همین اول نوشته بگم که من وارد مباحث مربوط به AI که این چند وقت داغه نمیشم، موضوع این تصورات قدیمی‌تر از این حرفاس. این تصورات به این دلیل شکل گرفتن که از زمان خیلی دور تا الان، تصاویری که از استودیوها بیرون میاد شامل یه عالمه دم و دستگاه و داستان میشه. و عموم مردم فکر می‌کنن که الان این همه دستگاه و غیره یه عالمه تغییرات روی صداهای ورودی ایجاد می‌کنن تا به خروجی برسن. غافل از این که هر کدوم از اون دستگاه‌های بزرگ نهایتا می‌تونستن یکی دو تا پردازش خیلی ساده انجام بدن. مثلا یکیشون فقط می‌تونست یه ذره reverb (فکر کنم فارسیش بازآوا باشه) ایجاد کنه، این همون چیزیه که وقتی تو اتاق خالی یا حموم می‌خونید می‌شنوید. خیلی ساده به نظر میاد نه؟ ولی سال ۱۹۵۷ یه دستگاه بزرگ ۲۷۰ کیلویی برای انجام این‌کار تو استودیو نیاز بود!

حالا الان به جایی رسیدیم که این افکت می‌تونه از طریق یه لپتاپ و یه نرم‌افزار روی هر صدایی اعمال بشه. پس این ذهنیت از گذشته از اینجا میاد. اما تا چه حد این پردازش‌ها و افکت‌ها می‌تونن صدای ورودی رو تغییر بدن؟ آیا می‌تونم صدای گیتار ۱۰۰ دلاریمو شبیه صدای ۱۰۰۰۰۰ دلاری کنم؟ خیر نهایتا می‌تونی سوتی‌های نوازندگیتو تا یه حدی بپوشونی و نهایتا صداشو شبیه یه گیتار ۲۰۰ دلاری کنی. همینو ببریم تو صدای خواننده: می‌تونم صدامو شبیه ابی کنم؟ خیر ما فقط می‌تونیم بعضی از ایرادات صدا و اجرای شما رو بگیریم. اینا مکالمات واقعی بودن که من بارها تو استودیوهای مختلف می‌شنیدم. صدا یه موجه که از طریق هوا منتقل میشه (دیگه تو فیزیکش نریم). مثل خیلی از امواج دیگه ما می‌تونیم این امواج صوتی رو با استفاده از تجهیزات الکترونیکی مختلفی تبدیل به چیزی کنیم که بتونیم ذخیرش کنیم، نمایش بدیم و بازپخش کنیم. اما تغییر کیفیت و ساختار اون موج قبل از بازپخش چیزیه که ما امشب در موردش صحبت می‌کنیم که با استفاده از “نرم‌افزارها” و “دستگاه‌های” پردازش صدا در استودیوها انجام میشه. بله من گفتم تغییر و بعد هم گفتم نرم‌افزار و دستگاه، اما اینا چوب جادو نیستن و فقط ابزارن. شناخت توانایی‌ها و محدودیت‌هاشون کمک می‌کنه به این که بدونیم چه تغییراتی شدنی و چه تغییراتی نشدنی بوده (حداقل تا قبل از این همه‌گیری AI). در واقع کاری که ما انجام میدیم چیزی مثل روتوش کردن یه تصویره و نه نقاشی اون از اول. ما می‌تونیم فرکانس‌های مختلف صدا رو تقویت یا تضعیف کنیم، حجم صدا رو کنترل کنیم، یه سری افکت محیطی بهش اضافه کنیم و از این دست کارا که هیچ کدوم اینا ماهیت و کیفیت صدای خواننده رو تغییر بنیادی نمیده.

اما یه کار دیگه هست که از حدود ۳۰ سال پیش اختراع و به کار گرفته شد. که اون همون تغییر شیطنت‌آمیز و بحث برانگیزیه که بهش عموم مردم کامپیوتری شدن صدا میگن. وقتی یه ساز می‌خواد نواخته بشه قبلش نیازه که کوک بشه. کوک شدن یه ساز یعنی نت‌های مختلفی که از ساز خارج میشن باید دقیقا فرکانس‌های مرجع اون نت رو تولید کنن. یه جورایی مثل کالیبره کردن. مثلا نت لا (A) تو اکتاو ۴ باید فرکانس ۴۴۰ هرتز رو تولید کنه. سازها معمولا برای کوک کردنشون پیچی چیزی دارن که بشه تنظیمش کرد. حالا چی کار با صدای انسان کنیم که کوک بشه؟؟ تا ۳۰ سال پیش هیچی جز تمرین و ممارست فراوان! اما ۳۰ سال پیش یه دستگاه و بعدا نرم‌افزاری تولید میشه که کمک می‌کنه بتونیم صدای انسان رو حین اجرا و بعد از ضبط کوک کنیم تا نت‌ها رو نزدیک به فرکانسی که باید اجرا بشن ببره. به این افکت یا دستگاه فیزیکیش اصطلاحا tune - auto tune - vocal tuner و از این مدل اسما میگن که قسمت مهمش همون tune که یعنی کوکه مشکلش کجاست؟ مشکل اینجاس که هر چه قدر نت اجرا شده از اون چیزی که باید، فاصله بیشتری داشته باشه، برگردوندنش به نت اصلی، بیشتر باعث تغییر تو لحن و حالت صدا میشه که به شدت غیر طبیعی و گاهی زننده‌اس. علاوه بر این وقتی شدت این افکت در بالاترین حدش تنظیم میشه، تمام تلاشش رو می‌کنه که نت لا دقیقا با فرکانس 440 هرتز اجرا بشه حتی 440.5HZ هم قابل قبول نیست. اینجا اونجاییه که شنونده یه احساس غیر طبیعی به صدا پیدا می‌کنه. حسی مثل صدای یه ربات. این یعنی تغییر یه نت به یه نت دیگه از حالت طبیعی، که طیفیه، خارج میشه و به نوعی شبیه توابع پله‌ای تو ریاضی عمل می‌کنه. به زبان ساده اگه از نت لا بخوایم بریم به سی یعنی از فرکانس 440HZ به 493.88HZ میریم. یه عالمه عدد اون وسطه نه؟ این تغییر در حالت عادی مثلا تو ۲۰ میلی ثانیه اتفاق میافته ولی اگه شدت اعمال این افکت زیاد باشه این تغییر مثلا تو ۱ میلی‌ثانیه اتفاق میافته و این غیر طبیعیه! هنجره انسان چون یه ابزار ساخت دستمون نیست قابلیت‌های بسیار زیادی داره و به خاطر همین قابلیت‌ها، توانایی ایجاد صداهایی رو داره که هیچ سازی نمی‌تونه تولید کنه. اما به خاطر همین انعطاف‌پذیری، حتی بهترین خواننده‌های تاریخ هم تو اجراهای ضبط شدشون میشه گاهی خارج شدن از کوک رو شنید که البته تشخیصش نیاز به گوش تخصصی و تمرین داره. پس اگر این طوره چرا موزیکی که ۵۰ سال پیش خونده شده با این که tune نبوده انقدر کوک به نظر میاد؟ چون اولا مجبور بودن ۱۰۰ برابر الان یه کارو قبل از اجرا تمرین کنن و این مهارتشونو بالا می‌برد. دوم (که خیلی مهمه) اینه که اکثر موزیک‌های قدیمی با سازهای آکوستیک و به صورت زنده اجرا و ضبط می‌شدن. خود اون ساز‌ها ممکن بود جای 440HZ روی چند دهم هرتز کم و زیاد کوک شده باشن و وقتی خواننده هم روش اجرا می‌کرد، یه کوچولو خارج شدنش به چشم نمیومد چون با یه ساز دیگه تو همون قسمت ممکن بود هم‌کوک بشه. اما با اومدن موسیقی الکترونیک دیگه کوچیک‌ترین فالشی خواننده کاملا خودشو نشون میداد چون بقیه صداها کاملا کوک اجرا میشن. مثل این که وسط یه مهمونی که همه کت شلوار پوشیدن شما با شورت بری خب خیلی تابلوئه! این شد که به این نتیجه رسیدن صدای انسان هم دیگه از اینجا به بعد tune می‌خواد. همین قدر بهتون بگم که تقریبا “تمام” کارهایی که از استودیو بیرون میاد و نیمی از کنسرت‌هایی که میرید صدای خواننده tune داره. گاهی شدتش زیاده و گاهی کم که شما متوجه نمیشید و گاهی با وجود زیاد بودنش هنرمندانه و ظریف اعمال شده و شاید سبک موسیقی ایجاب می‌کرده. صدای همایون شجریان، صدای Adele صدای هر کسی که قبولش دارید هم tune داره. پس حالا با این ذهنیت نگاه کنید. Tune عضو جدا نشدنی موسیقی امروز شده اما نهایتا نمی‌تونه از شما ابی و مایکل جکسون بسازه. جمله آخر. خواننده خودش می‌تونه صداسازی کنه مثل آقای چاوشی و این هیچ ایرادی هم نداره، تو همه جای دنیا رایجه. ولی این که فکر کنیم یکی میره دکلمه می‌کنه و بعد از توش یه آهنگ خوشگل میاد بیرون، این کاملا غلطه. حالا این که چه خواننده‌ای مهارت بیشتری داره و کدوم کم‌تر، این جا جاییه که اجرای لایو بدون هیچ افکتی می‌تونه مورد مقایسه قرار بگیره یعنی وقتی طرف جلوتون می‌خونه، بدون میکروفون. این روزا حتی تو لایو اینستا هم کم‌یابه ;) البته اگه موزیسین باشید و گوش قوی کمک می‌کنه به مرور تشخیصش بدید.