فناوری دیپ فیک (ِDeepFake)
فناوری دیپ فیک (Deep Fake):
دیپ فیک (Deep Fake) تکنولوژی جدیدی است بر مبنای هوش مصنوعی، که به واسطه آن تصاویر و ویدیو های دروغین اما واقع گرایانه درست میشود و میتواند چشم هر بینندهای را بفریبد. امروزه ویدیو های دیپ فیک بسیاری از هنرمندان و مشاهیر ساخته میشود و بیننده بدون آنکه متوجه عدم صحت و واقعیت آن ها شود، محتوای آن ها را باور کرده و به انتشار آنها در فضای مجازی دست میزند. در نتیجه با توجه به پیشروی این فناوری، باید گفت که در آینده ای نه چندان دور، توان تشخیص مابین حقیقت و دروغ کاملا غیر ممکن مینماید.
واژه “دیپ فیک” از ترکیب دو واژه دیپ (Deep) به معنای عمیق، و فیک (Fake) به معنای جعلی و دروغین تشکیل شده است و براساس هوش مصنوعی قادر است تصاویر انسان را به صورتی واقع گرایانه تولید و ارائه کند. این تکنولوژی مبتنی بر هوش مصنوعی (Artificial Intelligence) می باشد، که برای سنتز یا تولید تصاویر انسان (Human Image Synthesis) مورد استفاده قرار میگیرد.
به تعریفی دیگر، اصطلاح “دیپ فیک” به ویدئوها و صداهای جعلی و تولید شده به وسیله کامپیوتر اطلاق میشود که متمایز ساختن آنها از محتویات واقعی (Genuine) و بدون تغییر (Unaltered) بسیار سخت می باشد. فناوریهای دیپ فیک جهت تغییر فایلهای ویدئویی، معادل نرمافزار فتوشاپ برای تصاویر دیجیتالی محسوب میشوند.
از جمله کاربردهای مخاطره آمیز سیستمهای دیپ فیک، تولید محتوای غیر اخلاقی جعلی با استفاده از تصاویر چهره مشاهیر و ترکیب و بر هم نهادن آنها با ویدئوهای غیر اخلاقی است. در این گونه از کاربردهای خصمانه دیپ فیک، امکان تشخیص محتوای جعلی از محتوای واقعی بسیار سخت می باشد. و در نگاه اول، بسیاری از افراد هنگام مشاهده این ویدیوها، به جعلی بودن محتوای آنها شک نمیکنند و توان تشخیص حقیقت را دارا نیستند. از دیگر مواردی که از تکنولوژی دیپ فیک استفاده می شود، می توان به تولید محتویات چند رسانهای (Multimedia) با نیت خصمانه اشاره نمود. از جمله مهمترین این کاربردها، میتوان به مواردی نظیر اخبار جعلی (Fake News) و فریبکاریهای خصمانه (Malicious Hoaxes) اشاره کرد.
ریشه واژه “دیپ فیک“:
ریشه نامگذاری این فناوری به عنوان “دیپ فیک”، بر اساس نام کاربری یکی از اعضای سایت “Reddit” می باشد، که یک محیط میکروبلاگ و یکی از شبکههای اجتماعی معروف است. این شخص که با نام کاربری “Deepfakes” در سایت “Reddit” شناخته میشود، در دسامبر سال 2017 میلادی، از فناوری یادگیری عمیق برای ویرایش چهره افراد مشهور و قرار دادن چهره آنها روی بازیگران فیلمهای غیر اخلاقی و تولید ویدیوهای جعلی استفاده کرده است.
شبکههای مولد تخاصمی:
در فناوری دیپ فیک یا همان جعل عمیق، که مبتنی بر روش یادگیری عمیق می باشد، از دسته خاصی از الگوریتم های یادگیری ماشین با نام “شبکههای مولد تخاصمی” یا (Generative Adversarial Networks) استفاده میشود که به اختصار به آن ها شبکههای “GAN” نیز گفته میشود، تا تصاویر یا ویدیو های موجود بر روی مجموعهای از تصاویر و ویدیو های منبع، ترکیب و بر هم نهاده شوند. شبکههای “GAN” در سال 2014 توسط “Ian Goodfellow” و همکارانش ابداع شد.
الگوریتم های “GAN” از دو مدل هوش مصنوعی تشکیل میشوند. در این سیستم وظیفه یکی از مدل ها تولید محتوا (تولید تصاویر افراد) و وظیفه مدل رقیب، تشخیص واقعی بودن و یا جعلی بودن عکس تولید شده است. گفتنی است در ابتدای کار مدل هوش مصنوعی رقیب قادر است به راحتی عکس جعلی را از عکس واقعی تشخیص دهد اما با گذشت زمان دقت و عملکرد مدل هوش مصنوعی تولید کننده به قدری افزایش مییابد که تشخیص جعلی بودن محتوای تولید شده برای مدل رقیب بسیار سخت مینماید. در حقیقت از آن جهت که این فناوری بر مبنای هوش مصنوعی می باشد و نیازی به دخالت مستقیم انسان ندارد، هر فردی میتواند از طریق دیپ فیک، ویدیوی جعلی و در عین حال واقعگرایانه تولید کند. یکی از شاخصه هایی که به کمک آن در ویدیو های جعل شده می توان حقیقی نبودن تصویر را تشخیص داد، انعکاسی است که در چشم فرد نمایان است، بدین صورت که با حرکت جهت سر فرد حاضر در ویدیو، انعکاس چشم هایش ثابت بوده و به صورت طبیعی با تغییر جهت سر، جا به جا نمی شود.
با در اختیار داشتن یک مجموعه آموزش (Training Set)، مدل شبکههای مولد تخاصمی یاد میگیرد تا دادههای جدیدی تولید کند که آمار برابری با آمار دادههای آموزشی داشته باشد. به عنوان نمونه، یک مدل GAN آموزش داده شده روی تصاویر دیجیتالی، قادر است تصاویر جدیدی تولید کند که به صورت سطحی، برای ناظران انسانی واقعی می نماید و بسیاری از ویژگیهای مشخصه یک تصویر دیجیتالی واقعی را از خود نشان میدهند.
شبکههای مولد تخاصمی از دو بخش تشکیل شدهاند:
- شبکههای مولد (Generative Network)
- شبکههای متمایزگر یا تمایزی(Discriminator)
وظیفه شبکههای مولد، تولید دادههای کاندید می باشد، در حالی که شبکههای متمایزگر، وظیفه ارزیابی دادههای کاندید تولید شده را بر عهده دارند. رقابت مابین این دو شبکه، بر اساس توزیع دادهها صورت میگیرد. معمولا شبکههای مولد، نگاشت دادهها از فضای نهان (Latent Space) به یک توزیع دلخواه را یاد میگیرند، در حالی که شبکههای متمایزگر، دادههای کاندید تولید شده توسط شبکههای مولد را از توزیع واقعی دادهها متمایز میکنند. هدف اصلی فاز آموزش شبکههای مولد، افزایش نرخ خطای شبکههای متمایزگر است. به عبارت دیگر، از طریق تولید دادههای کاندیدی که مدل متمایزگر قادر به تشخیص مصنوعی بودن آنها نمی باشد، شبکههای مولد سعی میکنند تا شبکههای متمایزگر را گمراه کرده و بفریبند.
از یک مجموعه داده شناخته شده (جعلی یا واقعی بودن دادههای این مجموعه مشخص شده است)، به عنوان مجموعه داده ابتدایی برای آموزش مدل متمایزگر استفاده میشود. در مرحله آموزش مدل متمایزگر، نمونههای موجود در مجموعه آموزشی وارد شبکه متمایزگر میشوند، تا آن زمان که شبکه به عملکرد و دقت مطلوب دست پیدا کند. شبکه مولد با این معیار که آیا موفق به فریب دادن شبکه متمایزگر میشود یا نه، آموزش داده میشود. همچنین، شبکه مولد معمولا توسط نمونههای تصادفی ای که از یک فضای نهان نمونهگیری شدهاند، آموزش میبیند. در مرحله بعد، دادههای کاندید تولید شده به وسیله مدل متمایزگر ارزیابی میشوند. از الگوریتم یادگیری پسانتشار در هر دو مدل استفاده میشود تا شبکه مولد بتواند تصاویر بهتری تولید کند و نیز شبکه متمایزگر نیز بتواند در متمایز کردن تصاویر واقعی از تصاویر جعلی مهارت بیشتری کسب کند. قابل ذکر است که مدل متمایزگر، به طور معمول، یک شبکه عصبی پیچشی می باشد، در حالی که برای پیادهسازی مدل مولد از شبکههای عصبی دیکانولوشن استفاده میشود.
محدودیتهای سیستمهای تولید دیپ فیک:
گرچه حاصل تولید ویدیوهای دیپ فیک ممکن است برای کاربران جذاب و مهیج باشد، اما، استفاده از فناوریهای هوش مصنوعی و یادگیری عمیق جهت تولید ویدیوهای دیپ فیک دارای محدودیتهایی نیز می باشد، از جمله:
- سیستم در صورتی قادر به تولید ویدئوهای دیپ فیک مطلوب خواهد بود که مجموعه بزرگی از تصاویر را برای آموزش در اختیار داشته باشد. برای اینکه سیستم قادر باشد تصویر یک شخص خاص را روی یک ویدیوی خاص قرار دهد، لازم است چیزی حدود 300 الی 2000 تصویر از صورت شخص در اختیار سیستم قرار داده شود تا شبکه عصبی قادر به یادگیری و بازسازی چهره آن شخص و قرار دادن آن روی ویدیوی مورد نظر باشد.
- دادههای آموزشی استفاده شده برای پیادهسازی سیستمهای دیپ فیک، باید به خوبی نمایانگر ویژگیهای ویدیوی هدف باشد. فرض کنید که قرار باشد چهره شخص x روی چهره شخص y در یک ویدیوی خاص قرار بگیرد. در چنین حالتی، تصاویر آموزشی شخص x باید در زوایا و حالات مختلف در اختیار سیستم قرار بگیرد تا سیستم بتواند به درستی ویژگیهای چهره این شخص را یاد بگیرد. به عبارت دیگر، تصاویر لازم از شخص x برای آموزش سیستم باید تقریب مناسبی از زوایا و حالات چهره شخص y باشد تا سیستم بتواند همترازی تصاویر شخص x روی ویدیوی شخص y را یاد بگیرد.
- ساختن مدلهای تولید دیپ فیک، هزینه زمانی و محاسباتی زیادی میطلبد. سیستمهای تولید دیپ فیک از ماژولهای مختلفی نظیر تشخیص چهره (Face Detection) و همترازی تصاویر تشکیل شدهاند. هر کدام از این ماژولها، قدرت محاسباتی قابل توجهی را به خود اختصاص خواهند داد. به عنوان نمونه، آموزش یک مدل یادگیری عمیق برای تولید دیپ فیک با کیفیت معمولی، چیزی حدود 72 ساعت زمان خواهد برد. برای آموزش چنین سیستمی، به قدرت محاسباتی بسیار زیادی نیاز است. از سوی دیگر، هر مدل دیپ فیک تولید شده، تنها قادر به قرار دادن تصویر یک شخص خاص روی ویدئو خواهد بود و برای قرار دادن تصویر یک شخص دیگر روی ویدیو، احتیاج به آموزش یک مدل دیگر خواهد بود. به عبارت دیگر، سیستمهای تولید دیپ فیک، مقیاسپذیری خوبی از خود نشان نمیدهند.
- منابع:
- https://en.wikipedia.org
- https://www.kdnuggets.com
- https://spectrum.ieee.org
- https://www.theguardian.com
- https://blog.faradars.org
پسورد فایل : گزارش خرابی لینک
دیدگاهتان را بنویسید
برای نوشتن دیدگاه باید وارد بشوید.