بیوانفورماتیک: پل میان داده‌های ژنومی و تصمیم بالینی

مقدمه

تصور کنید میلیون‌ها «حرف» از الفبای ژنتیکی یک بیمار (A، T، G، C) در اختیار شماست و باید از این دریای داده، تصمیمی پزشکی و دقیق بگیرید. اینجا همان نقطه‌ای است که بیوانفورماتیک وارد میدان می‌شود؛ رشته‌ای که در آن علوم کامپیوتر، آمار و زیست‌شناسی دست‌به‌دست هم می‌دهند تا داده‌های خام ژنومی را به اطلاعاتی کاربردی و قابل فهم برای پزشک تبدیل کنند.

در دو مقاله پیشین، درباره NGS و پلتفرم‌های آن صحبت کردیم و دیدیم که این فناوری چگونه می‌تواند ژنوم را با سرعت و هزینه‌ای باورنکردنی توالی‌یابی کند. اما پرسش اصلی این است: پس از توالی‌یابی چه اتفاقی می‌افتد؟ خروجی خام یک دستگاه NGS چیزی جز میلیاردها قطعه کوتاه DNA نیست؛ داده‌ای که بدون تحلیل بیوانفورماتیکی، عملاً فاقد ارزش بالینی است.

از فایل FASTQ تا پاسخ بالینی

پس از توالی‌یابی، داده‌ها در قالب فایل‌هایی به نام FASTQ ذخیره می‌شوند که حاوی توالی‌های کوتاه DNA و امتیاز کیفیت برای هر نوکلئوتید هستند. روند بیوانفورماتیکی از اینجا آغاز می‌شود:

۱. کنترل کیفیت (Quality Control)

ابزارهایی مانند FastQC بررسی می‌کنند که آیا داده‌ها از کیفیت لازم برای تحلیل برخوردارند یا خیر.

۲. ترازبندی (Alignment)

قطعات کوتاه DNA بر روی ژنوم مرجع انسانی جاگذاری می‌شوند تا مشخص شود هر قطعه به کدام بخش از ژنوم تعلق دارد.

۳. شناسایی واریانت (Variant Calling)

الگوریتم‌ها نقاطی را که ژنوم بیمار با ژنوم مرجع تفاوت دارد، شناسایی می‌کنند.

۴. تفسیر و آنوتاسیون (Annotation)

هر واریانت با پایگاه‌های داده علمی مقایسه می‌شود تا بیماری‌زا بودن یا نبودن آن مشخص گردد.

فرمت‌های کلیدی در تحلیل داده‌های NGS

در طول فرایند تحلیل بیوانفورماتیکی، داده‌ها در قالب فایل‌های مختلفی ذخیره و پردازش می‌شوند که هرکدام نقش مشخصی در زنجیره تحلیل دارند.

FASTQ

نخستین خروجی دستگاه توالی‌یابی است که شامل توالی‌های خوانده‌شده (Reads) و امتیاز کیفیت هر نوکلئوتید می‌شود. این فایل نقطه شروع تمامی تحلیل‌های بعدی محسوب می‌شود.

SAM و BAM

پس از مرحله ترازبندی، موقعیت هر خوانش روی ژنوم مرجع در فایل SAM (Sequence Alignment/Map) ثبت می‌شود. از آنجا که فایل‌های SAM حجم بسیار بالایی دارند، معمولاً نسخه فشرده و باینری آن‌ها با فرمت BAM مورد استفاده قرار می‌گیرد.

فایل‌های BAM یکی از مهم‌ترین ورودی‌های مرحله شناسایی واریانت هستند.

VCF

نتیجه نهایی مرحله شناسایی واریانت‌ها در قالب فایل VCF (Variant Call Format) ذخیره می‌شود. این فایل اطلاعات مربوط به تغییرات ژنتیکی شناسایی‌شده، از جمله نوع واریانت، موقعیت آن در ژنوم و شاخص‌های کیفیت را در خود جای می‌دهد.

در واقع، VCF پلی میان تحلیل بیوانفورماتیکی و تفسیر بالینی است؛ زیرا متخصصان ژنتیک و پزشکان بر اساس اطلاعات موجود در این فایل، واریانت‌های مرتبط با بیماری را بررسی و ارزیابی می‌کنند.

چالش یافتن واریانت‌های مهم

ژنوم هر فرد معمولاً حدود ۴ تا ۵ میلیون واریانت نسبت به ژنوم مرجع دارد که بخش عمده آن‌ها فاقد اهمیت بالینی و بی‌خطر هستند.

چالش اصلی بیوانفورماتیک، غربالگری این انبوه تغییرات برای یافتن واریانت‌های کلیدی است؛ همان‌هایی که عامل بیماری هستند یا مسیر پاسخ به درمان را تغییر می‌دهند.

واریانت‌ها به دسته‌های مشخصی تقسیم می‌شوند:

Pathogenic (بیماری‌زا)
Likely Pathogenic (احتمالاً بیماری‌زا)
VUS (واریانت با معنای نامشخص)
Likely Benign (احتمالاً خوش‌خیم)
Benign (خوش‌خیم)

در این میان، دسته VUS (Variant of Uncertain Significance) یکی از مهم‌ترین چالش‌های پزشکی دقیق محسوب می‌شود؛ زیرا اطلاعات موجود برای تفسیر قطعی این واریانت‌ها کافی نیست.

ابزارها و پایپ‌لاین‌های تحلیلی

تحلیل داده‌های NGS نیازمند یک پایپ‌لاین است؛ یعنی زنجیره‌ای از ابزارهای نرم‌افزاری که هرکدام بخشی از تحلیل را بر عهده دارند.

برخی از مهم‌ترین ابزارهای این حوزه عبارت‌اند از:

BWA و Bowtie2

برای ترازبندی توالی‌ها روی ژنوم مرجع.

GATK

استاندارد طلایی برای شناسایی واریانت که توسط مؤسسه Broad توسعه یافته است.

ClinVar و gnomAD

پایگاه‌های داده مرجع برای تفسیر بالینی واریانت‌ها و بررسی فراوانی آن‌ها در جمعیت‌های مختلف.

VarSeq و Fabric Genomics

پلتفرم‌های تجاری که بسیاری از مراحل تحلیل و تفسیر را در یک محیط یکپارچه ارائه می‌کنند.

هوش مصنوعی؛ بازوی توانمند بیوانفورماتیک

در سال‌های اخیر، مدل‌های یادگیری ماشین تحولی چشمگیر در تحلیل‌های ژنومی ایجاد کرده‌اند.

ابزارهایی مانند DeepVariant با استفاده از شبکه‌های عصبی عمیق، دقت شناسایی واریانت‌ها را به شکل قابل توجهی افزایش داده‌اند.

در حوزه تفسیر نیز، سیستم‌های هوش مصنوعی با تحلیل داده‌های ساختاری پروتئین و اطلاعات بالینی، به تفسیر و اولویت‌بندی واریانت‌های VUS کمک می‌کنند.

همچنین AlphaFold با پیش‌بینی ساختار سه‌بعدی پروتئین‌ها، درک ما از تأثیر جهش‌ها بر عملکرد پروتئین‌ها را متحول کرده است. این دانش می‌تواند در تفسیر اثرات احتمالی برخی جهش‌ها و پژوهش‌های مرتبط با پزشکی دقیق نقش مهمی ایفا کند.

چالش‌های پیشِ رو

با وجود پیشرفت‌های خیره‌کننده، بیوانفورماتیک همچنان با چالش‌های مهمی روبه‌رو است:

حجم عظیم داده

هر آزمایش Whole Genome Sequencing (WGS) ده‌ها تا صدها گیگابایت داده تولید می‌کند که ذخیره‌سازی، انتقال و پردازش آن نیازمند زیرساخت‌های محاسباتی قدرتمند است.

استاندارد نبودن پایپ‌لاین‌ها

تفاوت در ابزارها و پارامترهای مورد استفاده می‌تواند منجر به نتایج متفاوتی شود که در تصمیم‌گیری‌های بالینی تأثیرگذار هستند.

شکاف دانش

بسیاری از پزشکان با خروجی‌های بیوانفورماتیکی آشنایی کافی ندارند و در مقابل، بسیاری از متخصصان بیوانفورماتیک نیز با پیچیدگی‌های بالینی و پزشکی آشنا نیستند.

حریم خصوصی

داده‌های ژنومی از حساس‌ترین انواع اطلاعات شخصی محسوب می‌شوند و نیازمند چارچوب‌های حقوقی و امنیتی بسیار سخت‌گیرانه هستند.

نتیجه‌گیری

بیوانفورماتیک قلب تپنده پزشکی دقیق (Precision Medicine) است. بدون آن، NGS صرفاً ابزاری برای تولید داده خواهد بود؛ اما با کمک تحلیل‌های بیوانفورماتیکی، هر توالی ژنومی می‌تواند به یک تصمیم درمانی شخصی‌سازی‌شده تبدیل شود.

در چنین رویکردی، درمان نه برای «بیمار متوسط»، بلکه دقیقاً برای همان فرد و با توجه به ژنوم منحصربه‌فرد او طراحی می‌شود. به همین دلیل، بیوانفورماتیک امروز یکی از ارکان اصلی توسعه پزشکی دقیق، تشخیص زودهنگام بیماری‌ها و درمان‌های شخصی‌سازی‌شده به شمار می‌رود.

منابع

Van der Auwera GA, O'Connor BD. Genomics in the Cloud: Using Docker, GATK, and WDL in Terra. O'Reilly Media. 2020.
Poplin R, et al. A universal SNP and small-indel variant caller using deep neural networks (DeepVariant). Nature Biotechnology. 2018;36(10):983–987. doi:10.1038/nbt.4235
Landrum MJ, et al. ClinVar: improving access to variant interpretations and supporting evidence. Nucleic Acids Research. 2018;46(D1):D1062–D1067. doi:10.1093/nar/gkx1153
Mattei E, et al. Bioinformatics: From NGS Data to Biological Complexity in Variant Detection. Biomedicines. 2022;10(9):2074. doi:10.3390/biomedicines10092074
Koboldt DC, et al. The next-generation sequencing revolution and its impact on genomics. Cell. 2013;155(1):27–38. doi:10.1016/j.cell.2013.09.006

برچسب‌ها:

اشتراک‌گذاری:

← مطلب قبلی