
مقدمه
تصور کنید میلیونها «حرف» از الفبای ژنتیکی یک بیمار (A، T، G، C) در اختیار شماست و باید از این دریای داده، تصمیمی پزشکی و دقیق بگیرید. اینجا همان نقطهای است که بیوانفورماتیک وارد میدان میشود؛ رشتهای که در آن علوم کامپیوتر، آمار و زیستشناسی دستبهدست هم میدهند تا دادههای خام ژنومی را به اطلاعاتی کاربردی و قابل فهم برای پزشک تبدیل کنند.
در دو مقاله پیشین، درباره NGS و پلتفرمهای آن صحبت کردیم و دیدیم که این فناوری چگونه میتواند ژنوم را با سرعت و هزینهای باورنکردنی توالییابی کند. اما پرسش اصلی این است: پس از توالییابی چه اتفاقی میافتد؟ خروجی خام یک دستگاه NGS چیزی جز میلیاردها قطعه کوتاه DNA نیست؛ دادهای که بدون تحلیل بیوانفورماتیکی، عملاً فاقد ارزش بالینی است.
از فایل FASTQ تا پاسخ بالینی
پس از توالییابی، دادهها در قالب فایلهایی به نام FASTQ ذخیره میشوند که حاوی توالیهای کوتاه DNA و امتیاز کیفیت برای هر نوکلئوتید هستند. روند بیوانفورماتیکی از اینجا آغاز میشود:
۱. کنترل کیفیت (Quality Control)
ابزارهایی مانند FastQC بررسی میکنند که آیا دادهها از کیفیت لازم برای تحلیل برخوردارند یا خیر.
۲. ترازبندی (Alignment)
قطعات کوتاه DNA بر روی ژنوم مرجع انسانی جاگذاری میشوند تا مشخص شود هر قطعه به کدام بخش از ژنوم تعلق دارد.
۳. شناسایی واریانت (Variant Calling)
الگوریتمها نقاطی را که ژنوم بیمار با ژنوم مرجع تفاوت دارد، شناسایی میکنند.
۴. تفسیر و آنوتاسیون (Annotation)
هر واریانت با پایگاههای داده علمی مقایسه میشود تا بیماریزا بودن یا نبودن آن مشخص گردد.
فرمتهای کلیدی در تحلیل دادههای NGS
در طول فرایند تحلیل بیوانفورماتیکی، دادهها در قالب فایلهای مختلفی ذخیره و پردازش میشوند که هرکدام نقش مشخصی در زنجیره تحلیل دارند.
FASTQ
نخستین خروجی دستگاه توالییابی است که شامل توالیهای خواندهشده (Reads) و امتیاز کیفیت هر نوکلئوتید میشود. این فایل نقطه شروع تمامی تحلیلهای بعدی محسوب میشود.
SAM و BAM
پس از مرحله ترازبندی، موقعیت هر خوانش روی ژنوم مرجع در فایل SAM (Sequence Alignment/Map) ثبت میشود. از آنجا که فایلهای SAM حجم بسیار بالایی دارند، معمولاً نسخه فشرده و باینری آنها با فرمت BAM مورد استفاده قرار میگیرد.
فایلهای BAM یکی از مهمترین ورودیهای مرحله شناسایی واریانت هستند.
VCF
نتیجه نهایی مرحله شناسایی واریانتها در قالب فایل VCF (Variant Call Format) ذخیره میشود. این فایل اطلاعات مربوط به تغییرات ژنتیکی شناساییشده، از جمله نوع واریانت، موقعیت آن در ژنوم و شاخصهای کیفیت را در خود جای میدهد.
در واقع، VCF پلی میان تحلیل بیوانفورماتیکی و تفسیر بالینی است؛ زیرا متخصصان ژنتیک و پزشکان بر اساس اطلاعات موجود در این فایل، واریانتهای مرتبط با بیماری را بررسی و ارزیابی میکنند.
چالش یافتن واریانتهای مهم
ژنوم هر فرد معمولاً حدود ۴ تا ۵ میلیون واریانت نسبت به ژنوم مرجع دارد که بخش عمده آنها فاقد اهمیت بالینی و بیخطر هستند.
چالش اصلی بیوانفورماتیک، غربالگری این انبوه تغییرات برای یافتن واریانتهای کلیدی است؛ همانهایی که عامل بیماری هستند یا مسیر پاسخ به درمان را تغییر میدهند.
واریانتها به دستههای مشخصی تقسیم میشوند:
- Pathogenic (بیماریزا)
- Likely Pathogenic (احتمالاً بیماریزا)
- VUS (واریانت با معنای نامشخص)
- Likely Benign (احتمالاً خوشخیم)
- Benign (خوشخیم)
در این میان، دسته VUS (Variant of Uncertain Significance) یکی از مهمترین چالشهای پزشکی دقیق محسوب میشود؛ زیرا اطلاعات موجود برای تفسیر قطعی این واریانتها کافی نیست.
ابزارها و پایپلاینهای تحلیلی
تحلیل دادههای NGS نیازمند یک پایپلاین است؛ یعنی زنجیرهای از ابزارهای نرمافزاری که هرکدام بخشی از تحلیل را بر عهده دارند.
برخی از مهمترین ابزارهای این حوزه عبارتاند از:
BWA و Bowtie2
برای ترازبندی توالیها روی ژنوم مرجع.
GATK
استاندارد طلایی برای شناسایی واریانت که توسط مؤسسه Broad توسعه یافته است.
ClinVar و gnomAD
پایگاههای داده مرجع برای تفسیر بالینی واریانتها و بررسی فراوانی آنها در جمعیتهای مختلف.
VarSeq و Fabric Genomics
پلتفرمهای تجاری که بسیاری از مراحل تحلیل و تفسیر را در یک محیط یکپارچه ارائه میکنند.
هوش مصنوعی؛ بازوی توانمند بیوانفورماتیک
در سالهای اخیر، مدلهای یادگیری ماشین تحولی چشمگیر در تحلیلهای ژنومی ایجاد کردهاند.
ابزارهایی مانند DeepVariant با استفاده از شبکههای عصبی عمیق، دقت شناسایی واریانتها را به شکل قابل توجهی افزایش دادهاند.
در حوزه تفسیر نیز، سیستمهای هوش مصنوعی با تحلیل دادههای ساختاری پروتئین و اطلاعات بالینی، به تفسیر و اولویتبندی واریانتهای VUS کمک میکنند.
همچنین AlphaFold با پیشبینی ساختار سهبعدی پروتئینها، درک ما از تأثیر جهشها بر عملکرد پروتئینها را متحول کرده است. این دانش میتواند در تفسیر اثرات احتمالی برخی جهشها و پژوهشهای مرتبط با پزشکی دقیق نقش مهمی ایفا کند.
چالشهای پیشِ رو
با وجود پیشرفتهای خیرهکننده، بیوانفورماتیک همچنان با چالشهای مهمی روبهرو است:
حجم عظیم داده
هر آزمایش Whole Genome Sequencing (WGS) دهها تا صدها گیگابایت داده تولید میکند که ذخیرهسازی، انتقال و پردازش آن نیازمند زیرساختهای محاسباتی قدرتمند است.
استاندارد نبودن پایپلاینها
تفاوت در ابزارها و پارامترهای مورد استفاده میتواند منجر به نتایج متفاوتی شود که در تصمیمگیریهای بالینی تأثیرگذار هستند.
شکاف دانش
بسیاری از پزشکان با خروجیهای بیوانفورماتیکی آشنایی کافی ندارند و در مقابل، بسیاری از متخصصان بیوانفورماتیک نیز با پیچیدگیهای بالینی و پزشکی آشنا نیستند.
حریم خصوصی
دادههای ژنومی از حساسترین انواع اطلاعات شخصی محسوب میشوند و نیازمند چارچوبهای حقوقی و امنیتی بسیار سختگیرانه هستند.
نتیجهگیری
بیوانفورماتیک قلب تپنده پزشکی دقیق (Precision Medicine) است. بدون آن، NGS صرفاً ابزاری برای تولید داده خواهد بود؛ اما با کمک تحلیلهای بیوانفورماتیکی، هر توالی ژنومی میتواند به یک تصمیم درمانی شخصیسازیشده تبدیل شود.
در چنین رویکردی، درمان نه برای «بیمار متوسط»، بلکه دقیقاً برای همان فرد و با توجه به ژنوم منحصربهفرد او طراحی میشود. به همین دلیل، بیوانفورماتیک امروز یکی از ارکان اصلی توسعه پزشکی دقیق، تشخیص زودهنگام بیماریها و درمانهای شخصیسازیشده به شمار میرود.
منابع
Van der Auwera GA, O'Connor BD. Genomics in the Cloud: Using Docker, GATK, and WDL in Terra. O'Reilly Media. 2020.
Poplin R, et al. A universal SNP and small-indel variant caller using deep neural networks (DeepVariant). Nature Biotechnology. 2018;36(10):983–987. doi:10.1038/nbt.4235
Landrum MJ, et al. ClinVar: improving access to variant interpretations and supporting evidence. Nucleic Acids Research. 2018;46(D1):D1062–D1067. doi:10.1093/nar/gkx1153
Mattei E, et al. Bioinformatics: From NGS Data to Biological Complexity in Variant Detection. Biomedicines. 2022;10(9):2074. doi:10.3390/biomedicines10092074
Koboldt DC, et al. The next-generation sequencing revolution and its impact on genomics. Cell. 2013;155(1):27–38. doi:10.1016/j.cell.2013.09.006