Yapay zeka insan DNA’sına dil gibi davranıyor

Yapay zeka insan DNA’sına dil-lisans gibi davranıyor.

TU Dresden’deki bir ekip, insan DNA’sını bir dil gibi ele alan ve böylece yeni biyolojik bilgiler elde edebilen bir yapay zeka modeli geliştirdi.

Yapay zeka insan DNA'sına dil-lisans gibi davranıyor. - Yapay zeka insan DNAsina dil gibi davraniyor

Bayt çifti kodlamasını (Byte Pair Encoding,BPE) kullanan bir tokenizasyon örneği. Kelimeler, belirteç uzunluğuna göre renklendirilir ve kelimelerin sıklıklarına göre göreceli ağırlığı ile bir kelime bulutu içinde görüntülenir. Model BERT mimarisini temel alıyor.

Dresden Teknik Üniversitesi Biyoteknoloji Merkezi’ndeki (BIOTEC) araştırmacılar, Grover’ı insan genetik koduyla eğitilmiş bir Büyük Dil Modeli (Large Language Model ,LLM) geliştirmek için kullandılar. Model, DNA’da kodlanmış bilgiyi bir dil gibi ele alır ve dizilerden işlevsel bilgi elde etmek için kurallarını ve ilişkilerini öğrenir. Çalışma “Nature Machine Intelligence” dergisinde yayınlandı.

Araştırmacılar DNA’nın neden bir dil gibi ele alınamayacağını merak ettiler. Daha sonra engelleri tespit edip kaldırdılar. Grover daha sonra bir insan referans genomu kullanılarak eğitildi. Dr. BIOTEC araştırma grubunun başkanı Anna Poetsch, insan DNA’sından biyolojik anlam çıkarmayı hedefliyor.

Kıvırcık DNA’nın gramerini öğreniyor

“Grover DNA’nın kurallarını öğrendi” diye açıklıyor Dr. Melissa Sanabria, projenin baş bilim insanı. DNA kodu anlamında bu, dizi kurallarını, yani nükleotidlerin sırasını ve anlamlarını öğrenmek anlamına gelir. Sanabria şöyle açıklıyor: “GPT modellerinin insan dillerini öğrenmesine benzer şekilde, Grover da aslında DNA konuşmayı öğrendi.”

Ekibin bulgularına göre Grover, yalnızca belirli genetik bilgiler için DNA dizilerinin dizisini tahmin etmekle kalmıyor, aynı zamanda genlerin başlangıcı veya DNA üzerindeki protein bağlanma bölgeleri gibi bağlamdan biyolojik olarak alakalı bilgiler de elde edebiliyor. Grover ayrıca “epigenetik” olarak değerlendirilen süreçleri de öğreniyor.

Ekip, Grover’ı eğitmek için öncelikle GPT-3 gibi Transformer modelleri için geliştirilen bir tokenizasyon stratejisi olan bayt çifti kodlamasını (BPE) kullanarak bir DNA sözlüğü oluşturdu ve en yaygın harf kombinasyonları açısından tüm genomu inceledi. Poetsch, “DNA dile benzer. Dizileri oluşturan dört harften oluşur ve diziler anlam taşır. Ancak dilden farklı olarak sözcük kavramı yoktur” diyor. Bir genin bir proteini nasıl kodladığı onlarca yıl önce zaten çözüldü, ancak DNA’nın geri kalanının nasıl çalıştığı yalnızca temel düzeyde çözüldü.

“DNA’nın protein kodlamanın ötesinde pek çok işlevi vardır. Bazı diziler genleri düzenler, bazıları yapısal amaçlara hizmet eder, çoğu dizi aynı anda birden fazla işlevi yerine getirir. Şu anda DNA’nın çoğunun anlamını anlamıyoruz. Genlerin dışındaki alanlar için ise öyle görünüyor ki, Poetsch, “Daha sadece yüzeyini çizdik” diye açıklıyor. Buna göre protein-DNA etkileşimi ile ilgili hala birçok cevaplanmamış soru bulunmaktadır. Grover’ın bulgularının karanlığa ışık tutması amaçlanıyor.

Bu amaçla DNA yavaş yavaş tokenize edildi, yani kelime düzeyinde birimlere bölündü. Poetsch’e göre bu yaklaşım önceki girişimlerden farklıdır. “İki harfle başladık ve en yaygın çok harfli kombinasyonları oluşturmak için DNA’yı tekrar tekrar araştırdık. Bu şekilde, yaklaşık 600 döngüden fazla bir süre boyunca, DNA’yı, Kıvırcık’ın harfi en iyi tahmin etmesini sağlayacak ‘kelimelere’ böldük. sonraki sekans”, diye açıklıyor.

Canlılardan alınan DNA dizilerine doğal dil işleme (Natural Language Processing,NLP) yöntemlerinin ve biyolojik belirteçlerin uygulanması yeni değil. Ancak benzer modellerden farklı olarak Grover’ın jetonlardan oluşan insan DNA dizileriyle sınırlı olması amaçlanıyor.

Birçok dizi açıklanamıyor

Araştırmacılar, Grover’ın, DNA’nın protein kodlamasının ötesindeki çeşitli ve genellikle hala bilinmeyen işlevlerine ilişkin yeni bilgiler sağlayacağını umuyor. Ekip, “Genomun yalnızca yüzde bir ila ikisi proteinleri kodlayan gen dizilerinden oluşuyor” dedi. Ekip, genom bilimi ve kişiselleştirilmiş tıbbı ilerletmek için dil modelini kullanmak istiyor.

BIOTEC, TU Dresden’deki Moleküler ve Hücresel Biyomühendislik Merkezi’nin (CMCB) bir parçasıdır. “Moleküler biyomühendislik” alanında ileri düzey araştırmalar yürütmek için hücre biyolojisi, biyofizik ve biyoinformatik yaklaşımlarını birleştirir.


Yazıları posta kutunda oku


Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir