AI w nauce ma wiele twarzy

Dla naukowców AI nie jest nowym tematem – jest stosowana w różnej formie od dziesięcioleci. Jednakże rosnące inwestycje, zainteresowanie i zastosowanie AI w badaniach akademickich i przemysłowych doprowadziły do rewolucji w głębokim uczeniu (deep learning), która zmienia krajobraz odkryć naukowych. 

Modele uczenia maszynowego/głębokiego (ML/DL) wykorzystywane są do przetwarzania i analizy dużych zbiorów danych, identyfikacji wzorców i budowaniu modeli przewidujących, co jest kluczowe w naukach ścisłych i analizie danych eksperymentalnych. Natomiast duże modele językowe (LLM) oferują zaawansowane możliwości przetwarzania języka naturalnego, generowania treści i wsparcia w analizie tekstów, co może znacząco usprawnić badania w dziedzinach związanych z tekstem. Przykłady obejmują przetwarzanie literatury, tworzenie streszczeń oraz generowanie treści na podstawie danych wejściowych. GenAI może wspierać tworzenie syntetycznych danych, generować raporty oraz przewidywać wyniki badań, co znacznie przyspiesza proces badawczy i zwiększa jego efektywność.

GenAI wprowadza nową dynamikę w procesy badawcze, oferując narzędzia do kontekstualnej analizy tekstu oraz wsparcie w rozwiązywaniu problemów badawczych. Dzięki zaawansowanym algorytmom, naukowcy mogą teraz korzystać z narzędzi, które nie tylko przetwarzają i analizują tekst, ale również dostarczają nowych wniosków i sugerują nowe kierunki badań.

Zastosowania GenAI (czyli dużych modeli językowych LLM) 

Dalszy rozwój aplikacji i modeli opartych na GenAI, takich jak zapowiadane Strawberry OpenAI  idzie w kierunku: 

  • Wzrostu efektywności i automatyzacji badań naukowych poprzez automatyzację rutynowych zadań i analizę dużych zbiorów danych. 
  • Ułatwienia dostępu do informacji i wiedzy na co pozwoli przetwarzanie języka naturalnego i zaawansowane wyszukiwanie informacji, czy badania przeglądowe.
  • Zwiększenia dokładności i powtarzalności wyników poprzez zastosowanie zaawansowanym algorytmom detekcji anomalii i modelom predykcyjnym, możliwe jest identyfikowanie błędów i nieścisłości w danych, co zwiększa wiarygodność wyników. Ponadto, automatyzacja analizy może zwiększyć powtarzalność badań, minimalizując wpływ ludzkich błędów i subiektywności w analizie danych.
  • Wsparcia dla interdyscyplinarnych badań dzięki możliwości integracji danych z różnych dziedzin i analizowania ich w kontekście złożonych problemów, narzędzie to może pomóc w tworzeniu modeli i rozwiązań, które łączą różne dziedziny wiedzy. Rozwój AI będzie wspierać komunikację między zespołami badawczymi, oferując wspólne platformy do wymiany wyników i wniosków.
  • Przyspieszenia odkryć naukowych poprzez automatyzację procesów badawczych i szybszą analizę danych. Pozwoli to na szybkie testowanie hipotez i generowanie nowych pomysłów na podstawie analizy danych może prowadzić do szybszego odkrywania nowych zjawisk i technologii. Dalej może to również ułatwić wprowadzanie innowacji, które mogłyby być zbyt czasochłonne lub kosztowne bez wsparcia AI.
  • Rozwiązywanie problemów związanych z danymi, takimi jak brakujące dane, dane niekompletne czy zróżnicowane źródła danych. Dzięki zaawansowanym technikom imputacji i normalizacji danych, stanie się możliwa poprawa jakości  analizowanych danych, co jest kluczowe dla uzyskania rzetelnych wyników badawczych.

Ryzyka 

Rozwój GenAI stawia przed naukowcami fundamentalne pytania dotyczące roli i misji nauki. W świecie, w którym coraz więcej zadań badawczych może być przejmowanych przez AI, kluczowe jest zastanowienie się nad tym, jakie miejsce zajmuje człowiek w tym ekosystemie. Jaką rolę mają pełnić naukowcy, gdy wiele procesów badawczych zaczyna być wspieranych lub całkowicie realizowanych przez inteligentne systemy? Odpowiedzi na te pytania będą miały wpływ na przyszłość nauki i kierunki jej rozwoju, a także na sposób, w jaki ludzka kreatywność i umiejętności będą integrowane z nowoczesnymi technologiami.

Zastosowanie nowych narzędzi i zmiana sposobu, w jaki naukowcy zaczynają prowadzić badania naukowe, powodują, że pojawiają się nowe wyzwania natury technicznej, takie jak: 

  • Problemy z reprodukowalnością, gdzie inni badacze nie mogą powtórzyć eksperymentów przeprowadzonych przy użyciu narzędzi AI. Na przykład, jeśli eksperymenty w laboratorium wykorzystują algorytmy AI do analizy danych, trudności w udostępnieniu kodu źródłowego lub danych mogą uniemożliwiać innym badaczom powtórzenie tych samych analiz.
  • LLM mogą generować treści, które są nieprecyzyjne lub nieprawdziwe, znane jako „halucynacje„. To stanowi poważne wyzwanie, ponieważ takie treści mogą wprowadzać w błąd i wpływać na jakość i integralność badań naukowych. Należy opracować mechanizmy, które pozwolą skutecznie wykrywać i korygować takie błędy, a także zapewnić, że wyniki generowane przez LLM są dokładnie sprawdzane.
  • Modele AI mogą wprowadzać lub wzmacniać uprzedzenia, które istnieją w danych treningowych. Jeśli dane używane do szkolenia modeli są stronnicze, wyniki mogą być również stronnicze. Wyniki mogą być zniekształcone przez istniejące uprzedzenia, co prowadzi do nieprawidłowych lub dyskryminujących wyników.
  • Model oparte o GenAI mogą generować wyniki, które są trudne do interpretacji bez pełnego zrozumienia działania modelu. Trudności w interpretacji wyników mogą prowadzić do błędnych wniosków lub niewłaściwych zastosowań wyników badań.

Coraz większego znaczenia nabierają również kwestie etyczne oraz dotyczące prawa własności intelektualnej

  • Wykorzystanie zaawansowanych narzędzi GenAI może budzić pytania dotyczące etyki i zasad używania, w tym kwestie związane z uczciwością badań i transparentnością. Niewłaściwe użycie narzędzi AI może prowadzić do naruszenia zasad etyki badawczej.
  • Użycie LLM w nauce wiąże się z nowymi wyzwaniami dotyczącymi odpowiedzialności. Kto jest odpowiedzialny za błędy lub wprowadzenie w błąd spowodowane przez LLM? Jakie standardy powinny być stosowane, aby zapewnić rzetelność publikacji naukowych wspomaganych przez LLM? Ważne jest, aby wypracować jasne zasady dotyczące odpowiedzialności za treści generowane przez LLM oraz zapewnić, że badania prowadzone z ich pomocą są zgodne z wysokimi standardami etycznymi i podobnie kreślić standardy i procedury zapewniające autentyczność publikacji naukowych.
  • Problemy związane z prywatnością, bezpieczeństwem danych i dostępem do wyników badań. To prowadzi nas do pytania o prywatność, własność danych i ich dostępność. Naukowcy muszą być świadomi, kto ma dostęp do danych i jak są one chronione.
  • Korzystanie z AI może komplikować kwestie związane z własnością intelektualną, zwłaszcza gdy AI generuje nowe pomysły lub wyniki. Może być trudniej określić, kto jest właścicielem wyników generowanych przez AI oraz jak chronić te wyniki.
  • Ograniczona współpraca między dziedzinami związanymi z AI i tymi, które jej nie stosują, może prowadzić do mniej rygorystycznego przyjęcia AI w różnych dziedzinach. Przykładem może być brak integracji AI z tradycyjnymi metodami badawczymi w dziedzinie biologii, co może ograniczać potencjał innowacji.
  • Koszty środowiskowe: Duże zużycie energii potrzebnej do obsługi infrastruktury obliczeniowej. Na przykład, trening zaawansowanych modeli AI, takich jak GPT-4, wymaga ogromnych zasobów obliczeniowych i energii, co przyczynia się do zwiększenia śladu węglowego.

Pojawia się również pytanie, czy wykorzystanie LLM wpływa na dostępność i demokratyzację nauki, czy może na polaryzację ośrodków naukowych na świecie. 

  • Rosną bariery dla skutecznego wdrażania zasad otwartej nauki z powodu „czarnej skrzynki” systemów AI i ograniczonej może komercyjnych modeli napędzających badania. Złożoność modeli AI mogą utrudniać pełne zrozumienie i odtworzenie wyników badawczych. Jeśli algorytmy są zbyt skomplikowane lub niedostatecznie udokumentowane, naukowcy mogą mieć trudności w reprodukcji eksperymentów, co jest kluczowe dla weryfikacji wyników.
  • Modele LLM są często nieprzejrzyste i trudne do interpretacji. Brak przejrzystości w działaniu tych modeli może utrudniać naukowcom śledzenie źródeł informacji i zrozumienie, jak modele dochodzą do swoich wniosków. Konieczne jest rozwijanie metod, które pozwolą lepiej zrozumieć procesy decyzyjne LLM oraz interpretować wyniki ich działania.
  • Używanie zaawansowanych narzędzi AI może wiązać się z dużymi kosztami związanymi z infrastrukturą obliczeniową oraz wymaganiami technicznymi. Możliwe wysokie koszty i potrzeba specjalistycznej wiedzy technicznej mogą być barierą dla niektórych badaczy i instytucji.

Można postawić tezę, że wykorzystanie LLM tworzy nowy model pracy naukowej:

  • LLM mogą wpływać na integralność procesu recenzji naukowej i publikacji, jeśli są używane do pisania raportów recenzyjnych lub tworzenia treści naukowych. Wykorzystywanie LLM w tych obszarach może prowadzić do ryzyka błędnej interpretacji lub manipulacji danymi. Konieczne jest opracowanie procedur kontrolnych, aby zminimalizować te ryzyka i zapewnić, że procesy recenzji i publikacji pozostaną rzetelne.
  • Należy rozważyć, jak LLM mogą wpłynąć na przyszłe kierunki badań i odkryć naukowych. Istnieje obawa, że nadmierne poleganie na LLM może ograniczyć innowacyjność i kreatywność w nauce. Dlatego ważne jest, aby traktować LLM jako narzędzia wspierające, a nie zastępujące ludzką kreatywność i wnikliwość w badaniach naukowych.
  • Zmniejszenie umiejętności krytycznej analizy i samodzielnego myślenia w badaniach. Naukowcy mogą zacząć polegać na narzędziach AI w sposób, który ogranicza ich zdolność do samodzielnej analizy i interpretacji danych. Może to wpłynąć nie tylko na umiejętności analityczne i krytyczne myślenie ale też uzależnienie się w pracy od tych narzędzi.
  • Zmieniające się motywacje w ekosystemie naukowym mogą zwiększać presję na badaczy, aby koncentrowali się na zaawansowanych technikach AI kosztem bardziej konwencjonalnych metod lub, aby byli „dobrzy w AI” zamiast „dobrzy w nauce”.

Wnioski i rekomendacje

LLM mają potencjał do zrewolucjonizowania sposobu przetwarzania tekstów i innych danych w różnych dziedzinach nauki. Ich zdolność do generowania i edytowania tekstów naukowych oraz odpowiadania na pytania naukowe może znacznie wspierać proces odkryć naukowych, zwiększając efektywność i przyspieszając postęp w różnych dziedzinach. Co jest ważne?

  • Współpraca w ramach społeczności naukowej oraz z ekspertami z dziedziny etyki i bezpieczeństwa AI, aby opracować najlepsze praktyki i standardy dotyczące wykorzystania LLM. Wspólne wysiłki są potrzebne, aby zidentyfikować potencjalne ryzyka i opracować mechanizmy zapewniające odpowiedzialne i etyczne korzystanie z LLM w nauce.
  • Wymagana jest większa przejrzystość w zakresie działania modeli LLM, aby umożliwić lepsze zrozumienie ich decyzji i wyników.
  • Należy skupić się na adaptacji LLM do specyficznych kontekstów i dyscyplin, aby lepiej odpowiadały na potrzeby i wymagania badawcze.
  • W miarę jak LLM stają się coraz bardziej zaawansowane, należy zwrócić szczególną uwagę na kwestie etyczne i prywatności związane z wykorzystaniem danych oraz wynikami generowanymi przez te modele.
  • Nauka wymaga odpowiedzialności za wytwarzane wiedzę. LLMs, choć mogą być użyteczne, nie powinny być traktowane jako pełnoprawni naukowcy czy autorzy. Zamiast tego, należy postrzegać je jako narzędzia wspierające badania, które powinny być używane z ostrożnością i odpowiedzialnością.
  • Konieczne jest opracowanie i wdrożenie najlepszych praktyk oraz standardów dotyczących użycia LLMs w badaniach naukowych. Współpraca z wydawcami, organizatorami konferencji i innymi interesariuszami jest kluczowa dla zapewnienia odpowiedzialnego korzystania z tej technologii.
  • Naukowcy potrzebują uważnie monitorować rozwój LLMs i dostosowywać swoje polityki oraz praktyki w konsultacji z ekspertami w dziedzinie etyki i bezpieczeństwa AI, aby zapewnić, że użycie LLMs nie podważy rygoru i powtarzalności badań naukowych
  • Ważne jest wprowadzać ekosystem edukacji naukowców by wspierać w nich rozwój kompetencji przyszłości potrzebnych do zmierzenia się ze zmianą jaka ich czeka

Bibliografia

Baldi, P., Sadowski, P. and Whiteson, D., 2014. Deep Learning in High-Energy Physics: Improving the Search for Exotic Particles. Journal of High-Energy Physics.

Baron, D., 2018. Machine Learning in Astronomy: A Practical Overview. School of Physics and Astronomy, Tel-Aviv University.

Birhane, A., Kasirzadeh, A., Leslie, D. and Wachter, S., 2023. Science in the age of large language models. Nature Reviews Physics, 5, pp.277–280.

Fecher, B., Hebing, M., Laufer, M., Pohle, J. and Sofsky, F., 2023. Science in the age of AI: How artificial intelligence is changing the nature and method of scientific research. AI & Society.

Fan, L., Li, L., Ma, Z., Lee, S., Yu, H. and Hemphill, L., 2023. A bibliometric review of large language models research from 2017 to 2023. arXiv preprint.

Jumper, J., Evans, R., Pritzel, A., Green, T., Figurnov, M., Ronneberger, O., Tunyasuvunakool, K., Bates, R., Žídek, A., Potapenko, A., Bridgland, A., Meyer, C., Kohl, S., Ballard, A., Cowie, A., Romera-Paredes, B., Nikolov, S., Jain, R., Adler, J. and Hassabis, D., 2021. Highly accurate protein structure prediction with AlphaFold. Nature, 596, pp.590-599.

Meng, X., Yan, X., Zhang, K., Liu, D., Cui, X., Yang, Y., Zhang, M., Cao, C., Wang, J., Wang, X., Gao, J., Wang, Y.-G.-S., Ji, J.-M., Qiu, Z., Li, M., Qian, C., Guo, T., Ma, S., Wang, Z. and Guo, Z., 2024. The application of large language models in medicine: A scoping review. iScience, 47(3), p.109713.

Noursalehi, P., Koutsopoulos, H.N. and Zhao, J., 2020. Machine-Learning-Augmented Analysis of Textual Data: Application in Transit Disruption Management. IEEE Open Journal of Intelligent Transportation Systems, 1, pp.227-236.

Preuss, N., Alshehri, A.S. and You, F., 2024. Large language models for life cycle assessments: Opportunities, challenges, and risks. Journal of Cleaner Production, 314, p.142824.

Semercioğlu, İ.N., Başağa, H.B., Tokdemir, O.B. and Çıtıpıtıoğlu, A., 2023. Use of large language models in civil and geomatics engineering. In: Proceedings of the 3rd International Civil Engineering and Architecture Conference (ICEARC’23). Trabzon, Türkiye.

Artykuł AI w nauce ma wiele twarzy pochodzi z serwisu DELab - Uniwersytet Warszawski.