资讯中心

资讯中心

资讯中心

旗思妙想|ChatGPT来了,到底带来了什么?科学家该怎么办?

2023.02.15

ChatGPT的出现,似乎颠覆了人们以往对机器人的认知,其所能回答各类问题的范围、深度和准确度都大大拓宽和加强,在2个月内用户达1亿,打破了抖音9个月破亿的记录,通过了律师、程序员、医师等考试,并且撼动了搜索公司们在搜索方法上二十多年来“躺平”的局面:微软推出了结合ChatGPT的Bing,谷歌推出了Bard测试,百度也不甘落后地说将推出“文心一言”。更让人吃惊的是斯坦福大学计算心理学教授Michal Kosinski,通过实验发现ChatGPT3.5已经有了9岁孩子的心智水平。

图片1.png

AI眼里的Chat机器人

ChatGPT的确和我们平常所用苹果的Siri、 Amazon的Alexa或百度的小度,不是一个量级,它对人们提出的多数问题都能给出有意义的回答。比如,我问它2019年发表的关于RNA二级结构预测的文章有哪些,它给出了如下几篇:

1."Fast and Accurate Prediction of RNA Secondary Structures by Deep Learning." Nature Communications 10 (2019): 3514.

2."Exploiting Multiple Sequence Information for RNA Secondary Structure Prediction." Bioinformatics 35, no. 4 (2019): 665-673.

3."RNA Secondary Structure Prediction with Convolutional Neural Networks." Nucleic Acids Research 47, no. 3 (2019): e23.

4."Evaluating the Performance of RNA Secondary Structure Prediction Methods." Journal of Biomedical Informatics 92 (2019): 103107.

虽然这其中没有发现我在2019年发表的文章,但从表面上看,回答得非常漂亮。令人惊讶的是,这些都是我没有听说过的文章。当我去查这些文献的时候,居然都是假的,页号对应着不同的文章。显然,ChatGPT是一个并没有真正理解句子意思的生成模型,从而产生了张冠李戴的文章。

我也问了ChatGPT关于AlphaFold2在高精度预测蛋白质结构成功的原因,它的回答是:

AlphaFold 2由OpenAI开发,是一种基于深度学习的蛋白质结构预测方法,在从氨基酸序列预测蛋白质的3D结构方面取得了前所未有的准确性。AlphaFold 2的成功有几个原因,包括:

1. 大规模训练数据:AlphaFold 2是在超过170000个蛋白质序列的大数据集上训练的,这使得它能够学习氨基酸序列和3D结构之间的模式和关系。

2. 深度神经网络:AlphaFold 2使用一种称为图形神经网络的深度神经网络来预测蛋白质的3D结构。该网络被设计为捕获蛋白质序列中氨基酸之间的关系及其在3D结构中的空间排列。

3. 迁移学习:AlphaFold 2利用迁移学习,这是一种深度学习技术,从一项任务中学习的知识用于提高相关任务的绩效。该网络在一组大而多样的蛋白质上进行了预训练,然后对蛋白质结构预测任务进行了微调。

4.多尺度预测:AlphaFold 2使用多个预测尺度,从预测蛋白质的整体折叠到预测每个氨基酸在3D结构中的精确位置。这使得它能够考虑蛋白质序列中不同水平的结构信息,并以高精度预测最终结构。

5.准确的评估指标:AlphaFold 2使用许多准确的指标进行评估,包括全球距离测试(GDT),该测试测量预测结构与实验结构的准确性,以及蛋白质结构预测(CASP)评估框架的关键评估。

这些因素,加上先进的计算资源和算法,促成了AlphaFold 2在蛋白质结构预测方面的成功。该方法已经在蛋白质科学领域产生了重大影响,预计将在药物设计和蛋白质工程等领域有许多应用。

这里一个明显的错误是:AlphaFold2并不是Open AI开发的。而后面提出的几个原因,前两个是似是而非、肤浅的原因,后三个明显是错误的。其实AlphaFold2真正成功的原因是利用序列、结构大数据来端到端地、在神经网路内获取多同源序列与单个结构的关系,从而避免了不准确的能量函数。所以,离ChatGPT来代替科学家写综述文章还远,但是足够忽悠一些不知道内情的外行了。

因此ChatGPT来了,来的到底是什么?对于一些基础知识,它的描述(例如关于什么是RNA二级结构)还是相当正确的。但是,涉及更深一点的知识,就经不起推敲了,可能是因为更深一点的知识比较新,训练数据没有基础知识的训练数据多,所以导致了这个问题。也就是说,ChatGPT可能会偏好数据量大的知识。这个问题也许会在更新的版本中新知识量增加之后有所改善。

ChatGPT的另一大问题是它没有提供答案的来源。据说Bing ChatGPT会提供答案的出处,这将为校验答案的准确性提供一个检查的路径。如果的确如此,Bing ChatGPT将解决上面ChatGPT所给的错误文献的问题。ChatGPT和搜索结合起来将是搜索引擎的一个大进步。

总的来说,这是一个令人激动的时代,多个搜索引擎竞争的重启必将极大程度地改变目前搜索成功率低的问题。同时,所有知识在大模型里日益改进的提取将是创新的加速器,因为隔行不再如隔山。可以想象,这些大模型有一天将会通过模仿人类的创新能力,学会怎样把它已经掌握的旧知识融会贯通,从而创造新知识。这个一旦实现,还需要我们这些科学家吗?

是,还需要的。因为这些大模型还需要我们来提出问题。模型本身没有兴趣、爱好和追求,它需要有兴趣、爱好和追求的“人”去寻找问题、发现问题及提出问题,而它可以提供可能的解决方法和思路,这些方法和思路也需要人去进一步求证,所以科学家还不会马上失业。提出问题是科研进步的关键。一个新领域的开辟往往是在一个以前没有人认为有问题的地方发现问题。提出问题比解决问题更重要,即使不能马上被解决,但它总有一天会被解决的。蛋白质结构预测问题的提出已经有60年的历史了,是一步一步来前进的。端到端AlphaFold2高精度预测蛋白质结构的最终成功是建立在精度不是那么好的端到端预测RGN和NEMO方法上的。而如果没有无碎片蛋白质结构预测方法的开发,也不会有RGN和AlphaFold1方法的诞生。开创性工作难是因为在无人区提出、发现新问题难。在下一代ChatGPT出现之前,是进一步提升批判思维、发现问题能力的时候了!

周耀旗.png

周耀旗 

资深研究员

周耀旗教授从2021年3月起全职加入了福彩3d太湖钓叟,他是1984年中国科技大学近代化学系的学士,1990年美国纽约州立石溪大学化学物理的博士,1994-2000年北卡州立大学、哈佛大学的博士后,2000年任纽约州立布法罗大学助理教授,2004年升为终身副教授,2006年成为印第安纳大学信息学院和医学院终身正教授,2013-2021年任澳大利亚格里菲斯大学糖组学研究所正教授。他长期在结构生物信息学方面工作,曾经多次在国际蛋白质结构预测和功能预测比赛中名列前茅。到目前为止共发表论文250余篇,引用1万6千多次,H因子68。目前,周耀旗课题组通过计算和实验的结合,从事蛋白质/RNA的序列、结构与功能关系方面的基础研究和生物分子检测、药物开发方面的应用研究。寻找在RNA/蛋白方面有AI计算、分子和细胞生物学实验相关经验的博士后、科研助理和助理研究员。

▷ 福彩3d太湖钓叟周耀旗资深研究员课题组招聘


编辑 | 鲍 啦

欢迎投稿、建议 | media@szbl.ac.cn