Ŭ¸¯ÇÏ½Ã¸é ´õ Å«À̹ÌÁö¸¦ º¸½Ç ¼ö ÀÖ½À´Ï´Ù µö½ÃÅ© ³í¹® ĸó.
19ÀÏ µö½ÃÅ©ÀÇ X°ø½Ä °èÁ¤¿¡ µû¸£¸é â¾÷ÀÚ ·®¿øÆãÀ» Æ÷ÇÔÇÑ µö½ÃÅ©ÀÇ °³¹ßÀÚ µîÀº ¡®NSA(Native Sparse Attention)¡¯¶ó°í ¸í¸íÇÑ ¸ÞÄ¿´ÏÁòÀ» ¼Ò°³ÇÑ ³í¹®À» ³í¹®ÀúÀå »çÀÌÆ®ÀÎ ¡®arXiv¡¯¿¡ °ø°³Çß´Ù.
µö½ÃÅ©´Â ÀÌ ³í¹®¿¡¼ "Àå¹®(long-context) ¸ðµ¨¸µÀº Â÷¼¼´ë ¾ð¾î¸ðµ¨¿¡¼ ¸Å¿ì Áß¿äÇÏÁö¸¸, Ç¥ÁØ ¾îÅÙ¼Ç(Attention) ¸ÞÄ¿´ÏÁòÀÇ ³ôÀº ¿¬»ê ºñ¿ëÀº »ó´çÇÑ µµÀüÀÌ µÈ´Ù"¸ç "¡®Èñ¼Ò(sparse) ¾îÅټǡ¯Àº ¸ðµ¨ÀÇ ¿ª·®Àº À¯ÁöÇϸ鼵µ È¿À²¼ºÀ» °³¼±ÇÒ ¼ö ÀÖ´Ù"°í ¹àÇû´Ù.
¸ðµç ÅäÅ«(AI ¸ðµ¨¿¡¼ 󸮵Ǵ µ¥ÀÌÅÍ ´ÜÀ§) °£ °ü°è¸¦ °è»êÇÏ´Â ±âÁ¸ÀÇ ¡®Ç®(Full) ¾îÅټǡ¯ ¸ÞÄ¿´ÏÁòÀº ½ÃÄö½º ±æÀÌ°¡ Áõ°¡ÇÒ¼ö·Ï °è»ê º¹Àâµµ°¡ ±âÇϱ޼öÀûÀ¸·Î ´Ã¾î³ª´Â ¹®Á¦°¡ ÀÖ¾î AI ¾÷°è¿¡¼´Â ÀϺΠÅäÅ«¸¸ ¼±ÅÃÇØ °è»êÇÏ´Â ¡®Èñ¼Ò ¾îÅټǡ¯ ¿¬±¸°¡ È°¹ßÇÏ´Ù.
µö½ÃÅ©´Â "È¿À²ÀûÀÎ Àå¹® ¸ðµ¨¸µÀ» À§ÇØ ¾Ë°í¸®Áò Çõ½Å°ú Çϵå¿þ¾î ÃÖÀûȸ¦ ÅëÇÕÇÑ ¡®¼±ÃµÀûÀ¸·Î ÈÆ·ÃÇÒ ¼ö ÀÖ´Â Èñ¼Ò ¾îÅÙ¼Ç(NSA)¡¯ ¸ÞÄ¿´ÏÁò¡®À» ¹ßÇ¥ÇÑ´Ù"¸ç "NSA´Â µ¿Àû °èÃþÈ(dynamic hierarchical) Èñ¼Ò Àü·«À» äÅÃÇØ ÅäÅ« ¾ÐÃà°ú ÅäÅ« ¼±ÅÃÀ» °áÇÕÇß´Ù"°í ¼³¸íÇß´Ù.
ÃÖ±Ù AI ¸ðµ¨Àº êGPT °³¹ß»ç ¿ÀÇÂAIÀÇ ¡®o¡¯½Ã¸®Áî¿Í µö½ÃÅ©ÀÇ ¡®R1¡¯, ±¸±ÛÀÇ Á¦¹Ì´Ï 2.0 µî Ãß·Ð(reasoning) ¸ðµ¨ÀÌ ´ë¼¼·Î Àå¹® ó¸® ´É·ÂÀÌ ´õ¿í ¿ä±¸µÇ°í ÀÖ´Ù. µö½ÃÅ©°¡ °³¹ßÇÑ NSA´Â Áß¿äÇÏÁö ¾ÊÀº ÅäÅ«Àº ¼±ÃµÀûÀ¸·Î ¾ÐÃàÇÏ°í, ÇʼöÀûÀÎ ÅäÅ«¸¸ ¼±ÅÃÇØ ¿¬»ê ºñ¿ëÀ» ÁÙÀÌ°í ¼Óµµ¸¦ ³ôÀÌ´Â ¡®µ¿Àû °èÃþÈ¡¯Èñ¼Ò Àü·«À» Àû¿ëÇß´Ù. µö½ÃÅ©´Â Ç® ¾îÅټǰú NSAÀÇ º¥Ä¡¸¶Å©(¼º´É ½ÇÇè) Å×½ºÅ© °á°ú NSAÀÇ Á¡¼ö°¡ ³ô¾ÒÀ¸¸ç 64K ½ÃÄö½º ó¸® ¼Óµµ¸¦ ºñ±³ÇÑ °á°ú µðÄÚµùÀº NSA°¡ 11.6¹è »¡¶ú°í, ¿ªÀüÆÄ(backpropagation)µµ 6¹è »¡¶ú´Ù°í ÁÖÀåÇß´Ù.
ȲÇýÁø ±âÀÚ