µö½ÃÅ©, ÃÖ°í 11¹è ºü¸¥ ÃÊ°í¼Ó Àå¹® ÈƷá¤Ãß·Ð ±â¼ú °ø°³

  • ¹®È­ÀϺ¸
  • ÀÔ·Â 2025-02-19 15:36
ÇÁ¸°Æ®
º»¹® ÆùÆ® Å©±â ¼³Á¤
Æ˾÷ ´Ý±â

photoŬ¸¯ÇÏ½Ã¸é ´õ Å«À̹ÌÁö¸¦ º¸½Ç ¼ö ÀÖ½À´Ï´Ù µö½ÃÅ© ³í¹® ĸó.

°íÈ¿À² »ý¼ºÇü ÀΰøÁö´É(AI) ¸ðµ¨·Î Àü ¼¼°èÀû µ¹Ç³À» ÀÏÀ¸Å² µö½ÃÅ©°¡ Àå¹®À» ºü¸£°Ô ÈÆ·ÃÇÏ°í Ãß·ÐÇÒ ¼ö ÀÖ´Â ÃֽŠ±â¼úÀ» °ø°³Çß´Ù.

19ÀÏ µö½ÃÅ©ÀÇ X°ø½Ä °èÁ¤¿¡ µû¸£¸é â¾÷ÀÚ ·®¿øÆãÀ» Æ÷ÇÔÇÑ µö½ÃÅ©ÀÇ °³¹ßÀÚ µîÀº ¡®NSA(Native Sparse Attention)¡¯¶ó°í ¸í¸íÇÑ ¸ÞÄ¿´ÏÁòÀ» ¼Ò°³ÇÑ ³í¹®À» ³í¹®ÀúÀå »çÀÌÆ®ÀÎ ¡®arXiv¡¯¿¡ °ø°³Çß´Ù.

µö½ÃÅ©´Â ÀÌ ³í¹®¿¡¼­ "Àå¹®(long-context) ¸ðµ¨¸µÀº Â÷¼¼´ë ¾ð¾î¸ðµ¨¿¡¼­ ¸Å¿ì Áß¿äÇÏÁö¸¸, Ç¥ÁØ ¾îÅÙ¼Ç(Attention) ¸ÞÄ¿´ÏÁòÀÇ ³ôÀº ¿¬»ê ºñ¿ëÀº »ó´çÇÑ µµÀüÀÌ µÈ´Ù"¸ç "¡®Èñ¼Ò(sparse) ¾îÅټǡ¯Àº ¸ðµ¨ÀÇ ¿ª·®Àº À¯ÁöÇϸ鼭µµ È¿À²¼ºÀ» °³¼±ÇÒ ¼ö ÀÖ´Ù"°í ¹àÇû´Ù.

¸ðµç ÅäÅ«(AI ¸ðµ¨¿¡¼­ 󸮵Ǵ µ¥ÀÌÅÍ ´ÜÀ§) °£ °ü°è¸¦ °è»êÇÏ´Â ±âÁ¸ÀÇ ¡®Ç®(Full) ¾îÅټǡ¯ ¸ÞÄ¿´ÏÁòÀº ½ÃÄö½º ±æÀÌ°¡ Áõ°¡ÇÒ¼ö·Ï °è»ê º¹Àâµµ°¡ ±âÇϱ޼öÀûÀ¸·Î ´Ã¾î³ª´Â ¹®Á¦°¡ ÀÖ¾î AI ¾÷°è¿¡¼­´Â ÀϺΠÅäÅ«¸¸ ¼±ÅÃÇØ °è»êÇÏ´Â ¡®Èñ¼Ò ¾îÅټǡ¯ ¿¬±¸°¡ È°¹ßÇÏ´Ù.

µö½ÃÅ©´Â "È¿À²ÀûÀÎ Àå¹® ¸ðµ¨¸µÀ» À§ÇØ ¾Ë°í¸®Áò Çõ½Å°ú Çϵå¿þ¾î ÃÖÀûÈ­¸¦ ÅëÇÕÇÑ ¡®¼±ÃµÀûÀ¸·Î ÈÆ·ÃÇÒ ¼ö ÀÖ´Â Èñ¼Ò ¾îÅÙ¼Ç(NSA)¡¯ ¸ÞÄ¿´ÏÁò¡®À» ¹ßÇ¥ÇÑ´Ù"¸ç "NSA´Â µ¿Àû °èÃþÈ­(dynamic hierarchical) Èñ¼Ò Àü·«À» äÅÃÇØ ÅäÅ« ¾ÐÃà°ú ÅäÅ« ¼±ÅÃÀ» °áÇÕÇß´Ù"°í ¼³¸íÇß´Ù.

ÃÖ±Ù AI ¸ðµ¨Àº êGPT °³¹ß»ç ¿ÀÇÂAIÀÇ ¡®o¡¯½Ã¸®Áî¿Í µö½ÃÅ©ÀÇ ¡®R1¡¯, ±¸±ÛÀÇ Á¦¹Ì´Ï 2.0 µî Ãß·Ð(reasoning) ¸ðµ¨ÀÌ ´ë¼¼·Î Àå¹® ó¸® ´É·ÂÀÌ ´õ¿í ¿ä±¸µÇ°í ÀÖ´Ù. µö½ÃÅ©°¡ °³¹ßÇÑ NSA´Â Áß¿äÇÏÁö ¾ÊÀº ÅäÅ«Àº ¼±ÃµÀûÀ¸·Î ¾ÐÃàÇÏ°í, ÇʼöÀûÀÎ ÅäÅ«¸¸ ¼±ÅÃÇØ ¿¬»ê ºñ¿ëÀ» ÁÙÀÌ°í ¼Óµµ¸¦ ³ôÀÌ´Â ¡®µ¿Àû °èÃþÈ­¡¯Èñ¼Ò Àü·«À» Àû¿ëÇß´Ù. µö½ÃÅ©´Â Ç® ¾îÅټǰú NSAÀÇ º¥Ä¡¸¶Å©(¼º´É ½ÇÇè) Å×½ºÅ© °á°ú NSAÀÇ Á¡¼ö°¡ ³ô¾ÒÀ¸¸ç 64K ½ÃÄö½º ó¸® ¼Óµµ¸¦ ºñ±³ÇÑ °á°ú µðÄÚµùÀº NSA°¡ 11.6¹è »¡¶ú°í, ¿ªÀüÆÄ(backpropagation)µµ 6¹è »¡¶ú´Ù°í ÁÖÀåÇß´Ù.

ȲÇýÁø ±âÀÚ
ȲÇýÁø
ÁÖ¿ä´º½º
±â»ç´ñ±Û
AD
count
AD
AD
AD
ADVERTISEMENT