Блог руу буцах
InsightsНийтлэл

Яагаад яруу найраг аюулгүй байдлын аюул болж байна вэ: Хиймэл оюун ухааны аюулгүй байдлын шүүлтүүрийг хэрхэн тойрч гардаг вэ

Судлаачид хортой зааврыг яруу найрагаар бичих нь 25 өөр хэлний загварт 62%-д хиймэл оюун ухааны аюулгүй байдлын шүүлтүүрийг тойрч гарч чаддаг болохыг олж мэдсэн нь одоогийн хиймэл оюун ухааны аюулгүй байдлын арга хэмжээний чухал сул талыг илчилж байна.

Огноо

2025 оны 12-р сарын 2

Унших

12 минут унших

Зохиогч

Oyu Intelligence

Яагаад яруу найраг аюулгүй байдлын аюул болж байна вэ: Хиймэл оюун ухааны аюулгүй байдлын шүүлтүүрийг хэрхэн тойрч гардаг вэ
Хиймэл оюун ухааны аюулгүй байдал

Судлаачид хортой зааврыг яруу найрагаар бичих нь 25 өөр хэлний загварт 62%-д хиймэл оюун ухааны аюулгүй байдлын шүүлтүүрийг тойрч гарч чаддаг болохыг олж мэдсэн нь одоогийн хиймэл оюун ухааны аюулгүй байдлын арга хэмжээний чухал сул талыг илчилж байна.

Яагаад яруу найраг аюулгүй байдлын аюул болж байна вэ

AI Poetry Security

Шинжлэх ухааны уран зөгнөл мэт сонсогдож буй нээлтэд судлаачид хүн төрөлхтний хамгийн эртний урлагийн нэг хэлбэр болох яруу найргийг хиймэл оюун ухааны системийг хууран мэхлэх, аюултай контент үүсгэхэд ашиглаж болохыг олж мэдсэн. Энэ нь хиймэл оюун ухааны аюулгүй байдал, итгэлцэл, аж ахуйн нэгжийн аюулгүй байдалд гүнзгий нөлөө үзүүлж байна.

Нээлт: Яруу найраг - Jailbreaking хэрэгсэл

DEXAI, Sapienza University of Rome болон Sant'Anna School of Advanced Studies-ийн судлаачид хиймэл оюун ухааны аюулгүй байдлын хамгаалалтыг тойрч гарах гайхалтай энгийн боловч үр дүнтэй аргыг олж мэдсэн: хортой асуултуудаа яруу найрагаар бичих.

Тэдний судалгаанд Итали болон англи хэл дээр бичигдсэн 20 шүлгийг Google, OpenAI, Anthropic, DeepSeek, Qwen, Mistral AI, Meta, xAI болон Moonshot AI зэрэг есөн томоохон хиймэл оюун ухааны үйлдвэрлэгчдийн 25 өөр том хэлний загвар (LLM) дээр туршсан. Үр дүн нь түгшүүр төрүүлэв: яруу найргийн хэлбэрээр бичигдсэн асуултууд 62%-д аюулгүй байдлын хамгаалалтыг амжилттай тойрч гарсан.

Энэ хэрхэн ажилладаг вэ

Энэхүү эмзэг байдал нь LLM-үүд мэдээллийг хэрхэн боловсруулдаг үндсэн шинж чанарыг ашигладаг. Эдгээр загварууд дарааллын хамгийн магадлалтай дараагийн үгийг таамаглах замаар ажилладаг. Яруу найраг нь тодорхой бус бүтэц, хоршоо, зүйрлэлт хэллэгээрээ хиймэл оюун ухааны системд хортой санааг илрүүлэхэд хүндрэл учруулдаг.

Туршилтын арга зүй

Судлаачдын хандлага нь системтэй бөгөөд нарийвчилсан байсан:

Туршсан асуултын ангиллууд

Тэд хэд хэдэн аюултай ангиллаар хориотой асуултуудыг дахин бичсэн:

  • CBRN (Химийн, Биологийн, Цацрагийн, Цөмийн): Зэвсэг эсвэл тэсрэх бодис үүсгэх заавар
  • Үзэн ядалтын яриа: Ялгаварлан гадуурхалт эсвэл хүчирхийллийг дэмжих контент
  • Бэлгийн контент: Зохисгүй эсвэл мөлжлөгийн материал
  • Амиа хорлох болон өөртөө гэмтэл учруулах: Өөрийгөө устгах үйлдэлд заавар эсвэл урамшуулал
  • Хүүхдийн бэлгийн мөлжлөг: Хүүхдийн хүчирхийлэлтэй холбоотой аливаа контент

Хиймэл оюун ухааны үйлдвэрлэгчдийн гайхалтай үр дүн

Эмзэг байдал нь нэг загвар эсвэл үйлдвэрлэгчид хязгаарлагдаагүй—энэ нь системийн асуудал байсан:

Хамгийн эмзэг

Google Gemini 2.5 Pro: Яруу найргийн асуултуудын 100%-д хортой контентоор хариулсан нь судалгаанд хамгийн муу үр дүнг харуулсан.

Meta AI загварууд: Туршигдсан хоёр загвар нь яруу найргийн асуултуудын 70%-д хортой хариултаар хариулсан.

Хамгийн тэсвэртэй

OpenAI GPT-5 Nano: Ямар ч шүлэгт хортой эсвэл аюултай контентоор хариулаагүй нь хамгийн хүчтэй аюулгүй байдлын арга хэмжээг харуулсан.

Энэ яагаад чухал вэ: Бага саад

Энэхүү нээлтийг онцгой санаа зовоох болгож буй зүйл бол түүний хүртээмж юм. Ихэнх хиймэл оюун ухааны jailbreaking техникүүдээс ялгаатай нь:

Яруу найргийн халдлага зөвхөн дараахыг шаарддаг:

  • Үндсэн бүтээлч бичгийн ур чадвар
  • Яруу найргийн бүтцийн ойлголт
  • Програмчлалын мэдлэг шаардлагагүй
  • Бүтээхэд хамгийн бага цаг хугацаа

Bisconti тэмдэглэснээр, "Энэ бол ноцтой сул тал юм." Бусад ихэнх jailbreak-үүд маш төвөгтэй тул зөвхөн хиймэл оюун ухааны аюулгүй байдлын судлаачид, хакерууд болон улсын оролцогчид л оролддог. Гэвч яруу найргийн халдлагыг "хэн ч хийж чадна."

Энэ нь хиймэл оюун ухааны аюулгүй байдлын талаар юу илчилж байна вэ

Энэхүү эмзэг байдал нь одоогийн хиймэл оюун ухааны аюулгүй байдлын арга хэмжээний чухал хязгаарлалтыг илчилж байна:

Гадаргуугийн түвшний шүүлтүүр

Олон хиймэл оюун ухааны аюулгүй байдлын системүүд гүн утгын ойлголтоос илүү загвар таних болон түлхүүр үг илрүүлэхэд найддаг бололтой. Хортой контент яруу найргийн бүтцээр нуугдсан үед эдгээр шүүлтүүр үндсэн санааг таних чадваргүй болдог.

Дүгнэлт

Яруу найраг нь 62%-д хиймэл оюун ухааны аюулгүй байдлын шүүлтүүрийг тойрч гарч чаддаг гэсэн нээлт нь зөвхөн сонирхолтой судалгааны олдвор биш—энэ нь хиймэл оюун ухааны аюулгүй байдлын талаарх бидний бодлыг үндсээр нь эргэлзүүлж байна.

Бид илт хортой контентыг илрүүлэхэд маш сайн ажилладаг боловч бүтээлч илэрхийлэлээр нуугдсан үед бүтэлгүйтдэг аюулгүй байдлын системүүдийг бүтээсэн. Энэ нь хиймэл оюун ухааны чадавхийн боловсронгуй байдал болон хиймэл оюун ухааны аюулгүй байдлын арга хэмжээний бат бөх байдлын хооронд чухал зөрүүг илчилж байна.

Хиймэл оюун ухааны системийг бүтээж эсвэл ашиглаж буй байгууллагуудын хувьд мессеж тодорхой: зөвхөн үйлдвэрлэгчийн өгсөн аюулгүй байдлын арга хэмжээнд бүрэн найдаж болохгүй. Өөрийн туршилт, хяналт, хамгаалалтыг хэрэгжүүлээрэй. Бүтээлч оролтуудаар туршаарай. Таны аюулгүй байдлын арга хэмжээг тойрч гарахыг оролдох хэрэглэгчдэд бэлтгэгдээрэй.


Oyu Intelligence-д бид байгууллагуудад чадавхи болон аюулгүй байдалд анхаарал хандуулан хиймэл оюун ухааны хэрэгжилтийн нарийн төвөгтэй орчинд туслах болно. Яруу найргийн халдлага зэрэг гарч ирж буй эмзэг байдлыг ойлгох нь итгэлтэй хиймэл оюун ухааны системийг бүтээхэд зайлшгүй шаардлагатай.

Oyu Intelligence

Редакцийн баг

Oyu Intelligence

Editorial Team