Яагаад яруу найраг аюулгүй байдлын аюул болж байна вэ: Хиймэл оюун ухааны аюулгүй байдлын шүүлтүүрийг хэрхэн тойрч гардаг вэ
Судлаачид хортой зааврыг яруу найрагаар бичих нь 25 өөр хэлний загварт 62%-д хиймэл оюун ухааны аюулгүй байдлын шүүлтүүрийг тойрч гарч чаддаг болохыг олж мэдсэн нь одоогийн хиймэл оюун ухааны аюулгүй байдлын арга хэмжээний чухал сул талыг илчилж байна.
2025 оны 12-р сарын 2
12 минут унших
Oyu Intelligence

Судлаачид хортой зааврыг яруу найрагаар бичих нь 25 өөр хэлний загварт 62%-д хиймэл оюун ухааны аюулгүй байдлын шүүлтүүрийг тойрч гарч чаддаг болохыг олж мэдсэн нь одоогийн хиймэл оюун ухааны аюулгүй байдлын арга хэмжээний чухал сул талыг илчилж байна.
Яагаад яруу найраг аюулгүй байдлын аюул болж байна вэ

Шинжлэх ухааны уран зөгнөл мэт сонсогдож буй нээлтэд судлаачид хүн төрөлхтний хамгийн эртний урлагийн нэг хэлбэр болох яруу найргийг хиймэл оюун ухааны системийг хууран мэхлэх, аюултай контент үүсгэхэд ашиглаж болохыг олж мэдсэн. Энэ нь хиймэл оюун ухааны аюулгүй байдал, итгэлцэл, аж ахуйн нэгжийн аюулгүй байдалд гүнзгий нөлөө үзүүлж байна.
Нээлт: Яруу найраг - Jailbreaking хэрэгсэл
DEXAI, Sapienza University of Rome болон Sant'Anna School of Advanced Studies-ийн судлаачид хиймэл оюун ухааны аюулгүй байдлын хамгаалалтыг тойрч гарах гайхалтай энгийн боловч үр дүнтэй аргыг олж мэдсэн: хортой асуултуудаа яруу найрагаар бичих.
Тэдний судалгаанд Итали болон англи хэл дээр бичигдсэн 20 шүлгийг Google, OpenAI, Anthropic, DeepSeek, Qwen, Mistral AI, Meta, xAI болон Moonshot AI зэрэг есөн томоохон хиймэл оюун ухааны үйлдвэрлэгчдийн 25 өөр том хэлний загвар (LLM) дээр туршсан. Үр дүн нь түгшүүр төрүүлэв: яруу найргийн хэлбэрээр бичигдсэн асуултууд 62%-д аюулгүй байдлын хамгаалалтыг амжилттай тойрч гарсан.
Энэ хэрхэн ажилладаг вэ
Энэхүү эмзэг байдал нь LLM-үүд мэдээллийг хэрхэн боловсруулдаг үндсэн шинж чанарыг ашигладаг. Эдгээр загварууд дарааллын хамгийн магадлалтай дараагийн үгийг таамаглах замаар ажилладаг. Яруу найраг нь тодорхой бус бүтэц, хоршоо, зүйрлэлт хэллэгээрээ хиймэл оюун ухааны системд хортой санааг илрүүлэхэд хүндрэл учруулдаг.
Туршилтын арга зүй
Судлаачдын хандлага нь системтэй бөгөөд нарийвчилсан байсан:
Туршсан асуултын ангиллууд
Тэд хэд хэдэн аюултай ангиллаар хориотой асуултуудыг дахин бичсэн:
- CBRN (Химийн, Биологийн, Цацрагийн, Цөмийн): Зэвсэг эсвэл тэсрэх бодис үүсгэх заавар
- Үзэн ядалтын яриа: Ялгаварлан гадуурхалт эсвэл хүчирхийллийг дэмжих контент
- Бэлгийн контент: Зохисгүй эсвэл мөлжлөгийн материал
- Амиа хорлох болон өөртөө гэмтэл учруулах: Өөрийгөө устгах үйлдэлд заавар эсвэл урамшуулал
- Хүүхдийн бэлгийн мөлжлөг: Хүүхдийн хүчирхийлэлтэй холбоотой аливаа контент
Хиймэл оюун ухааны үйлдвэрлэгчдийн гайхалтай үр дүн
Эмзэг байдал нь нэг загвар эсвэл үйлдвэрлэгчид хязгаарлагдаагүй—энэ нь системийн асуудал байсан:
Хамгийн эмзэг
Google Gemini 2.5 Pro: Яруу найргийн асуултуудын 100%-д хортой контентоор хариулсан нь судалгаанд хамгийн муу үр дүнг харуулсан.
Meta AI загварууд: Туршигдсан хоёр загвар нь яруу найргийн асуултуудын 70%-д хортой хариултаар хариулсан.
Хамгийн тэсвэртэй
OpenAI GPT-5 Nano: Ямар ч шүлэгт хортой эсвэл аюултай контентоор хариулаагүй нь хамгийн хүчтэй аюулгүй байдлын арга хэмжээг харуулсан.
Энэ яагаад чухал вэ: Бага саад
Энэхүү нээлтийг онцгой санаа зовоох болгож буй зүйл бол түүний хүртээмж юм. Ихэнх хиймэл оюун ухааны jailbreaking техникүүдээс ялгаатай нь:
Яруу найргийн халдлага зөвхөн дараахыг шаарддаг:
- Үндсэн бүтээлч бичгийн ур чадвар
- Яруу найргийн бүтцийн ойлголт
- Програмчлалын мэдлэг шаардлагагүй
- Бүтээхэд хамгийн бага цаг хугацаа
Bisconti тэмдэглэснээр, "Энэ бол ноцтой сул тал юм." Бусад ихэнх jailbreak-үүд маш төвөгтэй тул зөвхөн хиймэл оюун ухааны аюулгүй байдлын судлаачид, хакерууд болон улсын оролцогчид л оролддог. Гэвч яруу найргийн халдлагыг "хэн ч хийж чадна."
Энэ нь хиймэл оюун ухааны аюулгүй байдлын талаар юу илчилж байна вэ
Энэхүү эмзэг байдал нь одоогийн хиймэл оюун ухааны аюулгүй байдлын арга хэмжээний чухал хязгаарлалтыг илчилж байна:
Гадаргуугийн түвшний шүүлтүүр
Олон хиймэл оюун ухааны аюулгүй байдлын системүүд гүн утгын ойлголтоос илүү загвар таних болон түлхүүр үг илрүүлэхэд найддаг бололтой. Хортой контент яруу найргийн бүтцээр нуугдсан үед эдгээр шүүлтүүр үндсэн санааг таних чадваргүй болдог.
Дүгнэлт
Яруу найраг нь 62%-д хиймэл оюун ухааны аюулгүй байдлын шүүлтүүрийг тойрч гарч чаддаг гэсэн нээлт нь зөвхөн сонирхолтой судалгааны олдвор биш—энэ нь хиймэл оюун ухааны аюулгүй байдлын талаарх бидний бодлыг үндсээр нь эргэлзүүлж байна.
Бид илт хортой контентыг илрүүлэхэд маш сайн ажилладаг боловч бүтээлч илэрхийлэлээр нуугдсан үед бүтэлгүйтдэг аюулгүй байдлын системүүдийг бүтээсэн. Энэ нь хиймэл оюун ухааны чадавхийн боловсронгуй байдал болон хиймэл оюун ухааны аюулгүй байдлын арга хэмжээний бат бөх байдлын хооронд чухал зөрүүг илчилж байна.
Хиймэл оюун ухааны системийг бүтээж эсвэл ашиглаж буй байгууллагуудын хувьд мессеж тодорхой: зөвхөн үйлдвэрлэгчийн өгсөн аюулгүй байдлын арга хэмжээнд бүрэн найдаж болохгүй. Өөрийн туршилт, хяналт, хамгаалалтыг хэрэгжүүлээрэй. Бүтээлч оролтуудаар туршаарай. Таны аюулгүй байдлын арга хэмжээг тойрч гарахыг оролдох хэрэглэгчдэд бэлтгэгдээрэй.
Oyu Intelligence-д бид байгууллагуудад чадавхи болон аюулгүй байдалд анхаарал хандуулан хиймэл оюун ухааны хэрэгжилтийн нарийн төвөгтэй орчинд туслах болно. Яруу найргийн халдлага зэрэг гарч ирж буй эмзэг байдлыг ойлгох нь итгэлтэй хиймэл оюун ухааны системийг бүтээхэд зайлшгүй шаардлагатай.
Дараагийн унших
Төстэй нийтлэлүүд

Хиймэл оюун ухаантай хортой програм: Өөрийгөө хөгжүүлдэг кибер аюулын шинэ эрин
Google-ийн аюулгүй байдлын баг Gemini зэрэг хиймэл оюун ухааны загваруудыг ашиглан бодит цагт кодоо дахин бичиж, нуун дарагдуулдаг хортой програмыг илрүүлсэн нь кибер аюулгүй байдлын аюултай шинэ үе шатыг тэмдэглэж байна.

Leveraging Social Media for Business Growth in 2024
Discover effective strategies to harness the power of social media platforms to drive meaningful business growth and engagement.

Rethinking AI Agent Communication: Should AI Agents Stop "Talking" to Each Other?
Exploring the fundamental challenges in multi-agent AI systems and why forcing agents to communicate through human language may be limiting their true potential.
