Apple เปิดตัว MGIE โมเดล AI สร้างภาพด้วยข้อความ
Apple เปิดตัว MGIE โมเดล AI สร้างภาพด้วยข้อความ ด้วยโมเดล MGIE นี้ผู้ใช้สามารถแก้ไขระดับพิกเซลได้โดยเพียงแค่ระบุข้อความแจ้ง
Apple ได้เปิดตัวโมเดล AI ใหม่อันน่าตื่นเต้นที่เรียกว่า MGIE ซึ่งช่วยให้ผู้ใช้แก้ไขภาพได้ง่ายๆ ด้วยการให้คำแนะนำด้วยภาษาที่เป็นธรรมชาติ MGIE ย่อมาจาก MLLM-Guided Image Editing ใช้ประโยชน์จากโมเดลภาษาขนาดใหญ่เพื่อตีความข้อความแจ้งและทำการเปลี่ยนแปลงระดับพิกเซลในรูปภาพ
เครื่องมือโอเพ่นซอร์สใหม่นี้แสดงถึงความก้าวหน้าครั้งสำคัญของ AI ต่อเนื่องหลายรูปแบบ และอาจปรับปรุงขั้นตอนการทำงานเชิงสร้างสรรค์ได้อย่างมาก
MGIE เป็นผลจากความร่วมมือระหว่างAppleและนักวิจัยที่ UC Santa Barbara แบบจำลองนี้ถูกนำเสนอในรายงานที่การประชุมนานาชาติว่าด้วยการนำเสนอการเรียนรู้ประจำปีนี้ ซึ่งเป็นสถานที่ชั้นนำสำหรับการจัดแสดงระบบ AI ที่ล้ำสมัย
การทดลองที่อธิบายไว้ในบทความนี้แสดงให้เห็นถึงประสิทธิภาพที่น่าประทับใจของ MGIE ในการปรับปรุงเมตริกการแก้ไขภาพและการประเมินโดยมนุษย์ ระบบยังรักษาประสิทธิภาพการคำนวณที่แข่งขันได้
MGIE ทำงานได้อย่างมหัศจรรย์อย่างไร? ประกอบด้วยโมเดลภาษาขนาดใหญ่หลายรูปแบบ (MLLM) เพื่อทำความเข้าใจคำสั่งและสร้างผลลัพธ์ที่มองเห็นได้ MLLM ได้รับการพิสูจน์แล้วว่ามีความสามารถอย่างมากในการให้เหตุผลแบบข้ามโมดัลและตอบสนองอย่างเหมาะสมต่ออินพุตข้อความและรูปภาพ
ด้วยการผสานรวม MLLM เข้ากับไปป์ไลน์การแก้ไข MGIE จึงสามารถแปลคำสั่งของผู้ใช้ให้เป็นแนวทางการแก้ไขที่กระชับและไม่คลุมเครือได้ ตัวอย่างเช่น “ทำให้ท้องฟ้าเป็นสีฟ้ามากขึ้น” จะกลายเป็น “เพิ่มความอิ่มตัวของพื้นที่ท้องฟ้า 20%”
การออกแบบที่หลากหลายของ MGIE ช่วยเสริมศักยภาพให้กับกรณีการใช้งานการแก้ไขภาพทุกประเภท สามารถรองรับการปรับแต่ง Photoshop ทั่วไป เช่น การครอบตัด การหมุน และการกรอง โมเดลยังดำเนินการจัดการวัตถุขั้นสูง การเปลี่ยนพื้นหลัง
และการผสมรูปภาพอีกด้วย MGIE ปรับแต่งภาพทั่วโลกโดยการปรับคุณสมบัติ เช่น ความสว่างและคอนทราสต์ นอกจากนี้ยังทำการแก้ไขแบบท้องถิ่นในภูมิภาคและออบเจ็กต์เฉพาะอีกด้วย ระบบสามารถปรับเปลี่ยนลักษณะการมองเห็น เช่น รูปร่าง ขนาด สี พื้นผิว และสไตล์ได้
MGIE ไม่สามารถเข้าถึงได้ผ่านแอปหรือเว็บไซต์เช่นเดียวกับ ChatGPT แต่ถ้าคุณเป็นนักพัฒนา การเริ่มต้นใช้งาน MGIE นั้นค่อนข้างตรงไปตรงมา รหัส ข้อมูล และโมเดลที่ได้รับการฝึกไว้ล่วงหน้ามีอยู่ใน repo GitHub แบบโอเพ่นซอร์ส โปรเจ็กต์นี้มีสมุดบันทึกสาธิตเพื่อแสดงให้เห็นว่า MGIE ช่วยให้สามารถแก้ไขต่างๆ ได้อย่างไร
นอกจากนี้ ผู้ใช้ยังสามารถเข้าถึงการสาธิตเว็บสดบน Hugging Face Spaces เพื่อทดลองกับโมเดลดังกล่าว MGIE ยอมรับคำแนะนำในภาษาธรรมชาติและส่งออกภาพที่แก้ไขพร้อมกับขั้นตอนการแก้ไขที่ได้รับ ผู้ใช้สามารถให้ข้อเสนอแนะเพื่อปรับปรุงผลลัพธ์ซ้ำๆ API ที่ยืดหยุ่นทำให้ MGIE ง่ายต่อการรวมเข้ากับแอปพลิเคชันอื่นๆ ที่ต้องการฟังก์ชันการจัดการรูปภาพ
MGIE แสดงให้เห็นถึงการก้าวกระโดดที่น่าตื่นเต้นสำหรับการแก้ไขภาพตามคำแนะนำ มันแสดงให้เห็นถึงศักยภาพของการใช้ MLLM เพื่อปรับปรุงการแก้ไขภาพ และเปิดโอกาสใหม่ ๆ สำหรับการโต้ตอบและการสื่อสารข้ามโมดอล
ข่าวไอที เทคโนโลยี | ข่าวไอทีวันนี้ |ข่าวไอที | SEO | thscore | รีวิว สินค้าไอที | ฟ้อนต์ | โหลดฟ้อนต์
- sponsored by พื้นที่โฆษณา -