آشنایی با DataFrameها، یکی از پراستفادهترین ساختارهای داده در Apache Spark، میتواند به شما در انجام تحلیلهای پیشرفته روی دادههای توزیعشده کمک کند. DataFrameها به توسعهدهندگان Spark اجازه میدهند عملیات روزمرهای مثل فیلتر کردن و تجمیع را انجام دهند و در کنار آن، تحلیلهای عمیقی روی مجموعه دادههای بزرگ داشته باشند. با اضافه شدن Spark SQL، یک زبان کوئری قدرتمندتر از API داخلی DataFrame در دسترس توسعهدهندگان قرار گرفته است. دن سالیوان در این دوره به شما یاد میدهد چگونه عملیات اولیه مثل بارگذاری، فیلتر کردن، و تجمیع دادهها را در DataFrameها انجام دهید.
علاوه بر آن، تکنیکهای پیشرفتهای را که میتوان با استفاده از SQL بهراحتی اجرا کرد، آموزش میدهد. در بخشی از این آموزشها، او نحوه اتصال دادهها، حذف مقادیر تکراری، و مدیریت مقادیر null یا NA را بهتفصیل شرح میدهد. این دوره با سه مثال جامع از کاربرد DataFrameها در علم داده به پایان میرسد که شامل تحلیل اکتشافی دادهها، تحلیل سریهای زمانی، و یادگیری ماشین هستند.
اهداف یادگیری این دوره عبارتند از:
- نصب Spark و PySpark
- راهاندازی Jupyter Notebook
- بارگذاری دادهها در DataFrameها
- فیلتر کردن، تجمیع، و ذخیره دادهها
- کوئریزدن و اصلاح DataFrameها با SQL
- تحلیل اکتشافی دادهها
- یادگیری ماشین پایه