Souborové Systémy V Linuxu

Souborovésystémyv Linuxu Red Hat LukáˇsCzerner May 16, 2016 Copyright c 2016 LukáˇsCzerner, Red Hat. Permission is granted to copy, distribute and/or modify this document under the terms of the GNU Free Documentation License, Version 1.3 or any later version published by the Free Software Foundation; with no Invariant Sections, no Front-Cover Texts, and no Back-Cover Texts. A copy of the license is included in the COPYING file. Agenda 1 Co je to souborovýsystém 2 Základn´ıpojmy 3 Rozhran´ısouborovýchsystém˚u 4 Intern´ıstruktury 5 Konzistence pˇrivýpadku 6 Pokroˇciléfunkce 7 Novétypy zaˇr´ızen´ı 8 Jak se zapojit 9 Otázky Part I Co je to souborovýsystém? Co je to souborovýsystém? Zp˚usoborganizace dat na nosnémmédiuve formˇesoubor˚ua adresáˇr˚u Snadnýpˇr´ıstup Uˇzivatelskádata snadno pˇr´ıstupnápojmenovanýchsouborech Soubory seskupenév pojmenovanýchadresáˇr´ıch Snadno pochopitelnástromovástruktura Virtualizace adresovéhoprostoru média Adresovýprostor souboru vs. logickýprostor média Prostory jednotlivýchsoubor˚ujsou na sobˇenezávislé R´ızen´ıpˇr´ıstupuˇ Právake ˇcten´ı,zápisu Kvóty pro omezen´ımnoˇzstv´ıdat Typy souborovýchsystém˚u Souborovésysémyv uˇzivatelskémprostoru pouˇzit´ımjadernéhomodulu FUSE GlusterFS, sshfs Souborovésystémyv jadernémprostoru Distribuované,s´ıˇtové,lokáln´ı Speciáln´ısouborovésystémy Pseudo souborovésystémy Utility v uˇzivatelskémprostoru Nástrojepro vytvoˇren´ısouborového systému mkfs.ext4, mkfs.xfs, ... Vytvoˇren´ısouborovéhosystémus danýmiparametry Nástrojepro kontrolu souborovéhosystému fsck.ext4, xfs repair, ... Kontrola, oprava, optimalizace Nástrojepro správusouborovéhosystému btrfs, resize2fs, tune2fs, xfs growfs, debugfs Vˇseod zmˇenyvelikosti, pˇresexport metadat aˇzk detailn´ı úpravˇeintern´ıchstruktur Part II Pojmy D˚uleˇzitéstruktury Inode - Index node Struktura reprezentuj´ıc´ıvˇsechnytypy soubor˚u- v pamˇeti i mode - typ souboru i ino - ˇc´ısloinode i nlink - poˇcetodkaz˚una inode i size - velikost inode dalˇs´ıviz. include/linux/fs.h:528 Dentry - Directory entry Struktura mapuj´ıc´ıjménosouboru na ˇc´ısloinode - v pamˇeti d parent - ukazatel rodiˇcovskou dentry d name - struktura obsahuj´ıc´ıjménozáznamu d inode - odkaz na inode - m˚uˇzebýtNULL dalˇs´ıviz. include/linux/dcache.h:108 D˚uleˇzitéstruktury - pokraˇcován´ı File Reprezentuje otevˇrenýsoubor f path - struktura reprezentuje cestu k souboru f inode - odkaz na pˇr´ısluˇsnouinode f mode - módotevˇrenéhosouboru f pos - aktuáln´ıpozice v souboru dalˇs´ıviz. include/linux/fs.h:776 Superblock Identifikuje danýsouborovýsystémna médiu- v pamˇeti s dev - ˇc´ısloidentifikuj´ıc´ızaˇr´ızen´ı s blocksize - velikost bloku s type - struktura popisuj´ıc´ıtyp souborovéhosystému s magic - magické ˇc´ısloidentifikuj´ıc´ıtyp souborovéhosystému dalˇs´ıviz. include/linux/fs.h:1821 Dalˇs´ıpojmy Blok Nejmenˇs´ıalokovatelnájednotka souborovéhosystému Stránka Pˇresundat mezi pamˇet´ıa záznamovýmmédiem Part III Rozhran´ısouborovýchsystém˚u The Linux I/O Stack Diagram version 1.0, 2012-06-20 outlines the Linux I/O stack as of Kernel version 3.3 mmap (anonymous pages) Applications (Processes) malloc ... stat(2) read(2) open(2) write(2) chmod(2) VFS block based FS Network FS pseudo FS special ext2 ext3 ext4 purpose FS direct I/O NFS coda proc sysfs Page xfs btrfs tmpfs (O_DIRECT) ifs smbfs ... pipefs futexfs ramfs Cache iso9660 gfs ocfs ... devtmpfs ... usbfs network stackable Block I/O Layer optional stackable devices on topLVM of “normal” block devices – work on bios mdraid device drbd ... mapper BIOs (Block I/O) I/O Scheduler maps bios to requests cfq deadline noop hooked in Device Drivers (hook in similar like stacked devices like request-based mdraid/device mapper do) device mapper targets /dev/fio* /dev/rssd* dm-multipath SCSI upper layer iomemory-vsl mtip32xx with module option /dev/vd* /dev/fio* /dev/sda /dev/sdb ... /dev/nvme#n# nvme sysfs (transport attributes) SCSI mid layer virtio_blk iomemory-vsl Transport Classes scsi_transport_fc scsi_transport_sas SCSI low layer scsi_transport_... libata megaraid sas aacraid qla2xxx lpfc iscsi_tcp ... ahci ata_piix ... network HDD SSD DVD LSI Adaptec Qlogic Emulex ... Fusion-io nvme Micron drive RAID RAID HBA HBA PCIe Card device PCIe Card Physical devices The Linux I/O Stack Diagram (version 1.0, 2012-06-20) http://www.thomas-krenn.com/en/oss/linux-io-stack-diagram.html Created by Werner Fischer and Georg Schönberger License: CC-BY-SA 3.0, see http://creativecommons.org/licenses/by-sa/3.0/ Rozhran´ısouborovýchsystém˚u Systémovávolán´ı Standardn´ırozhran´ıpro komunikaci s jádrem read, write, stat, open, close, unlink, fallocate, ... Input/output control - ioctl P˚uvodnˇeslouˇzilopro komunikaci s HW zaˇr´ızen´ım Dnes se zneuˇz´ıvájako "levné"rozhran´ıpro cokoliv FIFREEZE, FITRIM, EXT4 IOC RESIZE FS, XFS IOC ZERO RANGE, ... procfs, sysfs Speciáln´ısoubory vˇetˇsinouslouˇz´ıpro exportován´ıinformac´ıdo uˇzivatelskéhoprostoru /sys/fs/ext4/features/lazy itable init Nˇekdyvˇsaki pro nastaven´ıparametr˚u /sys/fs/ext4/sda1/extent max zeroout kb The Linux I/O Stack Diagram version 1.0, 2012-06-20 outlines the Linux I/O stack as of Kernel version 3.3 mmap (anonymous pages) Applications (Processes) malloc ... stat(2) read(2) open(2) write(2) chmod(2) VFS block based FS Network FS pseudo FS special ext2 ext3 ext4 purpose FS direct I/O NFS coda proc sysfs Page xfs btrfs tmpfs (O_DIRECT) ifs smbfs ... pipefs futexfs ramfs Cache iso9660 gfs ocfs ... devtmpfs ... usbfs network stackable Block I/O Layer optional stackable devices on topLVM of “normal” block devices – work on bios mdraid device drbd ... mapper BIOs (Block I/O) I/O Scheduler maps bios to requests cfq deadline noop hooked in Device Drivers (hook in similar like stacked devices like request-based mdraid/device mapper do) device mapper targets /dev/fio* /dev/rssd* dm-multipath SCSI upper layer iomemory-vsl mtip32xx with module option /dev/vd* /dev/fio* /dev/sda /dev/sdb ... /dev/nvme#n# nvme sysfs (transport attributes) SCSI mid layer virtio_blk iomemory-vsl Transport Classes scsi_transport_fc scsi_transport_sas SCSI low layer scsi_transport_... libata megaraid sas aacraid qla2xxx lpfc iscsi_tcp ... ahci ata_piix ... network HDD SSD DVD LSI Adaptec Qlogic Emulex ... Fusion-io nvme Micron drive RAID RAID HBA HBA PCIe Card device PCIe Card Physical devices The Linux I/O Stack Diagram (version 1.0, 2012-06-20) http://www.thomas-krenn.com/en/oss/linux-io-stack-diagram.html Created by Werner Fischer and Georg Schönberger License: CC-BY-SA 3.0, see http://creativecommons.org/licenses/by-sa/3.0/ VFS - Virtual File System Switch Pohled uˇzivatelskéhoprostoru Abstraktn´ıvrstva poskytuj´ıc´ıjednotnéuˇzivatelskérozhran´ı mezi uˇzivatelskými aplikacemi a r˚uznýmisouborovýmisystémy Aplikace nemus´ıvˇedˇetzda pˇristupuje k lokáln´ımu,nebo s´ıˇtovémusouborovémusystému Pohled jádra Abstraktn´ıvrstva poskytuj´ıc´ıjednotnérozhran´ımezi jádrem a souborovýmisystémy Poskytuje funkce spoleˇcnépro vˇsechnysouborovésystémy Usnadˇnujevývojnovéhosouborovéhosystému Objektovˇeorientovanýpˇr´ıstup file operations inode operations dentry operations super operations address space operations File operations struct file_operations { .... loff_t (*llseek) (struct file *, loff_t, int); ssize_t (*read) (struct file *, char __user *, size_t, loff_t *); ssize_t (*write) (struct file *, const char __user *, size_t, loff_t *); int (*mmap) (struct file *, struct vm_area_struct *); int (*open) (struct inode *, struct file *); int (*fsync) (struct file *, loff_t, loff_t, int datasync); int (*fasync) (int, struct file *, int); long (*fallocate)(struct file *file, int mode, loff_t offset, loff_t len); ... }; VFS - Virtual File System Switch Dentry cache Spravuje hashovac´ıtabulku adresáˇrovýchzáznam˚u Pˇrivytváˇren´ıcesty k inode jsou uloˇzenyvˇsechny prvky cesty Pˇrivytvoˇren´ızáznamuv dentry cache je zároveˇnvytvoˇren pˇr´ısluˇsnýzáznamv inode cache Inode cache Spravuje hashovac´ıtabulku inode Urychluje pˇr´ıstupk inode Novou, prázdnouinode naplˇnujesámsouborovýsystém The Linux I/O Stack Diagram version 1.0, 2012-06-20 outlines the Linux I/O stack as of Kernel version 3.3 mmap (anonymous pages) Applications (Processes) malloc ... stat(2) read(2) open(2) write(2) chmod(2) VFS block based FS Network FS pseudo FS special ext2 ext3 ext4 purpose FS direct I/O NFS coda proc sysfs Page xfs btrfs tmpfs (O_DIRECT) ifs smbfs ... pipefs futexfs ramfs Cache iso9660 gfs ocfs ... devtmpfs ... usbfs network stackable Block I/O Layer optional stackable devices on topLVM of “normal” block devices – work on bios mdraid device drbd ... mapper BIOs (Block I/O) I/O Scheduler maps bios to requests cfq deadline noop hooked in Device Drivers (hook in similar like stacked devices like request-based mdraid/device mapper do) device mapper targets /dev/fio* /dev/rssd* dm-multipath SCSI upper layer iomemory-vsl mtip32xx with module option /dev/vd* /dev/fio* /dev/sda /dev/sdb ... /dev/nvme#n# nvme sysfs (transport attributes) SCSI mid layer virtio_blk iomemory-vsl Transport Classes scsi_transport_fc scsi_transport_sas SCSI low layer scsi_transport_... libata megaraid sas aacraid qla2xxx lpfc iscsi_tcp ... ahci ata_piix ... network HDD SSD DVD LSI Adaptec Qlogic Emulex ... Fusion-io nvme Micron drive RAID RAID HBA HBA PCIe Card device PCIe Card Physical devices The Linux I/O Stack Diagram (version 1.0, 2012-06-20) http://www.thomas-krenn.com/en/oss/linux-io-stack-diagram.html Created by Werner Fischer and Georg Schönberger License: CC-BY-SA 3.0, see http://creativecommons.org/licenses/by-sa/3.0/ Page Cache Diskovácache - urychluje opakovanýpˇr´ıstupk dat˚umna médiu Pouˇz´ıváse pro vˇsechnypˇrenosovéoperace (kromˇeoperace pˇr´ıméhopˇr´ıstupudirect I/O) Se stránkami se opˇetpracuje pomoc´ıalgoritmu LRU Inode address space Obsahuje mimo jinéodkaz na strom stránekpˇr´ısluˇs´ıc´ıch danémusouboru address space operations pro manipulaci se stránkami readpage, writepage, invalidatepage Ulehˇcujeprácisouborovémusystému- prácese stránkami Pˇr´ıznakystránek PG dirty, PG uptodate, PG locked, PG active, ..

Souborové Systémy V Linuxu

DMFS - a Data Migration File System for Netbsd

An Incremental Path Towards a Safer OS Kernel

FS Design Around SMR Approved SNIA Tutorial © 2015 Storage Networking Industry Association

Advanced File Systems and ZFS

Ted Ts'o on Linux File Systems

Freebsd Enterprise Storage Polish BSD User Group Welcome 2020/02/11 Freebsd Enterprise Storage

Journaling File Systems

62 ABI. See Application Binary Inter

The Zettabyte File System

A BRIEF HISTORY of the BSD FAST FILE SYSTEM 9 June07login Press.Qxd:Login June 06 Volume 31 5/27/07 10:22 AM Page 10

Crash Consistency: FSCK and Journaling

OS Lecture 18